OpenAI 發佈三款新一代即時語音模型:GPT-Realtime-2(推理能力媲美 GPT-5,上下文視窗擴至 128K tokens)、GPT-Realtime-Translate(即時翻譯)及 GPT-Realtime-Whisper(轉錄)。德國電信已測試客服應用,功能將整合至 ChatGPT,語音將成主要互動介面。
對你而言,AI 工具生產力屬強興趣範疇。新模型提升語音助理的推理與多工具並行調用能力,意味著未來可透過語音更高效地管理日程、查詢港股報價或信用卡優惠。例如,可直接用粵語問「今日恒指點?有冇信用卡簽賬獎賞?」模型能理解上下文並調用相關工具。此外,若本地部署語音模型(如透過 llama.cpp),新技術或影響未來開源語音模型發展。
後續可關注 OpenAI 何時將新模型整合至 ChatGPT 及 API 定價。若 API 成本下降,或催生更多本地 AI 語音應用(如香港銀行語音客服、地產代理自動回覆)。風險在於即時語音處理對硬件要求高,本地部署需較高算力(如 RTX 4090 或 M4 Max),且隱私問題需留意。