OpenAI推出新语音智能功能,API支持实时对话、翻译与转写
OpenAI于周四宣布,其API将新增多项语音智能功能,旨在帮助开发者创建能与用户对话、转写和翻译对话的应用。
公司的新模型GPT-Realtime-2是一款语音模型,用于生成逼真的语音模拟,可与用户对话。不过,与上一代(GPT-Realtime-1.5)不同,该模型基于GPT-5级推理构建,OpenAI称其专为处理用户更复杂的请求而设计。

此外,OpenAI还推出了GPT-Realtime-Translate,顾名思义,该功能提供实时翻译服务,能“跟上”用户的对话节奏。该功能支持超过70种输入语言(可理解的语言)和13种输出语言(转达给说话者的语言)。
最后,公司还发布了新的转写功能GPT-Realtime-Whisper,可为用户提供实时语音转文字能力,捕捉互动过程中的语音内容。
“我们推出的这些模型,将实时音频从简单的问答模式推向真正能‘干活’的语音界面:在对话展开时,实现倾听、推理、翻译、转写并采取行动。”公司表示。
这些更新适合哪些对象?希望扩展客户服务能力的企业是明确的目标。不过,OpenAI也指出,新功能将助力教育、媒体、活动、创作者平台等多个领域。
从企业角度看,这些工具似乎很有用,但也可能被滥用。公司表示已设置防护措施,防止新功能被用于生成垃圾信息、欺诈或其他形式的网络滥用。系统内嵌了特定触发器,若检测到“对话违反有害内容准则”,将停止对话。
原文链接:https://techcrunch.com/2026/05/07/openai-launches-new-voice-intelligence-features-in-its-api/
关注微信号:智享开源 ,可及时获取信息
评论列表
发表评论
为你推荐
关注微信

近期评论
- 发表在《今天我终于找到了加快网站速度的办法》
- 发表在《如何成为超级个体?》
- 发表在《像ChatGPT一样记笔记》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

还没有任何评论,你来说两句吧!