OpenAI推出新语音智能功能,API支持实时对话、翻译与转写

OpenAI于周四宣布,其API将新增多项语音智能功能,旨在帮助开发者创建能与用户对话、转写和翻译对话的应用。

公司的新模型GPT-Realtime-2是一款语音模型,用于生成逼真的语音模拟,可与用户对话。不过,与上一代(GPT-Realtime-1.5)不同,该模型基于GPT-5级推理构建,OpenAI称其专为处理用户更复杂的请求而设计。

此外,OpenAI还推出了GPT-Realtime-Translate,顾名思义,该功能提供实时翻译服务,能“跟上”用户的对话节奏。该功能支持超过70种输入语言(可理解的语言)和13种输出语言(转达给说话者的语言)。

最后,公司还发布了新的转写功能GPT-Realtime-Whisper,可为用户提供实时语音转文字能力,捕捉互动过程中的语音内容。

“我们推出的这些模型,将实时音频从简单的问答模式推向真正能‘干活’的语音界面:在对话展开时,实现倾听、推理、翻译、转写并采取行动。”公司表示。

这些更新适合哪些对象?希望扩展客户服务能力的企业是明确的目标。不过,OpenAI也指出,新功能将助力教育、媒体、活动、创作者平台等多个领域。

从企业角度看,这些工具似乎很有用,但也可能被滥用。公司表示已设置防护措施,防止新功能被用于生成垃圾信息、欺诈或其他形式的网络滥用。系统内嵌了特定触发器,若检测到“对话违反有害内容准则”,将停止对话。

原文链接:https://techcrunch.com/2026/05/07/openai-launches-new-voice-intelligence-features-in-its-api/


关注微信号:智享开源 ,可及时获取信息

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章548篇


关注微信

分类