OpenAI推出新语音智能功能，API支持实时对话、翻译与转写

Mark Do 暂无评论阅读 6 次

OpenAI于周四宣布，其API将新增多项语音智能功能，旨在帮助开发者创建能与用户对话、转写和翻译对话的应用。

公司的新模型GPT-Realtime-2是一款语音模型，用于生成逼真的语音模拟，可与用户对话。不过，与上一代（GPT-Realtime-1.5）不同，该模型基于GPT-5级推理构建，OpenAI称其专为处理用户更复杂的请求而设计。

此外，OpenAI还推出了GPT-Realtime-Translate，顾名思义，该功能提供实时翻译服务，能“跟上”用户的对话节奏。该功能支持超过70种输入语言（可理解的语言）和13种输出语言（转达给说话者的语言）。

最后，公司还发布了新的转写功能GPT-Realtime-Whisper，可为用户提供实时语音转文字能力，捕捉互动过程中的语音内容。

“我们推出的这些模型，将实时音频从简单的问答模式推向真正能‘干活’的语音界面：在对话展开时，实现倾听、推理、翻译、转写并采取行动。”公司表示。

这些更新适合哪些对象？希望扩展客户服务能力的企业是明确的目标。不过，OpenAI也指出，新功能将助力教育、媒体、活动、创作者平台等多个领域。

从企业角度看，这些工具似乎很有用，但也可能被滥用。公司表示已设置防护措施，防止新功能被用于生成垃圾信息、欺诈或其他形式的网络滥用。系统内嵌了特定触发器，若检测到“对话违反有害内容准则”，将停止对话。

关注微信号：智享开源 ，可及时获取信息

0 0

Mark Do Ta的个人站点

Mark Do发布文章548篇

关注微信