OpenAI API新增语音智能功能,支持实时对话与多语种翻译

OpenAI API新增语音智能功能,支持实时对话与多语种翻译

OpenAI推出API语音智能新功能,赋能开发者打造智能语音应用

三大核心功能解析

OpenAI于周四宣布,其API将新增一系列语音智能功能,帮助开发者构建能与用户对话、转录及翻译交流的智能应用。其中,全新推出的GPT-Realtime-2语音模型旨在生成逼真的语音模拟效果,支持与用户进行自然对话。与上一代GPT-Realtime-1.5相比,该模型基于GPT-5级推理能力构建,可处理用户更复杂的请求,提升交互深度。

同时推出的GPT-Realtime-Translate功能专注于实时翻译服务,能“跟上”用户对话节奏。该功能支持超过70种输入语言(可识别的语言)和13种输出语言(转译后的语言),满足跨语言交流需求。

此外,GPT-Realtime-Whisper作为实时转录功能,可捕捉对话过程中的语音并实时转换为文本,为用户提供即时文字记录。

应用场景广泛,覆盖多领域

这些新功能的应用场景十分广泛。企业可通过其扩展客户服务能力,提升用户体验;教育、媒体、活动及创作者平台等也能从中受益,例如实现多语种教学、实时字幕生成或跨语言内容创作。

安全防护机制,防范滥用风险

尽管功能强大,OpenAI也关注潜在滥用问题。公司表示已内置防护措施,防止新功能被用于生成垃圾信息、欺诈或其他网络滥用行为。系统内嵌特定触发机制,一旦检测到违反有害内容准则的对话,将立即中断交流,确保使用安全。

所有新语音模型均集成于OpenAI的Realtime API中。其中,翻译和Whisper功能按分钟计费,GPT-Realtime-2则按令牌消耗计费。


关注微信号:智享开源 ,可及时获取信息

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章557篇


关注微信

分类