AI交互革命:Thinking Machines发布近实时语音视频对话模型

传统交互模式的局限与新突破
当前,无论是工作还是日常生活中,AI模型的交互模式普遍遵循“回合制”:用户输入指令后,需等待数毫秒至数小时不等,AI再输出结果。这种模式虽已普及,却难以满足需要自然交互的任务需求——若要让AI真正承担复杂工作,它必须更流畅地响应人类输入,甚至在处理当前指令时同步接收下一轮信息。这一挑战,或许正是AI初创公司Thinking Machines的破局方向。
这家由前OpenAI首席技术官Mira Murati与前研究员John Schulman等人去年创立的高融资企业,近日发布了“互动模型”的研究预览。该公司将这类模型定义为“原生多模态系统”,将交互性视为架构核心而非外部工具,通过优化实现了显著的性能提升与延迟降低。不过,该模型目前仅向研究社区开放预览,企业版需等待后续发布。
“全双工”架构:让AI实现实时同步交互
Thinking Machines的核心创新在于重构了AI对“时间”与“存在”的认知。传统前沿模型以单线程处理信息,必须等待用户输入完毕才开始响应,其感知在生成答案时完全冻结。该公司研究人员指出,这种局限迫使人类“迁就”AI界面,例如将问题整理成邮件格式或批量发送指令。
为打破“协作瓶颈”,Thinking Machines摒弃了传统的交替令牌序列,转而采用多流微回合设计:以200毫秒为周期,同步处理输入与输出。这种“全双工”架构使模型能实时“听、说、看”——例如在用户讲话时进行回应,或在检测到视觉线索(如代码片段中的错误、视频中出现的新人物)时主动插话。技术上,该系统采用编码器免融合方案,直接通过轻量嵌入层处理原始音频信号(dMel格式)和图像块(40×40),并在Transformer框架内端到端训练所有组件,无需依赖独立的庞大编码器(如Whisper)。
双模型协同:兼顾实时响应与深度推理
研究预览中,公司推出了TML-Interaction-Small——一款拥有2760亿参数的专家混合(MoE)模型,其中活跃参数为120亿。由于实时交互需要极低延迟,而深度推理往往耗时,团队设计了一套双模型系统:
- 交互模型:持续与用户对话,负责对话管理、状态感知及即时回应。
- 背景模型:异步运行,处理长期推理、网页浏览或复杂工具调用,并将结果流式传输给交互模型,无缝融入对话。
这种设计让AI得以同时执行多任务,例如在生成UI图表时继续倾听用户反馈——在演示视频中,模型在生成柱状图的同时,以人类反应速度响应各类提示。
性能碾压:基准测试中的显著优势
为验证有效性,团队使用FD-bench(专注于交互质量而非纯智能的基准测试)。TML-Interaction-Small的表现远超现有实时系统:
- 响应速度:回合延迟仅0.40秒,优于Gemini-3.1-flash-live的0.57秒及GPT-realtime-2.0 minimal的1.18秒。
- 交互质量:在FD-bench V1.5中得分77.8,几乎是竞品(GPT-realtime-2.0 minimal为46.8)的两倍。
- 视觉主动性:在RepCount-A(视频重复计数)和ProactiveVideoQA(视觉证据驱动的问答)等专项测试中,模型能主动与视觉世界互动,而其他前沿模型或沉默或给出错误答案。
企业应用潜力:重塑AI工作流
若未来向企业开放,这类互动模型或将彻底改变业务流程。传统企业AI需等待“回合”完成才能分析数据,而原生交互模型可在制造业或实验室场景中实时监控视频流,一旦检测到安全违规或流程偏差,立即介入——无需等待工人主动请求反馈。其在视觉测试中的成功,也暗示其可作为高精度任务的实时审计工具。
语音客服的“1-2秒处理延迟”是当前痛点,而该模型的0.40秒延迟已接近人类对话速度。由于能原生处理同步语音,企业客服机器人可在倾听用户不满时,通过“嗯”“我懂”等反馈保持互动,同时提供自然流畅的实时翻译,让对话更接近人类交流。
关注微信号:智享开源 ,可及时获取信息
评论列表
发表评论
为你推荐
关注微信
主站最新信息

近期评论
- 发表在《Avride自动驾驶事故频发 Uber合作伙伴遭NHTSA调查》
- 发表在《今天我终于找到了加快网站速度的办法》
- 发表在《如何成为超级个体?》
- 发表在《像ChatGPT一样记笔记》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

还没有任何评论,你来说两句吧!