AI交互革命:Thinking Machines发布近实时语音视频对话模型

传统交互模式的局限与新突破

当前,无论是工作还是日常生活中,AI模型的交互模式普遍遵循“回合制”:用户输入指令后,需等待数毫秒至数小时不等,AI再输出结果。这种模式虽已普及,却难以满足需要自然交互的任务需求——若要让AI真正承担复杂工作,它必须更流畅地响应人类输入,甚至在处理当前指令时同步接收下一轮信息。这一挑战,或许正是AI初创公司Thinking Machines的破局方向。

这家由前OpenAI首席技术官Mira Murati与前研究员John Schulman等人去年创立的高融资企业,近日发布了“互动模型”的研究预览。该公司将这类模型定义为“原生多模态系统”,将交互性视为架构核心而非外部工具,通过优化实现了显著的性能提升与延迟降低。不过,该模型目前仅向研究社区开放预览,企业版需等待后续发布。

“全双工”架构:让AI实现实时同步交互

Thinking Machines的核心创新在于重构了AI对“时间”与“存在”的认知。传统前沿模型以单线程处理信息,必须等待用户输入完毕才开始响应,其感知在生成答案时完全冻结。该公司研究人员指出,这种局限迫使人类“迁就”AI界面,例如将问题整理成邮件格式或批量发送指令。

为打破“协作瓶颈”,Thinking Machines摒弃了传统的交替令牌序列,转而采用多流微回合设计:以200毫秒为周期,同步处理输入与输出。这种“全双工”架构使模型能实时“听、说、看”——例如在用户讲话时进行回应,或在检测到视觉线索(如代码片段中的错误、视频中出现的新人物)时主动插话。技术上,该系统采用编码器免融合方案,直接通过轻量嵌入层处理原始音频信号(dMel格式)和图像块(40×40),并在Transformer框架内端到端训练所有组件,无需依赖独立的庞大编码器(如Whisper)。

双模型协同:兼顾实时响应与深度推理

研究预览中,公司推出了TML-Interaction-Small——一款拥有2760亿参数的专家混合(MoE)模型,其中活跃参数为120亿。由于实时交互需要极低延迟,而深度推理往往耗时,团队设计了一套双模型系统:

  • 交互模型:持续与用户对话,负责对话管理、状态感知及即时回应。
  • 背景模型:异步运行,处理长期推理、网页浏览或复杂工具调用,并将结果流式传输给交互模型,无缝融入对话。

这种设计让AI得以同时执行多任务,例如在生成UI图表时继续倾听用户反馈——在演示视频中,模型在生成柱状图的同时,以人类反应速度响应各类提示。

性能碾压:基准测试中的显著优势

为验证有效性,团队使用FD-bench(专注于交互质量而非纯智能的基准测试)。TML-Interaction-Small的表现远超现有实时系统:

  • 响应速度:回合延迟仅0.40秒,优于Gemini-3.1-flash-live的0.57秒及GPT-realtime-2.0 minimal的1.18秒。
  • 交互质量:在FD-bench V1.5中得分77.8,几乎是竞品(GPT-realtime-2.0 minimal为46.8)的两倍。
  • 视觉主动性:在RepCount-A(视频重复计数)和ProactiveVideoQA(视觉证据驱动的问答)等专项测试中,模型能主动与视觉世界互动,而其他前沿模型或沉默或给出错误答案。

企业应用潜力:重塑AI工作流

若未来向企业开放,这类互动模型或将彻底改变业务流程。传统企业AI需等待“回合”完成才能分析数据,而原生交互模型可在制造业或实验室场景中实时监控视频流,一旦检测到安全违规或流程偏差,立即介入——无需等待工人主动请求反馈。其在视觉测试中的成功,也暗示其可作为高精度任务的实时审计工具。

语音客服的“1-2秒处理延迟”是当前痛点,而该模型的0.40秒延迟已接近人类对话速度。由于能原生处理同步语音,企业客服机器人可在倾听用户不满时,通过“嗯”“我懂”等反馈保持互动,同时提供自然流畅的实时翻译,让对话更接近人类交流。


关注微信号:智享开源 ,可及时获取信息

原文链接:https://venturebeat.com/technology/thinking-machines-shows-off-preview-of-near-realtime-ai-voice-and-video-conversation-with-new-interaction-models

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章642篇


关注微信

主站最新信息

分类