AI交互革命：Thinking Machines发布近实时语音视频对话模型

当前位置：首页
» 科技 » AI交互革命：Thinking Machines发布近实时语音视频对话模型

AI交互革命：Thinking Machines发布近实时语音视频对话模型

传统交互模式的局限与新突破

当前，无论是工作还是日常生活中，AI模型的交互模式普遍遵循“回合制”：用户输入指令后，需等待数毫秒至数小时不等，AI再输出结果。这种模式虽已普及，却难以满足需要自然交互的任务需求——若要让AI真正承担复杂工作，它必须更流畅地响应人类输入，甚至在处理当前指令时同步接收下一轮信息。这一挑战，或许正是AI初创公司Thinking Machines的破局方向。

这家由前OpenAI首席技术官Mira Murati与前研究员John Schulman等人去年创立的高融资企业，近日发布了“互动模型”的研究预览。该公司将这类模型定义为“原生多模态系统”，将交互性视为架构核心而非外部工具，通过优化实现了显著的性能提升与延迟降低。不过，该模型目前仅向研究社区开放预览，企业版需等待后续发布。

“全双工”架构：让AI实现实时同步交互

Thinking Machines的核心创新在于重构了AI对“时间”与“存在”的认知。传统前沿模型以单线程处理信息，必须等待用户输入完毕才开始响应，其感知在生成答案时完全冻结。该公司研究人员指出，这种局限迫使人类“迁就”AI界面，例如将问题整理成邮件格式或批量发送指令。

为打破“协作瓶颈”，Thinking Machines摒弃了传统的交替令牌序列，转而采用多流微回合设计：以200毫秒为周期，同步处理输入与输出。这种“全双工”架构使模型能实时“听、说、看”——例如在用户讲话时进行回应，或在检测到视觉线索（如代码片段中的错误、视频中出现的新人物）时主动插话。技术上，该系统采用编码器免融合方案，直接通过轻量嵌入层处理原始音频信号（dMel格式）和图像块（40×40），并在Transformer框架内端到端训练所有组件，无需依赖独立的庞大编码器（如Whisper）。

双模型协同：兼顾实时响应与深度推理

研究预览中，公司推出了TML-Interaction-Small——一款拥有2760亿参数的专家混合（MoE）模型，其中活跃参数为120亿。由于实时交互需要极低延迟，而深度推理往往耗时，团队设计了一套双模型系统：

交互模型：持续与用户对话，负责对话管理、状态感知及即时回应。
背景模型：异步运行，处理长期推理、网页浏览或复杂工具调用，并将结果流式传输给交互模型，无缝融入对话。

这种设计让AI得以同时执行多任务，例如在生成UI图表时继续倾听用户反馈——在演示视频中，模型在生成柱状图的同时，以人类反应速度响应各类提示。

性能碾压：基准测试中的显著优势

为验证有效性，团队使用FD-bench（专注于交互质量而非纯智能的基准测试）。TML-Interaction-Small的表现远超现有实时系统：

响应速度：回合延迟仅0.40秒，优于Gemini-3.1-flash-live的0.57秒及GPT-realtime-2.0 minimal的1.18秒。
交互质量：在FD-bench V1.5中得分77.8，几乎是竞品（GPT-realtime-2.0 minimal为46.8）的两倍。
视觉主动性：在RepCount-A（视频重复计数）和ProactiveVideoQA（视觉证据驱动的问答）等专项测试中，模型能主动与视觉世界互动，而其他前沿模型或沉默或给出错误答案。