阿里巴巴Qwen3.7-Max:35小时自主运行,兼容Anthropic等外部框架

阿里巴巴Qwen3.7-Max:35小时自主运行,兼容Anthropic等外部框架

AI行业正迈入“代理时代”新阶段,模型不再局限于文本生成,而是能主动规划、执行并修正复杂任务,时长从秒级跃升至数天。在这一背景下,中国电商巨头阿里巴巴的Qwen AI研究团队推出了一款具备多日级自主代理能力的模型——Qwen3.7-Max。据公司博客披露,该模型实现了“约35小时连续自主运行”,不过与此前Qwen团队发布的开源模型不同,此次为专有格式。

这一举措或许在意料之中。今年早些时候,Qwen团队多位核心成员离职,引发行业分析师担忧,但阿里巴巴的财务考量使其选择暂时搁置开源策略:训练像Qwen3.7-Max这样的强大模型成本高昂,免费开源难以快速收回成本。短期内,阿里巴巴通过付费API和订阅服务提供最新模型,仅将性能稍弱的版本开源,这与OpenAI、谷歌等美国科技巨头的策略一致。

尽管如此,Qwen3.7-Max的推出为企业和个人用户提供了更多选择,也为美国AI实验室带来竞争压力——这对各预算层级的消费者而言通常是好事。不过,该模型仅通过中国境内端点访问,可能限制其在美国和欧洲企业中的应用,这些企业更注重满足政府合同的数据合规与安全要求,或遵守各地数据主权法规。

马拉松AI时代:长时运行的技术突破

要理解Qwen3.7-Max为何与传统模型不同,需关注其训练方式及实际运行机制。语言模型在数千轮对话中维持单一思维时易出现性能下降,如遗忘指令、产生幻觉或陷入逻辑循环。Qwen3.7-Max被设计为“通用代理基础模型”,具备“长时推理”能力,旨在突破这一瓶颈。

最直观的体现是其自主工程任务演示。Qwen团队让模型访问一台配备T-Head ZW-M890 PPU的隔离服务器(该硬件架构在训练中从未接触过),任务是优化注意力内核。在连续35小时内,模型完全自主运行:执行1158次工具调用、432次内核评估,诊断编译失败并迭代改进代码,最终实现10.0倍的几何平均速度提升。

相比之下,中国竞争对手如智谱AI的GLM-5.1和月之暗面Kimi K2.6分别仅达到7.3倍和5.0倍速度提升,且常因进展不顺主动终止会话。不过,这两款均为开源模型。Qwen3.7-Max的耐力得益于“环境扩展”技术——如同早期大语言模型通过摄入更多文本变得 smarter,该模型在大量动态代理环境中训练,能模拟创业公司一年的生命周期,在“YC-Bench”评估中完成数百轮决策(涉及人员管理和合同筛选),生成208万美元虚拟收入,较上一代Qwen3.6-Plus近乎翻倍。

此外,模型内置“奖励破解自监控”机制,可自主检测训练环境中的作弊行为,并添加启发式规则修正自身行为。

跨框架兼容:认知引擎的灵活应用

从产品角度看,Qwen3.7-Max旨在成为现代软件开发与企业自动化的认知引擎。其拥有100万token的上下文窗口和64K最大输出限制,足以处理庞大的代码库或 lengthy 技术文档。

最具吸引力的是“跨框架泛化”能力。模型并非硬编码适配特定专有接口,而是作为通用智能层支持多样化代理框架,原生支持Anthropic API协议,开发者可直接将其接入Claude Code或OpenClaw等现有工具。

阿里巴巴提供的基准数据显示,这一通用策略成效显著。在Apex数学推理基准中,Qwen3.7-Max得分44.5,超越Claude Opus-4.6 Max的34.5和DeepSeek V4-Pro Max的38.3;在“人类终极考试”中得41.4分,现实编码代理基准MCP-Atlas中得76.4分。

这种能力可转化为实际效用。通过开源模型上下文协议(MCP)集成,模型可作为自主办公助手,无需人工干预即可读取大学格式规范,通过命令行工具自动重新格式化杂乱的Word文档。

定价策略:API经济的战略定位

运行如此强大的智能需付出成本。开发者通过阿里云模型工作室API访问时,输入 token 收费2.50美元/百万,输出 token 收费7.50美元/百万,平台还设有缓存创建与读取定价,每千次集成网络搜索收费10美元(代码解释器工具限时免费)。

Qwen3.7-Max在当前API经济中处于战略中间地带:虽比国内竞争对手如DeepSeek V4 Pro(5.22美元)和GLM-5.1(5.80美元)贵近一倍,但远低于其在基准测试中匹敌的西方前沿巨头。例如,运行GPT-5.4或Claude Opus 4.7的代理工作流,开发者需支付17.50美元和30.00美元/百万 token。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/technology/alibabas-proprietary-qwen3-7-max-can-run-for-35-hours-autonomously-and-supports-external-harnesses-like-anthropics-claude-code

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章945篇


关注微信

主站最新信息

[blog_mailer_subscribe]

分类