Perceptron Mk1:视频分析AI性能惊艳,成本仅为竞品一成

能够“看见”并理解视频内容的AI,对众多企业和组织而言,无疑具备巨大的吸引力。除了担任场所和设施的“安全哨兵”,这类AI模型还可用于从营销视频中剪辑出精彩片段用于社交媒体、识别视频中的不一致或失误并标记删除,以及在受控研究或求职者面试中分析参与者的肢体语言和动作。
尽管当前已有部分AI模型提供此类功能,但远未普及。然而,成立两年的Perceptron Inc.正试图改变这一现状。今日,该公司宣布推出其旗舰专有视频分析推理模型Mk1(“Mark One”的缩写),其定价——通过API每百万输入令牌0.15美元/每百万输出令牌1.50美元——比Anthropic的Claude Sonnet 4.5、OpenAI的GPT-5和Google的Gemini 3.1 Pro等主要专有竞争对手低80-90%。
由前Meta FAIR和微软高管Armen Aghajanyan担任联合创始人兼CEO,公司耗时16个月从零开始开发了一种“多模态配方”,以应对物理世界的复杂性。
此次发布标志着模型理解因果关系、物体动态和物理定律的新时代,其流畅程度如同过去对语法的应用。
感兴趣的用户和潜在企业客户可通过Perceptron的公共演示网站自行体验。
空间与视频基准测试中的表现
该模型的表现得到了一系列专注于基础理解的行业标准基准测试的支持。
在空间推理(ER Benchmarks)中,Mk1在EmbSpatialBench上获得85.1分,超过Google的Robotics-ER 1.5(78.4)和阿里巴巴的Q3.5-27B(约84.5)。
在专门的RefSpatialBench中,Mk1的72.4分相比GPT-5m(9.0)和Sonnet 4.5(2.2)实现了巨大飞跃,突显了其在指代表达理解方面的显著优势。
视频基准测试同样表现突出;在EgoSchema“Hard Subset”上——此处首尾帧推理不足——Mk1得分41.4,与阿里巴巴的Q3.5-27B持平,并显著击败Gemini 3.1 Flash-Lite(25.0)。
在VSI-Bench上,Mk1达到88.5,是所比较模型中的最高分,进一步验证了其处理实际时间推理任务的能力。
市场定位与效率前沿
Perceptron明确瞄准“效率前沿”,该指标将视频和具身推理基准测试的平均分数与每百万令牌混合成本进行对比。
基准测试数据显示,Mk1占据独特位置:其性能匹配或超过“前沿”模型如GPT-5和Gemini 3.1 Pro,同时保持接近“轻量”或“快速”版本的定价。
具体而言,Perceptron Mk1定价为每百万输入令牌0.15美元和每百万输出令牌1.50美元。相比之下,“效率前沿”图表显示GPT-5成本显著更高(接近2.00美元),Gemini 3.1 Pro约为3.00美元,而Mk1以0.30美元的混合成本占据优势,且推理分数更优。
这种激进的定价策略旨在使高端物理AI适用于大规模工业用途,而不仅是实验性研究。
架构与时间连续性
Mk1的技术核心在于能够以高达2帧/秒(FPS)的速率处理原生视频,并支持长达32K令牌的上下文窗口。
与常将视频视为不连续静态图像序列的传统视觉语言模型(VLMs)不同,Mk1专为时间连续性设计。
这种架构使模型能够“观看”长流并保持物体身份,即使在遮挡情况下,这对机器人技术和监控应用至关重要。
开发者可查询长流中的特定时刻,并获得结构化时间码作为回报,简化视频剪辑和事件检测流程。
基于物理定律的推理
Mk1的主要差异化能力是“物理推理”。Perceptron将其定义为高精度空间感知,使模型能够理解现实世界中的物体动态和物理交互。
例如,模型可分析场景以判断篮球投篮是在蜂鸣器响起前还是后,通过联合推理球在空中的位置和投篮时钟的读数。
这需要的不仅是模式识别,而是对物体在时空中的运动方式的理解。
该模型能够在密集复杂场景中实现“像素级”指向和计数至数百个。它还能读取模拟仪表和时钟,这些历来对纯数字视觉系统而言难以可靠解释。
它似乎还具备强大的通用世界和历史知识。在简短测试中,我上传了一段来自美国国会图书馆的1906年纽约摩天大楼建造的公共领域旧电影,Mk1不仅正确描述了内容——包括工人被绳子悬挂等不寻常景象——还迅速完成,甚至仅凭画面外观就正确识别了大致日期(20世纪初)。
物理AI开发者平台
模型发布伴随扩展的开发商平台,旨在以最小编码将高级感知能力转化为功能应用。
通过Python可用的Perceptron SDK引入了多个专用功能,如“Focus”、“Counting”和“In-Context Learning”。
Focus功能允许用户根据自然语言提示自动缩放和裁剪特定帧区域,例如在建筑工地上检测和定位个人防护装备(PPE)。Counting功能针对密集场景优化,如识别和指向一组小狗或单个农产品。
此外,平台支持上下文学习,允许开发者通过提供几个示例来适应Mk1执行特定任务,例如展示苹果图像并指示模型在新场景中标记所有Category 1实例。
许可策略与Isaac系列
Perceptron采用双轨策略管理其模型权重和许可。旗舰Mk1是闭源模型,通过API访问,专为企业级性能和安全设计。
然而,公司也保留其“Isaac”系列,该系列始于2025年9月推出的Isaac 0.1,作为开放权重的替代方案。Isaac 0.2-2b-preview于2025年12月发布,是一款具有推理能力的20亿参数视觉语言模型,适用于边缘和低延迟部署。
Isaac模型的权重在
关注微信号:智享开源 ,可及时获取信息
评论列表
发表评论
为你推荐
关注微信
主站最新信息

近期评论
- 发表在《Avride自动驾驶事故频发 Uber合作伙伴遭NHTSA调查》
- 发表在《今天我终于找到了加快网站速度的办法》
- 发表在《如何成为超级个体?》
- 发表在《像ChatGPT一样记笔记》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

还没有任何评论,你来说两句吧!