AI智商测试引发争议:用人类IQ标尺衡量前沿AI,科技界看法两极分化

从人类智商测试到AI智商评估:一个创新性项目的诞生
数十年来,智商测试一直是衡量人类智力的最熟悉也最具争议的标尺之一。如今,一个名为AI IQ的创业项目正将这一概念应用到人工智能领域,为全球超过50个最强大的语言模型分配预估的智商分数,并将它们绘制在标准的钟形曲线上。
这一项目在aiiq.org网站上呈现的互动可视化图表在过去一周内迅速在社交媒体上传播开来,引发了科技界的激烈讨论。企业技术专家们称赞这些图表让原本极其复杂的市场变得易于理解,而研究人员和评论员则警告整个框架具有误导性。
“这非常有用,”科技评论员Thibaut Mélen在X平台上写道,”当模型进展以这种方式映射时,比看另一个巨大的排行榜表格更容易理解。”
商业战略师Brian Vellmure也表达了类似的支持:”这很有帮助,与个人经验相符。”
然而,批评声浪随即而至。人工智能评论账号AI Deeply发文称:”这是无稽之谈。AI过于参差不齐,地图不等于领土。”这反映了许多研究人员的担忧:将语言模型复杂多变的能力简化为单一数字会制造出危险的精确性假象。
十二项基准测试、四个维度与一个有争议的数字:AI IQ的实际运作机制
AI IQ由Ryan Shea创建,这位工程师、创业者和天使投资人最为人熟知的是区块链平台Stacks的联合创始人。Shea还联合创立了Voterbase,并投资了包括OpenSea、Lattice、Anchorage和Mercury在内的几家独角兽公司早期项目。他拥有普林斯顿大学机械工程学士学位。
该网站的方法论基于一个看似简单的公式。AI IQ将12项基准测试分为四个推理维度:抽象推理、数学推理、程序推理和学术推理。综合智商是这四个维度得分的直接平均值:IQ = ¼ (IQ_抽象 + IQ_数学 + IQ_程序 + IQ_学术)。
抽象推理维度采用ARC-AGI-1和ARC-AGI-2,这两个以难度著称的模式识别基准测试旨在检验一般流体智力。数学推理包括FrontierMath(第1-3级和第4级)、AIME和ProofBench。程序推理使用Terminal-Bench 2.0、SWE-Bench Verified和SciCode。学术推理则取自Humanity’s Last Exam、CritPt和GPQA Diamond。
每个原始基准测试分数通过网站所称的”手动校准的难度曲线”映射为隐含智商。关键的是,该方法对被认为更容易或更容易受数据污染影响的基准测试设置了上限,防止分数超过100。更难、更难被游戏化的基准测试则保留更高的上限。该系统还保守地处理缺失数据:模型需要在至少两个维度上获得分数才能获得推导出的智商,当基准测试缺失时,管道会故意降低分数而非提高分数。网站声明:”每个推导出的智商都平均了所有四个维度,因此缺失的覆盖范围不会通过省略使模型看起来更好。”
OpenAI领跑钟形曲线,但顶尖AI模型之间的差距从未如此之小
截至2026年5月中旬,AI IQ图表讲述了一个在前沿领域迅速收敛的故事——以及下层梯队日益扩大的多样性。
根据”前沿智商随时间变化”图表,OpenAI的GPT-5.5目前位于钟形曲线的峰值,预估智商接近136,是所有追踪模型中的最高分。紧随其后的是GPT-5.4(约131)、Anthropic的Opus 4.7(约132)和Opus 4.6(约129)。谷歌的Gemini 3.1 Pro得分接近131,使顶级集群异常紧密。
这种压缩现象并非AI IQ框架所独有。Visual Capitalist引用TrackingAI基于门萨智商的独立排名最近也观察到同样的动态,指出”最大的收获是排行榜顶端变得多么紧凑”。在该量表上,Grok-4.20专家模式和GPT 5.4 Pro并列145分,Gemini 3.1 Pro为141分。
在前沿集群之下,AI IQ图表显示中场竞争激烈。中国实验室的模型——Kimi K2.6、GLM-5、DeepSeek-V3.2、Qwen3.6和MiniMax-M2.7——聚集在约112至118分之间,使得不需要绝对最佳模型完成每项任务的企业买家面临日益激烈的价格性能比竞争。一位X用户ovsky指出,这些数据”证实了Sonnet 4.6作为绝对工作马的体验,而非Opus 4.5″,这表明图表可以验证从业者直觉,而这些直觉往往被头条排名所忽视。
为什么情商评分正在成为AI模型排名的新战场
使AI IQ与其他基准测试工作区分开来的是其包含了”EQ”——情商——评分。该网站将每个模型的EQ-Bench 3 Elo分数和Arena Elo分数映射到预估的EQ,使用校准的分段线性尺度,然后取两者的50/50加权组合。
EQ分数产生了与单独IQ不同的排名。在IQ与EQ散点图上,Anthropic的Opus 4.7在EQ上领先,分数接近132,将其推入右上象限——最理想的位置,标志着高认知和高情商。OpenAI的GPT-5.5和GPT-5.4聚集在高IQ区域,但在EQ上略逊一筹。谷歌的Gemini 3.1 Pro在两个轴上都处于强劲的中间位置。
一个值得关注的方法论选择引起了关注:EQ-Bench 3由Claude(Anthropic的模型)进行评判,网站承认这
关注微信号:智享开源 ,可及时获取信息
关注微信

还没有任何评论,你来说两句吧!