AI替代专家:企业忽视的评估危机

要让AI在知识工作中持续提升能力,要么拥有可靠的自主改进机制,要么依赖能识别错误、提供高质量反馈的人类评估者。当前行业对前者投入巨大,却对后者的变化几乎毫无关注。
科技巨头的新毕业生招聘自2019年以来下降了50%。文档审阅、初步研究、数据清洗、代码审查等工作如今由模型完成。经济学家将此现象称为“替代”,企业则称之为“效率提升”。但两者都未关注未来的潜在问题。
知识工作中自主改进的局限
有人可能会反驳,强化学习(RL)是解决方案。AlphaZero通过自我对弈学会了围棋、国际象棋和将棋,达到超人类水平,并生成了 novel 策略。2016年与李世石的比赛中,第37步——职业选手称“绝不会走”的棋——并非来自人类标注,而是AI自我博弈的结果。
这背后的关键在于环境的稳定性。第37步是围棋固定状态空间内的 novel 走法,规则完整、明确且永久。更重要的是,奖励信号完美:输赢分明,且立即反馈,无需解释。系统总能判断一步是否正确,因为游戏最终有明确结果。
但知识工作不具备这些属性。任何专业领域的规则都是动态的,由从业者不断改写。新法律出台、新金融工具发明,2022年有效的法律策略可能在司法管辖区变更后失效。医学诊断是否正确可能需要数年才能验证。没有稳定环境和明确奖励信号,无法形成闭环。评估链中必须有人类参与,持续教导模型。
专家培养的断层
当前构建的AI系统 trained on 过去专家的经验,而这些专家正是通过入门岗位培养的。现在的问题是,入门岗位被自动化,导致下一代潜在专家无法积累成为合格评估者所需的判断力。
历史上,知识消亡的例子并不少:罗马混凝土、哥特式建造技术、数学传统等。但以往的原因都是外部因素:瘟疫、征服、机构崩溃。而这次不同,无需外部力量,领域可能因无数个个体理性的经济决策而萎缩——每个决策在孤立看来都合理,却导致整体衰退。这是新机制,我们尚未习惯在过程中识别。
领域萎缩的逻辑极限
从逻辑上看,这不仅是人才管道问题,更是对专业知识本身的需求崩溃。
以高级数学为例,其萎缩不是因为停止培养数学家,而是组织不再需要日常工作的数学家,成为数学家的经济激励消失,能进行前沿数学推理的人口减少,领域生成 novel 洞察的能力悄然崩溃。代码领域同理。我们的问题不是“AI会写代码吗”,而是“如果AI写所有生产代码,谁来培养产生真正 novel 系统设计的深层架构直觉?”
自动化与理解存在关键差异。我们可以自动化大量结构工程,但某些方法为何有效的抽象知识,存在于那些曾多年犯错的人的头脑中。如果消除实践,不仅失去实践者,更失去识别损失的能力。
高级数学、理论计算机科学、深度法律推理、复杂系统架构:当最后一个深刻理解代数子领域的人退休,且无人接替(因资金枯竭、职业路径消失),这些知识短期内难以重新发现。
它们消失了。没人注意到,因为基于其工作训练的模型在未来十年仍能在基准测试中表现良好。我称之为“空心化”:表面能力(模型仍能生成看似专业的输出)保留,而验证、扩展或纠正该专业知识的人类能力悄然消失。
评分标准的局限性
当前的主流方法是评分标准评估,如宪法AI、AI反馈的强化学习(RLAIF)、结构化标准让模型评分模型。这些技术显著减少了人类评估者的依赖,但并非万能。
其局限在于:评分标准只能捕捉制定者知道要衡量的内容。若模型过度优化评分标准,会变得非常擅长满足标准,但这不等于模型真正正确。
评分标准能扩展判断的显性、可表述部分,但更深层的直觉、对“某事有问题的感觉”,无法纳入评分标准。因为需要先经历,才知道要写什么。
实践中的启示
这并非反对AI发展。能力提升是真实的,未来或许会有方法关闭评估闭环,如合成数据管道足够好,或模型发展出可靠的自我修正机制。但我们目前没有这些。
同时,我们正拆除填补当前差距的人类基础设施,不是刻意为之,而是无数理性决策的副产品。负责任的过渡不是假设问题会自行解决,而是将评估差距视为与能力提升同样紧迫的开放研究问题。
AI最需要人类的是它最不被重视的部分。无论这是永久还是暂时的,忽视其代价是巨大的。
关注微信号:智享开源 ,可及时获取信息
关注微信

还没有任何评论,你来说两句吧!