新研究提出“训练-测试”缩放定律:如何优化AI算力预算

目前构建大语言模型(LLM)的行业标准通常只关注训练成本,而忽略了推理成本。这在现实应用中存在局限,因为实际场景常需要通过多次推理采样来提高回答准确率。为解决这一矛盾,威斯康星大学麦迪逊分校和斯坦福大学的研究人员提出了“训练-测试”(Train-to-Test,简称T²)缩放定律,旨在联合优化模型的参数量、训练数据量以及测试时的推理样本数量。

核心观点:更小的模型 + 更多的数据

实践证明,为了实现计算最优,应当在比传统规则多得多的数据上训练更小的模型,然后将节省下来的计算资源用于在推理阶段生成多个重复样本。对于训练自有模型的企业而言,这提供了最大化投资回报的蓝图。这意味着实现高质量的AI推理不一定需要依赖昂贵的前沿大模型,使用过度训练的小模型也能在复杂任务上表现出色,同时有效控制成本。

打破现有的缩放法则

传统的预训练缩放定律(如Chinchilla法则)和测试时缩放定律一直是分开制定的。Chinchilla法则建议每20个训练标记对应1个模型参数,被视为行业黄金标准。然而,Llama、Gemma等现代模型家族经常打破这一规则,通过在海量数据上“过度训练”小模型来获得优势。

过去缺乏一个严谨的框架来计算模型应如何过度训练以匹配部署时的推理需求。T²缩放定律填补了这一空白,它将模型大小、训练数据量和推理样本数视为一个整体方程,从而找到算力分配的最优解。

对开发者的实际意义

研究人员通过测试100多个语言模型验证了T²定律。结果显示,在考虑测试时采样成本的情况下,经过高度过度训练的小模型在所有评估任务中均优于符合Chinchilla法则的大模型。

这一发现特别适用于编程等需要大量推理采样的应用,而非单纯的知识类对话。开发者采用此方案的技术门槛较低,例如可以通过KV缓存等技术提高采样效率。尽管过度训练可能会增加微调难度,并面临优质数据枯竭的物理限制,但在合理范围内,它是构建复杂推理应用最有效的策略。

未来的影响

研究团队计划很快开源其检查点和代码,使企业能够立即测试这种缩放行为。T²缩放定律在AI领域起到了平衡作用,它改变了构建强推理模型的规则:开发者不再需要巨额的算力预算,只需优质的数据和对训练及推理预算的智能分配,即可获得最先进的推理能力。

原文链接:https://venturebeat.com/orchestration/train-to-test-scaling-explained-how-to-optimize-your-end-to-end-ai-compute-budget-for-inference


关注微信号:智享开源 | 关注微博:IMCN开源资讯网 ,可及时获取信息

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章179篇


关注微信

分类