新研究提出“训练-测试”缩放定律：如何优化AI算力预算 | 菜鸟博客

当前位置：首页
» 科技 » 新研究提出“训练-测试”缩放定律：如何优化AI算力预算

新研究提出“训练-测试”缩放定律：如何优化AI算力预算

Mark Do 暂无评论阅读 16 次

目前构建大语言模型（LLM）的行业标准通常只关注训练成本，而忽略了推理成本。这在现实应用中存在局限，因为实际场景常需要通过多次推理采样来提高回答准确率。为解决这一矛盾，威斯康星大学麦迪逊分校和斯坦福大学的研究人员提出了“训练-测试”（Train-to-Test，简称T²）缩放定律，旨在联合优化模型的参数量、训练数据量以及测试时的推理样本数量。

核心观点：更小的模型 + 更多的数据

实践证明，为了实现计算最优，应当在比传统规则多得多的数据上训练更小的模型，然后将节省下来的计算资源用于在推理阶段生成多个重复样本。对于训练自有模型的企业而言，这提供了最大化投资回报的蓝图。这意味着实现高质量的AI推理不一定需要依赖昂贵的前沿大模型，使用过度训练的小模型也能在复杂任务上表现出色，同时有效控制成本。

打破现有的缩放法则

传统的预训练缩放定律（如Chinchilla法则）和测试时缩放定律一直是分开制定的。Chinchilla法则建议每20个训练标记对应1个模型参数，被视为行业黄金标准。然而，Llama、Gemma等现代模型家族经常打破这一规则，通过在海量数据上“过度训练”小模型来获得优势。

过去缺乏一个严谨的框架来计算模型应如何过度训练以匹配部署时的推理需求。T²缩放定律填补了这一空白，它将模型大小、训练数据量和推理样本数视为一个整体方程，从而找到算力分配的最优解。

对开发者的实际意义

研究人员通过测试100多个语言模型验证了T²定律。结果显示，在考虑测试时采样成本的情况下，经过高度过度训练的小模型在所有评估任务中均优于符合Chinchilla法则的大模型。

这一发现特别适用于编程等需要大量推理采样的应用，而非单纯的知识类对话。开发者采用此方案的技术门槛较低，例如可以通过KV缓存等技术提高采样效率。尽管过度训练可能会增加微调难度，并面临优质数据枯竭的物理限制，但在合理范围内，它是构建复杂推理应用最有效的策略。

未来的影响

研究团队计划很快开源其检查点和代码，使企业能够立即测试这种缩放行为。T²缩放定律在AI领域起到了平衡作用，它改变了构建强推理模型的规则：开发者不再需要巨额的算力预算，只需优质的数据和对训练及推理预算的智能分配，即可获得最先进的推理能力。

原文链接：https://venturebeat.com/orchestration/train-to-test-scaling-explained-how-to-optimize-your-end-to-end-ai-compute-budget-for-inference

关注微信号：智享开源 | 关注微博：IMCN开源资讯网 ，可及时获取信息

0 0

评论列表

还没有任何评论，你来说两句吧！

发表评论

为你推荐

AI投入真的值吗？企业如何将技术热潮转化为实际价值

Salesforce推出“无头360”战略：推倒界面，让AI代理直接接管平台

NanoClaw 联手 Vercel 推出 AI 代理审批系统，覆盖 15 款主流通讯应用

Anthropic推出AI设计工具Claude Design：文字指令即可生成交互原型

调查：多数企业无法防御第三代 AI 智能体威胁

假期玩RPG游戏再合适不过了

AI狂热：我们正走向何方？

AI投入真的值吗？企业如何将技术热潮转化为实际价值

AI投入真的值吗？企业如何将技术热潮转化为实际价值

Salesforce推出“无头360”战略：推倒界面，让AI代理直接接管平台

Salesforce推出“无头360”战略：推倒界面，让AI代理直接接管平台

NanoClaw 联手 Vercel 推出 AI 代理审批系统，覆盖 15 款主流通讯应用

NanoClaw 联手 Vercel 推出 AI 代理审批系统，覆盖 15 款主流通讯应用

Anthropic推出AI设计工具Claude Design：文字指令即可生成交互原型

Anthropic推出AI设计工具Claude Design：文字指令即可生成交互原型

调查：多数企业无法防御第三代 AI 智能体威胁

调查：多数企业无法防御第三代 AI 智能体威胁

假期玩RPG游戏再合适不过了

假期玩RPG游戏再合适不过了

Mark Do Ta的个人站点

Mark Do发布文章179篇

关注微信

近期文章

标签

近期评论

mb 发表在《如何成为超级个体？》
mb 发表在《像ChatGPT一样记笔记》
mb 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》
mb 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》
mb 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

分类

热门文章

Python Pandas DataFrame append 方法报错原因及解决方法 6,219 人阅

pandas 将多列数据字符串拼接在一起 4,406 人阅

pandas 筛选列数据中包含某个字符串的数据？ 3,398 人阅

要凤凰涅槃须经历一番心灵的洗涤 2,985 人阅

python 如何将电子表格按照某一列相同数据分到一个一个工作表中 2,508 人阅