无需ML团队：企业通过生产工作流训练定制AI模型 | 智享开源

当前位置：首页
» 科技 » 无需ML团队：企业通过生产工作流训练定制AI模型

无需ML团队：企业通过生产工作流训练定制AI模型

Mark Do 暂无评论阅读 12 次

被忽视的生产数据：AI训练的隐藏宝藏

企业AI应用处理的每一次查询、领域专家对输出的每一次修正，都是珍贵的训练数据。然而，多数组织并未捕获这些交互信息。实际上，企业已有的生产工作流正在持续产生优化AI模型的信号，但这些信号却在无形中流失。

Alchemy Models：让生产工作流成为AI训练引擎

总部位于旧金山的Empromptu AI于近日推出Alchemy Models，其核心逻辑简单而直接：企业正在构建的AI应用本身就在生成训练数据，但这些数据大多被浪费。该平台能自动捕获这些信号，将领域专家验证后的输出回传至微调管道，持续提升模型性能。企业完全拥有最终模型权重。

Alchemy在技术定位上既不同于RAG（检索增强生成，仅通过外部上下文辅助推理而不修改模型权重），也区别于传统微调（需独立准备标注数据集并依赖专属ML团队）。它实现了后者的持续优化能力，同时以企业应用自身作为数据源，无需额外数据准备环节。

采用基础模型API的企业面临三大痛点：推理成本随使用量增长、无法拥有模型所有权、难以针对特定领域任务定制行为。Empromptu CEO Shanea Leven指出，这些约束普遍存在却鲜被解决。

“每个客户都在问我：如何避免被颠覆？如何保护业务？但他们找不到路径。”Leven在接受VentureBeat独家采访时表示。

从运行应用到模型训练：Alchemy的双阶段机制

传统定制模型训练需企业单独收集、清洗和标注数据，Alchemy则另辟蹊径：由企业应用自身生成并清洗训练数据。

这一机制通过Empromptu的Golden Data Pipelines基础设施实现，分为两个阶段。应用构建前，企业数据经过清洗、提取和丰富，确保应用从结构化输入开始。运行后，所有输出会回流至管道，由组织内领域专家审查修正。这些经过验证的输出成为下一轮微调的训练数据。

“应用本身就在清洗数据。”Leven强调。

最终生成的微调模型被称为”专家纳米模型”（Expert Nano Models）——专为特定工作流优化的小型任务模型，而非通用推理模型。评估、护栏和合规控制均集成在管道中，确保治理与训练同步。企业完全拥有模型权重，Empromptu虽托管推理，但权重可导出（需付费）。平台支持Llama、Qwen等多种基础模型。

数据量是硬性约束。早期部署依赖基础模型，直至应用积累足够生产数据触发有效微调。Leven坦言：”训练模型需要时间。”

与传统微调的本质差异：谁在承担工作

OpenAI的微调API和AWS Bedrock定制模型均提供企业级微调，但要求企业准备独立数据集，并在应用栈外管理微调流程。数据整理和模型评估的负担落在客户ML团队身上。

Alchemy的核心差异在于流程整合：训练数据由企业应用自身生成，无需独立数据准备步骤，也不需要ML专业知识。应用工作流本身就是训练管道。

“我需要Bedrock，再组建ML团队搞清楚如何微调模型、搭建基础设施吗？不，现在任何人都能做到。”Leven说。

代价是平台依赖性：Alchemy仅适用于Empromptu环境。若企业希望复现相同效果，需自行搭建数据捕获、验证和微调管道。

案例：行为健康公司文档时间缩减87%

Empromptu首先瞄准受监管且数据密集的垂直领域：医疗、金融、法律科技、零售及收入预测。这些领域通用模型输出错配风险最高，且专属工作流数据最集中。

早期用户之一是行为健康公司Ascent Autism，其使用Alchemy自动化会话文档和父母沟通流程。

引导者利用学员会话录音、转录、笔记和行为指标生成结构化笔记和个性化家长更新。此流程此前每场会话需1-2小时书写，经Alchemy训练后仅需10-15分钟。

“单纯依赖API模型成本会迅速攀升。”Ascent Autism联合创始人兼CTO Faraz Fadavi告诉VentureBeat，”Alchemy让我们能构建工作流、用自身数据训练模型，在降低成本的同时持续提升输出质量。”

Fadavi表示公司很快获得可用输出，系统持续优化后效果更佳。评估标准不仅包括准确性，还涵盖与会话数据的可追溯性及与公司临床语气的输出一致性。

“我们希望系统能学习我们的工作流，产出符合实际操作的输出——而非仅总结文本。”他说。实际测试包括引导者需修改的程度、输出是否符合其语气、是否显著减少耗时。引导者已从重写生成笔记转向编辑和质检。

对企业的双重启示：数据飞轮与平台锁定的权衡

每个工作流都是训练机会。捕获并验证生产AI应用输出的企业，将随时间积累竞争优势。更多使用量产生更多训练信号，带来更精准的领域模型，进而生成更优质的输出，形成更清洁的训练数据循环。

Alchemy作为第三种架构选择。过去两年，企业多在RAG（获取领域知识）和微调（模型专业化）间选择。工作流驱动的模型训练是第三选项，结合了微调的持续改进与托管平台的操作简便性。

“拥有数据护城河是最有价值的货币。”Leven总结道。

关注微信号：智享开源 ，可及时获取信息

原文链接：https://venturebeat.com/data/enterprises-can-now-train-custom-ai-models-from-production-workflows-no-ml-team-required

0 0

评论列表

还没有任何评论，你来说两句吧！

发表评论

为你推荐

AI平台Lovable投资Atech，用“氛围编程”革新硬件开发

Cerebras上市首日暴涨近倍市值破千亿美元重塑AI芯片格局

马斯克诉Altman案：陪审团将如何裁决OpenAI命运

Uber将在印度开设两大新园区，强化全球产品开发与运营

Wirestock获2300万美元融资，专注为AI实验室提供创意多模态数据

Cerebras融资5.5亿美元，IPO首日暴涨108%成2026年首例大型科技IPO

代理授权机制存在严重缺陷，身份验证通过反而加剧风险

AI平台Lovable投资Atech，用“氛围编程”革新硬件开发

AI平台Lovable投资Atech，用“氛围编程”革新硬件开发

Cerebras上市首日暴涨近倍市值破千亿美元重塑AI芯片格局

Cerebras上市首日暴涨近倍市值破千亿美元重塑AI芯片格局

马斯克诉Altman案：陪审团将如何裁决OpenAI命运

马斯克诉Altman案：陪审团将如何裁决OpenAI命运

Uber将在印度开设两大新园区，强化全球产品开发与运营

Uber将在印度开设两大新园区，强化全球产品开发与运营

Wirestock获2300万美元融资，专注为AI实验室提供创意多模态数据

Wirestock获2300万美元融资，专注为AI实验室提供创意多模态数据

Cerebras融资5.5亿美元，IPO首日暴涨108%成2026年首例大型科技IPO

Cerebras融资5.5亿美元，IPO首日暴涨108%成2026年首例大型科技IPO

Mark Do Ta的个人站点

Mark Do发布文章755篇

关注微信

主站最新信息

近期文章

近期评论

Mark Do 发表在《Avride自动驾驶事故频发 Uber合作伙伴遭NHTSA调查》
Mark Do 发表在《今天我终于找到了加快网站速度的办法》
mb 发表在《如何成为超级个体？》
mb 发表在《像ChatGPT一样记笔记》
mb 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

分类

热门文章

Python Pandas DataFrame append 方法报错原因及解决方法 6,412 人阅

pandas 将多列数据字符串拼接在一起 4,537 人阅

pandas 筛选列数据中包含某个字符串的数据？ 3,540 人阅

要凤凰涅槃须经历一番心灵的洗涤 3,249 人阅

python 如何将电子表格按照某一列相同数据分到一个一个工作表中 2,799 人阅