无需ML团队:企业通过生产工作流训练定制AI模型

被忽视的生产数据:AI训练的隐藏宝藏

企业AI应用处理的每一次查询、领域专家对输出的每一次修正,都是珍贵的训练数据。然而,多数组织并未捕获这些交互信息。实际上,企业已有的生产工作流正在持续产生优化AI模型的信号,但这些信号却在无形中流失。

Alchemy Models:让生产工作流成为AI训练引擎

总部位于旧金山的Empromptu AI于近日推出Alchemy Models,其核心逻辑简单而直接:企业正在构建的AI应用本身就在生成训练数据,但这些数据大多被浪费。该平台能自动捕获这些信号,将领域专家验证后的输出回传至微调管道,持续提升模型性能。企业完全拥有最终模型权重。

Alchemy在技术定位上既不同于RAG(检索增强生成,仅通过外部上下文辅助推理而不修改模型权重),也区别于传统微调(需独立准备标注数据集并依赖专属ML团队)。它实现了后者的持续优化能力,同时以企业应用自身作为数据源,无需额外数据准备环节。

采用基础模型API的企业面临三大痛点:推理成本随使用量增长、无法拥有模型所有权、难以针对特定领域任务定制行为。Empromptu CEO Shanea Leven指出,这些约束普遍存在却鲜被解决。

“每个客户都在问我:如何避免被颠覆?如何保护业务?但他们找不到路径。”Leven在接受VentureBeat独家采访时表示。

从运行应用到模型训练:Alchemy的双阶段机制

传统定制模型训练需企业单独收集、清洗和标注数据,Alchemy则另辟蹊径:由企业应用自身生成并清洗训练数据。

这一机制通过Empromptu的Golden Data Pipelines基础设施实现,分为两个阶段。应用构建前,企业数据经过清洗、提取和丰富,确保应用从结构化输入开始。运行后,所有输出会回流至管道,由组织内领域专家审查修正。这些经过验证的输出成为下一轮微调的训练数据。

“应用本身就在清洗数据。”Leven强调。

最终生成的微调模型被称为”专家纳米模型”(Expert Nano Models)——专为特定工作流优化的小型任务模型,而非通用推理模型。评估、护栏和合规控制均集成在管道中,确保治理与训练同步。企业完全拥有模型权重,Empromptu虽托管推理,但权重可导出(需付费)。平台支持Llama、Qwen等多种基础模型。

数据量是硬性约束。早期部署依赖基础模型,直至应用积累足够生产数据触发有效微调。Leven坦言:”训练模型需要时间。”

与传统微调的本质差异:谁在承担工作

OpenAI的微调API和AWS Bedrock定制模型均提供企业级微调,但要求企业准备独立数据集,并在应用栈外管理微调流程。数据整理和模型评估的负担落在客户ML团队身上。

Alchemy的核心差异在于流程整合:训练数据由企业应用自身生成,无需独立数据准备步骤,也不需要ML专业知识。应用工作流本身就是训练管道。

“我需要Bedrock,再组建ML团队搞清楚如何微调模型、搭建基础设施吗?不,现在任何人都能做到。”Leven说。

代价是平台依赖性:Alchemy仅适用于Empromptu环境。若企业希望复现相同效果,需自行搭建数据捕获、验证和微调管道。

案例:行为健康公司文档时间缩减87%

Empromptu首先瞄准受监管且数据密集的垂直领域:医疗、金融、法律科技、零售及收入预测。这些领域通用模型输出错配风险最高,且专属工作流数据最集中。

早期用户之一是行为健康公司Ascent Autism,其使用Alchemy自动化会话文档和父母沟通流程。

引导者利用学员会话录音、转录、笔记和行为指标生成结构化笔记和个性化家长更新。此流程此前每场会话需1-2小时书写,经Alchemy训练后仅需10-15分钟。

“单纯依赖API模型成本会迅速攀升。”Ascent Autism联合创始人兼CTO Faraz Fadavi告诉VentureBeat,”Alchemy让我们能构建工作流、用自身数据训练模型,在降低成本的同时持续提升输出质量。”

Fadavi表示公司很快获得可用输出,系统持续优化后效果更佳。评估标准不仅包括准确性,还涵盖与会话数据的可追溯性及与公司临床语气的输出一致性。

“我们希望系统能学习我们的工作流,产出符合实际操作的输出——而非仅总结文本。”他说。实际测试包括引导者需修改的程度、输出是否符合其语气、是否显著减少耗时。引导者已从重写生成笔记转向编辑和质检。

对企业的双重启示:数据飞轮与平台锁定的权衡

每个工作流都是训练机会。捕获并验证生产AI应用输出的企业,将随时间积累竞争优势。更多使用量产生更多训练信号,带来更精准的领域模型,进而生成更优质的输出,形成更清洁的训练数据循环。

Alchemy作为第三种架构选择。过去两年,企业多在RAG(获取领域知识)和微调(模型专业化)间选择。工作流驱动的模型训练是第三选项,结合了微调的持续改进与托管平台的操作简便性。

“拥有数据护城河是最有价值的货币。”Leven总结道。


关注微信号:智享开源 ,可及时获取信息

原文链接:https://venturebeat.com/data/enterprises-can-now-train-custom-ai-models-from-production-workflows-no-ml-team-required

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章755篇


关注微信

主站最新信息

分类