Corti医疗语音模型准确率碾压OpenAI，专业AI价值凸显

Corti推出新一代医疗语音转文本模型，准确率创行业新高

近日，总部位于哥本哈根的医疗AI公司Corti正式推出Symphony for Speech-to-Text，这是一款专为医疗领域设计的临床级语音识别模型，针对实时听写、对话转录及批量音频处理等场景优化，其准确率创下该领域有记录以来的最高水平。

Corti联合创始人兼CEO安德烈亚斯·克利夫（Andreas Cleve）在接受VentureBeat独家视频采访时表示：“我们致力于确保AI语音助手能赢得医生、医疗从业者及患者的信任——乃至整个医疗系统的信任。”

该公司公布的性能数据揭示了当前企业AI领域的现状：在高度监管、专业化的行业中，领域专用模型能够超越通用模型提供商。

在一篇新发布的研究论文中，Corti披露其新型临床语音模型在医疗术语上的词错误率（WER）较主流通用语音模型及API降低了高达93%。

在英语医疗术语测试中，Symphony for Speech-to-Text实现了惊人的1.4%低WER。相比之下，OpenAI的语音模型WER为17.7%，ElevenLabs达18.1%，Whisper为17.4%，Parakeet则高达18.9%。

通用AI的短板：医疗领域的“水土不服”

通用API（如OpenAI的Whisper）虽能满足广泛领域的转录需求，但在医疗领域却常因专业术语（如缩写、复杂药物剂量、简写）及嘈杂的急诊室环境等问题“栽跟头”。Symphony for Speech-to-Text旨在通过为开发者提供从零开始设计的、高度专业化的生产级API，解决这一痛点，适配临床工作流程。

AI代理时代：语音转文本不再是终点，而是数据基础

Symphony的推出标志着医疗行业语音技术应用的范式转变。过去数十年，医疗语音识别主要聚焦于生成静态文本供医生审阅——相当于数字化的“记事本”。

然而，随着医疗行业进入技术专家所称的“代理时代”（agentic era），即自主AI代理主动参与临床决策、电子病历（EHR）导航及实时支持，转录文本不再是最终产品，而是基础数据层。

“语音一直是医疗领域最重要的输入之一，”克利夫在声明中表示，“变化发生在文字捕获之后。在代理时代，语音识别不仅需要生成转录文本，更需要为AI系统提供准确的临床事实作为推理依据。若模型误听药物名称、剂量或症状，所有下游步骤的可靠性都会下降。Symphony为医疗开发者提供了足够准确的语音层，使其能在临床现实中发挥作用。”

高WER的“连锁危害”在此凸显：若通用AI模型出现“幻觉”（如将“甲亢”转录为“甲减”或误解关键药物剂量），依赖该转录的下游AI代理将基于错误数据进行操作。Corti的架构通过API直接生成结构化、临床可用的输出，帮助下游应用基于清晰事实而非混乱文本进行推理。

这一优势在实体召回率上尤为明显：Symphony对格式化临床实体（如剂量、测量值、日期）的召回率达98.3%，而最强的通用模型基准仅44.3%。

对开发环境AI文档工具的厂商而言，这54%的差距意味着工具是“节省医生时间”还是“构成医疗责任”的关键区别。

超越传统巨头：挑战医疗转录“老牌王者”

尽管Corti与OpenAI、ElevenLabs等现代大模型厂商的对比数据令人瞩目，该公司也将目光投向了传统医疗转录巨头。

长期以来，Dragon Medical One一直是临床医生听写的“金标准”。但这些传统系统过去仅针对医生刻意 dictation 优化，而非作为环境AI、复杂多对话或实时临床支持工具的基础设施。

在真实英语医疗听写评估中，Corti的WER为4.6%，优于Dragon的5.7%（相对提升19%）。此外，Corti的医学术语召回率（93.5%）也高于Dragon（92.9%）。

通过API端点提供这一准确率，Corti使第三方开发者、EHR厂商及虚拟护理平台能够构建自定义听写及环境监听工具，超越行业传统领导者。

“我们希望人们基于我们的模型开发应用，”克利夫说，“目标是让技术尽可能广泛扩散，以最大程度帮助患者、医生及专业人士。”

对克利夫及其联合创始人而言，这一使命具有个人意义：克利夫的母亲曾是一名医疗从业者，因患者袭击受伤并长期挣扎恢复，他希望通过改进医疗流程来纪念母亲的牺牲。

多语言测试：全球医疗市场的“试金石”

医疗需求远超英语医院，全球医疗系统历来缺乏临床自然语言处理（NLP）模型的支持。Corti的新模型已在语言要求高的环境中被早期采用，证明其在复杂国际市场的可行性。

以瑞士为例，其医疗交付需跨越多种语言——常在同一医疗机构内同步使用。这是全球最严格的多语言医疗语音模型测试场之一。Symphony在非英语测试中表现卓越：德语法语WER分别达2.4%（对比次优系统的13.0%）和3.9%（对比10.6%）。

“临床对话中，每个词都至关重要——漏听药物名称、误传剂量或误转录症状都可能改变 encounter 的含义，”瑞士医疗技术提供商Voicepoint解决方案与业务发展负责人皮埃尔·科尔博兹（Pierre Corboz）表示，“Symphony在临床术语上的准确率为我们提供了基础，使我们能在Voicepoint Xenon平台上引入更多可信赖的AI功能。当Corti提升语音层，我们共同构建的工作流程将更精准、更安全，对瑞士临床医生更有用。”