Google发布Gemini Omni多模态AI模型：企业应用指南

Google推出革命性多模态AI模型

尽管早在几周前就被AI技术爱好者发现，Google的全新Gemini Omni模型今日在加州山景城举行的年度I/O开发者大会上正式亮相，标志着AI和技术市场格局的重大转变。这一模型以”omni”（源自拉丁语”omne”，意为”全部”）为前缀，代表着Google首个真正原生的多模态模型——能够”从任何输入创建任何内容，从视频开始”。

该模型标志着Google致力于将多模态生成栈（文本到图像、图像到视频、视频到视频、音频生成）压缩到单一基础模型中，并配备统一编辑界面。对于企业领导者而言，关键问题在于：是否应立即将现有AI栈切换到Gemini Omni？

目前，您可能还无法立即切换——该模型仅通过Google的AI订阅计划向个人用户提供，从每月20美元的”AI Plus”计划开始。目前可在Gemini网站和移动应用、Google基于网络的Flow AI图像和视频编辑套件以及YouTube Shorts上访问。

尽管Google表示最终将通过应用程序编程接口（API）提供，但目前尚未准备就绪。Google也没有发布Gemini Omni的公开基准（目前），但第三方组织无疑会对其进行各种任务和用户报告的质量指标测试。在此期间，其质量和速度仍 somewhat 主观。

考虑到新Omni模型带来的能力和更快的编辑功能，团队中从事技术图表、营销和传播材料、培训和公司教育课程、销售资料以及任何涉及视觉内容的成员，应认真考虑切换到该模型。

Omni模型究竟是什么

Omni是Google大约一年前发布的图像生成和编辑模型Nano Banana的后续发展。家族中的第一个模型Gemini Omni Flash接受文本、图像、音频和视频的任意组合作为输入，并在相同模态上产生高质量输出——全部来自单一模型，而非一系列专业系统。

Google称该模型是”从底层原生多模态”，这一说法与其作为架构声明的营销文案相比更为重要：统一模型可以在单次前向传递中跨模态推理，通常转化为更连贯的编辑、更少的管道伪影以及更清晰的API界面供开发者使用。

OpenAI在2024年5月通过发布其首个原生”omni”模型GPT-4o开创了这一趋势，该模型也经过从头训练，能够分析和生成多种不同类型的内容，从文本到代码、图像和音频。然而，它不支持视频生成，并且在报告了奉承行为甚至用户与模型发展了类社会关系后，该模型最终被弃用。

Gemini Omni是否会引发类似的忠实追随？仍有待观察。一个显著区别在于其主要的交互模式是对话式视频编辑。每条指令”建立在上一条的基础上”，过去的指令在多次迭代中保持一致，使视频随着用户迭代而连贯发展。

Google强调的实用示例包括更改剪辑中的世界、重新想象动作或摄像机角度、在多次迭代中优化序列，以及从简短提示生成解释性内容。Google还强调改进的物理模拟——重力、动能、流体动力学——这种细节区分了”看起来像AI视频”和”看起来像真实镜头”。

发布计划、定价与API问题

企业领导者应仔细阅读发布计划。Omni Flash今天在美国的AI Plus、AI Pro和AI Ultra层级的Gemini应用中上线——包括Google在同一活动中宣布的新月100美元AI Ultra计划。

Google表示将在”未来几周”通过Vertex AI API向开发者推出。这一差距意义重大。在Vertex API普遍可用之前，Omni实质上是一个消费级和专业消费者工具。

企业试点应等待API，因为这正是Google企业服务水平协议（SLAs）和数据处理承诺所在，而且没有编程界面的生产级生成视频是行不通的。通过API的定价（按百万令牌计算）也将决定其作为娱乐和艺术制作以外企业产品的可行性。

对于目前权衡座位经济决策者，新的AI Ultra层级专门针对开发者、技术负责人、知识工作者和高级创作者，提供优先访问Google Antigravity、更高的使用限制以及捆绑的Omni Flash访问权限。对于在紧张截止日期下的小型创意团队，这可能是API到达前评估模型的最快方式。

真正重要的企业应用场景

很容易默认将”营销视频”作为用例，但如果你将其视为可编程视频和媒体引擎而非创意应用，Omni对企业而言的价值主张更为广泛：

销售和营销：无需每项资产的机构周期，快速生成变体广告、本地化创意和产品演示。
内部沟通、学习与发展（L&D）：非专家制作解释视频、入职模块和政策指南。
客户支持和文档：与帮助文章关联的动态、查询条件视觉解释器。
产品和工程：模拟可视化、UI指南和规范审查的概念视频。
现场操作：按需生成的短、特定情况指令剪辑。

与上一代工具相比，Omni的变化在于统一性。许多企业将文本到图像、图像到视频、唇同步和语音模型的工作流程拼接在一起，每个模型都有各自的合同、账单和数据路径。单一由Vertex AI支持的模型将采购和可观察性压缩到一个地方——假设最终API提供生产级吞吐量。

关注微信号：智享开源 ，更多信息访问网站：blog.imcn.me

原文链接：https://venturebeat.com/technology/google-unveils-gemini-omni-any-to-any-ai-model-what-enterprises-should-know

0 0

Google发布Gemini Omni多模态AI模型：企业应用指南

Google推出革命性多模态AI模型

Omni模型究竟是什么

发布计划、定价与API问题

真正重要的企业应用场景

评论列表

发表评论

为你推荐

主站最新信息

近期文章

标签

近期评论

分类

热门文章