Google发布Gemini Omni多模态AI模型:企业应用指南

Google推出革命性多模态AI模型
尽管早在几周前就被AI技术爱好者发现,Google的全新Gemini Omni模型今日在加州山景城举行的年度I/O开发者大会上正式亮相,标志着AI和技术市场格局的重大转变。这一模型以”omni”(源自拉丁语”omne”,意为”全部”)为前缀,代表着Google首个真正原生的多模态模型——能够”从任何输入创建任何内容,从视频开始”。
该模型标志着Google致力于将多模态生成栈(文本到图像、图像到视频、视频到视频、音频生成)压缩到单一基础模型中,并配备统一编辑界面。对于企业领导者而言,关键问题在于:是否应立即将现有AI栈切换到Gemini Omni?
目前,您可能还无法立即切换——该模型仅通过Google的AI订阅计划向个人用户提供,从每月20美元的”AI Plus”计划开始。目前可在Gemini网站和移动应用、Google基于网络的Flow AI图像和视频编辑套件以及YouTube Shorts上访问。
尽管Google表示最终将通过应用程序编程接口(API)提供,但目前尚未准备就绪。Google也没有发布Gemini Omni的公开基准(目前),但第三方组织无疑会对其进行各种任务和用户报告的质量指标测试。在此期间,其质量和速度仍 somewhat 主观。
考虑到新Omni模型带来的能力和更快的编辑功能,团队中从事技术图表、营销和传播材料、培训和公司教育课程、销售资料以及任何涉及视觉内容的成员,应认真考虑切换到该模型。
Omni模型究竟是什么
Omni是Google大约一年前发布的图像生成和编辑模型Nano Banana的后续发展。家族中的第一个模型Gemini Omni Flash接受文本、图像、音频和视频的任意组合作为输入,并在相同模态上产生高质量输出——全部来自单一模型,而非一系列专业系统。
Google称该模型是”从底层原生多模态”,这一说法与其作为架构声明的营销文案相比更为重要:统一模型可以在单次前向传递中跨模态推理,通常转化为更连贯的编辑、更少的管道伪影以及更清晰的API界面供开发者使用。
OpenAI在2024年5月通过发布其首个原生”omni”模型GPT-4o开创了这一趋势,该模型也经过从头训练,能够分析和生成多种不同类型的内容,从文本到代码、图像和音频。然而,它不支持视频生成,并且在报告了奉承行为甚至用户与模型发展了类社会关系后,该模型最终被弃用。
Gemini Omni是否会引发类似的忠实追随?仍有待观察。一个显著区别在于其主要的交互模式是对话式视频编辑。每条指令”建立在上一条的基础上”,过去的指令在多次迭代中保持一致,使视频随着用户迭代而连贯发展。
Google强调的实用示例包括更改剪辑中的世界、重新想象动作或摄像机角度、在多次迭代中优化序列,以及从简短提示生成解释性内容。Google还强调改进的物理模拟——重力、动能、流体动力学——这种细节区分了”看起来像AI视频”和”看起来像真实镜头”。
发布计划、定价与API问题
企业领导者应仔细阅读发布计划。Omni Flash今天在美国的AI Plus、AI Pro和AI Ultra层级的Gemini应用中上线——包括Google在同一活动中宣布的新月100美元AI Ultra计划。
Google表示将在”未来几周”通过Vertex AI API向开发者推出。这一差距意义重大。在Vertex API普遍可用之前,Omni实质上是一个消费级和专业消费者工具。
企业试点应等待API,因为这正是Google企业服务水平协议(SLAs)和数据处理承诺所在,而且没有编程界面的生产级生成视频是行不通的。通过API的定价(按百万令牌计算)也将决定其作为娱乐和艺术制作以外企业产品的可行性。
对于目前权衡座位经济决策者,新的AI Ultra层级专门针对开发者、技术负责人、知识工作者和高级创作者,提供优先访问Google Antigravity、更高的使用限制以及捆绑的Omni Flash访问权限。对于在紧张截止日期下的小型创意团队,这可能是API到达前评估模型的最快方式。
真正重要的企业应用场景
很容易默认将”营销视频”作为用例,但如果你将其视为可编程视频和媒体引擎而非创意应用,Omni对企业而言的价值主张更为广泛:
- 销售和营销:无需每项资产的机构周期,快速生成变体广告、本地化创意和产品演示。
- 内部沟通、学习与发展(L&D):非专家制作解释视频、入职模块和政策指南。
- 客户支持和文档:与帮助文章关联的动态、查询条件视觉解释器。
- 产品和工程:模拟可视化、UI指南和规范审查的概念视频。
- 现场操作:按需生成的短、特定情况指令剪辑。
与上一代工具相比,Omni的变化在于统一性。许多企业将文本到图像、图像到视频、唇同步和语音模型的工作流程拼接在一起,每个模型都有各自的合同、账单和数据路径。单一由Vertex AI支持的模型将采购和可观察性压缩到一个地方——假设最终API提供生产级吞吐量。
关注微信号:智享开源 ,更多信息访问网站:blog.imcn.me

关注微信

还没有任何评论,你来说两句吧!