ChatGPT Images 2.0模型:生成文本能力令人惊喜

过去,区分人类创作和AI生成的图像很容易——就在两年前,你无法用图像模型为墨西哥餐厅创建菜单,否则会编造出“恩奎塔(enchuita)”、“丘里罗(churiros)”、“布托(burrto)”和“玛格丽塔(margartas)”这样的新美食。

现在,当我要求全新的ChatGPT Images 2.0模型生成墨西哥食物菜单时,它创建的内容可以直接在餐厅使用,顾客不会察觉异常。(不过,13.50美元一份的ceviche可能会让我怀疑鱼的新鲜度。)

图片来源:ChatGPT Images 2.0

作为对比,这是我两年前用DALL-E 3得到的结果(当时ChatGPT还不生成图像):

AI图像生成器一直以来在拼写上存在困难,因为它们通常使用扩散模型,这种模型通过从噪声中重建图像来工作。

“扩散模型……是在重建给定的输入,”Lesan AI创始人兼CEO Asmelash Teka Hadgu在2024年对TechCrunch表示。“我们可以认为图像上的文字是非常、非常小的一部分,所以图像生成器学习的是覆盖更多这些像素的模式。”

此后,研究人员探索了其他图像生成机制,比如自回归模型,这类模型通过预测图像应有的外观来工作,功能上更接近LLM。

不幸的是,OpenAI在本周的一场记者会上拒绝回答关于ChatGPT Images 2.0使用何种模型的问题。

原文链接:https://techcrunch.com/2026/04/21/chatgpts-new-images-2-0-model-is-surprisingly-good-at-generating-text/


关注微信号:智享开源 关注微博:IMCN开源资讯网 ,可及时获取信息

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章253篇


[blog_mailer_subscribe]

关注微信

分类