ChatGPT Images 2.0模型：生成文本能力令人惊喜

过去，区分人类创作和AI生成的图像很容易——就在两年前，你无法用图像模型为墨西哥餐厅创建菜单，否则会编造出“恩奎塔（enchuita）”、“丘里罗（churiros）”、“布托（burrto）”和“玛格丽塔（margartas）”这样的新美食。

现在，当我要求全新的ChatGPT Images 2.0模型生成墨西哥食物菜单时，它创建的内容可以直接在餐厅使用，顾客不会察觉异常。（不过，13.50美元一份的ceviche可能会让我怀疑鱼的新鲜度。）

图片来源：ChatGPT Images 2.0

作为对比，这是我两年前用DALL-E 3得到的结果（当时ChatGPT还不生成图像）：

AI图像生成器一直以来在拼写上存在困难，因为它们通常使用扩散模型，这种模型通过从噪声中重建图像来工作。

“扩散模型……是在重建给定的输入，”Lesan AI创始人兼CEO Asmelash Teka Hadgu在2024年对TechCrunch表示。“我们可以认为图像上的文字是非常、非常小的一部分，所以图像生成器学习的是覆盖更多这些像素的模式。”

此后，研究人员探索了其他图像生成机制，比如自回归模型，这类模型通过预测图像应有的外观来工作，功能上更接近LLM。

不幸的是，OpenAI在本周的一场记者会上拒绝回答关于ChatGPT Images 2.0使用何种模型的问题。

关注微信号：智享开源 关注微博：IMCN开源资讯网 ，可及时获取信息

0 0

Mark Do Ta的个人站点

Mark Do发布文章251篇

[blog_mailer_subscribe]

关注微信