ChatGPT Images 2.0模型:生成文本能力令人惊喜
过去,区分人类创作和AI生成的图像很容易——就在两年前,你无法用图像模型为墨西哥餐厅创建菜单,否则会编造出“恩奎塔(enchuita)”、“丘里罗(churiros)”、“布托(burrto)”和“玛格丽塔(margartas)”这样的新美食。
现在,当我要求全新的ChatGPT Images 2.0模型生成墨西哥食物菜单时,它创建的内容可以直接在餐厅使用,顾客不会察觉异常。(不过,13.50美元一份的ceviche可能会让我怀疑鱼的新鲜度。)

图片来源:ChatGPT Images 2.0

作为对比,这是我两年前用DALL-E 3得到的结果(当时ChatGPT还不生成图像):
AI图像生成器一直以来在拼写上存在困难,因为它们通常使用扩散模型,这种模型通过从噪声中重建图像来工作。
“扩散模型……是在重建给定的输入,”Lesan AI创始人兼CEO Asmelash Teka Hadgu在2024年对TechCrunch表示。“我们可以认为图像上的文字是非常、非常小的一部分,所以图像生成器学习的是覆盖更多这些像素的模式。”
此后,研究人员探索了其他图像生成机制,比如自回归模型,这类模型通过预测图像应有的外观来工作,功能上更接近LLM。
不幸的是,OpenAI在本周的一场记者会上拒绝回答关于ChatGPT Images 2.0使用何种模型的问题。
关注微信号:智享开源 关注微博:IMCN开源资讯网 ,可及时获取信息
评论列表
发表评论
为你推荐

[blog_mailer_subscribe]
关注微信

还没有任何评论,你来说两句吧!