这里是有人工智能一个新的热门趋势:文本到图像生成器。为这些程序分享您喜欢的任何文本,它们将生成与该描述相匹配的非常准确的图片。它们可以匹配各种风格,知识兔从油画到 CGI 渲染甚至照片,而且知识兔——尽管听起来很陈词滥调——在许多方面唯一的限制是你的想象力。
迄今为止,该领域的领导者一直是 DALL-E,这是一个由商业 AI 实验室 OpenAI 创建的程序(并在 4 月刚刚更新)。不过,昨天,谷歌宣布了自己对Imagen 类型的看法,它刚刚在输出质量上取代了 DALL-E。
了解这些模型的惊人功能的最佳方法是简单地查看它们可以生成的一些图像。上面有一些 Imagen 生成的,下面还有更多
在每种情况下,图像底部的文本都是输入程序的提示,上图是输出。只是要强调:这就是它所需要的。你输入你想看到的内容,程序就会生成它。太棒了,对吧?
但是,尽管这些照片的连贯性和准确性无可否认令人印象深刻,但它们也应该用少许盐来拍摄。当像 Google Brain 这样的研究团队发布新的 AI 模型时,他们往往会挑选出最好的结果。因此,虽然这些图片看起来都很完美,但它们可能并不代表图像系统的平均输出。
通常,由文本到图像模型生成的图像看起来未完成、或比较模糊——我们在 OpenAI 的 DALL-E 程序生成的图片中看到了这些问题。
不过,谷歌声称 Imagen 生成的图像始终比 DALL-E 2 更好,这是基于它为这个名为 DrawBench 的项目创建的新基准。
DrawBench 并不是一个特别复杂的指标:它本质上是一个包含大约 200 个文本提示的列表,Google 的团队将这些提示输入 Imagen 和其他文本到图像生成器,然后知识兔由人工评估员判断每个程序的输出。如下图所示,谷歌发现人类通常更喜欢 Imagen 的输出而不是竞争对手的输出。