DALL-E：AI开始将文字变成图像

概述

2021年1月5日，OpenAI发布DALL-E——一个能够根据自然语言描述生成图像的神经网络。输入"鳄梨形状的扶手椅"或"穿着芭蕾舞裙、牵着狗散步的迷你白萝卜"，它便能生成与描述相符的连贯、往往令人惊叹的图像。

DALL-E证明了AI模型能够在语言和视觉之间流畅地跨模态操作——这一能力曾被理论预测，但从未在如此质量和规模上得到展示。

DALL-E（名字是超现实主义画家萨尔瓦多·达利与皮克斯机器人瓦力的合体）是一个120亿参数的GPT-3变体，在图文配对数据上训练。其核心洞见出奇地简单：把图像视为词元序列，就像对待文字一样。

通过将图像压平为1024个离散词元（使用单独训练的图像标记器dVAE），并与256个文本词元拼接，DALL-E学会了从文字预测图像词元——本质上是"用语言作画"。

这使得以下能力成为可能：

最初的DALL-E仅作研究预览。真正的突破时刻是DALL-E 2（2022年4月），采用了根本不同的方法：将CLIP嵌入与扩散模型结合。生成效果照片级真实，构图连贯，明显震撼了艺术和设计界。

DALL-E 2于2022年夏季面向公众开放，与Midjourney（2022年7月）和Stable Diffusion（2022年8月）同步爆发，迅速重塑创意经济：

DALL-E是第一个让大众意识到AI在有意义的意义上具备创造力的模型——不仅是文字补全，而是合成从未存在过的新视觉概念。它打破了"创造力需要意识"这一隐性假设。

从技术角度：DALL-E证明了多模态表示（联合理解文字和视觉的模型）是可行且强大的。这是GPT-4V、Claude视觉能力、Gemini原生多模态、Sora视频生成的前驱。整个多模态AI分支，都从这里起步。