概述
2021年1月5日,OpenAI发布DALL-E——一个能够根据自然语言描述生成图像的神经网络。输入"鳄梨形状的扶手椅"或"穿着芭蕾舞裙、牵着狗散步的迷你白萝卜",它便能生成与描述相符的连贯、往往令人惊叹的图像。
DALL-E证明了AI模型能够在语言和视觉之间流畅地跨模态操作——这一能力曾被理论预测,但从未在如此质量和规模上得到展示。
DALL-E做了什么
DALL-E(名字是超现实主义画家萨尔瓦多·达利与皮克斯机器人瓦力的合体)是一个120亿参数的GPT-3变体,在图文配对数据上训练。其核心洞见出奇地简单:把图像视为词元序列,就像对待文字一样。
通过将图像压平为1024个离散词元(使用单独训练的图像标记器dVAE),并与256个文本词元拼接,DALL-E学会了从文字预测图像词元——本质上是"用语言作画"。
这使得以下能力成为可能:
- 零样本视觉概念组合:“竖琴形状的蜗牛”(训练中从未同时出现的两个概念)
- 受控图像编辑:改变属性(“虎斑猫 → 柯基犬”)同时保持结构
- 视角与风格控制:“从下方俯瞰的红色立方体置于蓝色立方体之上,达利风格”
DALL-E 2与创意AI爆发(2022年)
最初的DALL-E仅作研究预览。真正的突破时刻是DALL-E 2(2022年4月),采用了根本不同的方法:将CLIP嵌入与扩散模型结合。生成效果照片级真实,构图连贯,明显震撼了艺术和设计界。
DALL-E 2于2022年夏季面向公众开放,与Midjourney(2022年7月)和Stable Diffusion(2022年8月)同步爆发,迅速重塑创意经济:
- 图库摄影使用量骤降
- 插画师和概念艺术家面临即时市场冲击
- 广告、游戏开发和电影制作的工作流程在数月内重组
- 围绕AI生成内容版权的法律框架问题骤然紧迫
为何意义深远
DALL-E是第一个让大众意识到AI在有意义的意义上具备创造力的模型——不仅是文字补全,而是合成从未存在过的新视觉概念。它打破了"创造力需要意识"这一隐性假设。
从技术角度:DALL-E证明了多模态表示(联合理解文字和视觉的模型)是可行且强大的。这是GPT-4V、Claude视觉能力、Gemini原生多模态、Sora视频生成的前驱。整个多模态AI分支,都从这里起步。