所有事件
capability-unlock
☆ 世家

DALL-E:AI开始将文字变成图像

概述 2021年1月5日,OpenAI发布DALL-E——一个能够根据自然语言描述生成图像的神经网络。输入"鳄梨形状的扶手椅"或"穿着芭蕾舞裙、牵着狗散步的迷你白萝卜",它便能生成与描述相符的连贯、往往令人惊叹的图像。 DALL-E证明了AI模型能够在语言和视觉之间流畅地跨模态操作——这一能力曾被理论预测,但从未在如此质量和规模上得到展示。 DALL-E做了什么 DALL-E(名字是超现实主义画家萨尔瓦多·达利与皮克斯机器人瓦力的合体)是一个120亿参数的GPT-3变体,在图 …

2021-01-05

概述

2021年1月5日,OpenAI发布DALL-E——一个能够根据自然语言描述生成图像的神经网络。输入"鳄梨形状的扶手椅"或"穿着芭蕾舞裙、牵着狗散步的迷你白萝卜",它便能生成与描述相符的连贯、往往令人惊叹的图像。

DALL-E证明了AI模型能够在语言和视觉之间流畅地跨模态操作——这一能力曾被理论预测,但从未在如此质量和规模上得到展示。

DALL-E做了什么

DALL-E(名字是超现实主义画家萨尔瓦多·达利与皮克斯机器人瓦力的合体)是一个120亿参数的GPT-3变体,在图文配对数据上训练。其核心洞见出奇地简单:把图像视为词元序列,就像对待文字一样

通过将图像压平为1024个离散词元(使用单独训练的图像标记器dVAE),并与256个文本词元拼接,DALL-E学会了从文字预测图像词元——本质上是"用语言作画"。

这使得以下能力成为可能:

  • 零样本视觉概念组合:“竖琴形状的蜗牛”(训练中从未同时出现的两个概念)
  • 受控图像编辑:改变属性(“虎斑猫 → 柯基犬”)同时保持结构
  • 视角与风格控制:“从下方俯瞰的红色立方体置于蓝色立方体之上,达利风格”

DALL-E 2与创意AI爆发(2022年)

最初的DALL-E仅作研究预览。真正的突破时刻是DALL-E 2(2022年4月),采用了根本不同的方法:将CLIP嵌入与扩散模型结合。生成效果照片级真实,构图连贯,明显震撼了艺术和设计界。

DALL-E 2于2022年夏季面向公众开放,与Midjourney(2022年7月)和Stable Diffusion(2022年8月)同步爆发,迅速重塑创意经济:

  • 图库摄影使用量骤降
  • 插画师和概念艺术家面临即时市场冲击
  • 广告、游戏开发和电影制作的工作流程在数月内重组
  • 围绕AI生成内容版权的法律框架问题骤然紧迫

为何意义深远

DALL-E是第一个让大众意识到AI在有意义的意义上具备创造力的模型——不仅是文字补全,而是合成从未存在过的新视觉概念。它打破了"创造力需要意识"这一隐性假设。

从技术角度:DALL-E证明了多模态表示(联合理解文字和视觉的模型)是可行且强大的。这是GPT-4V、Claude视觉能力、Gemini原生多模态、Sora视频生成的前驱。整个多模态AI分支,都从这里起步。

参考资料