所有事件
model-release
☆ 世家

GPT-4o 发布

概述 GPT-4o(“o"代表 omni)是 OpenAI 的旗舰多模态模型,能够实时处理和生成文本、音频和图像,无缝切换模态。 核心能力 原生多模态:单一模型处理文本、语音、图像、视频 实时语音对话:平均响应延迟 320 毫秒,接近人类对话节奏 情感感知:能识别和表达情感,语气更自然 图像理解:在多项视觉基准上超越 GPT-4V 影响 GPT-4o 将语音助手体验提升至新高度,展示了端到端多模态训练的巨大潜力。 参考 OpenAI GPT-4o 公告 GPT-4o 系统卡

2024-05-13

概述

GPT-4o(“o"代表 omni)是 OpenAI 的旗舰多模态模型,能够实时处理和生成文本、音频和图像,无缝切换模态。

核心能力

  • 原生多模态:单一模型处理文本、语音、图像、视频
  • 实时语音对话:平均响应延迟 320 毫秒,接近人类对话节奏
  • 情感感知:能识别和表达情感,语气更自然
  • 图像理解:在多项视觉基准上超越 GPT-4V

影响

GPT-4o 将语音助手体验提升至新高度,展示了端到端多模态训练的巨大潜力。

参考