Claude Opus 4.7:Anthropic 对 Mythos 危机的回应
概述 2026年4月16日,Anthropic发布了Claude Opus 4.7——无论在公司内部还是外部,都被描述为该公司最新的前沿模型,被定位为九天前公布的containment级别Mythos模型的"风险更低"的替代品。 定位 Anthropic围绕Opus 4.7的信息传递与以往发布明显不同: 公司明确将Opus 4.7与Mythos进行对比,强调 …
Meta Muse Spark:Alexandr Wang领导下的首款模型
概述 2026年4月8日,Meta发布了 Muse Spark ——这是自2025年底Scale AI前CEO Alexandr Wang接管Meta AI产品部门以来,Meta发布的首个新基础模型。该模型被定位为能够与Google、OpenAI和Anthropic的领先闭源模型竞争的多模态AI系统。 战略背景 Wang在Meta的任职被广泛解读为Meta将 …
OpenAI、Anthropic与Google组建联合前沿模型防御联盟
概述 作为对 Chinese AI能力快速发展的回应——最显著的是DeepSeek R1(2025年1月)的展示以及2026年2月报道的"三周内发布七个模型"的发展冲刺——OpenAI、Anthropic和Google宣布了一个联合框架,以限制国家行为者对前沿模型的未经授权蒸馏。 联盟的举措 该联合框架围绕以下几个举措展开: 共享蒸馏检测工具:三家公司都承诺 …
Anthropic Mythos:过于危险而无法发布的模型
概述 2026年3月27日,Anthropic的Mythos模型的内部细节被意外泄露到网上——该模型被其创造者认为能够以前所未有的规模发现并利用现实世界的软件漏洞。4月7日,Anthropic公开承认了Mythos的存在,确认其"太危险,无法公开发布"。这标志着主要AI实验室首次正式将其中的一个模型以安全为由归类为不可发布。 泄露事件发生数周后,又出现了 …
MCP装机量达9700万:Linux基金会接管开源治理
概述 截至2026年3月,Model Context Protocol (MCP) ——Anthropic发起的用于标准化AI模型如何连接外部工具和数据源的开放协议——已在开发者生态系统中突破 9700万次安装。 这一里程碑伴随着 Linux Foundation 的公告:它将把MCP纳入开放治理体系,将该协议从Anthropic的开源项目转变为社区管理的标 …
Gemini 3.1 Flash Image:多模态前沿能力登陆Vertex AI
概述 2026年2月25日,Gemini 3.1 Flash Image 出现在Google Vertex AI Catalog中——这是一款将文本理解、图像分析和生成能力整合在Google快速部署层的的多模态模型。该模型以Flash级别的成本和延迟提供了前沿级别的多模态性能,引人注目。 核心能力 图像理解:增强的视觉推理、图表解读、文档扫描 多模态推理:文 …
Google Lyria 3:AI音乐生成进入Gemini时代
概述 2026年2月18日,Google将其第三代AI音乐生成模型 Lyria 3 直接集成到Gemini平台。拥有Gemini访问权限的用户现在可以通过文字提示生成原创音乐作品,输出可作为可下载的音频文件。 Lyria 3代表了Google在AI音频生成方面的最新进展,与前代相比,在音乐连贯性、乐器保真度和提示遵循度方面都有所提升。 变化之处 在此集成之前 …
Claude Opus 4.6 & Sonnet 4.6:Anthropic双旗舰发布
概述 2026年2月,Anthropic向Claude 4系列推出了两个增量更新: Claude Opus 4.6 — 2026年2月5日:改进的工具使用、减少的拒绝、增强的Agentic任务性能 Claude Sonnet 4.6 — 2026年2月17日:面向高效性价比层级的生产级能力更新 主要改进 两个4.6更新共享一个共同主题:生产可靠性。具体改进包 …
苹果与Google Gemini合作:新一代Siri的诞生
概述 2026年1月12日,Apple确认Google Gemini将为下一代Siri AI功能提供支持,取代OpenAI的ChatGPT成为Apple语音助手的主要AI提供商。该合作被宣布为一项多年协议,Gemini将深度集成到iOS、macOS和Siri的新AI原生架构中。 据报道,这项交易对Google的价值达数十亿美元,使Gemini在全球使用最广泛 …
GPT-5:OpenAI最强大的模型与AGI宣言
概述 2025年8月7日,OpenAI发布了GPT-5——同时在ChatGPT(免费和付费)、API和GitHub Models Playground全面提供。它立即向所有ChatGPT用户免费开放,Pro用户不限量使用。 Sam Altman将GPT-5描述为**“通向AGI道路上的重要一步”**——这是OpenAI首席执行官首次在产品发布公告中使用AGI …
Claude 4:Anthropic的智能体前沿
概述 2025年5月22–23日,Anthropic同时发布了Claude Opus 4和Claude Sonnet 4——这是其迄今最强大的模型家族。此次发布标志着Anthropic定位的决定性转变:Claude不再主要是对话助手,而是为智能体工作而设计的AI,能够持续、多小时地自主完成任务。 Claude Opus 4在SWE-bench …
Llama 4:Meta押注开放权重与专家混合架构
概述 2025年4月5日——一个周六,不寻常的时机被广泛注意为刻意之举——Meta发布了Llama 4,推出了其首批采用**专家混合(MoE)**架构的模型。此次发布标志着相较于前几代Llama的重大架构转变,并确立了Meta作为专有前沿模型严肃竞争者的地位。 三款模型宣布发布: Scout:17亿激活参数/1090亿总参数;1000万词元上下文窗口 …
Gemini 2.5 Pro:谷歌思考模型登顶排行
概述 2025年3月25日,Google DeepMind以"实验性"预览版发布了Gemini 2.5 Pro——谷歌首个明确指定的思考模型,能够在给出最终答案之前通过扩展推理来解决问题。 发布后,Gemini 2.5 Pro立即以显著优势位列LMArena排行榜第一——这是谷歌模型首次领跑这一社区最受关注的对比评估。 基准表现 基准测试 得分 说明 …
Claude 3.7 Sonnet:Anthropic史上最强大模型
概述 2025年2月24日,Anthropic发布了Claude 3.7 Sonnet——首款将"扩展思考"作为一级、面向用户的生产模型。 与o1/o3的内部思维链推理(对用户隐藏)不同,Claude 3.7 Sonnet的思考过程是可见且可配置的。用户可以设置"思考预算"——从1,000到64,000个token——并实时观察模型推理复杂问题。 “10倍开 …
巴黎AI行动峰会:分裂的世界谈判AI的未来
概述 2025年2月10–11日,来自100多个国家的逾1,000名参与者齐聚巴黎大皇宫,出席AI行动峰会——这是继布莱切利公园(2023年)和首尔(2024年)之后的第三届系列峰会,由法国总统埃马纽埃尔·马克龙与印度总理纳伦德拉·莫迪共同主持。 峰会产生了一份由58个国家签署的联合声明。美国和英国显著地拒绝签署——这一裂痕揭示了布莱切利凝聚的国际AI治理共 …
OpenAI o3-mini:低成本推理模型发布
概述 2025年1月31日,OpenAI发布了 o3-mini ——一款为广泛API消费而定价的轻量级推理模型,同时在STEM基准上保持强劲表现。 与o3和DeepSeek R1等竞争对手的主要区别:o3-mini具有完整的网络浏览访问权限,使其成为同类中第一个能够将答案建立在当前信息基础上的推理模型。 定价 输入:约$0.55/百万token 输出:约 …
智能体AI的崛起:从聊天机器人到自主行动者
概述 2025年初,AI系统完成了一次质变:从对话助手(回答问题)跃升为自主智能体(采取行动)。三项标志性发布定义了这一转变: 2024年10月28日:Anthropic以公开测试版发布Claude计算机使用(Computer Use)——首个商业可用的、允许AI查看屏幕并控制键盘鼠标的API 2025年1月23日:OpenAI推出Operator——一个能 …
DeepSeek R1:中国AI的"斯普特尼克时刻"
概述 2025年1月20日,中国AI公司DeepSeek发布了R1——一个开源推理模型,在数学、编程和科学推理等标准基准测试上与OpenAI的o1并驾齐驱。该模型以MIT许可证发布,任何人均可免费下载、修改和部署。 该模型的训练成本约为600万美元——相比之下,性能相当的美国前沿模型估计耗资逾1亿美元。其计算量约为Meta Llama 3.1 405B的十分 …
特朗普AI去监管:美国选择速度胜于安全
概述 2025年1月20日——重返白宫的第一天——特朗普总统签署了第14179号行政令:《消除美国人工智能领导力的障碍》。该令明确撤销了拜登2023年10月AI行政令,后者曾要求AI公司在部署大型AI模型之前向联邦政府报告安全测试结果。 同日,DeepSeek R1在中国发布——这一并置塑造了2025年美国AI政策讨论的整体框架。 拜登令要求了什么 拜登 …
OpenAI o3:震惊行业的ARC-AGI突破
概述 2024年12月,OpenAI发布了 o3 ——一款在ARC-AGI基准上表现如此出色的模型,以至于它从根本上改变了AI研究界对迈向通用人工智能进展的评估方式。 ARC-AGI(抽象与推理语料库——通用人工智能)曾被称为"你从未听说过的最重要的测试"。由François Chollet于2019年设计,它测试系统解决新颖视觉和逻辑谜题的能力——这种推理 …
Gemini 2.0 Flash:Google多模态AI提速降价
概述 2024年12月11日,Google DeepMind发布了Gemini 2.0 Flash——一款将速度、成本效率和原生Agentic能力置于原始基准测试领导地位之上的模型。 与"思考模型"浪潮(o1、Claude 3.7扩展思考)不同,Gemini 2.0 Flash专为实时、多轮Agentic工作流设计:速度足够快以支持生产使用,成本足够低以实现 …
OpenAI o1 发布
概述 OpenAI o1(原代号 Strawberry)是一系列专为复杂推理任务设计的模型,通过大规模强化学习和思维链(Chain-of-Thought)技术实现了重大突破。 核心能力 数学奥赛金牌级:在美国数学邀请赛(AIME)中位列前 500 名 博士级科学推理:在 GPQA Diamond 生物学博士级别测试中超越人类专家 思维链推理:内部展开多步推理 …
推理时间缩放:AI能力的新前沿
概述 2024年9月12日,OpenAI发布了o1——一个引入了AI能力获取质变路径的模型:不再依赖扩大训练算力,而是扩展推理时间算力。o1在处理查询时被允许"思考"的时间越长,在高难度推理任务上的表现就越好。 这一概念——分别被称为推理时间缩放、测试时计算缩放或思维链缩放——成为2024–2025年的主导研究范式,催生了来自每家主要AI实验室的新一类"推理 …
Mistral Large 2 发布
概述 Mistral Large 2 是法国 AI 公司 Mistral AI 发布的旗舰模型,以 123B 参数实现了与 GPT-4o 相近的性能,同时保持了开源可定制的特性。 核心能力 高性能编程:MBPP 编程基准接近 GPT-4o 长上下文:支持 128K token 上下文 多语言:支持法语、德语、西班牙语等欧洲语言 开源许可:可商用,适合企业私有 …
Claude 3.5 Sonnet:Anthropic第三代模型发布
概述 2024年6月20日,Anthropic发布了Claude 3.5 Sonnet——一款定位介于轻量级Claude 3 Haiku和旗舰级Claude 3 Opus之间的模型,但在几乎所有对开发者重要的指标上都超越了两者。 Claude 3.5 Sonnet的与众不同之处不在于某个基准测试的头条成绩,而在于实际编码性能。在SWE-bench(软件工程基 …
GPT-4o 发布
概述 GPT-4o(“o"代表 omni)是 OpenAI 的旗舰多模态模型,能够实时处理和生成文本、音频和图像,无缝切换模态。 核心能力 原生多模态:单一模型处理文本、语音、图像、视频 实时语音对话:平均响应延迟 320 毫秒,接近人类对话节奏 情感感知:能识别和表达情感,语气更自然 图像理解:在多项视觉基准上超越 GPT-4V 影响 GPT-4o 将语音 …
Llama 3 发布
概述 Llama 3 是 Meta 发布的最强开源大语言模型,包含 8B 和 70B 两个版本,在推理、代码生成和指令遵循方面大幅超越前代。 核心能力 开源可商用:MIT 许可证,可自由用于研究和商业 超长上下文:支持 8K token 上下文 顶级代码生成:HumanEval 基准超越 GPT-3.5 多语言支持:训练语料涵盖 30+ 语言 影响 …
欧盟AI法案:全球首部综合性AI法律
概述 2024年3月13日,欧洲议会以523票赞成、46票反对通过了**《欧盟人工智能法案》**——全球首部综合性、具有约束力的AI系统法律框架。经过三年谈判和多轮修订(ChatGPT在2022年底的出现戏剧性地加速了这一进程),该法案建立了一套基于风险分级的监管架构,适用于在欧盟境内运营或向欧盟市场销售的任何AI系统。 该法案于2024年8月1日生效,大多 …
Claude 3 Opus 发布
概述 Claude 3 Opus 是由 Anthropic 开发的新一代大语言模型,在推理、代码生成和多模态理解方面达到顶级水平,评分全面超越 GPT-4。 核心能力 顶级推理:在研究生级别科学题和复杂数学题上表现超越 GPT-4 多模态:支持图像理解和分析 长上下文:支持 200K token 上下文窗口 更少幻觉:在多项事实准确性测试中显著优于前代 影响 …
Sora 发布
概述 Sora 是 OpenAI 发布的文生视频大模型,能够根据文本描述生成长达 60 秒的高清视频,标志着 AI 视频生成进入新纪元。 核心能力 超长视频:单次生成最长 60 秒 1080p 视频 多角色互动:支持多个角色在场景中自然互动 世界模型:能理解物理世界的因果关系 视频扩展:可将静态图像"动画化"为动态视频 影响 Sora 展示了 AI 理解和生 …
Gemini 1.5 Pro 发布
概述 Gemini 1.5 Pro 是 Google DeepMind 开发的多模态大模型,以突破性的 100 万 token 上下文窗口震撼业界。 核心能力 超长上下文:稳定支持 100 万 token,可一次性阅读整本书或代码库 多模态:无缝处理文本、代码、音频、视频 高效推理:以更小参数量实现接近 Gemini Ultra 的性能 原生支持音视频:可直 …
布莱切利宣言:28国就前沿AI风险达成共识
概述 2023年11月1日,28个国家的代表——包括美国、中国、欧盟和英国——在英格兰白金汉郡布莱切利园举办的首届AI安全峰会结束时签署了《布莱切利宣言》。布莱切利园正是二战期间阿兰·图灵和同事们破解纳粹德国Enigma密码机的历史性场所。 这份宣言是首个专门聚焦于前沿AI风险的国际政府协议——涉及当前技术能力边沿的最先进AI系统。其意义不在于其约束性条款( …
GPT-4 发布
概述 GPT-4,发布于2023年3月14日,代表了OpenAI自2020年GPT-3发布以来在大型语言模型能力上的最重大飞跃。与前身不同,GPT-4从设计上就是一个多模态系统,能够接受文本和图像输入,并在极其广泛的任务范围内产生文本输出。该模型在众多专业和学术基准测试中表现出人类水平或超人类水平的性能,在美国律师考试(90百分位)、LSAT(88百分位)以 …
ChatGPT:AI进入日常生活的那一刻
概述 2022年11月30日,OpenAI将ChatGPT作为免费研究预览版发布。五天内达到百万用户,两个月内达到一亿用户。没有任何消费技术曾经增长得这么快。 但ChatGPT的意义并不在于增长数据。它在于一件更难量化的事:有史以来第一次,一个通用AI系统对于普通人——而不仅仅是研究者——感觉真正有用、出人意料地有能力、令人震惊地像人。数十年来在大学实验室和 …
GitHub Copilot:AI成为软件开发者的同僚
概述 2022年6月21日,GitHub将GitHub Copilot作为商业产品正式推出——这是第一个触达数百万专业软件开发者的AI编程助手。它基于OpenAI Codex(GPT-3的一个变体,在公开代码库上微调),直接集成到VS Code等代码编辑器中,在开发者打字的同时实时建议完整的函数、类和文档。 这次发布标志着AI首次以工业规模被嵌入为专业知识工 …
InstructGPT:语言模型可以变得听话
概述 2022年1月27日,OpenAI发表了论文《用人类反馈训练语言模型遵循指令》——引入了InstructGPT。虽然ChatGPT要到2022年11月才发布,但InstructGPT才是使ChatGPT成为可能的基础技术工作。它引入了**RLHF(人类反馈强化学习)**作为将大型语言模型与人类意图对齐的主要方法。 关键洞察:仅通过下一个token预测训 …
AlphaFold 2:AI用两周解决了生物学五十年难题
概述 2020年11月30日,DeepMind宣布其AI系统AlphaFold 2在蛋白质结构预测方面达到了近实验精度——有效解决了困扰生物学界逾五十年的重大难题。 在CASP14(第14届蛋白质结构预测关键评估竞赛)上,AlphaFold 2的中位GDT(全局距离测试)得分高达92.4分(满分100分),高得让科学界一度质疑评估是否存在缺陷。结果并无缺陷。 …
规模化定律:让AI更聪明的实证科学
概述 2020年1月23日,OpenAI的研究人员发表了《神经语言模型的规模化定律》——一篇57页的实证研究,由Jared Kaplan、Sam McCandlish、Tom Henighan等人联合撰写。论文报告了一项将重塑整个领域的发现:语言模型的性能随三个关键变量的幂律函数可预测、平滑地提升:模型规模、训练算力和数据集大小。 这不是新架构,也不是新算法 …
《Attention Is All You Need》:Transformer架构
概述 2017年6月12日,Google Brain和谷歌研究院的研究人员发表了一篇题为《Attention Is All You Need》(注意力就是你所需要的一切)的论文。论文介绍了Transformer——一种神经网络架构,此后十年间,它成为几乎所有重要AI系统的基础:GPT、BERT、T5、DALL-E、Stable …
阿西洛马AI原则:研究界为自己立规矩
概述 2017年1月8日,约1,000名AI研究者和思想领袖在加利福尼亚州太平洋丛林市的阿西洛马会议中心汇聚一堂——这与1975年生物学家汇聚讨论重组DNA技术安全规范的地点相同。本次会议由生命未来研究所(FLI)组织,联合创始人为MIT物理学家Max Tegmark,顾问团包括Stuart Russell、Nick Bostrom和Elon Musk等人。 …
LSTM:长短期记忆网络
概述 1997年9月,塞普·霍赫赖特(Sepp Hochreiter)和于尔根·施密德胡伯(Jürgen Schmidhuber)在期刊《Neural Computation》上发表了题为《长短期记忆》的论文,引入了LSTM(Long Short-Term Memory)——一种专为学习序列数据中长期依赖关系而设计的循环神经网络架构,解决了标准RNN无法处理 …
深蓝击败卡斯帕罗夫:机器战胜世界冠军
概述 1997年5月11日,IBM的国际象棋计算机深蓝在一场六局对弈中以3.5比2.5击败了世界冠军加里·卡斯帕罗夫。这是历史上第一次,一台计算机在标准赛制条件下击败了在位的国际象棋世界冠军。 这场对弈受到全球数百万人的关注,并在互联网上进行了现场直播——这是最早在网上直播的全球重大事件之一。各大媒体头条将其称为AI的里程碑。卡斯帕罗夫,这位或许是历史上最伟 …