人工智能(AI)是一个跨学科的科学和工程领域,其核心目标是创造出智能机器,以区别于人类和动物的自然智能。
本文总结了《State of AI Report》权威报告中的 AI 的最新进展,理解这些维度,有助于我们把握 AI 的发展方向及其对未来的意义。
在 AI 的浪潮中,涌现出许多关键概念:
- 通用人工智能 (AGI) 与超人工智能 (ASI): 虽然目前尚无统一的定义,但它们通常描述能够匹配 (AGI) 甚至超越 (ASI) 人类在所有有经济价值任务上的认知能力的机器。
- 大语言模型 (LLM):它是 AI 领域的“基石”之一,通过在海量文本数据上进行训练,以预测下一个词的方式实现自监督学习。
- Transformer 架构:这是大多数最先进 (SOTA) 机器学习研究的核心模型结构。它由多个“注意力”层组成,能够学习输入数据中对特定任务而言最重要的部分。
- 生成式 AI (Generative AI):一类能够基于“提示 (Prompt)”(用户输入的自然语言指令)生成新内容(如文本、图像、音频)的 AI 系统。
- 扩散模型 (Diffusion):一种在近年来推动图像生成和蛋白质设计前沿的算法。它通过迭代去噪一个人工破坏的信号,以生成高质量的新输出。
- AI 智能体 (AI Agent):这是一个能够在环境中采取行动的 AI 驱动系统。例如,一个 LLM 通过访问工具(如搜索、计算器)来决定如何完成被提示的任务。
- 强化学习 (RL):一种机器学习方法,软件智能体通过在环境中试错来学习目标导向的行为,环境会根据其行为(策略)提供奖励或惩罚。智能体在环境中经验的轨迹 (Trajectories) 会用于其学习。
- 推理模型 (Reasoning model):这类模型在生成输出时会规划和验证其思维过程。它们显式的分步推理轨迹被称为思维链 (Chain of Thought, CoT)。
2024年预测回顾:AI 模型的推理竞赛
OpenAI 发布了 o1-preview,这是第一个展示推理时计算 (inference-time scaling) 的推理模型。

o1 利用强化学习 (RL),并将思维链 (CoT) 作为暂存器 (scratch pad) ,有效地在推理阶段投入更多计算资源。
DeepSeek R1-lite-preview 的亮相
模型基础: R1-lite-preview 建立在 DeepSeek 强大的 V2.5 基础模型之上。
性能突破: 与 o1 类似,它通过增加测试时计算预算在 AIME 上取得了可预测的准确率提升。
惊人成绩: R1-lite-preview 在 AIME 2024 pass@1 上的得分是 52.5,超过了 o1-preview 的 44.6。尽管表现出色,但市场(尤其是华尔街)的关注度相对较低。

DeepSeek V3 基座模型
架构: 一个强大的 671B 参数的 MoE (Mixture-of-Experts) 模型。
成本优化: 通过使用 FP8 混合精度、多令牌预测 (multi-token prediction) 和无辅助路由 (auxiliary-free routing),显著降低了训练和推理成本。
DeepSeek R1-Zero 推理模型
R1-Zero 仅使用强化学习 (RL) 进行训练,采用了创新的无需批评者 (critic-free) 算法:群组相对策略优化 (GRPO),并使用可验证的奖励。
简化的奖励机制: 采用“思考 → 回答”格式,使用简单的、基于规则的奖励来判断最终答案的正确性。这比学习型神经奖励模型更便宜、更难被欺骗。
GRPO 的创新:GRPO 通过比较同一组内多个采样答案来形成相对基线,从而不需要一个单独的价值头 (value head) 或奖励模型。
训练效果: 在约 8.5k 步的训练中,R1-Zero 的 AIME 得分从 15.6% 跃升至约 71% ,多数投票运行的结果达到了 o1-0912 的水平。
R1 最终版: 通过小规模的 CoT 热启动、语言一致性奖励和最终的 RL 过程修复了可读性,AIME 进一步提高到 79.8,并在 MATH-500(97.3)和 GPQA(71.5)等基准测试中表现优异,且易于蒸馏到更小的模型中。
DeepSeek V3.1:混合思维模式
引入了混合思维模式 (hybrid thinking mode),可以在深度推理和轻量级推理之间切换。
与 R1 和 V3 相比,其“思考”效率更高,同时工具使用和多步智能体工作流的能力也大幅提升。

DeepSeek V3.2-Exp:稀疏注意力与低成本
在 V3.1 的行为基础上,将密集注意力替换为 DeepSeek 稀疏注意力 (DSA)。
“闪电索引器 (lightning indexer)” 只会选取 Top-k 个过去的令牌进行关注。
效果: 在编码/搜索/智能体任务上与 V3.1 保持相近的能力,但在 32K–128K 的长上下文场景中,预填充 (prefill) 和解码 (decode) 成本和延迟明显降低。
智能前沿的竞争格局:差距正在缩小
尽管过去一年在推理领域竞争激烈,但报告指出,OpenAI 的 GPT-5 变体仍在智能前沿保持领先地位。然而,差距正在迅速缩小。

持续领先者:OpenAI 的 GPT-5 变体 在独立排行榜上继续主导,设定着智能的步伐。
快速追赶者阵营:
- 中国的快速发展的开源 (open-weights) 阵营,以 DeepSeek、Qwen、Kimi 为代表。
- 美国的闭源 (closed-source) 阵营,包括 Gemini、Claude、Grok。
在推理/编码等关键指标上,追赶者阵营与 OpenAI 模型的得分差距仅在几分之内。 虽然美国实验室的领导地位依然存在,但中国显然是第二大力量;同时,开源模型现在提供了一个可信赖的快速跟进基础 (fast-follower floor)。
最近的推理方法所带来的改进完全落在基线模型的方差范围之内(即误差幅度内),这表明所谓的推理进步可能是虚假的。
例如,AIME '24 只有 30 个例题,一个问题的变化可能导致 Pass@1 性能波动超过 3 个百分点,从而引发两位数的性能摆动。
在标准化评估下,许多 RL 方法的性能比报告结果下降 6% 到 17%,并且与基线模型相比没有统计学意义上的显著改进。
AI 增强数学时代的到来
由于数学是可验证的领域,AI 系统可以规划、计算并检查每一步,这使得 2025 年在竞技数学和形式化证明系统方面取得了重大突破。
Thinking Machines 的工作表明,即使使用 rank-1 Low-Rank Adaptation (LoRA) 适配器,RL 也能匹配全量微调的性能。

LoRA 的优势: 它只更新少量适配器,将可训练参数从数十亿减少到数百万,从而将梯度和优化器状态缩小 10–50 倍。
预算效率: 在相同的预算下,可以将模型从 7-13B 类别升级到更大的 30-70B 类别,或适应更长的上下文或更大的批次。这是因为 RL 提供的每回合信息量很少,即使是微小的适配器也有充足的容量来吸收这些信息。
训练效率:优化器与内存管理的新进展
Muon 是第一个挑战七年王者 AdamW 的优化器,它扩展了计算-时间帕累托前沿。

效率提升: 在大批量大小(128K-16M)下,Muon 比 AdamW 少需要 10-15% 的令牌,从而实现更快的训练。
经济影响: 这种 10-15% 的令牌效率增益在规模上可以节省数百万美元。同时,它结合了 maximal update parameterization (muP) 和伸缩性 (telescoping),使二阶优化在经济上变得可行。
Sora 2:迈向可控的“世界模拟器”
OpenAI 的第二代 Sora Sora 2 在可控性、物理性和音频集成方面实现了重大飞跃。

音视频同步: 模型经过大规模视频的训练和后训练,能够实现对话和声音的同步生成,增强了场景的可信度。
场景连贯性与物理性:物体追踪和因果关系更加一致,多镜头场景的链接更加紧密,肢体和材料的行为更符合物理规律。
视觉解决文本基准: Sora 2 可以通过“可视化”来解决文本基准,例如在 GPQA Diamond 样本测试中,通过生成“教授举起答案字母”的视频,准确率达到了 55%(尽管仍低于 GPT-5 的 72%)。这可能依赖于一个提示重写 LLM 层先解决问题,再将解决方案嵌入到视频提示中。
基准测试的困境与模型的内在缺陷
当前的基准测试面临着操纵、数据垄断和测试集污染的严重问题,使得排行榜结果的可靠性受到质疑。

LMArena 的系统性操纵: Meta 被发现测试了 27 个 Llama-4 内部变体,然后“挑出最佳者”,表明测试多个模型变体本身就能带来显著的分数提升(例如 10 个变体带来 100 分的提升)。
数据垄断与污染:
- OpenAI 和 Google 占据了 40% 的 Arena 数据,而 83 个开源模型仅争夺 30% 的数据。
- 大科技公司对测试数据的访问权是学术实验室的 68 倍。
- 由于 7.3% 的提示被循环使用,且测试分布反映了开发者的兴趣(如大量《星际迷航》问题,零乔叟问题),在 Arena 数据上训练模型可使胜率翻倍。
AI 代理:协议、框架与研究前沿
模型上下文协议 (MCP) 由 Anthropic 在 2024 年底引入,现已迅速成为连接模型、数据、工具和应用程序的行业标准,被称为 AI 工具的“USB-C”。

行业采纳: 2025 年,OpenAI(在 ChatGPT、Agents SDK、API)、Google(Gemini)、Microsoft(VS Code、Windows、Android Studio)等主要平台全面采纳了 MCP。
功能与优势: MCP 提供了一个通用规范,实现了跨客户端的统一集成,取代了各种一次性连接器。它还支持工具发现、资源共享和提示。
市场地位: 数据显示,MCP 协议在研究论文中的引用量是 Google 竞争协议 A2A 的 3 倍。
尽管 MCP 统一了协议,但代理框架生态系统却呈现出“有组织的混乱”,数十个相互竞争的框架共存,各自在特定领域占据一席之地。
| 框架 | 主要功能或定位 |
|---|---|
| LangChain | 仍受欢迎,但已成为众多框架之一。 |
| AutoGen / CAMEL | 统治 R&D 领域,AutoGen 擅长多代理 + RAG,CAMEL 专注于基于角色的对话。 |
| MetaGPT | 在软件工程中表现突出,将代理转化为结构化的开发工作流。 |
| DSPy | 研究优先的框架,用于声明式程序合成和代理管道。 |
| LlamaIndex | RAG 工作流的基石,特别适用于企业文档。 |
| LangGraph | 基于图的编排,受到注重可靠性和可观测性的开发者青睐。 |
| Letta / MemGPT | 探索记忆优先的架构,将持久性记忆视为框架的基本元素。 |
AI 商业化与市场格局
AI 已从利基市场转变为投资和创业世界的主流。
- 顶级公司占比激增: 在 Specter 对全球 5500 万家私人公司的排名中,AI 公司目前占前 100 名最佳公司的 41%(而 2022 年仅占 16%)。
- 投资人兴趣爆炸: 在 ChatGPT 发布后,投资人与创始人之间的实时互动数据激增,比 2020 年增长了 40 倍。
Google 报告称,每月处理的 Token 量同比增长 50 倍,最近达到每月一千兆 (Quadrillion) 个 Token。OpenAI 也报告了类似的增长。延迟改善、推理价格下降、更好的推理模型、更长的用户交互以及不断增长的 AI 应用套件共同推动了 Token 需求的激增。

本文转自:Coggle数据科学,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。





