2025年4月,斯坦福2025HAI报告重磅发布。由李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2025 年人工智能指数报告》(Artificial Intelligence Index Report 2025)。这份长达 456 多页的报告是 Stanford HAI 发布的第 8 份 AI Index 研究,追踪了 2024 年全球人工智能(AI)行业的发展趋势。今年的报告新增了对 AI 硬件发展状况的深入分析、对推理成本的新估算,以及对 AI 出版和专利申请趋势的分析。他们还引入了有关企业采用负责任的 AI 实践的最新数据,并扩大了对 AI 在科学和医学中日益重要作用的报道。
以下是该报告主要要点:
01. AI在严苛基准测试中的表现持续提升

2023年,研究人员引入了新的基准测试——MMMU、GPQA和SWE-bench,以测试先进AI系统的极限。仅仅一年后,其表现大幅提升:在MMMU、GPQA和SWE-bench上的得分分别提高了18.8、48.9和67.3个百分点。除基准测试外,AI系统在生成高质量视频方面取得了重大进展,并且在某些场景下,语言模型智能体甚至在有时间限制的编程任务中超过了人类。
02. AI日益融入日常生活

从医疗保健到交通运输,AI正迅速从实验室走向日常生活。2023年,美国食品药品监督管理局(FDA)批准了223种AI赋能的医疗设备,而2015年仅为6种。在道路上,自动驾驶汽车已不再是实验性项目:美国最大的运营商之一Waymo每周提供超过15万次自动驾驶服务,而百度经济实惠的Apollo Go机器人出租车队现已服务于中国众多城市。
03. 企业全力投入AI,推动创纪录的投资和使用,研究持续显示其对生产力的强大影响

2024年,美国私人AI投资增长至1091亿美元——几乎是中国93亿美元的12倍、英国45亿美元的24倍。生成式AI势头尤为强劲,全球私人投资达到339亿美元,较2023年增长18.7%。AI的商业应用也在加速:2024年有78%的组织报告在使用AI,高于前一年的55%。与此同时,越来越多的研究证实,AI能提高生产力,并且在大多数情况下有助于缩小劳动力技能差距。
04. 美国仍在顶级AI模型生产方面领先,但中国正在缩小性能差距

2024年,美国机构推出了40个引人注目的AI模型,而中国为15个,欧洲为3个。尽管美国在数量上保持领先,但中国模型在质量上迅速缩小了差距:在MMLU和HumanEval等主要基准测试上的性能差异从2023年的两位数缩小到2024年的几乎持平。中国在AI出版物和专利方面继续领先。模型开发日益全球化,中东、拉丁美洲和东南亚也有了引人注目的成果发布。
05. 负责任AI生态系统不断发展——但进展不均衡

与AI相关的事件急剧增加,但在主要工业模型开发者中,标准化的负责任AI(RAI)评估仍然很少。然而,像HELM Safety、AIR-Bench和FACTS等新基准为评估事实性和安全性提供了有前景的工具。在企业中,认识到RAI风险与采取有意义行动之间仍存在差距。相比之下,各国政府表现出了更强的紧迫感:2024年,全球在AI治理方面的合作加强,经济合作与发展组织(OECD)、欧盟(EU)、联合国(U.N.)和非洲联盟(African Union)等组织发布了专注于透明度、可信度和其他核心负责任AI原则的框架。
06. 全球对AI的乐观情绪上升——但地区差异仍然很大

在中国(83%)、印度尼西亚(80%)和泰国(77%)等国家,绝大多数人认为AI产品和服务利大于弊。相比之下,加拿大(40%)、美国(39%)和荷兰(36%)等地的乐观情绪仍然较低。不过,人们的态度正在转变:自2022年以来,包括德国(+10%)、法国(+10%)、加拿大(+8%)、英国(+8%)和美国(+4%)在内的一些此前持怀疑态度的国家,乐观情绪显著增加。
07. AI变得更高效、更实惠且更易获取

受日益强大的小型模型推动,性能达到GPT - 3.5水平的系统的推理成本在2022年11月至2024年10月期间下降了超过280倍。在硬件层面,成本每年下降30%,能效每年提高40%。开源模型正在缩小与闭源模型的差距,在某些基准测试中,性能差异在短短一年内从8%降至仅1.7%。这些趋势共同迅速降低了先进AI的使用门槛。
08. 政府在AI方面加大行动力度——通过监管和投资

2024年,美国联邦机构推出了59项与AI相关的法规——数量是2023年的两倍多,且发布法规的机构数量也翻了一番。全球范围内,自2023年以来,75个国家在立法中提及AI的次数增加了21.3%,较2016年增长了九倍。随着关注度的提高,各国政府也在大规模投资:加拿大承诺投入24亿美元,中国启动了475亿美元的半导体基金,法国承诺投入1090亿欧元,印度承诺投入12.5亿美元,沙特阿拉伯的“超越计划”是一项规模达1000亿美元的举措。
09. AI和计算机科学教育正在扩展——但获取机会和准备程度方面的差距仍然存在

如今,三分之二的国家提供或计划提供K - 12计算机科学(CS)教育——数量是2019年的两倍,非洲和拉丁美洲取得了最大进展。在美国,过去十年中计算机科学学士学位毕业生数量增长了22%。然而,在许多非洲国家,由于电力等基本基础设施存在差距,获取教育的机会仍然有限。在美国,81%的K - 12 CS教师认为AI应成为基础CS教育的一部分,但不到一半的教师认为自己有能力教授相关内容。
10. 行业在AI领域遥遥领先——但前沿竞争日益激烈

2024年,近90%的引人注目的AI模型来自行业,高于2023年的60%,而学术界仍是高被引研究的主要来源。模型规模继续快速增长——训练计算量每五个月翻倍,数据集每八个月翻倍,功耗每年翻倍。然而,性能差距正在缩小:排名第一和第十的模型之间的Elo技能得分差异在一年内从11.9%降至5.4%,排名前两位的模型之间仅相差0.7%。前沿领域的竞争日益激烈,也越来越拥挤。
11. AI因其对科学的影响荣获殊荣

AI的重要性日益凸显,这在重大科学奖项中得到了体现:两项诺贝尔奖表彰了推动深度学习(物理学)及其在蛋白质折叠应用(化学)方面的工作,图灵奖则授予了强化学习领域的开创性贡献。
12. 复杂推理仍是一项挑战
AI模型在国际数学奥林匹克竞赛等问题上表现出色,但在PlanBench等复杂推理基准测试中仍面临困难。即使存在可证明的正确解决方案,它们也常常无法可靠地解决逻辑任务,这限制了其在精度至关重要的高风险场景中的有效性 。

1. 斯坦福大学《2025人工智能指数报告》原文来源于:
https://hai.stanford.edu/ai-index/2025-ai-index-report
2. 本文转自上海智慧城市发展研究院,翻译由腾讯元宝AI提供支持。