在本周的五分钟星期五节目中,Jon Krohn 揭示了斯坦福大学人工智能指数报告的亮点。这份年度报告由以人为本的人工智能研究所几周前发布,详细介绍了人工智能领域令人难以置信的技术进步、政策和投资。听听 Jon 的五个主要要点,了解哪些模型相对于其规模实现了最佳性能,顶级 AI 系统在哪些情况下能够胜过人类(以及人类何时仍然胜过 AI),等等。
<raw_text>0 这是第 890 集,主题是 2025 年人工智能的现状。欢迎回到 Super Data Science 播客。我是您的主持人 Jon Krohn。在今天的 5 分钟
五分钟星期五节目中,我将介绍 2025 年版著名人工智能指数报告的五个最大收获,该报告几周前由斯坦福大学以人为本的人工智能研究所发布。这份广受欢迎的报告(通常被称为人工智能现状报告)每年都会涵盖最大的技术进步、基准测试的新成就、流入人工智能的投资等等。我们在节目说明中提供了通往完整报告的链接。
今天的节目将涵盖由我本人精心挑选的五个最重要的项目。首先,小型模型变得更好得多。是这样的,在 2022 年,谷歌的一个名为 Palm 的模型拥有 5400 亿个模型参数,是 MMLU(大型语言模型的一个非常常见、非常重要的基准)得分超过 60% 的最小模型。
两年后的 2024 年,微软的 Fi 3 Mini 在只有 38 亿个参数的情况下实现了相同的性能阈值。因此,我们从 5400 亿个参数减少到大约 40 亿个参数,以获得相同的有效性,相同的性能,这代表着两年内模型大小减少了 142 倍。这太疯狂了。是的。
在两年内,我们只需 1% 的模型大小就能获得相同的结果。好的。我的第二个收获是,模型不仅在尺寸方面变得更好,大型语言模型的运行成本也大大降低了。使用具有 GPT 3.5 等效性能的 AI 模型(即在 MMLU 上达到 65% 的准确率)的成本,但是
成本从 2022 年 11 月的每百万个标记约 20 美元下降到 2024 年 10 月的每百万个标记仅 0.07 美元。这是使用谷歌的 Gemini 1.5 Flash 8B。这代表着大约 18 个月内成本降低了 280 倍。
根据任务的不同,从 2023 年到 2024 年,大型语言模型推理价格每年下降了 9 倍到 900 倍。太疯狂了。
第三,由这些越来越强大、越来越经济的大型语言模型驱动的 AI 智能体显示出巨大的前景。2024 年,推出了一种名为 REbench 的新基准,它为评估 AI 智能体在复杂任务上的表现提供了一种严格的方法。
在短期内(两个小时或更短),顶级 AI 系统的得分比人类专家高四倍或更高。但即使在今天,在较长时间范围内,人类的表现仍然优于 AI,在 32 小时的时间点上,人类的得分是 AI 的两倍。
尽管如此,AI 智能体已经在某些任务中与人类专家的水平相当,例如编写特定类型的代码,同时提供更快的结果。这一结论是,AI 智能体已经能够处理许多复杂的任务,包括需要几分钟甚至一两个小时的任务,并且在这些任务上胜过人类。
如果明年我们谈论的是 AI 智能体可以在 12 小时或更长时间内胜过人类,我不会感到惊讶。
好的,我的第四个收获是,AI 模型能力的增强和价格的降低导致企业大量使用 AI。调查数据显示,组织对 AI 的采用率显著增长,受访者报告称,公司范围内的 AI 实施率从 2023 年的约一半
增长到 2024 年的 78%。同样,表示在业务职能中使用生成式 AI 的参与者百分比也大幅增加,从 2023 年的 38% 上升到次年的 71%。因此,从 2023 年使用生成式 AI 的企业明显少数,到 2024 年几乎四分之三的企业使用它。
最后,随着所有这些企业对 AI 的使用,风险投资公司对 AI 的私人投资在
2024 年达到前所未有的高度,这或许并不令人意外。仅在美国,2024 年对 AI 的私人投资就达到 1090 亿美元,超过了 2021 年约 200 亿美元的峰值。因此,绝对是压倒性的,创下了 2024 年私人投资的新高。在欧洲,2024 年对 AI 的私人投资也达到了新的高度,尽管不到当年的美国投资的五分之一
达到 190 亿美元。有趣的是,自 2021 年达到约 250 亿美元的私人投资峰值以来,中国与美国和欧洲的趋势背道而驰。自那以后,中国对 AI 的投资每年都在下降,现在仅为 90 亿美元,不到欧洲私人投资的一半,不到 2024 年美国私人投资 AI 的十分之一。