We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

A Promising Alternative Way to Improve LLM Performance

2024/11/16

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript

People

NLW

知名播客主持人和分析师，专注于加密货币和宏观经济分析。

NotebookLM

Topics

NLW 指出，传统的 AI 模型缩放方法似乎遇到了瓶颈，模型的性能提升不如预期。NotebookLM 介绍了 MIT 的一项新研究，该研究探索了一种名为“测试时训练”（Test Time Training，简称 TTT）的新方法。TTT 的核心思想是在 AI 执行特定任务之前，对其进行额外的训练，类似于考前练习。研究人员将 TTT 应用于 ARC（抽象与推理语料库）—— 一系列旨在测试 AI 抽象推理能力的视觉谜题。结果表明，使用 TTT 的中等规模语言模型在 ARC 上实现了 25% 的性能提升，结合 TTT 和混合方法（神经网络和符号推理）甚至达到了人类平均水平。TTT 的有效性源于三个关键因素：初始训练与目标任务的结构相似性、增强型任务格式和数据，以及针对每个谜题训练单独的适配器。此外，TTT 在未经 AI 生成数据训练的模型上效果最佳。这表明 AI 生成的数据可能缺乏真实世界的复杂性。TTT 不仅比盲目扩大模型规模更有效地提升 AI 性能，还注重提高 AI 的智能和适应性。TTT 在科学研究、软件开发和教育等领域具有巨大的应用潜力。 NotebookLM 认为，TTT 预示着 AI 设计和使用方式的变革，未来可能在于更小、更专业的 AI 系统，它们能够学习和适应特定任务和环境，更像是合作伙伴而非工具。TTT 可以使 AI 更个性化、更贴近人类需求，并融入日常生活。NLW 补充道，AI 快速学习和适应能力引发了对其控制和可预测性的担忧，需要确保 AI 的安全性和负责任的使用。

Deep Dive

Chapters

ChatGPT's new feature allows it to read from certain apps on Mac, enhancing its capabilities as a coding copilot and potentially paving the way for more general applications of this capability.

ChatGPT can now read from leading developer-focused coding applications.
This feature uses Apple's accessibility API to read and translate the screen.
OpenAI sees this as a key building block towards creating agented systems.

Shownotes Transcript

今天，在AI每日简报中，我们将简要介绍一篇关于测试时训练的MIT新论文，该论文是最近关于缩放限制讨论的重要组成部分。在此之前，在头条新闻中，ChatGPT现在可以从Mac上的应用程序读取。AI每日简报是一个每日视频播客，涵盖AI领域最重要的新闻和讨论。

要加入讨论，请查看我们显示的笔记中的链接。欢迎回到AI每日简报头条新闻版块。您需要的所有每日AI新闻，都在大约五分钟内。

我们今天从OpenAI的更新开始，ChatGPT现在可以直接从某些其他应用程序读取。ChatGPT的Mac应用程序现在可以从一些领先的开发者关注的编码应用程序中读取，包括VS Code、Xcode、文本终端和Item等。这意味着开发人员在使用ChatGPT作为编码协作工具时，不再需要复制粘贴代码。

相反，当启用此新应用程序功能时，正在工作的代码部分将自动发送到您的提示聊天中。ChatGPT无法直接将代码写入开发人员的苹果光标，就像协作工具一样，但该功能更侧重于构建测试用例，以应用于更广泛的应用程序。

OpenAI表示，理解其他应用程序的能力是构建代理系统的重要组成部分。该功能借鉴了苹果的辅助功能API，用于读取和翻译屏幕。这意味着该技术仅适用于包含文本的应用程序。

然而，它也避免了使用基于视觉的输入，这对于大量使用来说成本过高。尽管如此，未来可能会将两行代码作为上下文发送，因此它将使用大量标记。目前尚不清楚OpenAI计划如何使未来与不使用苹果屏幕阅读器的应用程序兼容。

Anthropic之前采取了完全相反的方法，使用持续拍摄屏幕截图作为上下文，而不是依赖OpenAI的产品。Alexander说道。这并非旨在成为一个代理。

它是一种与编码工具协作的方式，很快会有更多工具出现。关于代理，我认为这是一个非常关键的组成部分。ChatGPT理解或能够处理您拥有的所有内容的想法，因此它可以提供帮助。

该功能已面向Plus团队用户开放，并将在未来几周内向企业和教育用户推出。接下来是来自Elon和XAI的最新消息，我们之前听说他们正在筹集高达60亿美元的资金，但我们现在有了更多细节。最新的报告显示，这正在以500亿美元的估值进行，并且可能在下周内完成。

CNBC建议，这将是来自主权基金的50亿美元以及其他投资者的10亿美元的组合。当然，大部分资金最终都会进入Jensen Huang的口袋，因为这笔钱将用于收购10万块视频芯片，根据CNBC的消息来源，我们将密切关注这笔交易是否最终完成。

谈到数据，咨询公司Gartner在一份新报告中警告称，AI能源危机可能很快到来。该公司表示，未来几年，电力短缺将限制40%的AI数据中心。Gartner分析师Bob Johnson表示，新兴的超大规模数据中心为了部署生成式AI而迅速扩张，正在创造出对电力的 insatiable 需求，这将超过公用事业提供商的扩张速度。

反过来，这威胁着能源供应的可用性，并导致短缺，这将限制新数据中心（用于生成式AI和其他用户）的增长，Gartner表示。去年新服务器的电力需求为195太瓦时，相当于2027年美国1800万户家庭的用电量。他们认为，仅新设施的需求就将达到500太瓦时。我的朋友们，这就是为什么所有大型AI实验室都如此关注能源和能源解决方案的原因。

在员工调动方面，著名的AI开发人员France Washlay在谷歌工作了近十年后离职。他因创建了用于处理机器学习任务的高级开源平台而闻名。该平台拥有超过200万用户，支撑着一些知名产品，包括Waymo的自动驾驶算法以及YouTube和Spotify的推荐引擎。他在X上的一篇文章中写道：“我很感激我在谷歌的十年，这段经历非常宝贵。”

机器学习从一个利基学术主题发展成为一个雇佣数百万人的庞大产业，Carries从少数千名爱好者使用的一个小库发展成为由200万开发人员使用的最先进框架。他说，他计划与一位朋友一起创办一家新公司，但没有提供更多细节。除了在2019年发布抽象和推理语料库（AGI）和Arc AGI基准之外，该基准在今天的节目中也占有突出地位，它衡量AI系统解决新颖推理问题的能力。

他的工作是今年标志着模型达到真正AGI的最显著标志之一。他与他人合作推出了Arc奖，向第一个在该基准上达到85%分数的团队颁发10亿美元奖金。该奖项仍然有效，目前最接近的分数为42%。

Charle对最近再次引起关注的缩放问题也持明确观点。他经常争辩说，当前通过向模型提供更多数据和计算资源来训练模型的方法不太可能实现与人类一样聪明的AI。相反，他认为涉及以更具推理方式的方法更有可能产生结果。

我认为这完美地引出了我们今天要讨论的主要内容，即来自MIT的一篇论文，它为像测试时计算这样的新策略增添了一些活力，这将成为我们今天的AI每日简报头条新闻版块的主题。接下来是今天的重点节目，由Vanta赞助。

无论您是刚开始还是正在扩大您的公司安全计划，展示最佳安全实践并建立信任比以往任何时候都更加重要。Vanta自动化了ISO 27001、SOC 2、GDPR以及领先的AI框架（如ISO 42001和NIST AI风险管理框架）的合规性，节省您的时间和金钱，同时帮助您建立客户信任，此外，您可以通过自动化问卷调查来简化安全审查，并通过面向客户的信任中心来展示您的安全姿态。Vanta为全球超过8000家公司提供支持，例如LangChain、Lea AI和Factory AI，使用Vanta来展示AI信任，实时改进安全性，了解更多信息，请访问vanta.com/nlw。

今天的节目，一如既往地由Super Intelligence赞助。您是否曾经想要一个AI每日简报，但完全专注于AI与您公司的关系？您的公司是否在AI采用方面遇到困难，无论是部署、确定哪些用例能够创造价值，还是因为AI转型孤立了各个团队、部门和员工，而无法改变整个公司？Super Intelligence开发了一个新的内部客户播客产品，通过分享公司内外最佳的AI用例来激励您的团队。

您可以将其视为AI每日简报，但仅针对您公司的AI用例。如果您想了解更多信息，请访问superintelligence.com/partner并填写信息请求表。我对这个产品非常兴奋，我会亲自尽快回复您。访问superintelligence.com/partner。

欢迎回到今天的AI每日简报。我们今天做了一些不同的事情，我认为这将非常有趣。过去一周或两周，一个重要的讨论点是实验室是否在使用之前的缩放方法时遇到了瓶颈。

基本上，有报告指出，下一代生成式AI以及下一代ChatGPT和OpenAI的下一个GPT模型并没有体现出像以前那样巨大的飞跃。如果您想了解更多背景信息，本周早些时候的几期节目都专门讨论了这些限制。然而，这里需要注意的重要一点是，这并非意味着AI无法获得更多性能。

关键在于需要哪些技术和策略才能实现下一个飞跃。一种看起来非常有前景的策略被称为测试时计算。这是OpenAI发布的一个推理模型中包含的部分内容。

本周来自MIT的论文题为“测试时训练对抽象推理的惊人有效性”。现在，任何这些论文发布时面临的挑战都是它们非常密集且非常技术性。然而，我们有自己的资源来更好地理解这些内容。因此，我将把AI每日简报转交给Google的NotebookLM，我与他们合作创建了一个关于这篇论文的对话式播客。

我不是想让自己失业，但我认为您会同意，这是利用Google新功能的强大方式，使获取像这篇论文中这样抽象且密集的信息变得更容易获得。因此，我将把节目交给Nopa Allam。感谢各位收听，以及对测试时训练的讨论。

感觉一段时间以来，AI的发展速度非常快，特别是像OpenAI和Google这样的公司推出的大型语言模型，似乎每隔几个月就会出现一些令人惊叹的新功能。但是最近，我不知道，有一种感觉，也许最初的进步浪潮开始放缓了。也许仅仅让这些模型变得更大并不是全部答案。

是的。有趣的是，这种“更大更好”的AI方法可能正在遇到一些限制。我们在OpenAI的发布中看到了这一点，GPT-4是最近的一个例子，甚至包括Google的生成式AI，对吧？

您可能会认为，随着每个新版本的发布，这些能力的飞跃会越来越大。但是我读到了一些非常有趣的内容，它指出，虽然GPT-4相对于GPT-3来说确实是一个巨大的飞跃，但从GPT-4到其后续版本Ryan的改进实际上要小得多。这就像它们正在撞上某种根本性的障碍。

是的，这是很多人提出的问题，如果仅仅将更多数据和计算能力投入到问题中不是答案，那么答案是什么？这就是为什么我认为来自MIT的这项新研究如此有趣。他们正在探索一种完全不同的方法来使AI变得更聪明，他们称之为测试时训练。

好的，测试时训练听起来有点像，这不是训练AI使其准备好执行任务的全部要点。那么这里的想法是什么？

从这个角度思考这个问题。想象一下，您即将参加一场重要的考试。您已经学习了材料，掌握了基础知识，但是您做了几道练习题来准备考试，以便真正提高技能，并专注于您可能遇到的特定类型的问题。这有点像测试时训练或TT训练对AI的作用。

因此，与其仅仅依赖最初的训练，他们正在为AI在处理特定任务之前提供额外的提升。

MIT的研究人员将这一想法应用于一个特别具有挑战性的问题集，称为抽象和推理语料库（ARC）。它基本上是一系列视觉难题，旨在测试AI解决从未见过的问题的能力，以真正扩展其抽象能力。

他们真的仔细研究了一些ARC难题。虽然他们没有回避关于思维体操的讨论。

是的，它们涉及诸如模式识别和应用逻辑规则，甚至一些空间推理。它们的设计非常困难，即使对于我们人类来说也是如此。

那么AI在进行测试时训练后表现如何？这些练习题真的有帮助吗？

当然有帮助。研究人员发现，通过使用TT训练一个参数约为80亿的参数相当适度的语言模型，他们在ARC上的结果比以前最好的结果提高了25%，这是一个显著的飞跃。但更令人瞩目的是，通过将TT训练与结合神经网络和符号推理的混合方法相结合，他们实际上达到了平均人类在这些难题上的表现。

等等，他们让AI在这些非常复杂的视觉推理任务中表现得与普通人一样好，仅仅是事先让它进行了一次“练习”。这太不可思议了。

这真是令人震惊。这真的挑战了我们对AI学习和适应方式的一些假设。但真正的问题是，是什么让测试时训练如此有效？特别是，在这项研究中，MIT的研究人员实际上确定了三个关键因素，这些因素似乎使TT训练特别有效。首先，他们发现，如果AI模型最初是在与目标任务（在本例中为ARC难题）具有某些潜在结构的任务上进行训练，那么这真的会有所帮助。

这就像给AI一个先发优势，一个可以用来在测试时训练期间建立的基础知识。

正是这种初始训练可以使模型在测试时训练阶段快速有效地学习。第二个因素是他们所说的增强任务格式数据。基本上，他们非常巧妙地从测试输入本身创建新的训练数据。

因此，与其让AI直接面对全新的问题，不如先让它在池中进行一些练习。

是的，这是很好的描述。这就像为AI提供一系列针对性练习，帮助它专注于与手头任务相关的特定模式和技巧。然后，第三个关键因素是，他们没有使用一个通用的适配器来处理所有任务，而是为每个特定难题训练单独的适配器。

特别是对于客户来说，针对每个挑战进行思考，使AI能够高度关注手头的问题。难怪它表现得如此出色。

对吧？更有趣的是，他们发现TT训练在使用未在由另一AI生成的合成数据上进行训练的模型时最为有效，这使您不禁要思考，是否有关于AI生成的数据缺少一些对于真正稳健学习至关重要的现实世界复杂性的因素。

我认为那些AI生成的图像，虽然技术上非常令人印象深刻，但它们通常会有一些小错误或不一致之处，这可能会暴露它们。也许AI生成的训练数据也存在类似的问题，它没有完全捕捉到现实世界的全部丰富性和混乱性。

这是一个非常敏锐的观察，它确实指出了未来研究的潜在方向。但是，让我们暂时放下这个观点，思考一下更大的图景。这些发现表明，T、T T 实际上可能比盲目地扩大模型更有效地改进人工智能。

因为这不仅仅是让人工智能更大，而是让它更聪明、更适应。

其潜在应用非常巨大。想象一下，如果我们将 T、T、T 应用于科学研究领域，人工智能可以帮助科学家实时分析非常复杂的数据集并生成假设。

或者在软件开发中，人工智能可以帮助程序员调试代码或设计更有效的算法，以适应每个项目的特定挑战。

甚至在教育领域，个性化的人工智能导师可以根据每个学生的个人学习风格和节奏量身定制他们的教学方法，并根据学生的优势和劣势进行即时调整。

现在，你谈论的是能够真正改变生活的人工智能。但我也有疑问，人工智能能否如此迅速地学习和适应？这是否会引发一些关于控制和可预测性的担忧？有什么能阻止它学习我们不希望它学习的东西，或以我们没有预料到的方式行事？

这是一个完全有效的担忧，也是研究人员正在积极探索的问题。任何真正强大的技术的一个关键挑战是确保其安全可靠地使用。这在于在适应性和稳健性之间取得平衡，确保人工智能即使在学习和发展时也能遵循我们的目标和价值观。

这无疑是一场微妙的舞蹈，但潜在的好处如此引人注目，以至于值得进一步探索。你最兴奋的是 T、T、T 的可能性？

对我来说，最令人兴奋的是，我们可能正处于人工智能设计和使用方式的真正变革性转变的边缘。我们一直专注于构建这些庞大或强大的模型，但这可能不是唯一的方法，甚至不是最佳方法。也许人工智能的未来在于更小、更专业的系统，这些系统可以学习并适应特定任务和情境。这些系统更像是伙伴，是合作者，而不是仅仅是工具。

我喜欢人工智能作为合作伙伴，与我们一起解决这些复杂的问题并开拓新的可能性。但我也很想知道 T、T、T 的局限性是什么？它是一个万能钥匙吗？或者是否存在某些类型的难题或情况，它并不那么有效？这令人着迷地思考了这一切将如何改变我们与人工智能的互动方式。

一段时间以来，我感觉人工智能就像一个遥远的势力。研究实验室或大型科技平台正在发生一些事情。但是 T、T、T 将其拉得更近，使其更个性化，更符合我们的个人需求。

我完全同意。如果你考虑技术的演变，它通常始于这些大型集中式系统，然后逐渐变得更分散、更易于访问，并更融入我们的日常生活。我认为 T、T、T 可以成为人工智能领域这种转变的催化剂。

就像从大型计算机到个人计算机，再到智能手机和可穿戴设备一样。曾经如此专属和专业的技术变得普及和个性化。

人工智能将更融入我们的生活。其即时学习和适应能力将至关重要。我们需要能够理解我们个人偏好细微差别的 AI 系统。我们的工作方式、学习模式和行为模式。

你能给我一个具体的例子吗？

当然。想象一下，手机不仅仅是一个设备。它是一个真正的人工智能伙伴，从你的互动中学习并预测你的需求，帮助你高效地度过每一天。你正在处理一个复杂项目，你的 AI 助手会主动收集相关信息，建议潜在解决方案，甚至帮助你起草电子邮件或演示文稿，所有这些都根据你项目中的特定风格进行定制。

这是一个非常引人注目的愿景，这不仅仅是自动化。这是关于增强，关于人工智能增强我们的能力，帮助我们充分发挥潜力。

T、T、T 可能是在实现这一愿景方面至关重要的一部分，它允许人工智能系统即时专业化，适应每个时刻的特定挑战和机遇，我们可以创造一个人工智能不仅强大，而且真正有用和以人为本的未来。

在我们深入探讨测试时训练时，我想让听众思考一下，你生活中的哪些领域可以从这种人工智能中受益？你有哪些任务或挑战可以委托给或与能够像你一样快速学习和适应的人工智能伙伴合作？

人工智能的未来正在被书写，像 T、T、T 这样的技术让我们一窥可能性的全貌。让我们每个人都能想象和塑造未来，确保人工智能被用来赋能和提升人类，而不是取代或削弱。

感谢您加入我们对测试时训练的探索。我们希望这次深入探讨能为您提供对不断发展的 AI 领域的新视角，并激发您对未来无限可能性的好奇心。下次再见，继续学习，继续质疑，继续突破可能性的界限。

A Promising Alternative Way to Improve LLM Performance 18:42 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

A Promising Alternative Way to Improve LLM Performance