We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Test-Time Adaptation: the key to reasoning with DL (Mohamed Osman)

2025/3/22

Machine Learning Street Talk (MLST)

AI Deep Dive Transcript

People

Mohamed Osman

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

Topics

Mohamed Osman: 我认为测试时微调是深度学习的一种新范式，它超出了深度学习的传统范畴。我们通过将所有提示一次性输入前向传递中，来最大化模型的动态性和上下文理解能力。我们训练模型成为一个较弱的上下文理解器，然后对其进行微调以提高推理能力。我们的预训练目标是一个元模型，它学习推理模式而不是精确的转换。微调元模型比微调只接收一对输入输出的模型更容易。我们的方法类似于Brandon Lake的MLC工作，都是通过在测试时进行训练来提高模型的泛化能力。我们使用预训练的编码器-解码器模型，因为它更强调上下文理解能力。我们的预训练方法包含代码和合成任务，但新概念的数量并不多。即使预训练的概念数量有限，预训练过程仍然很重要。在测试时，我们将所有实例都输入前向传递中，并对推理过程进行微调。通过测试时微调，我们对模型内部的隐式转换函数进行调整，使其更接近正确的解决方案。将问题表述为元问题能够让模型学习更多信息，并减少测试时的微调工作量。我们的前向传递过程只是将问题的表示输入模型中，不进行任何过滤或采样。我们使用投票机制来选择最一致的解决方案，该机制适用于ARC，因为它只有一个正确的答案。我们使用多种方法进行采样，包括束搜索和温度采样，并通过多数投票来选择最终结果。束搜索适用于ARC，因为它只有一个正确的答案，并且在做出错误决策后很难恢复。预训练的目标是将正确的先验知识和核心知识编码到模型中，并使模型能够对新的难题进行泛化。我们需要在模型的灵活性和正确性之间取得平衡。我们使用简单的文本数字表示来编码问题，避免使用特殊的表示方法。避免为ARC问题创建特殊的表示方法，因为ARC的重点在于原始数据输入和网络的灵活性。ARC的重点在于原始数据输入和网络的灵活性。为了理解ARC，需要理解将原始表示输入Transformer的重要性。即使是强大的多模态模型，如果缺乏灵活性，也不适合ARC。为了解决ARC，需要关注模型的上下文理解能力和灵活性。通过前向传递来评估Transformer的上下文理解能力，并对推理过程进行微调，是一种解决ARC的新方法。ARC数据集的信息泄露程度很低，我们正在努力使其算法化。刷新数据集并移除暴力破解方法是一个好主意。我相信ARC v1可以通过增加算力和时间来解决。在我们的实验中，计数类任务的准确率最低。解决Transformer的架构问题，例如softmax函数和多层处理，可以提高其计数和复制能力，从而解决ARC中的许多问题。在单层中进行所有处理会导致过拟合，而分层处理更符合算法的本质。主持人: 神经网络并非缺乏抽象推理能力，我们的研究结果对此进行了反驳。ARC 难题本质上是感知推理问题，我们通过将优化器直接集成到评估过程中，使模型能够在测试时发展新的抽象概念。我们的方法主要包含两项技术：测试时主动微调和增强推理反向投票。反向投票机制将性能提升了260%，测试时主动微调额外提升了300%，最终取得了约58%的ARC最高分。模型架构规模比预训练对构建新抽象的影响更大，更大的模型更具表达能力，能够在推理过程中实现更好的抽象和推理。与Kevin Ellis等人的观点相反，我们支持解空间预测，不创建中间Python函数。神经网络默认情况下不具备组合性，需要付出大量努力才能使其具备组合性。通过深入的偏差和设备，可以在特定领域获得组合性，但这不是一个优雅的解决方案。无论是在Python空间还是直接输出，只要能达到正确的抽象级别，模型就能在输入和输出之间建立关联，并确保其泛化能力。即使模型没有显式生成代码，也可以通过在代码上进行微调来诱导神经网络实现近似的组合性。代码预训练已被证明可以提高多个领域的推理能力。问题的表述方式非常重要，测试时训练赋予模型泛化能力，而高效测试时学习的关键在于如何学习。Francois Chollet对测试时计算策略持悲观态度，因为他认为神经网络在组合性方面存在固有的局限性。DreamCoder 的输出空间过于严格，并且没有关注感知问题。生成Python程序很困难，而直接在游戏中行动则更容易。Kevin Ellis 现在使用语言模型而不是DSL，因为语言模型能够编码我们无法言喻的知识和先验知识。未来我们将探索更多不同的角度来解决ARC，并研究Transformer的上下文理解能力。我们将进行更多实验，探索不同的角度来改进Transformer在ARC上的表现。我们没有开源我们的方法，是因为开源的要求过于严格。我们已经为社区做出了很多贡献，并且在激励机制方面存在不足。我们获得的奖励是25000美元，这与我们付出的努力不成比例。我们现在在Tufa Labs工作，拥有充足的资金和算力，将专注于ARC的研究。我们计划在解决ARC之后，研究大型语言模型的组合性问题以及其他系统二目标。ARC v2 将采用与ARC v1相同的格式，但难度会更高，并且包含更多独特性更强的谜题。即使ARC v1保持不变，仍然有很多角度可以改进Transformer的泛化能力，并且我相信随着规模的扩大，ARC v1最终会被解决。我相信ARC v1可以通过增加算力和时间来解决。Transformer 即使在简单任务中也无法进行计数或复制。

Deep Dive

Shownotes Transcript

Mohamed Osman joins to discuss MindsAI's highest scoring entry to the ARC challenge 2024 and the paradigm of test-time fine-tuning. They explore how the team, now part of Tufa Labs in Zurich, achieved state-of-the-art results using a combination of pre-training techniques, a unique meta-learning strategy, and an ensemble voting mechanism. Mohamed emphasizes the importance of raw data input and flexibility of the network.

SPONSOR MESSAGES:

Tufa AI Labs is a brand new research lab in Zurich started by Benjamin Crouzier focussed on o-series style reasoning and AGI. They are hiring a Chief Engineer and ML engineers. Events in Zurich.

Goto https://tufalabs.ai/

TRANSCRIPT + REFS:

https://www.dropbox.com/scl/fi/jeavyqidsjzjgjgd7ns7h/MoFInal.pdf?rlkey=cjjmo7rgtenxrr3b46nk6yq2e&dl=0

Mohamed Osman (Tufa Labs)

https://x.com/MohamedOsmanML

Jack Cole (Tufa Labs)

https://x.com/MindsAI_Jack

How and why deep learning for ARC paper:

https://github.com/MohamedOsman1998/deep-learning-for-arc/blob/main/deep_learning_for_arc.pdf

TOC:

Abstract Reasoning Foundations

[00:00:00] 1.1 Test-Time Fine-Tuning and ARC Challenge Overview

[00:10:20] 1.2 Neural Networks vs Programmatic Approaches to Reasoning

[00:13:23] 1.3 Code-Based Learning and Meta-Model Architecture

[00:20:26] 1.4 Technical Implementation with Long T5 Model

ARC Solution Architectures

[00:24:10] 2.1 Test-Time Tuning and Voting Methods for ARC Solutions

[00:27:54] 2.2 Model Generalization and Function Generation Challenges

[00:32:53] 2.3 Input Representation and VLM Limitations

[00:36:21] 2.4 Architecture Innovation and Cross-Modal Integration

[00:40:05] 2.5 Future of ARC Challenge and Program Synthesis Approaches
Advanced Systems Integration

[00:43:00] 3.1 DreamCoder Evolution and LLM Integration

[00:50:07] 3.2 MindsAI Team Progress and Acquisition by Tufa Labs

[00:54:15] 3.3 ARC v2 Development and Performance Scaling

[00:58:22] 3.4 Intelligence Benchmarks and Transformer Limitations

[01:01:50] 3.5 Neural Architecture Optimization and Processing Distribution