We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Test-Time Adaptation: the key to reasoning with DL (Mohamed Osman)

Test-Time Adaptation: the key to reasoning with DL (Mohamed Osman)

2025/3/22
logo of podcast Machine Learning Street Talk (MLST)

Machine Learning Street Talk (MLST)

AI Deep Dive Transcript
People
M
Mohamed Osman
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
Mohamed Osman: 我认为测试时微调是深度学习的一种新范式,它超出了深度学习的传统范畴。我们通过将所有提示一次性输入前向传递中,来最大化模型的动态性和上下文理解能力。我们训练模型成为一个较弱的上下文理解器,然后对其进行微调以提高推理能力。我们的预训练目标是一个元模型,它学习推理模式而不是精确的转换。微调元模型比微调只接收一对输入输出的模型更容易。我们的方法类似于Brandon Lake的MLC工作,都是通过在测试时进行训练来提高模型的泛化能力。我们使用预训练的编码器-解码器模型,因为它更强调上下文理解能力。我们的预训练方法包含代码和合成任务,但新概念的数量并不多。即使预训练的概念数量有限,预训练过程仍然很重要。在测试时,我们将所有实例都输入前向传递中,并对推理过程进行微调。通过测试时微调,我们对模型内部的隐式转换函数进行调整,使其更接近正确的解决方案。将问题表述为元问题能够让模型学习更多信息,并减少测试时的微调工作量。我们的前向传递过程只是将问题的表示输入模型中,不进行任何过滤或采样。我们使用投票机制来选择最一致的解决方案,该机制适用于ARC,因为它只有一个正确的答案。我们使用多种方法进行采样,包括束搜索和温度采样,并通过多数投票来选择最终结果。束搜索适用于ARC,因为它只有一个正确的答案,并且在做出错误决策后很难恢复。预训练的目标是将正确的先验知识和核心知识编码到模型中,并使模型能够对新的难题进行泛化。我们需要在模型的灵活性和正确性之间取得平衡。我们使用简单的文本数字表示来编码问题,避免使用特殊的表示方法。避免为ARC问题创建特殊的表示方法,因为ARC的重点在于原始数据输入和网络的灵活性。ARC的重点在于原始数据输入和网络的灵活性。为了理解ARC,需要理解将原始表示输入Transformer的重要性。即使是强大的多模态模型,如果缺乏灵活性,也不适合ARC。为了解决ARC,需要关注模型的上下文理解能力和灵活性。通过前向传递来评估Transformer的上下文理解能力,并对推理过程进行微调,是一种解决ARC的新方法。ARC数据集的信息泄露程度很低,我们正在努力使其算法化。刷新数据集并移除暴力破解方法是一个好主意。我相信ARC v1可以通过增加算力和时间来解决。在我们的实验中,计数类任务的准确率最低。解决Transformer的架构问题,例如softmax函数和多层处理,可以提高其计数和复制能力,从而解决ARC中的许多问题。在单层中进行所有处理会导致过拟合,而分层处理更符合算法的本质。 主持人: 神经网络并非缺乏抽象推理能力,我们的研究结果对此进行了反驳。ARC 难题本质上是感知推理问题,我们通过将优化器直接集成到评估过程中,使模型能够在测试时发展新的抽象概念。我们的方法主要包含两项技术:测试时主动微调和增强推理反向投票。反向投票机制将性能提升了260%,测试时主动微调额外提升了300%,最终取得了约58%的ARC最高分。模型架构规模比预训练对构建新抽象的影响更大,更大的模型更具表达能力,能够在推理过程中实现更好的抽象和推理。与Kevin Ellis等人的观点相反,我们支持解空间预测,不创建中间Python函数。神经网络默认情况下不具备组合性,需要付出大量努力才能使其具备组合性。通过深入的偏差和设备,可以在特定领域获得组合性,但这不是一个优雅的解决方案。无论是在Python空间还是直接输出,只要能达到正确的抽象级别,模型就能在输入和输出之间建立关联,并确保其泛化能力。即使模型没有显式生成代码,也可以通过在代码上进行微调来诱导神经网络实现近似的组合性。代码预训练已被证明可以提高多个领域的推理能力。问题的表述方式非常重要,测试时训练赋予模型泛化能力,而高效测试时学习的关键在于如何学习。Francois Chollet对测试时计算策略持悲观态度,因为他认为神经网络在组合性方面存在固有的局限性。DreamCoder 的输出空间过于严格,并且没有关注感知问题。生成Python程序很困难,而直接在游戏中行动则更容易。Kevin Ellis 现在使用语言模型而不是DSL,因为语言模型能够编码我们无法言喻的知识和先验知识。未来我们将探索更多不同的角度来解决ARC,并研究Transformer的上下文理解能力。我们将进行更多实验,探索不同的角度来改进Transformer在ARC上的表现。我们没有开源我们的方法,是因为开源的要求过于严格。我们已经为社区做出了很多贡献,并且在激励机制方面存在不足。我们获得的奖励是25000美元,这与我们付出的努力不成比例。我们现在在Tufa Labs工作,拥有充足的资金和算力,将专注于ARC的研究。我们计划在解决ARC之后,研究大型语言模型的组合性问题以及其他系统二目标。ARC v2 将采用与ARC v1相同的格式,但难度会更高,并且包含更多独特性更强的谜题。即使ARC v1保持不变,仍然有很多角度可以改进Transformer的泛化能力,并且我相信随着规模的扩大,ARC v1最终会被解决。我相信ARC v1可以通过增加算力和时间来解决。Transformer 即使在简单任务中也无法进行计数或复制。

Deep Dive

Shownotes Transcript

Mohamed Osman joins to discuss MindsAI's highest scoring entry to the ARC challenge 2024 and the paradigm of test-time fine-tuning. They explore how the team, now part of Tufa Labs in Zurich, achieved state-of-the-art results using a combination of pre-training techniques, a unique meta-learning strategy, and an ensemble voting mechanism. Mohamed emphasizes the importance of raw data input and flexibility of the network.

SPONSOR MESSAGES:


Tufa AI Labs is a brand new research lab in Zurich started by Benjamin Crouzier focussed on o-series style reasoning and AGI. They are hiring a Chief Engineer and ML engineers. Events in Zurich.

Goto https://tufalabs.ai/


TRANSCRIPT + REFS:

https://www.dropbox.com/scl/fi/jeavyqidsjzjgjgd7ns7h/MoFInal.pdf?rlkey=cjjmo7rgtenxrr3b46nk6yq2e&dl=0

Mohamed Osman (Tufa Labs)

https://x.com/MohamedOsmanML

Jack Cole (Tufa Labs)

https://x.com/MindsAI_Jack

How and why deep learning for ARC paper:

https://github.com/MohamedOsman1998/deep-learning-for-arc/blob/main/deep_learning_for_arc.pdf

TOC:

  1. Abstract Reasoning Foundations

[00:00:00] 1.1 Test-Time Fine-Tuning and ARC Challenge Overview

[00:10:20] 1.2 Neural Networks vs Programmatic Approaches to Reasoning

[00:13:23] 1.3 Code-Based Learning and Meta-Model Architecture

[00:20:26] 1.4 Technical Implementation with Long T5 Model

  1. ARC Solution Architectures

    [00:24:10] 2.1 Test-Time Tuning and Voting Methods for ARC Solutions

    [00:27:54] 2.2 Model Generalization and Function Generation Challenges

    [00:32:53] 2.3 Input Representation and VLM Limitations

    [00:36:21] 2.4 Architecture Innovation and Cross-Modal Integration

    [00:40:05] 2.5 Future of ARC Challenge and Program Synthesis Approaches

  2. Advanced Systems Integration

    [00:43:00] 3.1 DreamCoder Evolution and LLM Integration

    [00:50:07] 3.2 MindsAI Team Progress and Acquisition by Tufa Labs

    [00:54:15] 3.3 ARC v2 Development and Performance Scaling

    [00:58:22] 3.4 Intelligence Benchmarks and Transformer Limitations

    [01:01:50] 3.5 Neural Architecture Optimization and Processing Distribution

REFS:

[00:01:32] Original ARC challenge paper, François Chollet

https://arxiv.org/abs/1911.01547

[00:06:55] DreamCoder, Kevin Ellis et al.

https://arxiv.org/abs/2006.08381

[00:12:50] Deep Learning with Python, François Chollet

https://www.amazon.com/Deep-Learning-Python-Francois-Chollet/dp/1617294438

[00:13:35] Deep Learning with Python, François Chollet

https://www.amazon.com/Deep-Learning-Python-Francois-Chollet/dp/1617294438

[00:13:35] Influence of pretraining data for reasoning, Laura Ruis

https://arxiv.org/abs/2411.12580

[00:17:50] Latent Program Networks, Clement Bonnet

https://arxiv.org/html/2411.08706v1

[00:20:50] T5, Colin Raffel et al.

https://arxiv.org/abs/1910.10683

[00:30:30] Combining Induction and Transduction for Abstract Reasoning, Wen-Ding Li, Kevin Ellis et al.

https://arxiv.org/abs/2411.02272

[00:34:15] Six finger problem, Chen et al.

https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_SpatialVLM_Endowing_Vision-Language_Models_with_Spatial_Reasoning_Capabilities_CVPR_2024_paper.pdf

[00:38:15] DeepSeek-R1-Distill-Llama, DeepSeek AI

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B

[00:40:10] ARC Prize 2024 Technical Report, François Chollet et al.

https://arxiv.org/html/2412.04604v2

[00:45:20] LLM-Guided Compositional Program Synthesis, Wen-Ding Li and Kevin Ellis

https://arxiv.org/html/2503.15540

[00:54:25] Abstraction and Reasoning Corpus, François Chollet

https://github.com/fchollet/ARC-AGI

[00:57:10] O3 breakthrough on ARC-AGI, OpenAI

https://arcprize.org/

[00:59:35] ConceptARC Benchmark, Arseny Moskvichev, Melanie Mitchell

https://arxiv.org/abs/2305.07141

[01:02:05] Mixtape: Breaking the Softmax Bottleneck Efficiently, Yang, Zhilin and Dai, Zihang and Salakhutdinov, Ruslan and Cohen, William W.

http://papers.neurips.cc/paper/9723-mixtape-breaking-the-softmax-bottleneck-efficiently.pdf