We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Clement Bonnet - Can Latent Program Networks Solve Abstract Reasoning?

Clement Bonnet - Can Latent Program Networks Solve Abstract Reasoning?

2025/2/19
logo of podcast Machine Learning Street Talk (MLST)

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript
People
C
Clement Bonnet
Topics
Clement Bonnet: 我提出了一种新颖的方法来解决ARC挑战,该方法将输入-输出对编码到潜在空间中,并使用搜索算法优化该表示,然后为新的输入解码输出。这种端到端架构使用VAE损失,包括重建损失和先验损失。与依赖于微调LLM或在推理时生成样本的方法不同,我的方法在测试时进行搜索,通过学习程序的流形到单一连贯的潜在空间中,实现高效的测试时适应。现有许多方法使用测试时训练,这是一种参数高效的微调方法,但效率低下且难以组合低级基元。我提出的方法通过嵌入程序到更连贯和压缩的表示中,可以进行更容易、更高效的搜索。Arc 挑战对神经网络具有鲁棒性,因为测试任务与训练分布中的任务差异很大,并且保证不存在于互联网上。神经网络无法学习 Arc 的原因仅仅是因为互联网上没有大量的类似 Arc 的数据。神经网络无法解决 Arc 测试任务的原因是测试分布与训练分布相差甚远,无法进行极端泛化,需要一种全新的知识组合方式来完成任务。以往的方法倾向于生成程序,而我的方法直接生成解决方案,这与直觉相反,但效果良好。我的方法是基于归纳法,而直接预测答案的方法是基于转导法,两者之间存在细微的差别。归纳法和转导法之间的区别在于是否压缩表示,压缩允许更有效的搜索。压缩允许更有效的搜索,我的架构构建了程序的压缩表示,以便有效地进行搜索。我的潜在程序网络(LPN)搜索属于测试时训练方法的范畴,将潜在空间视为输入条件参数空间,通过搜索该空间来寻找更好的数据解释。我的架构包含编码器、搜索组件和解码器,编码器将输入-输出对嵌入到程序的分布中,搜索组件优化潜在表示,解码器生成新输入的输出。由于输入-输出对可以由无限多个程序解释,因此使用变分框架将程序编码到分布中。该架构的新颖之处在于中间的搜索组件,该组件通过优化潜在表示来改进潜在程序。该架构的归纳部分在于寻找解释整个任务的小型潜在程序。该架构使用 VAE 损失进行端到端训练,包括重建损失和先验损失。VAE 的变分方面非常重要,因为它有助于保持潜在空间的结构。为了防止直接在潜在空间中编码输出,训练表示以解码不同输入-输出对的输出,训练过程与测试过程类似。在训练过程中进行梯度搜索步骤,可以使最终的潜在空间更易于在推理时进行搜索。在训练过程中进行梯度搜索步骤,可以使最终的潜在空间更易于在推理时进行搜索。在训练过程中进行梯度搜索步骤,可以使最终的潜在空间更易于在推理时进行搜索。即使没有预训练的LLM或先验知识,该架构也能在评估集上取得一定的性能。该架构使用从零开始训练的 vanilla transformer 来编码输入-输出网格,参数量大约为 4000 万。该架构从零开始训练,即使没有完全收敛,也能在 Michael Hoddle 的 RE-ARC 数据集上取得不错的效果。该架构通过学习将 400 个训练任务嵌入到潜在空间中,并通过插值潜在空间来预测新的任务。RE-ARC 数据集包含大约一亿个数据点,这使得 transformer 能够学习 2D 网格的表示。RE-ARC 数据集的先验知识在于教 transformer 如何理解 2D 网格,这符合开发人员感知的泛化假设。RE-ARC 数据集的先验知识在于教 transformer 如何理解 2D 网格,这符合开发人员感知的泛化假设。该方法的局限性在于无法处理任意复杂的组合程序,只能处理程序的叠加,而不是组合。通过使用多个线程或同时进行多个操作,可以实现组合性。为了实现组合性,需要一个展开的计算图,将多个解决方案组合在一起。为了实现组合性,可以使用多个前向传递,将一个线程的输出作为另一个线程的输入。在潜在空间中找到比初始猜测更好的程序,是一个搜索问题。潜在空间很平滑,可以使用一阶方法进行搜索。该架构对噪声输入的鲁棒性尚未进行测试,但已经尝试了改变架构大小。架构大小和潜在空间大小之间存在权衡,解码器的容量必须足够大才能学习程序。该系统在处理转导任务时表现不佳,这与 Ellis 和 Wending 的论文结果一致。转导任务在潜在空间中没有对应的点,因为不需要归纳。我相信深度学习和程序合成相结合可以解决剩余的难题。我不认为大型语言模型比人类聪明,它们只是在某些任务上表现出色。我相信深度学习架构可以解决大部分任务,但一些难题需要不同的方法。我相信深度学习模型缺乏高度的创造力。大型语言模型的创造力是指数级的,需要指数级更多的样本才能产生有创造力的结果。程序合成和符号可以帮助深度学习架构变得更有创造力。我认为集体智能和个体智能在创造力方面存在差异。人类解决问题时不会在脑海中生成数百万个程序,而是进行更高效的合成。解决 Arc 问题时,我通常会提出几个假设,然后对其进行测试和改进,这是一种高效的搜索空间缩减方法。如果该解决方案被大规模扩展,潜在空间可能会变得不太具有解释性,难以搜索。寻找小型表示来解释输出结果,可以是一种解决合成和不确定性问题的方法。大型语言模型的潜在空间可能过于高维且局部性强,难以进行组合和泛化。我相信寻找小的表示来解释输出结果非常重要。 Matthew Macfarlane: 作为访谈者,我没有提出具体的观点,而是引导访谈,并对Clement Bonnet 的观点进行提问和讨论。

Deep Dive

Shownotes Transcript

Clement Bonnet discusses his novel approach to the ARC (Abstraction and Reasoning Corpus) challenge. Unlike approaches that rely on fine-tuning LLMs or generating samples at inference time, Clement's method encodes input-output pairs into a latent space, optimizes this representation with a search algorithm, and decodes outputs for new inputs. This end-to-end architecture uses a VAE loss, including reconstruction and prior losses.

SPONSOR MESSAGES:


CentML offers competitive pricing for GenAI model deployment, with flexible options to suit a wide range of models, from small to large-scale deployments. Check out their super fast DeepSeek R1 hosting!

https://centml.ai/pricing/

Tufa AI Labs is a brand new research lab in Zurich started by Benjamin Crouzier focussed on o-series style reasoning and AGI. They are hiring a Chief Engineer and ML engineers. Events in Zurich.

Goto https://tufalabs.ai/


TRANSCRIPT + RESEARCH OVERVIEW:

https://www.dropbox.com/scl/fi/j7m0gaz1126y594gswtma/CLEMMLST.pdf?rlkey=y5qvwq2er5nchbcibm07rcfpq&dl=0

Clem and Matthew-

https://www.linkedin.com/in/clement-bonnet16/

https://github.com/clement-bonnet

https://mvmacfarlane.github.io/

TOC

  1. LPN Fundamentals

[00:00:00] 1.1 Introduction to ARC Benchmark and LPN Overview

[00:05:05] 1.2 Neural Networks' Challenges with ARC and Program Synthesis

[00:06:55] 1.3 Induction vs Transduction in Machine Learning

  1. LPN Architecture and Latent Space

    [00:11:50] 2.1 LPN Architecture and Latent Space Implementation

    [00:16:25] 2.2 LPN Latent Space Encoding and VAE Architecture

    [00:20:25] 2.3 Gradient-Based Search Training Strategy

    [00:23:39] 2.4 LPN Model Architecture and Implementation Details

  2. Implementation and Scaling

    [00:27:34] 3.1 Training Data Generation and re-ARC Framework

    [00:31:28] 3.2 Limitations of Latent Space and Multi-Thread Search

    [00:34:43] 3.3 Program Composition and Computational Graph Architecture

  3. Advanced Concepts and Future Directions

    [00:45:09] 4.1 AI Creativity and Program Synthesis Approaches

    [00:49:47] 4.2 Scaling and Interpretability in Latent Space Models

REFS

[00:00:05] ARC benchmark, Chollet

https://arxiv.org/abs/2412.04604

[00:02:10] Latent Program Spaces, Bonnet, Macfarlane

https://arxiv.org/abs/2411.08706

[00:07:45] Kevin Ellis work on program generation

https://www.cs.cornell.edu/~ellisk/

[00:08:45] Induction vs transduction in abstract reasoning, Li et al.

https://arxiv.org/abs/2411.02272

[00:17:40] VAEs, Kingma, Welling

https://arxiv.org/abs/1312.6114

[00:27:50] re-ARC, Hodel

https://github.com/michaelhodel/re-arc

[00:29:40] Grid size in ARC tasks, Chollet

https://github.com/fchollet/ARC-AGI

[00:33:00] Critique of deep learning, Marcus

https://arxiv.org/vc/arxiv/papers/2002/2002.06177v1.pdf