We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Clement Bonnet - Can Latent Program Networks Solve Abstract Reasoning?

2025/2/19

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Clement Bonnet

Topics

Clement Bonnet: 我提出了一种新颖的方法来解决ARC挑战，该方法将输入-输出对编码到潜在空间中，并使用搜索算法优化该表示，然后为新的输入解码输出。这种端到端架构使用VAE损失，包括重建损失和先验损失。与依赖于微调LLM或在推理时生成样本的方法不同，我的方法在测试时进行搜索，通过学习程序的流形到单一连贯的潜在空间中，实现高效的测试时适应。现有许多方法使用测试时训练，这是一种参数高效的微调方法，但效率低下且难以组合低级基元。我提出的方法通过嵌入程序到更连贯和压缩的表示中，可以进行更容易、更高效的搜索。Arc 挑战对神经网络具有鲁棒性，因为测试任务与训练分布中的任务差异很大，并且保证不存在于互联网上。神经网络无法学习 Arc 的原因仅仅是因为互联网上没有大量的类似 Arc 的数据。神经网络无法解决 Arc 测试任务的原因是测试分布与训练分布相差甚远，无法进行极端泛化，需要一种全新的知识组合方式来完成任务。以往的方法倾向于生成程序，而我的方法直接生成解决方案，这与直觉相反，但效果良好。我的方法是基于归纳法，而直接预测答案的方法是基于转导法，两者之间存在细微的差别。归纳法和转导法之间的区别在于是否压缩表示，压缩允许更有效的搜索。压缩允许更有效的搜索，我的架构构建了程序的压缩表示，以便有效地进行搜索。我的潜在程序网络（LPN）搜索属于测试时训练方法的范畴，将潜在空间视为输入条件参数空间，通过搜索该空间来寻找更好的数据解释。我的架构包含编码器、搜索组件和解码器，编码器将输入-输出对嵌入到程序的分布中，搜索组件优化潜在表示，解码器生成新输入的输出。由于输入-输出对可以由无限多个程序解释，因此使用变分框架将程序编码到分布中。该架构的新颖之处在于中间的搜索组件，该组件通过优化潜在表示来改进潜在程序。该架构的归纳部分在于寻找解释整个任务的小型潜在程序。该架构使用 VAE 损失进行端到端训练，包括重建损失和先验损失。VAE 的变分方面非常重要，因为它有助于保持潜在空间的结构。为了防止直接在潜在空间中编码输出，训练表示以解码不同输入-输出对的输出，训练过程与测试过程类似。在训练过程中进行梯度搜索步骤，可以使最终的潜在空间更易于在推理时进行搜索。在训练过程中进行梯度搜索步骤，可以使最终的潜在空间更易于在推理时进行搜索。在训练过程中进行梯度搜索步骤，可以使最终的潜在空间更易于在推理时进行搜索。即使没有预训练的LLM或先验知识，该架构也能在评估集上取得一定的性能。该架构使用从零开始训练的 vanilla transformer 来编码输入-输出网格，参数量大约为 4000 万。该架构从零开始训练，即使没有完全收敛，也能在 Michael Hoddle 的 RE-ARC 数据集上取得不错的效果。该架构通过学习将 400 个训练任务嵌入到潜在空间中，并通过插值潜在空间来预测新的任务。RE-ARC 数据集包含大约一亿个数据点，这使得 transformer 能够学习 2D 网格的表示。RE-ARC 数据集的先验知识在于教 transformer 如何理解 2D 网格，这符合开发人员感知的泛化假设。RE-ARC 数据集的先验知识在于教 transformer 如何理解 2D 网格，这符合开发人员感知的泛化假设。该方法的局限性在于无法处理任意复杂的组合程序，只能处理程序的叠加，而不是组合。通过使用多个线程或同时进行多个操作，可以实现组合性。为了实现组合性，需要一个展开的计算图，将多个解决方案组合在一起。为了实现组合性，可以使用多个前向传递，将一个线程的输出作为另一个线程的输入。在潜在空间中找到比初始猜测更好的程序，是一个搜索问题。潜在空间很平滑，可以使用一阶方法进行搜索。该架构对噪声输入的鲁棒性尚未进行测试，但已经尝试了改变架构大小。架构大小和潜在空间大小之间存在权衡，解码器的容量必须足够大才能学习程序。该系统在处理转导任务时表现不佳，这与 Ellis 和 Wending 的论文结果一致。转导任务在潜在空间中没有对应的点，因为不需要归纳。我相信深度学习和程序合成相结合可以解决剩余的难题。我不认为大型语言模型比人类聪明，它们只是在某些任务上表现出色。我相信深度学习架构可以解决大部分任务，但一些难题需要不同的方法。我相信深度学习模型缺乏高度的创造力。大型语言模型的创造力是指数级的，需要指数级更多的样本才能产生有创造力的结果。程序合成和符号可以帮助深度学习架构变得更有创造力。我认为集体智能和个体智能在创造力方面存在差异。人类解决问题时不会在脑海中生成数百万个程序，而是进行更高效的合成。解决 Arc 问题时，我通常会提出几个假设，然后对其进行测试和改进，这是一种高效的搜索空间缩减方法。如果该解决方案被大规模扩展，潜在空间可能会变得不太具有解释性，难以搜索。寻找小型表示来解释输出结果，可以是一种解决合成和不确定性问题的方法。大型语言模型的潜在空间可能过于高维且局部性强，难以进行组合和泛化。我相信寻找小的表示来解释输出结果非常重要。 Matthew Macfarlane: 作为访谈者，我没有提出具体的观点，而是引导访谈，并对Clement Bonnet 的观点进行提问和讨论。

Deep Dive

Shownotes Transcript

Clement Bonnet discusses his novel approach to the ARC (Abstraction and Reasoning Corpus) challenge. Unlike approaches that rely on fine-tuning LLMs or generating samples at inference time, Clement's method encodes input-output pairs into a latent space, optimizes this representation with a search algorithm, and decodes outputs for new inputs. This end-to-end architecture uses a VAE loss, including reconstruction and prior losses.

SPONSOR MESSAGES:

CentML offers competitive pricing for GenAI model deployment, with flexible options to suit a wide range of models, from small to large-scale deployments. Check out their super fast DeepSeek R1 hosting!

https://centml.ai/pricing/

Tufa AI Labs is a brand new research lab in Zurich started by Benjamin Crouzier focussed on o-series style reasoning and AGI. They are hiring a Chief Engineer and ML engineers. Events in Zurich.

Goto https://tufalabs.ai/

TRANSCRIPT + RESEARCH OVERVIEW:

https://www.dropbox.com/scl/fi/j7m0gaz1126y594gswtma/CLEMMLST.pdf?rlkey=y5qvwq2er5nchbcibm07rcfpq&dl=0

Clem and Matthew-

https://www.linkedin.com/in/clement-bonnet16/

https://github.com/clement-bonnet

https://mvmacfarlane.github.io/

TOC

LPN Fundamentals

[00:00:00] 1.1 Introduction to ARC Benchmark and LPN Overview

[00:05:05] 1.2 Neural Networks' Challenges with ARC and Program Synthesis

[00:06:55] 1.3 Induction vs Transduction in Machine Learning

LPN Architecture and Latent Space

[00:11:50] 2.1 LPN Architecture and Latent Space Implementation

[00:16:25] 2.2 LPN Latent Space Encoding and VAE Architecture

[00:20:25] 2.3 Gradient-Based Search Training Strategy

[00:23:39] 2.4 LPN Model Architecture and Implementation Details
Implementation and Scaling

[00:27:34] 3.1 Training Data Generation and re-ARC Framework

[00:31:28] 3.2 Limitations of Latent Space and Multi-Thread Search

[00:34:43] 3.3 Program Composition and Computational Graph Architecture
Advanced Concepts and Future Directions

[00:45:09] 4.1 AI Creativity and Program Synthesis Approaches

[00:49:47] 4.2 Scaling and Interpretability in Latent Space Models