我认为机器人技术肯定会在未来几年取得最大的进步之一,因为以前所有的机器人都不能进行任何语义理解。但对于当前具有视觉能力的大型语言模型,我认为这将更加真实。欢迎来到 Manifold。今天的嘉宾是王梓涵。他是西北大学的博士生。
梓涵,欢迎来到节目。
你好,很高兴见到你,史蒂夫。很高兴见到你。我很高兴来到这里。是的,很高兴你来到节目。我在推特上发现了你,因为你写了一些关于人工智能研究和你实习期间在 DeepSeek 工作的非常有趣的帖子。而且,我认为你还翻译了一些对 DeepSeek 创始人进行的采访,例如。我想从谈谈你的背景开始。你很年轻,对吧?你最近才大学毕业,对吗?
是的,是的,是的。我实际上是去年毕业的,2024年,从维也纳大学毕业。是的。现在我是一年级的博士生。那么在中国,有没有一个称呼?比如,你被称为 00 后一代,还是类似这样的称呼?是的,当然。而且有一个称呼,比如,我不确定。如果我直接翻译的话,它会像,00 后。我不确定。是的,就像灵灵后。是的。所以,是的,灵灵后。所以,是的。
你不是北京人,但你在北京上大学,对吗?是的,是的,是的。我在武汉长大。而且,我想我在武汉接受了大部分教育。比如我在华中师范大学附属第一中学读高中。而且,我认为我所有的高中同学在这里都非常优秀。实际上,我刚刚……
了解到,他们中的许多人也从事人工智能工作,他们获得了非常好的在美国学习的机会,例如,卡内基梅隆大学,伯克利大学。我也非常幸运能够在美国学习,例如,CSUHD。是的,而且……
关于我的大学学习,我在空中客车大学学习。实际上,我认为这是一所有点被低估的学校。实际上,我今天早上刚刚与一些人工智能模型进行了交谈,并让它看看它是否理解或知道我在本科学校的本科学习情况。而且
我发现他们的知识相当过时。比如他们将我的学校评为全球排名前 1000 的大学之一。但实际上,我们的大学最近发表了许多有影响力的论文。例如,我认为,嗯……
人民大学的一些教授刚刚发表了一篇关于 LADA 的论文,即大型语言扩散模型,这在 X 上非常流行。而且我的一些校友还推出了 OpenManus,这是一个对非常流行的编码代理的开源复制。我认为它是一个通用的计算机使用代理。
名为 Menace,他们在发布后的几个小时内就复制了它,所以我认为这太棒了,我认为……
这所学校和大学都在发展壮大。实际上,我在……我在高瓴人工智能学院完成了本科学习,这是一个非常新的学院。我认为它是在五年前成立的。是的,所以我认为在中国有一种趋势,很多人都在努力学习人工智能,不仅是为了使用网络学习,也是为了进行严肃的研究。
本科学习和研究生学习。所以我认为在这个时代,在这个时代学习或生活是如此令人兴奋。让我深入探讨一下。我去过人民大学。如果我没记错的话,它就在北大旁边,对吗?非常近。是的,是的,是的,是的。我们与北大有很多合作。
是的。但我认为,对于我这个年龄段的人来说,我认为人民大学可能更出名的是人文和社会科学,而不是技术科目,但这可能正在改变。有趣的是,在中国,有很多项目。听起来你的,你的本科专业实际上是专门的人工智能,而不仅仅是计算机科学?是的。
是的,是的。比如这所学校主要针对人工智能。实际上,我认为,我不确定是否,是的,所以我将使用该功能。是的,我认为这主要是因为这所学校,比如高瓴人工智能学院是五年前成立的。我们是高瓴的首席执行官。我不确定它的英文名称是否为高瓴。
高瓴还是高跟鞋,诸如此类。是高感吗?我不确定它的英文名称,但首席执行官是张磊。是的,他是一位非常伟大的投资者,投资了许多伟大的公司。我认为他是中国顶级风投公司之一。我不确定,因为我不是投资专家,但我认为他……
他确实对学校进行了大量投资,特别是针对人工智能。我认为这所学校的所有教授都非常专业。他们在人工智能方面拥有丰富的专业知识。例如,他们中的一些人只是信息检索的早期研究人员之一。这就是为什么莱文大学在全球信息检索方面排名非常高,我认为它在全球排名第五。他们只是将其扩展到通用人工智能。例如,他们也有许多教授
在机器学习以及计算机视觉等方面拥有强大的专业知识。是的。所以我认为它正在发展壮大。我认为他们发展壮大的主要原因是投入了大量的资金。所以我认为这就是原因。关于你所说的关于人民大学人文方面的内容,我认为这是它独有的一点。
因为它这些年来不仅在人工智能方面做得很好,而且还与其他学科有着密切的联系,例如人文科学等等。我认为高瓴学院的座右铭是……
创造一些温暖的人工智能。实际上,是的,诸如此类。我不确定如何直接翻译它。所以我认为这所学校正在努力进行基础人工智能研究,并使其具有人文性,诸如此类,进行跨学科研究。是的。
现在,对于我的听众来说,并非我的所有听众都对中国有那么多的了解。你能把人民的英文翻译是什么?哦,是的。我认为它只是指人民。人民大学。是的,是的,是的,是的。但我认为它最初的名称是,像翻译成人民大学,但我不知道为什么他们更改了名称。也许他们只是想在中文发音和英文发音之间进行一些对齐,例如,如果
我们说人民大学。然后,当这些英语听众回到中国访问时,他们将不知道人民大学就是人民大学。所以他们只是改回了原来的名字。是的。所以,对于我的听众来说,那些没有去过北京的人,北京有一部分地区,那里有非常大、非常著名的大学。北大、清华和人民大学都像在那里形成一个三角形。这是中国脑力集中的主要地区之一。
在中国。是的,是的,是的,是的,是的。我认为三角形的中心被称为中关村。中关村是一个地方,例如,谷歌的办公室,在他们关闭之前,谷歌中国在那里,微软研究院以及各种风险投资公司和初创公司等等。所以它是北京的一个高科技地区。我认为我最近刚在那里。所以,梓涵,
大多数年龄较大的人,例如美国教授,在你出生的时候,中国大学并不那么强大。我认为你已经说过,在旧排名中,人民大学在全球排名第 1000 位。但我认为美国人很难理解这一点,因为你知道,自二战以来,甚至在那之前,美国基本上一直是世界上一个富裕的顶级国家。
而中国变化的速度是让美国人感到最震惊的事情之一。所以当我与美国人交谈时,我会告诉他们一些事情,比如,也许即使是在人民大学的年长教授也不一定那么优秀,但年轻的教授非常敏锐,学生也非常敏锐。所以也许你可以对此发表一些评论。比如,我猜你大学的同学和美国任何本科生一样优秀。你认为这公平吗?是的,我……
我认为这实际上主要是因为之前的范围不大。我认为有一种趋势,即中国人的教育水平一直在提高。以前,高考录取率非常低,但现在每个人都可以上大学或学院。甚至还有我们所说的教育水平通货膨胀。但我认为这实际上是一件好事,因为一旦人们受教育程度更高,他们就会更多地了解世界。他们会……
像拥有更多做一些令人着迷的事情的能力。所以我认为这主要是因为这种趋势,例如,因为以前人民大学的教授们很棒,他们正在进行良好的研究。实际上,人民大学是中国最早开始数据库研究的学校之一。所以他们的数据库排名一直名列前茅。
在其他中国学校中。但在那个范围,在那个时候,这个范围太小了。所以像在中国或全球都没有那么多声音。所以人们不知道。但我认为所有
所谓的必要人员,例如那些真正负责中国数据库系统的人。他们都知道这些学校,并且知道他们如何为国家做出贡献,诸如此类。所以我认为这只是一个范围的变化,你知道,像一个专业知识的变化。但我可能错了,因为我实际上,我主要与那些年轻的教授一起工作,而且
因为我认为我的主题主要与年轻教授的研究兴趣有关,诸如此类。但我确实相信,这种专业知识并非来自今天,而是来自很久以前。但我喜欢这个范围、人口,或者他们投入学校的资金越来越多。今天更是如此。
所以我面试前看过你的简历,它非常令人印象深刻,因为你已经参与了大学和 DeepSeek 实习期间的许多前沿研究项目。你才刚刚完成本科学习,对吧?所以,所以作为一名本科生,也许是大四或大三学生,你已经参与了相当前沿的前沿研究项目。
你能谈谈你决定来美国读研究生院吗?对于大多数有才华的中国计算机科学专业或人工智能专业的学生来说,他们是否都想去美国,或者他们是否宁愿留在中国并在清华大学攻读博士学位?对于一个孩子来说,这种想法是如何产生的?哦,是的。所以我认为这些主要有两个问题,比如我的选择和中国其他学生的
学生的选择。对于我的选择,我认为这只是具体情况具体分析,因为我了解我现在的导师。她是一位非常优秀的导师,我认为她是我职业生涯中遇到的最优秀的导师之一。她非常支持学生,并且拥有非常强大的远见卓识。她与许多从事不同方向工作的顶尖教授有着密切的联系,例如计算机视觉、机器人技术、大型范围模型、基础模型、代理,所以我主要选择了她,而不是美国或中国,也不是西北大学或其他学校,我主要选择了她,是的,所以这是我的情况,实际上也有很多人问,为什么我不像
我之前的附属机构一样,例如,人民大学或 DeepSeek,我认为我今天在不同方向上所做的事情与我之前的附属机构所关注的事情略有不同,例如,我们非常关注视觉语言模型和机器人技术,而人民大学擅长信息检索,DeepSeek 擅长基础模型,但是
如果我继续在中国学习,我认为我很难获得一些观点或获得一些关于机器人技术的经验。
这并不是因为不同的国家或其他原因。这只是因为我的背景。但我知道我的教授,我的导师,昆特利,正在研究代理和机器人技术,我真的很希望学习更多,只是获得更多关于这方面的研究。实际上,我认为我有一个关于机器人技术的正在进行的项目,但这只是刚刚开始。所以我认为这主要是一个方向的选择。是的,就是这样。但是,你能描述一下典型情况吗……
让我们假设一个孩子去了中国更好的计算机科学项目之一,并且正在考虑是否在美国或其他西方国家攻读博士学位。他们是如何考虑是否留在中国还是尝试来美国或其他西方国家攻读博士学位的?是的,是的,是的。是的,我认为在中国现在是各占一半。
对于那些有非常优秀成绩的学生,例如,他们在本科学习期间发表了几篇第一作者的同行评审论文,并且有很多研究经验,例如在斯坦福大学、伯克利大学等顶级实验室。我认为这确实是各占一半。他们中的一些人去美国,而他们中的一些人留在中国攻读博士学位。我认为……
这也是具体情况具体分析,但我认为我没有信心给你一个统计结论。但我认为,例如,我的一个学生离开了,我认为我的一个实验室同事刚刚回到中国攻读研究生。他来自人民大学,他现在在
在清华大学攻读博士学位。这是因为清华大学是信息检索最好的学校之一,甚至比人民大学还要好。所以他已经在最前沿的研究所学习了,而最前沿的研究所就在中国。其中之一,对吧?所以他只是选择在那里学习,也因为他的关系,因为他已经在那个小组实习了一段时间。所以他只是选择在清华大学攻读博士学位。
而我其他的一些朋友,他们来美国是因为我认为这也是因为教授们,无论是他们如何……
领导他们的学生,还是他们如何指导他们的学生,以及他们的研究方向。例如,我的一个朋友去了伯克利大学,他去了一个效率小组,因为他相信效率对于当前的基础模型研究非常重要,特别是对于注意力和 MOE 的效率。而那个小组在这方面做得非常好。
所以他只是去那里攻读博士学位。是的。所以几年前,你似乎真的必须在一个前沿实验室,因为只有他们才有计算预算来进行预训练,而且只有他们才能访问这些模型,因为没有真正好的开源模型。所以在那个时候,我有点担心这个领域的整个前沿会转移到封闭的私人实验室,对吧?
但现在的情况可能有点不同,也许你可以进行真正有影响力的研究,即使你没有巨大的计算预算,而且你实际上是在一所大学。所以我想知道你是否可以评论一下这种情况。我对此有很多评论。实际上,我可以分享一下我最近发布的两个公开项目。
比如区域和 COE,区域是我们试图让代理通过推理从自我进化中学习,而 COE 是专家链,我们对专家混合体进行了一些更改,以使它们能够相互通信。实际上,这两个项目总共花费不到 1000 美元。是的。
是的,所以……基础模型是类似 QN32 的东西吗?或者你使用的是什么模型?我们基本上使用的是 QM 模型的较小版本。例如,像 0.5 亿或……
是的,对于 COE 项目,我们使用了 DeepSeq v2 在 Huggy Face 上公开发布的基础设施。但我们进行了更改,因为我们正在进行预训练,所以检查点并不那么重要。我们从头开始初始化。所以我们只是更改了超参数,以使模型更小。以便符合我们的预算。
是的,所以我认为这是关键。对于之前的研究,你绝对可以尝试用少量预算来验证你的想法。但之后,如果你想扩大规模,你可以从其他资金来源获得一些资金。而且我绝对相信,一旦这种想法显示出一些潜力,我认为会有很多资金试图资助等等。是的。
所以我认为这是一个例子,当前的前沿研究可以在任何地方进行。我认为也有一些排名前 100 的大学本科生找到我,说,嘿,我有一个想法。我不确定你是否感兴趣,但也许我们可以讨论一下。我只是让他们尝试使用他们自己的云资源。他们的规模甚至比
例如,我刚刚尝试了 QN 0.5 亿。他们甚至可以尝试更小的模型。但他们只是使用一些协作或其他云资源。我们称他们每月花费不到 100 美元。但他们也可以让它工作。所以我认为当前的云架构使它更好或使它更……
让我们更便宜地验证一个想法的正确性。一旦我们能够在最初阶段验证它,我们就可以尝试将其发布一点。我认为我们不应该说发布,也许是公开它或通过我们的博客或代码发布它一点。人们会看到这篇文章,并且
像判断它,然后你会看到你的想法是否会被公众接受,是的,是的,我认为我只是想多谈一点,是的,所以我认为还有另一个因素,那就是开源基础设施
是的。所以我认为就在一年前,当我试图实现一些关于在线学习的东西时,这意味着模型可以生成一些轨迹,并且可以获得一些反馈。根据反馈,他们学习,然后他们只想改进自己。当时,这很难实现,因为我认为大多数训练架构当时都支持超宽微调,而不是在线学习,因为……
生成模型的模型必须是固定的,因为当你想改变模型的参数时,你实际上需要非常精细地管理内存。所以当时,如果你想生成,让
让模型生成一些轨迹,然后用它来更新模型,这将是一项努力,我们无法做到这一点。但现在,我认为不同的基础设施,例如我们正在使用的基础设施,例如 VRL 以及 OpenRHF。而且我认为最近有很多基础设施,例如 Open Reasoner Zero
诸如此类的东西,已经让很多人能够拥有他们的,比如,比如拥有这些开源基础设施并在此基础设施上构建自己的东西。我认为这就像站在巨人的肩膀上,诸如此类。是的。所以我认为所有这些都使得当前的研究门槛降低了。如果有人只想做一些研究。
你所说的基础设施,这些项目是否已经基于 LAMA 构建?是因为 LAMA 可用,然后人们开始构建该基础设施吗?或者它实际上是否需要像 DeepSeq 和 Qen 这样的东西来推动该基础设施的发展?是的。所以基础设施基本上意味着你有一个模型,你想训练它们。你想正确地训练它们。例如,如果你想正确地训练它们,这不仅仅是关于数据和……
只是运行它并计算损失函数,然后进行反向传播,然后进行优化。它基本上就像训练一个小模型一样,这没问题。但是当你训练一个大型模型时,你需要一些实验。我认为你需要一些东西来构建实验。例如,你需要很多指标。
你需要监控这些指标。对于以前的训练器,他们可能只是不支持这种功能,让你轻松监控这些重要的指标。但现在,所有推理都会自动提交。
实验指标到一个名为 1DB 的平台。我不确定我是否拼写正确。也许是 1B。它们可以帮助你组织并查看不同的指标。所以你可以很容易地知道模型是否训练良好。
这就像你训练一个模型,但你想更多地了解它。你不仅想知道损失,还想了解损失的其他方面。例如,损失可能是不同事物的总和。你还想知道你的 GPU 是否得到了充分利用。例如,一些
人们拥有强大的 GPU,但利用率很低。所以他们只是在浪费他们的 GPU。通过这些大量的指标,人们将能够了解他们是否真的训练良好。但对于以前的基础设施,我认为大多数只是为了确保你可以让它运行。但是它运行得有多好?我认为今天人们已经为此做了很多工作。是的。
学术实验室和其他实体在生产你所说的这种开源基础设施方面所占的比例是多少?所以我不确定,也许你是在问他们的能力还是意愿?不,是谁在实际构建和发布它?所以是大学的学者,还是 DeepSeek 在发布它?谁在实际构建你最常用的工具?
我认为这取决于具体情况。是的。例如,Vero 是由……是的,由 Danz 开发的。而 Open Reason Zero 是由……是的,我需要检查一下。是的,它是 StepFun 构建的。是的。那是另一家中国公司,对吧?是的,是的,是的,是的,是的。好的,但是你主要使用中国公司在开源中生产的工具吗?是的。
我认为这主要是因为我的朋友们正在使用它。所以每当我有一些问题时,我都可以问他们。明白了。明白了。好的。但是,所以其中一件事情是,这现在可能完全无关紧要,但一两年以前,我有点,如果你看看我在 X 上的推文,我抱怨说,如果一切都被
营利性封闭公司主导,它们不向学术界发布这些工具,那么人工智能研究,整体进展将会变慢,因为你知道,其他人无法参与。但看起来现在的情况比几年前好多了。
是的,是的,是的,当然。我只是认为开源就像……我不确定是否有像博弈论这样的结果,当每个人都试图相互合作时,社会的利益最大化。但是当每个人都试图背叛对方时,他们自己的利益最大化,但整个社会的利益最小化。我认为可能只是一小部分人,他们试图开源。
然后越来越多的人会开源,因为人们总是会赞扬那些开源的人。当他们像达到几个限制时,其他人会选择开源,因为不开源。这意味着他们可能会赚钱,但他们不会受到赞扬。而且他们的规模会受到限制,诸如此类。所以我认为这些天,机器学习社区刚刚达到了极限。
那个门槛,超过那个门槛后,更多的人会开源。是的。我认为你是对的。我的意思是,我认为,我认为这种趋势非常强劲,至少现在是这样。我认为杨,我认为即使在你翻译的早期采访之一中,你知道,他对此非常重视。你认为他们很真诚吗?DeepSink 未来几年会继续开源其模型吗?我认为是的。是的。我认为是的。是的。因为我认为,我,
好吧,我不确定。但根据我的天真看法,我认为他不想赚钱。也许他有。是的,因为他已经赚够了。是的,也许他钱已经足够了。但是好的。但是让我问你。所以下周我将去硅谷。我已经认识这个行业的人很多年了。而且
即使是那些密切关注人工智能的人,例如投资者、风险投资家,甚至是担任首席技术官的人等等,他们通常也不太了解在中国发生的事情。所以 DeepSeek 的事情对他们来说有点意外。他们不知道 Kimi 是什么。他们实际上并不真正知道 Quinn 是什么。所以我认为他们对来自中国的模型的总体质量有点麻木,我认为这些模型的质量实际上相当高。我很想知道你对此有何看法。
是的,是的。我确实相信,当前的中国公司或学校,他们的发展速度非常快。是的,我认为速度始终是中国的一些特征,因为我们从小就被灌输了一种模式。比如你必须非常勤奋。是的。
是的。所以这只是像一些,一些信息,就像,像刻在我们 DNA 里一样。是的。所以,所以,中国人总是把事情做得很快。而且,
我认为,例如,推动大型语言模型训练的优化器和一些重要算法的创新,在全球范围内,它们可能首先由美国或欧洲等地产生或发现。是的,诸如此类。我认为……
中国人总是能够发现哪些算法更有前景,并尝试将其扩展,诸如此类。所以,是的,是的,是的。这是我发现的事情之一。当涉及到更根本的改进时,例如,超越Transformer架构,或者我认为你已经提到的扩散模型,对吧?
你能预见未来,也许是近期未来,真正独特或具有创造性的创新实际上更多地来自中国而不是美国吗?我认为这是一个很好的问题。我对任何结论都没有信心。是的,我对任何结论都没有信心,因为事情发生得太快,变化得太快。实际上,例如,
我认为三个月前的我永远无法预测我现在拥有什么样的地位。我不是指任何其他事情,我只是说也许三个月前,我正在从事我自己的项目,关于……
关于智能体的结构化推理。这是一个非常小的项目,我们一直在构建一个非常精细的算法。但在DeepSeq发布其R1之后,我们只是删除了大约90%的算法,发现它对智能体有效。所以我认为任何事情都是不可预测的。
我同意。我三到六个月前的先验概率与现在的先验概率完全不同。所以一切都在飞速变化,几乎难以追踪。是的,是的,是的。我认为没有人能够预测三个月后会发生什么。也许我可以详细介绍一些研究内容。你提到了R1和强化学习。
对于听众来说,我认为DeepSea的R1论文中得出的教训之一是,你可以通过一种强化学习走得很远,在这种强化学习中,你为模型提供了定义明确的问题,这些问题肯定有正确和错误的答案。并且以某种自动化的方式,模型试图解决这些问题。你从它的行为中反馈到其内部参数的调整中,并且
令人惊讶的是,它能够非常快速、非常有效地从这种某种程度上自动化的过程中学习如何进行推理。
非常快,非常有效地从这种某种程度上自动化的过程中学习。我认为这对很多人来说是一个惊喜。我从个人了解中知道,许多美国实验室都花费巨资雇佣人类来解决问题,并将此用作微调、训练数据等。但是这种强化学习方法更优雅,不需要那么多人工参与其中。嗯,
既然你是这方面的专家,我有一些问题。我的一个假设是,对于给定的初始模型,即预训练模型,它具有一定的强度。然后你将它放入强化学习过程中。在我看来,我看到的所有曲线都显示出快速改进。但是,存在某种渐近行为,除非你使原始模型更强大,否则你将达到强化学习的某种最大性能。
这是你看到的数据的合理解释吗?我不确定我是否正确理解你的意思。你的意思是,对于强化学习,我们对性能有一个上限?是的。但是对于惊喜微调?是的,作为一个函数,不,作为基础模型强度的函数,存在某个上限,并且你知道,也许渐近地你接近该上限。
无论你在强化学习方面多么聪明,你可能仍然受到基于……这绝对……我认为这非常明显。例如,如果你有……我认为这不仅受数据或模型捕捉能力的限制。我们只是讨论模型大小。例如,你只想预测天气。是的。并且你有一个精度阈值。
这绝对是更大的模型,它可以包含更多关于每个实例的信息,例如,我的意思是,该区域每个部分的天气状况,然后它们将更有效地计算它。所以我认为模型的性能肯定受到很多因素的限制。但我不知道它是否受强化学习的限制,或者它本身受模型大小的限制。也许我们可以想象我们有一个无限大的模型或接近无限大的模型。我不确定强化学习是否仍然会在这里构成约束。因为在缩放定律中,人们总是说你……
你应该始终清楚目前的约束是什么。但我不知道当前强化学习训练的趋势,上限是否是由于强化学习或其他因素造成的。好的。我的意思是,这之所以是一个关键问题,是因为有一种感觉,对于预训练模型,
可能存在数据瓶颈或其他东西,阻止它们使预训练模型比GPT-4好得多。例如,4.5并不比4好多少,对吧?CLAWD 3.7可能只比3.5好一点。所以问题是,如果预训练模型存在某种瓶颈,无论你进行多少强化学习,你仍然会受到限制。你无法完全……
达到AGI或ASI,而不会也通过预训练模型的瓶颈。这有道理吗?是的,是的。我理解你的观点。但实际上,我们需要知道这是否是关于
模型问题还是数据问题。是的。因为我绝对肯定GPT阅读的内容比我们任何人在一生中阅读的内容都多。是的。如果那样的数据账户无法让它理解世界,我不确定什么类型的数据可以用来让它理解我们的世界。对。所以,好吧,
好吧,让我更精确一些。所以让我们假设我们坚持Transformer架构。好的。显然,可能存在一些创新,我们可以让它像我们的大脑一样。但是让我们假设我们停留在某些固定不变的东西上,例如Transformer架构,也许那些最初的缩放定律是正确的。你需要3倍或10倍的数据才能获得10倍更大的模型,对吧?所以……
在这种情况下,似乎存在某种瓶颈。推理本身并不能让我们完全达到我们想要达到的目标,对吧?我只是想知道你对此有何看法。是的,是的,是的。我只是在谈论数据,我认为当前的数据绝对足够,但我不知道当前的模型大小是否足够。例如,我们可以训练……
使用相同的数据,但使用不同的模型。例如,我们只使用一个大10倍的模型,我们可以发现,例如,预训练后,大10倍的模型的验证损失大于较小的模型。实际上,这种情况总是会发生。例如,如果我正在训练一个更大的模型,有时它只是……
收敛到最终损失趋势的速度稍微慢一些。但在这种情况下,我不确定强化学习是否会更有帮助。因为
更大的模型,我认为有一种理论认为,更大的模型往往会使数据的处理更加平滑,例如,当你试图拥有一个非常小的模型时,它们正在训练一些奇怪的数据,那么它们肯定会导致一些过拟合,但如果你只是增加模型大小,仍然使用
应变数据,模型将找到不同数据本身之间的一些平滑过渡,你可以增加模型大小,过拟合问题将减少,是的,我只是好奇,我也很好奇,但我认为有人会帮助我回答这个问题,例如,一些研究人员会帮助你回答这个问题,例如,我们知道
数据就是这样多。我们没有更多的数据。但是如果模型,如果基础模型可以更大,它是否可以提高强化学习比当前模型更高的上限?
是的,我认为这绝对值得探索,但这绝对是烧钱。所以是的,我认为,所以像当前一样,肯定有另一种研究趋势是如何使你的模型更有效率。例如,例如MOE,例如MLA,这类研究只是朝着这个方向发展,因为我们知道我们离最大效率还差得很远。为了……
当前的模型大小或任何东西是否是限制,我们必须拥有,为了不为此付出太多代价,我们可以扩大模型规模,同时进行大量关于效率的研究。是的,
是的。所以我认为这只是两个不同的方向。例如,如果我们只是不训练更大的模型,而是长期进行效率实验,例如五年。五年后,我们发现效率提高了1000倍。那时,当前更大的模型训练起来非常便宜,
所以那时,我们可以尝试看看,那时,我们能否训练一个更大的模型来解决所有这些问题。我仍然记得非常清楚,当我第一次看到BERT时,我对此印象非常深刻。但我也很惊讶,好吧,为了训练一个模型,我们需要花费数百万美元。但现在,我认为……
任何实验室都可以预训练一个基于BERT的模型,例如,基于多年来人们在效率方面所做的所有改进。我认为这并没有几年时间。我认为是七年,诸如此类。但是人们,例如,我认为每个人都可以,也许不是每个人,但每个主要实验室都可以预训练一个BERT模型,而无需花费太多成本。对。我的意思是,但你仍然在谈论预训练的数百万美元,对吧?是的。
所以现在,预训练一个BERT,我认为是1万到10万美元。好的,但是BERT可能不是……我的意思是,对于最先进的模型,与V3或GBG4一样好的模型……
预训练该模型至少需要数百万美元,对吧?是的,是的。我认为这是因为人们一直在试图扩大模型规模,也一直在试图提高效率。所以我认为存在某种平衡。很多人,他们觉得扩大模型规模是可行的,所以他们试图扩大模型规模。
其他人觉得效率可以做得更好,他们致力于效率。最后,全世界各地的预算在扩大规模的研究和效率研究之间取得了平衡。因为,是的。我的意思是,在一个极端,你有X,你有埃隆的公司,你知道,他们拥有,例如,10万个GPU,H100,他们可以把钱扔到这个问题上。
他们得到一个不错的模型,但它不一定比DeepSeek花费600万美元预训练成本训练的模型更好。这里有各种各样的策略,人们正在执行。是的,是的,是的,是的。我和大型实验室的人以及投资这个领域的投资者之间发生过的一个争论是,假设我们无法赚钱。
一个比GPT-4或V3好得多的预训练模型,我们是否仍然可以通过在强化学习和推理方面做得越来越好来实现AGI或ASI的目标?这是一个非常重要的问题,因为没有人知道如何
将预训练提高一个数量级。但人们觉得,哦,我们仍然在推理方面看到这些进步。所以也许我们不必担心预训练瓶颈。推理足以让我们到达我们想去的地方。我个人对此持怀疑态度,但我很好奇你的想法。是的,是的,是的。我认为这就像……
当你玩游戏时,你拥有不同的功能。例如,你可以增强你的攻击力,你可以增强你的防御力,你也可以增强你的躲避能力或其他什么。这就像当你在某个功能上存在瓶颈时,你可以尝试专注于另一个功能。所以是的,我认为当前的强化学习距离瓶颈还差得很远。
所以我认为很明显,现在很多人都在尝试强化学习而不是进行扩展,因为强化学习似乎比这些天的扩展更可行。是的。但我认为当强化学习达到瓶颈时,人们会发现很多其他的新事物来研究。例如,效率。而且我认为,我不确定是什么样的,
那时我们将拥有的模型。但我相信,
如果那时人工智能能够帮助人们进行研究,那么人们肯定会有很多新的事情要做。哦,绝对的。是的。所以让我回到强化学习,我不知道你是否知道这篇论文,它的缩写是LIMO。它来自上海交通大学的一些研究人员。他们声称他们能够开发出非常高级的数学能力,我认为是使用QEN32B技术。
但只提供了大约900或1000个例子。这些都是手工制作的例子。它们是在人类和大型模型之间合作制作的。但只使用了这1000个,他们能够将这个相对较小的模型提升到几乎最先进的数学能力。你熟悉这篇论文吗?
我不熟悉这篇论文本身,但我认为它的想法可能与DeepSeq R1类似,他们使用了一些冷启动数据。它也是非常小规模的,但在制作之后,他们可以使用强化学习应用该模型,然后你可以开发非常好的数学能力。是的,但在这种情况下,示例的数量非常少。只有大约1000个。是的。
这些研究人员根据这一结果提出的更大的假设是
这些推理中特定步骤的能力,执行特定步骤的能力,即使在像Quinn 32B这样相当小的模型中也是固有的。但这只是给它正确的例子,以便它知道如何在推理过程中进行。令人惊讶的是,少量示例就足以让它充分利用预训练模型中已经存在的能力。
对我来说,这个假设实际上非常合理,但它有很多含义。因为它意味着即使是非常小的团队,即使预算非常少,也可以产生真正处于狭窄能力前沿的模型。我认为这也是非常合理的。实际上……
我不确定,也许如果你的听众不太了解中国高考,对于数学问题,我们只是记住,试图记住一些基本知识,但是,
期末考试可能非常困难。但这仅仅是因为我们在现实生活中一直在进行大量关于中等水平或困难水平任务的训练。例如,我们试图从如何组织这些不同的……
想法来构建一些像连接的想法。然后我们可以尝试从连接的想法中总结,并建立很多关于此的结论。例如第一层、第二层、第三层。最后,高斯-高斯问题可能非常困难,但我们仍然有机会解决它。我认为最近还有一篇名为“思想原子”的论文,它在X上也很流行。我没有详细检查它,但是核心作者也都是我的大学同学。是的。所以我认为这只是,他们只是声称像使用这种思想原子一样,任何模型都可以增强其性能,例如
以前人们使用的是COT。COT,我认为它更像是一种自然流动,而不是非常结构化的思维。但他们正在使用结构化思维,他们以某种方式开发了一些思想原子,然后尝试将它们连接在一起以构建许多像花哨的结论,他们最终可以尝试解决这些问题。是的,我不确定这是否可以连接,但是,是的,所以我绝对相信像一些
思维模式,一些基本的思维模式,例如一个非常简单的模式,例如反思,可以很容易地学习,但这取决于你如何使用它。你可以将它用于非常精细的思维模式。例如,你可以将其作为函数插入到非常精细的思维模式中。但是非常非常基本的假设,我认为是有限的。我认为有可能将其包含在数千个数据中。你知道,这很有趣,
通常人们在谈论高考时,只是抱怨学生需要准备多少年,而且在十几岁的时候他们没有那么多乐趣,因为高考一直笼罩着他们。但你现在是第一个真正说,嘿,高考有一个非常好的方面,因为如果你确实设法将所有这些策略层层叠加在一起。我认为人们抱怨是因为他们没有机会进入他们梦想中的大学。
是的,一旦每个人都能上大学,他们就会想,哇,太好了。我可以选择大学。我很高兴。我认为高考永远不会成为压力。好的。但也有一种刻板印象,即韩国、日本和中国的孩子在准备高考时,错过了他们童年的一部分,对吧?他们没有那么多空闲时间。是的,是的,是的。我认为这不仅仅是高考本身的问题。我知道高考有一些缺点。例如,它就像你一次测试它,但这可能取决于你过去的生活。我认为这绝对是它的缺点之一。但是,我认为这更多的是一种社会教育资源。例如,在一个省份,例如,每年可能有大约10万人参加高考,但只有
前100名或只是前200名的人会去北京大学和清华大学,所以人们会非常担心,他们会过于关注这一点,所以我不知道这该如何解决,因为虽然我在人民大学,但我不是社会研究方面的专家,诸如此类,但我认为嗯
是的,所以像高考测试问题本身,我认为这很有趣。但这可能也是因为我喜欢它。也许有些人就是不喜欢它。但是是的,我只是,是的,我必须说我从中学到了很多东西。虽然我知道我的高中生活有点令人沮丧,因为我每天都要做很多任务。是的,这只是对此略微批判。是的。
所以我们一直在谈论推理,我认为你和我一致认为推理以及使用强化学习来使模型在推理方面更好仍然有很多未开发的潜力。显然,全世界现在都在研究这个问题。我想换个话题,谈谈你关于专家链的论文。是的。对于听众来说,这些模型的一种架构,它已被证明非常有效,是
拥有专家混合体。因此,与其使用一个巨大的密集模型,不如使用性质略有不同的不同模型
并且在开始时有一个门控函数或某种分配函数,对于特定类型的查询,查询被路由到试图回答它的特定专家或专家子集。因此,并非所有连接都被激活。并非所有参数都用于模型的“思考”。因此,这是进行大型语言模型处理的一种更有效的方法。而Zhehan……
他和他的合作者最近写了一篇论文,他们在其中做了一些有趣的事情,我认为物理学家可能会说,你正在制作某种专家的叠加,对吧?所以,所以你的公式中有一个系数,G子集I,我认为,你正在混合专家,我想,在推理的每一步。所以也许只是谈谈你们做了什么。是的,是的,是的,绝对的。所以我认为我可以从项目的直觉来谈谈。所以,
有一天,当我想到专家混合体时,我只是认为这就像一些客户服务。例如,这里有一个标记,它就像一个问题,你希望它被传递给一些专家。然后,当他们解决它时,这可以被关闭。但我一直认为在现实世界中,人们不仅仅让单独的专家处理这张票然后关闭它。
相反,他们会建立一个不同专家的聊天组,让他们互相交流。所以在我的研究开始时,我只是相信如果我可以,例如,如果我可以首先选择专家,并且
然后让专家多次处理这个标记。每次处理标记的方式可能略有不同,但专家是相同的。这就像多次处理标记,每次不同的专家处理它的不同部分。我有点确定它可以工作,我做了一些实验。但最后我发现代码
有点难写,因为你想锁定一些专家,他们只是用来处理这个标记。我发现代码有点难写。那时,我就在想,如果我可以……
不限制用于处理标记的专家,而是让机器自由学习。因为我们知道有时我们人类对机器施加了太多的约束。但是如果我们可以打开约束,也许机器会更好。所以我只是取消了约束,最后发现模型甚至学习得非常好,甚至比不传递专家还要好。所以我认为我现在可以把它表述得更……
两个不同信息结合的例子,我想作为收获。例如,其中一个是
专家需要按顺序处理标记。以前,人们只是发现,好的,专家可以并行处理标记,他们可以很好地处理标记。但现在,例如,一个标记可以在第一次迭代时传递给一组专家,让我们称之为A组,然后在下次迭代时传递给B组。并且
这可能是有效的,因为我认为这可以增强MOE层的有效层。例如,对于之前的MOE研究,MOE层只是一层。但我们只是发现,我们只是认为,如果我们把它做得更像顺序处理,我们实际上是在使这个MOE层成为不同的层。例如,第一次迭代是
专家组A处理标记,然后下一次迭代是专家组B,然后是层堆叠。所以我们相信这种交流可以增强模型的有效层。我认为以前的一些思维链研究也指出,思维链也试图使这种语言模型通过使标记尝试顺序预测来增强其有效层。我
我认为有一些相关的论文和许多相关的论文试图从理论上证明COE是有效的。我认为这在COE中有一些相似之处。我们也使用链的名称。是的。另一件事是我觉得在COE范例中,我们可以增强专家专业化。
例如,如果仍然有一个专家非常擅长处理几个标记,它有机会在不同的迭代中多次处理标记。例如,总是有这个专家试图处理这个标记。但每次它处理标记时,它实际上处理的是标记的不同状态。例如,这只是一个问题。它首先被半解决,然后,好的,专家会看到专家本身及其共同的同事如何尝试解决这个标记,然后标记再次传递给专家。现在它可以看到标记已被半处理,现在我可以处理它的后半部分。但这都是基于这样的假设,即这个专家非常擅长处理这个标记。所以我们还没有得到太多关于这方面的实验证据,但我认为这绝对可以以某种方式通过计算两次不同迭代中的专家是否相同来验证。一些指标可以帮助我们解释实验结果。所以基本上,就像我说的那样,只有这两个假设,但我认为我们肯定需要更多实验
实验来验证它们,然后再进行更全面的发布或其他什么。我认为还有一件附带的事情需要谈谈。我认为人们一直在尝试首先进行小型发布,然后在之后进行全面发布。所以人们一直在从期刊到会议,然后到档案馆,现在是Twitter。是的。我只是相信我一直都在采用这种做法,
首先进行非常小但相对全面的发布。但对于所有这些第二次发布,我仍在为此做很多准备。所以我只是希望解决自我的第一次发布以来人们一直在问的所有问题,因为它们是真正有价值的反馈,可以帮助我改进论文或项目,了解人们对此的看法。例如,一些Twitter用户建议
评论区有很多评论,我从中学习了很多,所以我想在我下一次发布之前尝试解决每一个评论,这很好,这是一种很好的方法,我的意思是,这就像实时的科学,你在X上做研讨会,你会得到很多很好的问题。是的,是的,这是一个很好的比喻,我认为,这是一个愚蠢的问题,因为我相信你在你的论文中说过,但当你解释的时候,我不确定答案是什么,所以你有一些额外的层,你是
实际上,重新预训练整个模型?一旦你建立了专家链架构,你需要基本上重新训练整个模型吗?因为你有了这些层,层连接可能依赖于,或者可能应该改变,以便专家做正确的事情。
是的,我们只是从头开始训练所有模型。好的。是的,这就是为什么我们选择0.5亿个模型,它甚至是一个MOE模型。所以激活的参数更少。对吧。我认为这是当前COEE的局限性。通过这种研究风格,你可以证明存在一个增量,使用这种不同的架构改进小型模型。但是一个怀疑论者会说,是的,但是当它是一个……
你知道,一个拥有数百亿参数的模型。就像我们想知道,你知道,它是否具有相同的定性改进,或者它是否比你看到的更好,或者它是否比你看到的更小?所以,很明显,最终尝试大规模地做事情没有替代品。是的,是的,是的,所以,
我相信另一个重要的主题是我们接下来要做的。是的,我知道你们中的一些观众也在从事科技工作。如果他们有任何类似的想法,我认为他们可以随时告诉我。我很高兴能以这种方式学习。是的,我认为下一个肯定很重要的问题是将知识从当前的MOU模型转移到COE合作伙伴。
所以我们不需要再进行预训练了。我们可以利用当前预训练模型的知识。这绝对是一个难题,因为我知道当前的MOE模型是为最大化并行效率而训练的。所以他们可以最大化,例如,专家只能处理一次这个标记。
所以他们会最大化它可以处理这个标记的信息。但是对于COE,我们绝对希望专家多次处理标记。并且每次他们都可以相互沟通。所以目标有点不同。所以我不确定我们可以从
当前的MOU模型转移多少知识到COE合作伙伴。但我绝对认为这可以做一些事情,因为首先,我们没有那么多钱从头开始预训练一个模型。其次,人们总是希望你的方法能够在任何事情上都能工作,尽可能少地假设。所以目前的假设是你需要从头开始初始化模型并尝试训练它
但是当我们使这个假设更好一点时,我的意思是,更广泛地应用时,我们是否可以利用当前预训练的模型并尝试将其转移到COE,因为我们已经证明从头开始训练COE是有用的。但是从MAU模型训练COE呢?
是的,我的意思是,在大型实验室之外,你知道,对他们来说不是那么大的运行,比如也许几十万美元或一百万美元。对于一个学术团体来说,这仍然是一大笔钱,对吧?实际上做一些完全预训练的。是的,是的,是的,是的,这很艰难。我刚计算过,这很难。
这就像所有博士生的年薪。是的,是的。我以前的一位同事是理论物理学家,但现在他做人工智能,他在西雅图的艾伦研究所,该研究所由微软的联合创始人保罗·艾伦很久以前创立的基金会资助。他现在已经去世了,但是,但是,
但是,你知道,他们处于中间位置,我认为他们拥有一些大学团体可能没有的资源。他们实际上试图创建几乎可以说是具有竞争力的模型,但完全是开源的,甚至训练数据也是开源的。他们试图做的事情非常令人钦佩。是的,是的,是的。我从他们的OLMOE训练中学到了很多东西。
是的,实际上,我们刚刚得到了我们的价格估算,因为他们开源了所有东西,比如GPU小时数。所以我们可以根据此进行估算。我认为他们非常棒,因为他们试图开源任何东西。他们可以开源的任何东西。甚至,比如,1B日志,比如,带有大量指标的实验日志,我相信,比如,比如,
我不确定他们是否是第一个开源的,但实际上,我认为他们是第一个开源预训练模型的实验日志的。是的,我知道我可能是错的,但这是我看到的第一个。这是我所知道的唯一案例。我不认为其他任何一个,甚至是DeepSeq或Meta,他们都不会给你那么多,对吧?所以也许只有艾伦研究所会这样做。
是的,是的,是的,是的。我认为这对研究人员来说是一个巨大的好处,因为对于研究人员来说,他们知道什么样的参数可以工作,但他们只想从你对每个实验使用的详细指标中学习更多。所以实际上,我们目前没有开源1B,因为它现在很混乱,但我们正在尝试在我们所有版本中稍后开源它,因为我们知道一旦我们发布它,它可能不会……
对大多数观众来说帮助不大,但它可能对那些真正想做研究的人有所帮助。很好。好吧,我告诉你我们会聊大约一个小时,我们现在正好一个小时。所以让我稍微总结一下。让我问问你,你对未来几年事情的进展有什么想法吗?比如,有没有……
你想做的非显而易见的预测,或者你认为肯定会发生的事情?任何可能令人惊讶的事情?你想对未来说些什么?我不确定人工智能是否能帮助人们加速登月。
你不确定。但我希望如此。是的,我希望如此。我希望如此。我认为机器人技术肯定会在未来几年取得最大的进步,因为以前,所有机器人都不能进行任何语义理解。是的。但是对于当前的大型语言模型,我们……
具有视觉能力,我认为这将更加真实。我认为这只是提高了我们在现实世界中看到人工智能的概率。例如,它就像类人机器人人工智能,只是帮助你做很多事情,例如家务之类的,因为他们真的理解你的语言。
所以以前的人工智能,他们假装理解你的语言,但这就像固定的功能,例如,你想做功能A和功能B,这些都是在它们生产时预定义的。但现在你可以要求它为你做很多事情。他们
他们有这种可能性。我知道对于当前的机器人人工智能,我认为仍然存在泛化问题,即它们在任务A上进行了训练。他们在任务B上做得还可以,但并没有那么好。所以如果人们能够解决这个问题,我认为在几年内,人们会看到机器人技术真正融入我们的生活。
之后就是研究的加速。我一直私下在我的微信上发帖说,我无法想象我可以在一个月内发布两篇第一作者的论文。老实说,我认为这是博客发布。
所以我认为今天的研究已经加速了。他们基本上是因为你可以获得项目所需的必要信息。这个过程已经加快了,因为以前当人们想了解一些知识时,他们只能阅读预定义的文档。但现在人们真的可以问任何人工智能,说,
说,好吧,我已经知道A和B了,请帮我解释一下C。每个人都有不同的A和B,但人工智能可以为具有不同A和B的不同受众提供正确的C。所以信息,比如信息的获取速度真的越来越快了。
但我认为这是当前阶段人工智能的加速。我认为肯定在2025年,我认为就在今年,人工智能可以帮助你调试你的代码。我认为这很明显,因为当前的人工智能已经可以帮助我调试我的代码,但在文件级别。所以我可以从单个文件中的AI获得一些知识。但是对于存储库级别的调试,我认为现在做得不是很好,但在某些情况下做得很好。但是如果……
在存储库级别,人工智能可以理解我的研究进展。例如,如果我第二次问它一个查询,我不需要输入任何与第一次相同的内容。我可以假装它知道
任何事情,我正在我的项目上进行的任何进展,那么我就可以拥有一个很棒的助手来帮助我完成我的项目。每当我遇到错误时,我不需要求助于其他人,也不需要为此错误花一个下午的时间。但我可以要求人工智能帮助我检测错误在哪里以及我需要编写什么样的代码。他们只是帮我编写90%的代码。对于剩下的10%的代码,他们不确定。他们问我,所以是否,什么样的,
我想用这种方法来做,我可以只做10%的工作。我认为这是目前最显著的进步,因为那时,我认为有人说过,可能是安德鲁·科布西,我们只需要用自然语言编写代码。我们只需要告诉他们我们的想法,我们实际上不需要自己编写代码。我们只需要理解他们为我们编写的代码
我认为这只是当时研究加速的另一个重要部分。当所有这些,比如这两个部分合并在一起时,我不确定那时我们会取得什么样的研究进展。是的。很好。是的,我同意你刚才说的所有话。我认为我们正处于人工智能能够
很好地理解我们的存储库的边缘,然后能够用自然语言或非常自然的伪代码来表达我们想要的东西,并且它知道存储库中可用的工具。我认为在某些情况下我们非常接近这一点。我今天早些时候刚对我研究小组说的一件事是,如果你想要一篇综述文章,
就像你正在尝试理解某个新领域,并且你想要有人撰写该新领域的综述文章一样。人工智能会做到这一点。正如你所说,你甚至可以说,我已经知道A和B了。C是我正在尝试学习的内容。请使用这些文章作为上下文,为我撰写一篇介绍性综述文章,以便我能够快速理解它。这是一件几年前我无法想象的事情,但现在完全有可能了。
我一年以前也从未想过。是的,太疯狂了。是的。很好。扎汉,我非常感谢这段时间。我相信我的听众会喜欢这次谈话。非常感谢你加入我。是的,是的,是的。非常感谢你。实际上,我真的很喜欢和你聊天,因为你的问题……
让我思考了很多过去在研究生活中无法思考的事情,因为你知道,研究生活有时非常鼓舞人心,但大多数时候都很无聊。我需要写很多东西,是的,它们很糟糕。我很高兴今天能和你聊天。我学到了很多新的视角。