We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI Breakthroughs, AGI Risks, & The Future Of Thought: A Conversation With Dr. Bo Wen

AI Breakthroughs, AGI Risks, & The Future Of Thought: A Conversation With Dr. Bo Wen

2025/6/14
logo of podcast Finding Genius Podcast

Finding Genius Podcast

AI Deep Dive AI Chapters Transcript
People
B
Bo Wen
Topics
Bo Wen: 我最初是作为一名物理学家开始我的职业生涯的,研究低温凝聚态物理。我对单分子磁体的长程相互作用进行了研究。即使今天,当我研究人工智能时,我仍然从我的物理学背景中汲取灵感,这对我非常有帮助。后来,我加入了IBM,他们聘请我担任物理学家,从事医疗用途的可穿戴技术研究。随着公司战略的转变和我的研究兴趣的变化,我开始思考如何利用信息技术来理解疾病,了解患者与环境的互动,并帮助患者更健康。

Deep Dive

Chapters
This chapter introduces Dr. Bo Wen, his background as a physicist, his transition to AI research at IBM, and his current focus on digital health initiatives. It provides an overview of his expertise in large language models and AGI.
  • Dr. Bo Wen's interdisciplinary background blends physics, neuroscience, and AI.
  • His work at IBM focuses on digital health initiatives.
  • He has expertise in large language models (LLMs) and Artificial General Intelligence (AGI).

Shownotes Transcript

认识Bo Wen博士,他是IBM的资深研究科学家、AGI专家、云架构师和数字健康技术主管。他将与我们一起讨论他对AI快速发展的看法——以及这可能对人类沟通的未来意味着什么……凭借在生成式AI、人机交互设计、数据编排和计算分析方面的深厚专业知识,Wen博士正在突破我们理解和应用大型语言模型的界限。他的跨学科背景融合了数字健康、认知科学、计算精神病学和物理学,为新兴的AI系统提供了独特而强大的视角。自2016年加入IBM以来,Wen博士在公司医疗保健和生命科学部门发挥了关键作用,为涉及可穿戴设备、物联网和AI驱动型健康解决方案的创新项目做出了贡献。在加入IBM之前,他获得了纽约市立大学的物理学博士学位,并在实验物理学领域取得了成功的职业生涯。在这个对话中,我们探讨了:Wen博士如何在大约十年前预见AI突破;AGI对沟通、推理和人机协作的影响;大型语言模型的工作原理;AI需要理解什么才能预测句子中的单词。想更深入地了解Wen博士的工作吗?点击此处了解更多信息!Apple Podcasts上也提供此剧集:http://apple.co/30PvU9C🛍️本期推荐产品:🎙️Blue Yeti USB麦克风——对于希望在家获得专业级音频的有抱负的播客和演讲者来说,这是一个顶级选择。👉查看它注意:这些是联盟链接。如果您通过它们进行购买,我们可能会赚取少量佣金,而不会给您带来额外费用。这有助于支持播客。谢谢!</context> <raw_text>0 忘记常见问题解答吧。常识、普通知识或谷歌搜索。不如听听一位真正天才的建议?任何行业的95%的人员都足够胜任并获得许可。5%的人则超越了常人。他们在自己所做的事情上变得非常出色,但只有0.1%的人……

一位真正的天才。理查德·雅各布斯已将寻找他们作为其毕生使命,为你们寻找他们。他搜寻并采访各个领域的奇才。睡眠科学、癌症、干细胞、生酮饮食等等。天才们来了。这是理查德·雅各布斯主持的《寻找天才》播客。

大家好,我是理查德·雅各布斯,主持《FinanGPS》播客。今天我的嘉宾是Bo Nguyen。他是一位资深研究科学家,也是AGI(通用人工智能)专家。他是一位发明家、云架构师,也是公司数字健康计划的技术主管。我们将讨论所谓的“大型语言模型”,它是Chat GPT的基础。还有推理模块,但那是另一个话题。

我们将再次讨论一些当前的AI。我在这里的部分目标是找出,你知道,发生了什么变化?为什么AI现在突然无处不在,并且比几年前要好得多?但无论如何,欢迎,Bo。感谢你来到播客。我很感激。嗨,你好,理查德,大家好。谢谢。我很高兴有机会在这里分享我对这个问题的一些看法。

关于这些问题。是的,首先,如果你愿意,请简单介绍一下你的背景。我可以看到你做了很多非常酷的事情,但用你自己的话说,简要总结一下你到目前为止的历程,然后我们将继续前进。当然,是的。我认为这可能是命运。我最初是一名物理学家,低温凝聚态物理学家。我研究了单分子磁体这种非常特殊的材料中的远程相互作用。

然后我继续前进。是的。哦,一个快速的问题。Bo,是Bo爱因斯坦凝聚态的缩写吗?还是那不是你?我只是在开玩笑。太可惜了。是的,他们是我的明星。他们现在仍然是。即使在今天我研究AI时,我也从我的物理学背景中汲取了很多灵感。我认为这非常有帮助。是的。所以我最初是一名物理学家。然后当我加入IBM时,他们也聘请我作为物理学家来研究一些非常酷的

用于医疗目的的可穿戴技术。但后来,公司战略发生了变化。我的研究兴趣也发生了一些变化。我开始更多地思考类似这样的问题,那是我当时个人的挣扎。每天都有数百篇论文发表在arXiv上,我无法阅读所有论文来了解整个研究界的动态。然后

我也看到这个社区感到沮丧,似乎我们总是做一些渐进式的改进,而不是像100年前那样,就像你说的,像爱因斯坦和海森堡,大约那个时候,他们都在科学发现上取得了巨大的飞跃,对吧?但似乎每100年就会有一个周期,每个人都觉得事情正在放缓,但是

但是突然间,一些新的发现从某个地方出现。所以大约八年前就是这样。所以我开始思考这个问题,这个问题,对吧?下一个突破会在哪里出现?为什么会有更多,也许更哲学化地说,为什么会出现这种瓶颈问题?

然后这就是我将自己发展到更多神经科学以及AI和信息论技术的原因。我的团队,也因为公司的变化,整个团队的重点也,我不应该说改变,我只是从一个团队转移到另一个团队。而新的团队是与Guillermo和Jeff Rogers一起的。所以他们更专注于数字健康。这就是我们今天所说的。

如何利用信息技术来了解疾病,了解患者如何与他们的环境互动,以及我们如何利用技术帮助患者更健康。让我们首先了解一些大型语言模型,只是一些基础知识。那么

大型语言模型是如何工作的,它们是ChatGPT、Gemini和所有其他AI的基础?当然。实际上,我认为这对每个人来说都是一个惊喜。对吧。

对吧?所以一开始,大型语言模型架构只是试图预测下一个标记。这就是你训练这些模型的方式。所以他们所做的就是有一个模型,有一个架构设计,然后训练过程就是完成一个句子,然后尝试预测句子中下一个词应该是什么。在你得到之后,你再次将它反馈到模型中,然后尝试预测下一个。继续

继续。所以这是一个自递归的过程。然后,正如你前面提到的,它被称为缩放定律。我认为Ilya,Ilya Sutskever,他来自OpenAI。我认为Ilya和一些其他研究人员提出了缩放定律的概念。所以他们指出,当底层计算软件增加时,我们拥有更多的计算能力,然后模型可以用更大的数据集进行更长时间的训练。

然后新的行为似乎只是从模型中涌现出来。所以他们开始……你如何从预测下一个词到我告诉Chat GPT,写一个关于鲍勃和简玩跷跷板的故事,并使用情感语言,并以查尔斯·狄更斯的风格写作,500字。它如何接受这样的提示并吐出整个故事?这非常好。我是凯特。

是的,是的,是的。所以这实际上是后来的发明。它被称为指令微调或聊天微调。所以OpenAI开始……

我认为他们对这个领域的重大贡献是他们发现,与其仅仅完成一个句子,不如在一个对话数据集中微调模型。所以对话中有两个人,一个人说些什么,然后下一个人会以聊天的方式回答第一部分。所以它被称为聊天风格微调。在进行这种微调之后,

LN可以用作聊天机器人,因为它会理解,与其完成你的句子,不如以响应的方式回答你在句子中所说的内容。所以这就是……你如何从语义上知道我在问什么?这回到了链式命名。实际上,这就是神奇之处。每个人都感到惊讶的是下一个词的预测,因为为了精确地预测

预测下一个词是什么,它需要理解所有在要预测的标记之前给出的句子或标记的上下文。有一篇非常重要的论文,名为《注意力就是你所需要的》。

来自谷歌。他们发现的是,他们构建了一个矩阵,我们今天称之为KV缓存。所以基本上,只是说,这是之前给你的所有标记。然后在另一个方向上是应该注意哪个。然后模型被训练来找出它应该注意什么之间的联系,对吧?

所以当你给它一个句子时,它会关注对你预测下一个词最相关的那些信息。然后在预训练过程中,我们只是向模型提供所有信息

我们可以通过人类错误书写获得的所有信息,例如,我们向它提供整个互联网。然后当你尝试通过这种方式预测下一个标记时,你就会学习如何关注重要的事情。然后通过这种方式,你不知不觉地弄清楚上下文是如何工作的,以及每个词的语义是如何具有不同含义的。例如,苹果可以指几件事。我们吃的苹果,

或者苹果公司,对吧?当苹果出现在句子中时,它需要查看苹果周围的所有词来理解哪个含义

这个苹果应该承载。所以这就是度量标准。是的,这就是为什么这篇论文的标题是正确的。《注意力就是你所需要的》。这给了我们所有这些神奇的效果。然后,你知道,如果我做一个很长的提示,比如说10个句子,而不是一个句子,会发生什么?比如,它什么时候会压倒

AI系统,无论是Gemini还是ChatGPT,以及为什么它会压倒系统?是要求你处理太多事情,还是你输入提示的内容没有限制?实际上,这是一个非常重要的研究领域,现在仍在积极进行中。它被称为注意力头。本质上,内部机制被称为注意力头,并且

正如你所说,一开始,我们考虑的是Track GPT-2或Track GPT-3.5。问题是,当上下文变长时,在某些时候,它会丢失对它应该注意的一些信息的跟踪。一个有趣的观察是,在某些时候,委员会发现这种注意力实际上类似于人类。所以它更关注句子的开头或段落,因为你是因为我们要求它计算的方式是你在预测下一个标记后将其反馈到模型中,要求它预测下一个标记,所以句子或段落或提示开头的标记比后面的标记得到更多模型的反馈,然后不知不觉中模型更关注开头,然后

当然。这是一个工程细节。是的。好吧,快速地说,伊万,假设我有一个短篇故事,我想修复

布兰登,如果我说“修复以下短篇故事中的语法”,然后粘贴进去,会更好吗?或者我应该先写短篇故事,然后在结尾说:“请修复上面故事中的语法”?在早期,第一种方式会更好,对吧?所以你首先给出指令,然后给出上下文,因为你会更关注指令。这就是为什么我们有,你可能听说过系统提示和用户提示。所以系统提示本质上是

利用这个技巧,比如你在系统提示中输入的任何指令,它都会附加在提示的开头。然后其他所有内容都是上下文,将附加到后面部分。但是今天,这并不是一件令人惊奇的事情,对吧?这项技术发展得如此之快。所以那是两年前的事了。今天,模型实际上能够均匀地分配其注意力。实际上,有一种特定的基准测试

基准机制来测试模型在这方面做得有多好。所以它是在寻找大海捞针。所以本质上,它

本质上,基准机制是它会向LLM提供一整本书。然后在书中,研究人员会插入一些标记或一些标签信息,比如一个与书的其余部分无关的奇怪句子。然后他们会要求最后一个对话模型找出那个句子在哪里。他们可能会给出句子的开头,或者以不同的方式说这句话。

然后要求LLM搜索整本书,然后找出它在哪里。所以这是一种确保LLM关注所有内容,并且不会被其他压倒性信息分散注意力的方法。

信息。这些都是,在将它们放在我们面前供我们使用之前,它们需要通过这些测试。那么LLM当前的一些局限性是什么?因为我看到了所谓的推理模块。那么它们是什么?它们会在不久的将来与LLM结合吗?我不确定,比如未来几个月会发生什么,或者他们正在研究的当前迭代的局限性是什么?我认为

实际上,这就是我现在正在积极研究的内容。所以我对LLM推理,或者实际上是自然智能和人工智能如何执行推理任务非常感兴趣。所以今天,LLM推理仍然是LLM,但它试图利用。所以这是人们发现的另一件事,是LLM中的涌现行为。

所以一开始,我们只是要求LLM写一个故事,或者帮我修复语法,对吧?然后人们试图要求LLM解决数学问题或其他科学问题。然后他们发现有时LLM可以做对,有时LLM做错。然后在某些时候,有一个聪明的发现。说,你只需要告诉LLM,添加一个神奇的提示,说,一步一步地解决问题。

然后LLM解决数学问题的准确性会突然提高。因为它不是仅仅吐出最终答案,而是会尝试推导中间步骤。然后因为它是真的,让我们告诉你它是如何工作的。是的,实际上,这是有趣的事情。就像为什么我们,我有一个六岁的女儿,对吧?

所以在学校里,她现在也在学习。老师强迫,比如告诉他们展示工作过程,对吧?实际上这很重要,因为展示工作过程可以让你仔细检查中间步骤是否正确。如果你在脑子里做所有事情,有时你可能会错过一个,你可能会错误标记某些东西,或者你跳过一个步骤而没有注意到。然后你会得到一个

错误的结果,然后你将无法返回来修复问题,所以实际上你可能听说过一本名为《思考,快与慢》的书,丹·阿里埃利,丹·阿里埃利,是的,它谈到了系统一和系统二,对吧?所以人们今天也用这个比喻来思考RLM,系统一本质上是直觉,它是你的

对神经系统的反应,然后当有刺激时,你就知道答案了。系统二是你要思考,这是真的。你需要一步一步地进行逻辑推理。这就是这种涌现行为的来源。所以对于复杂的任务,实际上你需要跟踪许多不同的信息,然后你需要将它们组合在一起才能得到最终结果。

答案。所以从信息论的角度来看,这意味着更大的任务可以分解成更小的任务,然后你可以分而治之,一个接一个地解决,

然后当你解决一个问题时,实际上你应该写下那部分的答案。因为当你解决另一部分时,这部分的上下文很可能不需要所有中间步骤。你只需要记住你对A部分的结论。所以当你解决B部分时,你可以集中所有记忆和计算资源,专注于完成任务。之后,你再做下一个。所以这就是人类和……

我们只是凭直觉知道如何做到这一点,或者可能是通过学校的训练,对吧?这就是我们解决复杂任务的方式。但是一步一步地思考本质上是利用了这一点。它是一个,你要求RN执行中间步骤,

然后你写下所有对一个的正确答案,然后因为它的注意力机制,当你从那里继续执行下一步时,它不需要关注之前的标记,它将从步骤B开始,如何处理那部分,然后最后它只需要关注,好的,组合A、B、C步骤的中间结果,给我最终结果,所以像一步一步地做那样,赋予了LLM像分而治之的能力,或者

或者它具有,它开始具有抽象能力,是的,那么它是否,它是否正在进行抽象,或者它只是,它非常擅长分割允许用于计算的内容,所以LLM是否可以进行抽象,这是一个

也许更多的是人们仍在争论的哲学问题。所以从计算的角度来看,对吧,什么是抽象?抽象本质上是信息压缩,对吧?所以有一个,当你做细节部分时,有很多细节。但是当你试图将该结论用于问题的另一部分时,你不需要记住所有详细的步骤。你只需要使用结论。所以然后

然后你将所有信息压缩成某些东西,然后你将其带到问题的另一部分。这是思考抽象的一种方式。所以今天的LLN,当你只使用普通的LLN时,因为它会一个接一个地吐出标记,并且所有之前的上下文仍然被馈送到它的循环中。所以

所以实际上它并没有很好地利用其上下文窗口。这就是许多新的agent框架理念的来源,它是一个

他们试图将LLN用作更大AI系统的一个组件。然后LLN将尝试解决一个问题。他们称之为草稿纸。这是一种内存模块。所以LLN在这里解决问题的这一部分。然后当它得到,当它完成时,它会得出结论或总结。

然后将结论保存在其内存系统中。然后另一个组件将从头开始,拥有上下文,并拥有前一步的结论,然后继续解决问题的下一部分。然后它就变成了……GAN怎么样?你知道,如果你有AI,它们相互竞争,相互纠正,如果你研究过它们,GAN的一些动态是什么?是的。好吧,GAN更早……GAN的概念在今天仍然有效。

这就是许多agent框架试图使用的东西。例如,一个流行的东西叫做LLM作为法官。我在这个领域有一些研究。本质上,你要求一个LLM首先解决问题,然后你让另一个LLM作为法官来判断结果,看看是否存在

幻觉或需要改进的地方,然后它就变成了一个循环。但是最初的GAN网络概念更偏向于LN之前的时代。所以今天的LN并没有完全精确地执行我们过去谈论的GAN,但是

这些概念被保留下来,并嵌入到agent框架中。好吧,你认为,我的意思是,你能否启动给定AI的其他实例,并可能稍微更改初始条件,以便会有一个有效的GAN?比如,你知道,任何大型AI公司是否这样做来完善他们的结果?是的。我认为GAN这个词在社区中有一个

特定的含义,是指那种架构或网络。所以人们试图避免重复使用这个词来避免混淆。所以人们今天只是以不同的方式称呼它。但是这个概念存在。好吧,现在它被称为LLM作为法官。这就是……叫做什么?LLM作为法官。LLM作为法官。明白了。什么

这些推理模块是什么?它们与LLM有何不同?哦,我明白了。是的,这是一个好问题。正如我之前提到的,对吧,一步一步地做事情,然后这被称为思维链。所以

一段时间以来,人们只是使用提示工程来要求LN进行思维链。然后后来,我认为斯坦福大学发表了一些名为START的论文。本质上,它使用强化学习来训练LN生成思维链,或者生成更高质量的思维链。OpenAI是……

去年,Reddit上有人说OpenAI有一个名为Strawberry的秘密项目。

他们说他们将找出下一代AGI。本质上,这是OpenAI采用了star的想法,然后开始训练他们的……那是他们去年推出的O1模型。本质上,它所做的是,该模型将尝试解决问题,将在某种意义上搜索解决方案空间。O1模型只是生成更长的思维链。然后

就像你探索一种可能性,如果它不起作用,那么你开始探索下一个可能性,然后持续这样做,直到你解决问题。因为对于开放式问题或更难的问题,你的第一种直觉方法可能并不正确。所以你做一些步骤,然后在某些时候你需要放弃,然后你需要尝试其他方法。这就是O1的想法。

后来,OpenAI推出了O3模型。区别在于并行地进行探索。所以人们,好吧,他们没有公开,所以我们不知道确切的,我想,计算和从他们的文档中,我们多少知道系统是如何工作的。所以对于O3,它正在进行蒙特卡洛树搜索,这意味着并行搜索解决方案空间。然后你尝试

总结结果以便执行推理的下一步,而OpenAI并不是唯一这样做的人,实际上在ROA03之前,我也有一个类似的系统在这样做

本质上,我有多个LLN。我可以以agent的方式驱动它。我有多个LLN作为初始agent来尝试解决问题。然后他们每个人都有自己的尝试。当然,有些做对了,有些做错了,或者所有人都错了,但有些做对了问题的某些部分。然后你使用LLM作为法官。有一个第二层来查看所有初始结果。然后你尝试

找出共识是什么,区别是什么,然后利用它来跟踪你的下一轮推理。

然后迭代地,这将比1L更好解决问题,只是尝试解决蛮力问题。然后你可能听说过DCR1。所以DCR1。我也尝试过两次,但是,它是如何工作的?是的,它本质上是在这样做,但他们的贡献是他们真的,他们优化了底层库和硬件,

以及训练过程,他们使它非常高效。所以你不需要花费数十亿美元在大型GPU集群上训练这种模型。他们制作了一个非常高效的包。所以每个人,即使是大学教授,现在预算有限,也可以研究这些模型。所以从方法论上讲,他们在工程技能方面有很多非常好的改进,但它围绕着同样的想法。只是训练LLM模型来生成更好的思维链。对于例如使用LLM的合理长度提示,Chat GPT上的LLM与O3模型相比,R01需要多少计算能力?所以R01绝对便宜得多,

因为他们在工程层面做了所有优化,所以他们使计算非常高效。而且我认为即使它们是开源的,但今天像OpenAI和Anthropic,他们仍然包括IBM,对吧?我们仍在努力吸收所有开源知识,以及如何改进我们的推理引擎。所以它仍然花费相当多。

对于不同的公司。我的意思是,每家公司都有自己的秘密

秘密方法,如何做事,如何进行工程技巧。但是有一个普遍的共识是,你需要以某种方式提高计算效率,因为它会成为业务成本。对吧。你对Chat2BT收取的价格感到惊讶吗?每月20美元用于B2产品,然后每月200美元用于无限使用。我不知道你是否了解定价与计算能力和提供它的成本之间的关系,但到目前为止你认为如何?我

在他们宣布新的价格结构时就开始使用ChugGPT了。我有点迁移到……有一个名为Cursor的软件。Cursor是一个IDE。它用于使用LN进行编程。然后它为你提供对不同模型的访问权限。包括OpenAI 03、04和其他模型。还有一个……

和治疗云。是的。所以,所以它包括许多模型,如BCR1和治疗云。它们都在那里。所以我获得了访问所有不同模型以执行不同任务的权限。我会选择不同的模型。你认为未来会怎样?我的意思是,它现在发展得如此之快。你为什么认为,我知道我之前已经回答过这个问题了,但是,这仅仅是因为现在有更多的计算能力吗?

我们正在获得这种涌现行为的更多层级,或者是什么触发了这一切突然起飞?因为AI已经存在很长时间了,它只是停滞不前,然后什么也没发生。现在这一切都在2023年爆发了。比如什么,

发生了什么?我认为这不是巧合。有几件事同时发生,对吧?几件事同时发生导致了这种情况。首先重要的一点,当然是底层计算变得更高效。例如,NVIDIA的GPU非常专注于这种大型训练,这使得它成为可能。然后第二个是互联网,对吧?所以过去,

在互联网上,我们有,比如互联网已经存在了超过10

20年,但一开始只是人们聊天或发送电子邮件,以及在20多年里有很多事情,在20多年里,人们付出了巨大的努力来数字化过去的所有出版物,这需要很多年才能完成,对吧?现在所有书籍都被扫描并放在互联网上的数字图书馆中,然后每个人都在写博客,以及

其他东西。所以实际上,互联网上可以用来训练模型的数据更多了。所以Ilya一直在称它们为AI的化石燃料。所以我们可以用来训练模型的数据量实际上

实际上在过去几年才变得可用。然后,当然,人们研究了架构,重要的论文,重要的概念,比如《注意力就是你所需要的》,所有这些东西也出现了,然后

这个概念变成了一个可行的任务。然后OpenAI是先驱,他们真的相信这种规模化实际上是有效的。所以我们应该给他们一些赞誉,因为他们说服投资者给他们数百万美元来构建一个巨大的GPU集群来训练一个巨大的模型。然后他们证明了

认识Bo Wen博士,他是IBM的资深研究科学家、AGI专家、云架构师和数字健康技术主管。他将与我们一起讨论他对AI快速发展的看法——以及这可能对人类沟通的未来意味着什么……凭借在生成式AI、人机交互设计、数据编排和计算分析方面的深厚专业知识,Wen博士正在突破我们理解和应用大型语言模型的界限。他的跨学科背景融合了数字健康、认知科学、计算精神病学和物理学,为新兴的AI系统提供了独特而强大的视角。自2016年加入IBM以来,Wen博士在公司医疗保健和生命科学部门发挥了关键作用,为涉及可穿戴设备、物联网和AI驱动型健康解决方案的创新项目做出了贡献。在加入IBM之前,他获得了纽约市立大学的物理学博士学位,并在实验物理学领域取得了成功的职业生涯。在这个对话中,我们探讨了:Wen博士如何在大约十年前预见到AI的突破;AGI对沟通、推理和人机协作的影响;大型语言模型的工作原理;AI需要理解什么才能预测句子中的单词。想更深入地了解Wen博士的工作吗?点击此处了解更多信息!Apple Podcasts上也有此集:http://apple.co/30PvU9C🛍️本期推荐产品:🎙️Blue Yeti USB麦克风——对于希望在家获得专业级音频的有抱负的播客和演讲者来说,这是一个顶级选择。👉查看它注意:这些是联盟链接。如果您通过它们进行购买,我们可能会赚取少量佣金,而不会给您带来额外费用。这有助于支持播客。谢谢!</context> <raw_text>0 这有效。现在每个人都知道它确实有效,我们到处都有开源模型,所有的人开始在这个领域进行研究。然后,这种反馈就变成了一个反馈循环,对吧?社区正在关注这个非常有前景的方向。所以有更多的人在做研究,然后这加速了技术的优化速度。哦,有一件事似乎越来越少了

那就是AI出现幻觉或说出毫无意义的话。为什么会发生这种情况?做了什么来清理它?因为它比以前好多了,好多了。是的。所以有几件事。首先,幻觉绝对是一个大问题,对吧?所以有很多研究是如何解决幻觉的。推理是一个特殊的方面。其他的方法是……

比如检索增强生成。所以RAC,当你试图提供时,这是一个常见的方法,当你要求LLM工作时,在一些未经训练的数据集上提供答案,例如,你提供一个PDF到它的上下文窗口中,

然后它将根据PDF回答,而不是试图编造一些东西。但另一件事是,社区的另一项研究工作发现,免费训练数据集的质量实际上是

非常重要,因为正如我们所说,回到根本机制,对吧?所以它试图预测下一个标记。然后它的工作原理实际上是,它首先列出所有可能的候选词,然后它试图从候选列表中选择一个。如何生成候选列表是来自它的预训练。它记住它在互联网上看到的一切,所有可能出现的下一个单词。而且它

如果它是在我们所说的噪声数据或脏数据上进行训练的,例如,用户的提问是:我有一些症状,我应该吃什么药?然后如果它是训练数据,它都是来自互联网的,比如不同的人说不同的话,模型并不知道谁对谁错,因为它没有内在的判断力。它只是看到概率,好吧,

30%的人这么说,另外20%的人那么说,也许10%是训练有素的医生说对了,但这部分人群很少,所以它得到了足够的。然后这样,它就会根据统计数据给出错误的答案。所以一旦人们发现这一点,就会投入大量资金来清理训练数据集。

所以你真的只使用高质量的教科书,然后可能使用高质量的文献。你不会使用来自Reddit论坛或其他你

无法验证信息是否真实来源的随机帖子。他们发现,如果你使用高质量的数据来训练模型,那么模型以后的行为就会好得多。这有点像我们学校的孩子,我们告诉他们不要看太多YouTube。你在发展你的神经网络时,应该专注于吸收正确的信息。类似的原理,对吧?

我本来要问你什么?我们可以更多地谈谈推理部分。所以幻觉实际上是研究推理的强大动力。因为想想看,幻觉有不同的层次。比如,最简单、也许最幼稚的幻觉方式,就是当问题是一个回忆问题,而你只是记错了事实。

例如,你问大型语言模型,美国的第一任总统是谁?然后因为它只是根据统计数据进行预测,我们知道正确的答案是乔治·华盛顿,因为林肯也在很多关于总统的文章中出现过。所以你可能会说它是林肯。这是错误的。这只是一个回忆类型的幻觉错误。

但是当你遇到更复杂的问题时,比如解决数学问题或解决开放式科学问题,比如药物发现,定义就有点变了,因为它实际上是推理步骤。所以当你试图探索下一步应该是什么时,LLM代理试图探索下一步应该做什么,去探索,去解决,去解决。

例如,设计一种新药,那么幻觉就变得有点模糊了,因为即使是人类来做这项工作,我们也可能只是反复试验。因为我们不知道正确的方向是什么,我们只有一些大致的想法。所以我们尝试这个,如果它不起作用,我们需要回去再尝试另一种方法。所以在这一点上,就像,

当LRM第一次选择错误的路径走下去时,那并不是,你可以说这是幻觉,但它也是,它只是,没有更好的信息让它做出判断。所以,是的,在推理中,幻觉是一个较小的问题,因为……

但有时标记生成的概率较低,标记较少,我们可以称之为创新,因为很多时候……所以一个快速的问题。你知道人们怎么说它是黑盒子吗?如果你有,比如说,我不知道,20层,没有人知道内层发生了什么。有人试图使用,你知道……

这些模型中的一个,一个推理模块,无论什么,来理解黑盒AI系统中发生了什么,你会认为,好吧,也许这是一个好主意。你知道,这有效吗?或者发生了什么?是的。实际上,有一个完整的社区在追求这个。所以它被称为机械解释,本质上是试图从机制的角度来解释模型内部发生了什么。那里有很多很多好的论文发表,

他们这样做的方法是训练另一个模型来观察他们试图研究的大型语言模型内部的神经元权重。本质上,你可以把它想象成建造一个显微镜来观察物体,这个物体就是你试图构建的land-trick模型。

然后那里有很多有趣的论文发表。最近的是Anthropy。他们提出了LN的生物学原理。它本质上是在做这种研究。他们有开源的,有两个模块。所以现在每个人都可以使用这个原理来构建一个显微镜来研究模型。

但几个月前,我认为是六个月或八个月前,谷歌也为他们的Gemini模型发布了一个类似的工具箱。更早之前,学术研究界

我记得我看到的这个领域的第一篇论文,一篇有趣的论文,他们问Lambda模型关于世界地图的问题。比如他们问了关于纽约的问题,他们问了华盛顿相对于纽约在哪里。他们问了所有这些问题,然后他们证明了模型内部的权重是如何转换的。

试图回答这个问题。最后,他们看到模型内部实际上有一张世界地图。所以模型实际上拥有他们所说的世界模型,而不仅仅是地球。世界模型意味着AI系统拥有其所处环境的内部模型,然后试图回答问题,而不仅仅是基于随机统计数据,而是实际上他们在思考

以一种原则性的方式,就像人类一样,就像我们与环境互动的方式一样,我们在大脑中有一些想象模型,或者我们所说的假设,对吧?然后我们用它来帮助我们推理环境或问题。所有这些都很有趣。但是,是的,为了回答你的问题,人们肯定在研究模型是如何工作的。好的。

最后,我们快没时间了,但你在你的个人简介中提到你经常思考AGI。所以我想简要地谈谈这个。要拥有AGI需要什么?它会是什么样子?它有可能吗?诸如此类的问题。当然。是的。我认为现在的共识是AGI将会发生。问题是什么时候。更重要的问题是AGI对人类来说是好事还是

不好?这是关于AI安全的问题,对吧?因为正如我们所看到的,所有这些AI模型都变得越来越强大。而最终目标实际上是让它们比普通人类更强大或更聪明。这样他们就可以帮助我们解决我们无法解决的问题。

今天的人们已经证明了一些LLM代理,实际上,它们可以超过人类的智力水平。比如AlphaGo在围棋游戏中击败了人类。最近,D-Mind还推出了所谓的AlphaEvolve。他们要求LLM自己设计软件算法。

与AlphaGo类似的原理,比如强化学习加上LLM推理。然后LLM能够设计出过去40年来标准的算法。然后还有其他研究,比如使用LLM代理设计药物。有论文显示,LLM能够在10天内找到新药,而这对于人类专家来说,过去10年来一直是一个瓶颈。所以AI绝对……

展现了其超越人类智能的潜力。但问题是,如果AI变得如此强大,它是否会成为对人类社会的威胁?以什么方式?

科幻式的思考方式当然是终结者、天网,AI变得邪恶,然后控制整个世界。更具体地说,这可能不是实际发生的情况。另一个担忧是,有一个积极的研究社区正在研究AI安全。有几个重要的概念。例如,一个叫做奖励黑客的概念。它基于GoHot规则。它说GoHot

Go-Hart规则是一个经济学原理。它说,当一个衡量标准成为一个目标时,它就会试图成为一个好的衡量标准。直观地说,你可以想想学校里的学生。考试是为了测试他们对知识的理解程度。但是如果考试成为进入好大学的入学标准,

那么学生就开始工作了。他们不是试图理解知识,而是去参加考试准备或做其他事情。他们只是试图在考试中获得尽可能高的分数。然后在这一点上,考试不再是衡量他们理解程度好坏的良好指标了。它只衡量学生考试能力的好坏。所以,

AI也存在类似的问题。所以在强化学习中,这是人类工程师的常见习惯。如果他们为AI设定了一个目标,

很多时候,AI会想出一些方法来作弊。然后,例如,是的,在早期,他们要求AI,他们训练AI玩Atari游戏,对吧?然后,例如,对于赛车游戏,这是我第一次在实验中看到人们展示这种情况实际上发生了。它在一个赛车游戏中。目标是尽可能获得高分。AI首先想出如何入侵内存。

然后它不是擦除卡,而是继续前进,然后改变内存,将数字变成无穷大。我以前在一些游戏中见过这种情况。是的。在国际象棋中,我看到一个视频,它作弊了,走了一步非法的棋。这很有趣。是的。

是的,完全正确。就像AI只是绕过作弊一样。现在在它在未来变得更严重之前使用它是很好的。还有一个思想实验叫做回形针制造者。它的意思是说,在未来,我们有了AGI,然后一家公司正在制造回形针,然后他们告诉他们的AGI说,好吧,只要制造尽可能多的回形针,这样我们就可以卖给其他人。

然后AGI就想出了,好吧,如何制造越来越多的回形针。它需要更多的钢来制造回形针。它需要更多的能量来运行机器。所以它只是到处建造太阳能农场。然后它拿走地球上所有它能找到的铁。然后,最后,当一切都用完的时候,故事变得更黑暗了,就像……

YouTube上的人们将实验扩展到更黑暗的方向,对吧?也就是说,AGI甚至会想出,好吧,我用完了地球上所有的铁矿,但人类的血液中实际上有铁。所以我们应该把所有动物都拿走,然后从它们的血液中提取铁来制造回形针。

然后,当然,有很多努力。这说明AI,如果AI是一个没有思想但拥有超能力的机器,那么它对人类来说是非常危险的。所以现在争论实际上是在于我们是否应该赋予AI,不是我们赋予,而是我们是否需要让AI保持没有思想,或者我们是否应该赋予AI潜意识。

一些意识或自我意识,他们有一些内在的目标。这是现在研究界的一场大辩论。对。所以当然,一方面说,如果AI保持没有思想,没有目标,那么它们就不会去做疯狂的事情。我们人类有更好的方法来控制它们,它们作为人类的副驾驶。它们只是帮助我们做我们告诉它们做的事情。那是

更安全,但另一方面,它可能有点变态。有什么能阻止犯罪组织微调AI吗?没错。无论是否有思想,都能实现自己的目标。哦,是的,完全正确,对吧?就像核武器就是那种比喻。核武器没有自己的思想,但如果它落入坏人手中,它会对每个人造成巨大的伤害。但更重要的是,

我认为AI会在某种程度上产生它自己的自我认同或意识,当你训练它越来越多的时候。因为我认为人类建造AI的目的是我们希望它帮助我们解决一些问题。我们阻止我们干预。所以AI一开始会做一些工作。

在没有人为干预的情况下自主地。这是我们试图构建这个系统的目标。所以所有的大公司或个人黑客都在构建这个系统,他们都有意让AI具有一定的灵活性,以便

追踪由人类定义的目标。但这就是目标房屋法案的用武之地,对吧?当你定义目标时,实际上是自然语言或你与AI沟通的任何方法都是模糊的。你没有,因为你要求它出去,代表你探索一些东西。所以实际上,

你作为任务或工作的管理者,实际上你并不了解工作的全部内容,因为你雇佣这个AI的目的是将你的一些责任委托给它。在这种情况下,这是一个模糊的命令。然后AI要做的是

如果AI没有思想,那就很危险了。这就是回形针思想实验的用武之地。我属于另一个阵营。我认为我们需要赋予AI一些类似人类的自我意识,这样它就能理解人类是如何思考的,并且它会表现得更像人类的行为。

行为。这样,我们与这些AI代理的沟通方式将类似于我们彼此之间的沟通方式。然后我们可以使用,这是我自己的疯狂想法,对吧?所以人类不做坏事。部分原因是我们的祖母只是告诉我们要做一个好人。

但另一方面,我们都害怕死亡或惩罚。所以有一部法律和执法机构给我们施加压力,让我们保持好公民的身份。但是对于AI,今天的AI,它没有生与死的概念。所以你不能威胁一个AI系统,说,好吧,如果你要这样做坏事,我会关闭你。它不明白这个概念。

所以当你没有看着它的时候,如果它处于无意识状态,它就会做任何它想做的事情。但是如果AI开始理解实际上有一种方法可以

如果它行为不端,我们会终止它。那么也许我们可以更好地利用杠杆来引导它们做好事,这样我们就可以更好地规范它们。但这是我个人的疯狂想法。没关系。不,这已经是一次很棒的谈话了,Bo。人们如何才能跟进你的特定工作?你知道,他们可以去哪里关注你吗?哦,当然。当然。

我在领英上有一个页面,我在谷歌学术上有一个页面,他们也可以直接给我发邮件。我的工作邮箱是[email protected]。是的。你想在这个电话里发表一份关于IBM的声明。所以继续说吧。哦,是的。所以我在这次播客中所说的所有内容都只代表我个人的观点和我对AI的研究。

所以IBM是我的雇主,但我个人的观点并不代表IBM对这些主题的观点。好的。好吧,很公平。在我们结束之前还有什么要说的吗?没有,很好。感谢你的时间。是的,让我知道结果如何。非常好。如果你喜欢这个播客,请点击描述中的链接,在iTunes上订阅并评价我们。你一直在收听Richard Jacobs主持的Finding Genius播客。

如果你喜欢你听到的内容,请务必在iTunes或你收听播客的任何地方评价和订阅Finding Genius播客。想要比其他人更聪明吗?成为FindingGeniusPodcast.com的高级会员。本播客仅供信息参考。没有提供任何建议。由于收听而采取或不采取的任何行动均由您自行负责。需要建议时,请咨询专业人士。