AI agents are systems that act as intermediaries between users and their computers, enabling users to program their computers intuitively without thinking of it as coding. Imbue focuses on agents because they aim to empower individuals to create and own their own software, rather than relying on centralized, rented software.
The delegation model is tricky because it places the burden on the user to define the problem and scope clearly. Often, the agent's output may not align with the user's expectations, leading to negotiation and additional effort to refine the result.
Imbue redefines agents as collaborative systems that work alongside users, empowering them to create and shape their digital environments. Instead of being autonomous personal assistants, agents act as a layer of abstraction over programming, allowing users to interact with their computers more intuitively.
Imbue envisions a future where most software is agent-based, allowing individuals to create bespoke software tailored to their specific needs. This democratizes software creation, enabling users to build and own their digital environments rather than relying on centralized, corporate-controlled software.
Imbue faces challenges in ensuring reliability and robustness, especially in a collaborative model where users may need to check and refine the agent's output. Additionally, creating intuitive user experiences that align with human mental models is crucial for adoption.
Imbue focuses on verification and robustness, ensuring that agents can verify their own outputs. This involves improving the models' ability to self-check and correct mistakes, which is a key research direction for the company.
Reasoning is integral to Imbue's agents, particularly in the context of verification. While models can perform reasoning, they often lack the ability to verify their own outputs accurately. Imbue's research aims to enhance this capability, making agents more reliable and user-friendly.
Imbue's vision is to democratize agent creation, enabling everyone to build their own agents. This would shift the focus from automation to empowerment, allowing individuals to automate parts of their own jobs and create bespoke software tailored to their needs.
Imbue envisions a future where individuals can create their own software to defend against intrusive or harmful automated systems. This includes building bespoke software to disrupt spam, scams, and other unwanted automated behaviors, empowering users to take control of their digital environments.
Imbue sees scalability in terms of a future where software is less hard-coded and more interactive, allowing for a vast ecosystem of bespoke software. This would enable individuals to create their own automated systems, leading to a more personalized and less centralized digital environment.
在本期英伟达AI播客中,Imbue首席执行官邱侃钧探讨了个人可以创建和使用自己的AI代理的新兴时代。他将此与20世纪70年代末和80年代的个人电脑革命进行了类比,讨论了现代AI系统如何发展到与用户协同工作,增强用户能力,而不仅仅是自动化任务。</context> <raw_text>0 您好,欢迎收听英伟达AI播客。我是您的主持人诺亚·克拉维茨。AI带来的重大转变之一是软件的创建方式。从编码副驾驶到正在开发的系统,这些系统旨在将简单的语言请求转换为功能齐全的应用程序,生成式AI正在推动新一波工具的浪潮,帮助我们更快地创建软件。我们的
我们今天的嘉宾是邱侃钧。邱侃钧是Imbue的联合创始人兼首席执行官,这是一家成立于2021年左右,大约有三到三年半的公司。他们正在构建与我们一起将想法转化为代码并付诸实践的AI代理。这远不止于此,但为什么听我说呢,您可以直接从邱侃钧那里听到。邱侃钧,欢迎。非常感谢您抽出时间参加英伟达AI播客。感谢
谢谢,诺亚。很高兴来到这里。那么,让我们谈谈软件开发、AI、Mbu以及所有这些好东西。但也许我们先从代理开始。代理是一种,我的意思是,我不想用“热门”这个词,因为我不想让它听起来,你知道的,很空洞,对吧?但代理现在是一件很重要的事情。
我们最近邀请了一些嘉宾来谈论不同背景下的代理。Imbue对代理的方法值得深入探讨。所以也许我们可以从这里开始。什么是AI代理?为什么我们需要它们?为什么Imbue致力于研究它们?是的,代理现在非常流行。Imbue成立于2021年初。
当时,我们的目标是弄清楚如何制作和使用通用AI代理。当时,人们认为我们完全疯了。比如,什么是代理?每个人都在研究AGI。你知道,AGI将统治一切。但我们真正感兴趣的是,我们如何拥有这样的系统,我们作为人可以
可以根据我们的意愿塑造它,而不是,哦,这是一个知道所有答案的外部智能。所以我们当时开始作为一个研究实验室,因为当时的科技肯定不足以构建能够可靠地完成我们想要做的任何事情的通用代理。
而且,你知道,在一开始,我们对代理的思考方式与许多人今天对代理的思考方式类似,即这些所谓的,你知道的,想想什么是代理。人们通常会想到一种自主的个人助理之类的东西。你让它做某事,它就为你做。它会回到你身边。现在每个人都有自己的个人助理。
事实上,我们的许多经验教训是,这是一种非常棘手的用户体验。我们自己也与人工代理有过这样的体验,那就是,当我委托某事时,它返回的结果往往不是我想要的。现在我必须协商如何得到我想要的东西。
我一直在听。我之前告诉你,我在录制前听了一点你在今年GTC与布莱恩·库滕泽罗的炉边谈话,听众们可以去看看。这是一个很棒的收听体验。你当时谈到了这种困难。我对此感同身受。将工作委托给利益相关者的固有困难。
其他人,对吧?正如你所说,把它想象成人类,你必须分解问题。你必须弄清楚,好吧,我到底要告诉他们做什么?是的,所有这些。是的。它提前需要什么上下文?我应该给出什么指示?委托实际上是一个非常棘手的模式,因为它实际上将所有责任都放在委托人身上,让他们来定义问题,定义范围。当然,被委托给代理的人可能会提出一些问题,
诸如此类。但这是一种非常难以信任的事情。因此,多年来在通用代理方面的工作中,我们实际上开始以一种非常不同的方式思考代理。这既是从务实的商业用户角度,也是从使命角度出发。我们思考代理的方式是,如果你考虑……
什么是代理,这个个人助理在做什么。它是什么,它是你和你的电脑之间的一种中间层,你正在以某种方式告诉它东西或与它交互,无论是UI还是自然语言,它都在与你的电脑交互。与你的电脑交互最有效的方式是编写代码。这就是你的电脑的组成部分。并且实际上有两种代码。每一个
一切都是硬编码的,这是当今软件的默认设置。一切都是硬编码的。所以现在你的代理只能做一些事情。
或者现在有了语言模型,你可以生成代码。你可以编写执行以前没有硬编码的新内容的代码。现在你有一个更通用的代理。它能够执行我之前没有预先编程到其中的任务集,但现在它能够执行。因此,我们思考代理的方式实际上是作为你新电脑之间的中间层,它本质上是在编程之上的一层抽象,允许我们作为普通人……
能够编程我们的电脑,甚至不用考虑我们正在做什么编程。因此,我们将我们的使命视为基本上试图重塑个人电脑,并真正深刻地赋予每个人能够在这个未来的计算媒介中进行创造的能力,因为这个数字媒介在我们的生活中变得越来越重要。
而我们想要的实际上不是我想要的,至少就我个人而言,实际上不是某个其他人已经决定能够做到这一点的超级集中的助手,可以与之集成。我真正想要的是我可以制作和拥有的东西,是我的东西,并且按照我的意愿行事,为我服务。今天,我们生活在一个所有软件都是租赁的世界里。它为其他人服务。
所以这就是我们对代理的看法,它是在编程之上的一层抽象,使得每个人都能非常直观地进行编程。这实际上需要相当多的发明。所以可以深入探讨这一点以及历史细微之处。好吧,你描述的方式,我知道你没有描述这种AI,助手,代理层。
所有A字词,AI、助手、代理。你没有将代理层描述为用户界面的替代品。你提到了,你知道,UI,但这正是我在想的。我读到过那层抽象层,它介于两者之间。那么Imbue是如何从实际操作中进行处理的呢?主要与企业客户合作吗?不,我们主要与,我认为是专业消费者。所以那些人,所以这项技术
思考我们正在做的事情的方法是,不要将代理视为自动化系统,现在我们处于代理自动化代理范式中。我们将代理视为协作系统。那么,我们如何启用一个能够增强我的能力并帮助我做更多我想做的事情的系统,以及我可以与之合作的系统呢?
所以在开始的时候,我们实际上,你知道,让你编写代码。现在,这些模型在编写代码方面并不是那么好。当他们编写代码时,你实际上必须检查它。所以你必须了解如何编写代码才能查看,哦,代理做得很好吗?但随着时间的推移,随着这些模型在编写代码方面越来越好,现在你不再需要检查它了。所以在开始的时候,我们从软件工程师开始,或者我们称他们为软件构建者。所以你不必再成为工程师了。
我是一个软件构建者。我不是软件工程师。我们从能够……我是原型构建者。我不会说软件。好的。所以一旦我们到达不需要阅读和编写触摸代码的阶段,你可能很快就会成为用户。
现在,我们的目标是能够阅读和接触代码的软件构建者,他们会说,好吧,这不太对。我们想以这种方式调整它。随着时间的推移,随着模型越来越好,你不需要在代码中处于如此低级的水平,现在越来越多的创意类型、构建者类型可以使用这些系统来真正地将他们的计算机塑造成他们想要的样子。
Imbue中用户构建的实际软件的复杂程度和深度是多少?正如你所说,显然存在准确性的问题。目前还没有任何模型能够创建100%完美的代码。但我同时也想知道这些东西能有多复杂?这让我们开始谈论推理。我们不必现在就谈到那里,但正在逐渐接近这个话题。是的,我认为我们最大的经验教训之一是
如果作为用户,我有一个相当模块化的代码库,并且我已经将事情分解了,那么模型实际上在处理非常复杂的系统方面相当不错,因为它不必将太多东西加载到它的头部,也不必像交叉检查所有这些依赖项一样。所以就像人类构建软件一样,你不想有大量的依赖项,同样,你知道,如果你有一个稍微隔离的系统,它会做得更好。
同样,在使用这种产品方面也存在很多用户专业知识。所以我们的产品,感觉非常协作。它几乎就像一个文档编辑器,并且以这种方式与代理进行交互和互动。因此,作为用户,你可以基本上,我们学习赋予它更有可能成功的任务。我们学习构建我们的工作,以便我们可以将其委托给代理。我们也在其他AI工具(如Copilot)中看到了这一点。
我们的团队肯定以稍微不同的方式编写代码,以便Copilot能够为他们很好地工作。对。关于复杂性的问题,这实际上取决于用户。我们中的一些人可以让它与非常复杂的事情一起工作。是的。你看到代理最常被使用的地方在哪里?或者也许更准确地说,它们在被使用的地方产生了巨大的影响。这如何转化为企业保持竞争力,拥有竞争优势?
我与之交谈过的人,我一直都在谈论,你知道,2022年去年是模型问世并引起主流关注生成式AI的一年。也许今年是人们试图弄清楚我应该构建哪些应用程序来利用这些东西的一年,你知道,作为一个应用程序,作为一个软件构建业务,或者作为一个想要利用这一点的其他业务。那么Imbue在哪里看到这一点呢?
产生的影响,甚至,你知道,展望不久的将来?你知道,关于代理的有趣之处在于,它现在是一个定义不明确的术语。
人们将各种非常琐碎的事情称为代理,这很好。但我认为存在一种关于代理效用、有效性的范围。有一个系统可以抓取网络,然后聚合数据并以某种方式提取数据。这有点像基本上只是一个生成式AI模型。比如,你知道,它与ChatGPT非常相似,但你可以在它上面添加一些东西来将输出转储到不同的系统中。你可以称之为代理。所以有些人称之为代理。我们看到这种事情在各种地方都被实施。对。
但我认为,当涉及到代理时,更令人兴奋的事情是这些更通用的代理,它们使人们能够开始做一些他们以前甚至无法想象的事情。你知道,我认为现在一些非常简单的例子对我们来说,比如……
一些研究人员或科学家,一位生物学家拥有大量需要处理的数据,他们不是软件工程师,但他们的技术水平足以让他们能够提取数据,然后从中获得一些东西,从中获得一些分析结果。如果他们能够使用这样的东西,
让他们能够在这个稍微更高的层次上工作。或者,你知道,随着时间的推移,一件非常令人兴奋的事情是,当我们开始构建所需的工具时,例如,我的祖母会收到大量用中文的诈骗电话。但她的所有电话都是中文的。如果我想构建一个软件来过滤掉她其他电话中的诈骗电话,那么这
现在即使对我这样一个知道如何构建软件的人来说也很难。而且这是一个如此利基的市场。像没有人会为她构建那个软件。我们试图在美国找到这样的软件,它实际上并不存在。而且,就是这样。所以现在我们生活在一个软件由……不是要打断你,如果它在美国存在于英语垃圾邮件中,它对我的……完全正确,完全正确。完全正确。
所以,你知道,现在我们生活在一个其他人为我们构建软件的世界里。我们必须依靠其他人为我们构建软件。这实际上非常奇怪。比如,我们并没有真正拥有我们的数字环境。比如,一切都是由其他人构建的,因为对我们来说,构建我们自己的东西太难了。我认为未来,我可以很容易地为我的祖母构建一些东西。是的。
或者为我的社区、我的朋友或我的教会管理注册或任何其他事情。对。这可以真正地根据我的特定用例和我、我的社区、我的朋友进行定制。所以,我认为这个未来的真正令人兴奋之处在于……
所有这些定制软件,而不是我们今天拥有的这种集中式软件。这几乎就像人们通常不会以这种方式看待他们的数字环境,但数字环境就像物理环境一样。而今天,这就像我们都住在公司住房里一样。嗯哼。
我曾经非常兴奋,我可以每月花10美元收听任何我想要的音乐。而现在我在想,但是我没有,我没有拥有任何东西。他们可以在一秒钟内把它从我身边拿走。是的。老实说,我认为人们对大型科技公司、对技术的许多沮丧之处在于,我们感觉不到,而且我觉得我没有控制这些对我生活至关重要的事情。所以这就是,
在Imbue,我们想要做的就是将这种控制权和权力交还给人民。我们通过创建这些与你协作的工具和系统来做到这一点,以帮助你能够为自己创造东西。
那么,为人们构建这些东西以供使用有多难呢?正如你提到的,有不同的,许多不同的,你知道,声音,个人,公司在谈论代理式AI,他们中的许多人都在定义它,至少在谈论它时略有不同。我确信在幕后采取了不同的方法。
挑战是什么?哪些事情,你知道,我们可以在这里稍微技术化一点,就像你一样。一些事情,一些问题,你知道,你和你的团队正在解决的问题,
让其他人更容易将他们的想法转化为软件?是的。所以我会说有些问题在所有这些不同类型的构建代理的人中是普遍存在的。有些问题对我们和我们正在尝试做的事情来说是独一无二的。所以我会说,你知道,大多数人都在这种我之前提到的工作流程自动化范式中构建代理。所以对于这种范式来说,健壮性、可靠性非常重要。比如,好的,你
你知道,我构建了一个响应客户服务工单的东西。但如果它有3%的时间对用户说了一些非常糟糕的话,那么这不是一个可用的代理。是的。对我们来说,可靠性和健壮性很重要,但实际上它稍微不那么重要。随着它的改进,用户体验也会越来越好。作为用户,我不必经常检查东西。对。但即使它不是最好的,它仍然可以。比如,我仍然可以作为用户使用它,我会修复模型将产生的错误,这没关系。
所以我们考虑的很多事情都类似于,我们如何让代理同时满足模型能力和当今用户的需求?因此,这种期望是内置的,我们还没有达到无错误的阶段。作为用户,你需要知道这一点。而不仅仅是,
好吧,你必须接受这一点,但实际上你的体验会更好,对吧?因为你知道你在其中的作用。而且,再次,正如你所说,它不是把它送出去做某事,然后,你知道,给我们一个我们没有参与的最终结果。是的,完全正确。我认为,你知道,人们通常将代理视为一个研究问题,但我们认为它既是一个研究问题,也是一个用户体验问题。而这个用户体验部分实际上是关于设定正确的期望,以便通过体验,以便它像,
我不指望它自己运行10分钟、10小时或10天,然后神奇地返回正确的结果。相反,我正在不断地与它一起工作,并看到,哦,它就像粘土一样。你知道,我正在塑造它,塑造它,塑造输出。
我认为工作流程自动化代理,其中一些代理有点,它们的标准更高,因为它们必须多么准确,因为我们发现,作为用户,返回答案所需的时间越长,我对答案的正确性期望就越高,如果它花费很长时间,我会感到沮丧。所以我们非常重视高度互动,不要花费很长时间来返回某些东西,成为一个真正与用户合作的代理。思考从
我期望从电脑那里得到,对吧?最大的准确性。我的计算器总是说二加二等于四。从这一点转变到作为最终用户的一种不同的思维框架,说,好吧,我们正在优先考虑,你知道,我不想把话放在你嘴里,但某种速度和体验,你知道,它不会得到他们
所有正确。这是否意味着,你知道,因为这是AI和生成式AI的本质,人们现在已经习惯了这一点,人们正在接受?或者仍然存在某种,我不知道,也许我只是老了。是否仍然存在某种心理障碍需要克服,对吧,这种期望?是的,所以
我们的核心哲学之一是,我们需要在人们作为人的头脑中拥有的思维模型方面满足人们的需求。所以实际上一个很好的历史类比是,在个人电脑出现之前,人们对超级计算机非常兴奋。当第一台个人电脑问世时,每个人都嘲笑它。
他们说,这是一个业余爱好者的玩具。而超级计算机,你知道,你是通过终端访问它的。你正在这些超级计算机上进行分时。它并不特别好用。因此,只有一小部分人能够使用它。但随着时间的推移,施乐帕洛阿尔托研究中心的一小群人实际上发明了许多导致个人电脑能够被人们使用的基元。他们发明了桌面文件、文件夹。这些都是我们当时作为人类所理解的概念。
所以对我们来说,你知道,实际上围绕代理构建良好的用户体验的一部分需要发明。它需要发明与我们作为人类目前理解的内容相匹配的概念。所以前面我说过,它现在有点像一个文档编辑器,你知道,我们当前的产品体验。它可能不会……
最终是这样的。但文档是我,作为今天的人,理解如何编辑和使用的东西。它几乎就像一个交互式编辑器,可以帮助我完成任务。关于用户如何接收它的问题,我们观察到的一件非常有趣的事情是软件构建者,反馈集
到目前为止,一直是,哇,这真的很令人兴奋。它让我能够在更高的层次上工作。我不必总是深入代码。我可以继续思考这个更高的层次。它实际上能够深入代码并向我展示,比如,完成任务。
然后我检查它。这很酷。它让我能够更快地移动。这真的很令人兴奋。你知道,对我们来说,这是主要的事情。比如,我希望人们能够在我们的抽象人类问题级别上使用软件,而不是不得不深入其中。
进入杂草。是的,是的。不,我可以从学习如何使用这些工具的角度来理解,当我写作时,当我不在播客上问你这样的人问题时。你知道,我的很多工作都是写作。如果我从文档、成绩单、资料来源工作,那么当我能够
使用该工具向我展示时,情况也是如此,你知道,在已记录的工具包或成绩单中,邱侃钧是否谈到了菠萝披萨,你知道,它能够将它返回,对吧。它节省了浏览文档的所有时间。我不需要确切的词语。我不需要100%。然后我们稍后再讨论,但我可以回去检查一下,哦,对。她说她不是胡椒粉的粉丝。你知道吗?是的。而且,它,它,它,
非常有帮助。你知道,这不仅仅是节省时间,但我认为你表达得很好。它允许你停留在那个思考层面。完全正确。是的。我认为我们的核心,我真正关心的是帮助人们能够以这种方式进行创造。通常,我们的想法和这些想法的执行之间存在如此大的障碍,以至于我们从未能够做很多我们真正想做的事情。
所以我认为计算作为一种媒介的真正力量还没有真正释放出来,我们想要释放它。而这看起来像是人们能够接受他们的想法。你可以接受你关于撰写这篇文章的想法,或者聚合你已经撰写的所有文章,并能够从中提取见解以创作你的书籍。接受这些想法并聚合它们。
实际上能够在这个更高的层次上与它们一起工作,这样你就不会总是陷入困境。我认为AI的真正力量,计算机的真正力量,这就是它所实现的。我们还没有达到那个阶段,但我们可以做到。而这不仅仅是自动化或业务自动化、业务工作流程自动化。对,对。现在,你在与布莱恩在GTC的谈话中,他说过什么?我有所有这些想法,我坐下来编写代码,然后我想,
导入我想导入的内容,对吧?这很好,因为你立即被干扰了,而且我可以理解我所做的工作,你知道,是的,是的。是的,100%。是的,我们的一个用户说,哇,我从未意识到我在从高级到低级编写代码时会进行多少上下文切换。当你编写普通内容时也是如此。我正在与邱侃钧交谈。邱侃钧是Imbue的联合创始人兼首席执行官。我们一直在讨论Imbue最近的工作。
关于帮助人们编写代码的AI代理,这是一个非常引人入胜的方法,正如我们一直在讨论的那样,我认为它不仅仅是表达代码,而是代码是我们与计算机交互并让它们做我们想让它们做的事情的方式。好吧,我想问你关于AI模型和推理的问题。然后我还想问你关于规模的问题,以及构建代理需要什么,
然后构建代理和多个代理以及为大规模用户协作的代理需要什么。我们应该按什么顺序进行?我们应该先谈谈推理吗?有什么关系吗?这很有趣。让我们先谈谈规模。好的,酷。是的。所以人们思考代理规模的一种方式是许多代理相互交互,以及这看起来像什么。有些人通过向不同的代理提供不同的提示来做到这一点。所以他们有不同的个性等等。而且
老实说,我认为这有点,这很有趣。这有点局限性,因为我们今天已经有代理了。所有软件都是代理的。代理的重点是
采取行动的东西。它使用你的计算机来执行某些操作。所以几乎所有软件都在执行某些操作。它有点像改变你的计算机、网站、数据等的狀態。现在,大多数软件和我们今天所说的AI代理之间的区别在于,AI代理能够以一种非完全确定性的方式处理东西。但即便如此,我们仍然有AI
例如,Facebook新闻提要中的AI代理。推荐引擎是一个代理,它非确定性地决定向你展示什么。所以自从我们有了软件以来,我们就有了代理。所以,你知道,我思考代理规模的方式实际上与我思考软件规模的方式相同。所以未来十年,我认为软件将会爆炸式增长,软件将比以前少一些硬编码。它将能够与
更多模棱两可的输入。它可能更具互动性。如果我们成功了,希望很多人能够创造它。因此,现在我们最终得到了这个巨大的类似生态系统的软件世界,它远远超出了我们今天拥有的软件。在这个世界里,发生的事情是现在有很多不同的自动化系统相互作用。那是
这实际上可能超级令人兴奋。每个人都可以拥有自己的自动化系统来为自己、为自己的生活做事。他们拥有,你知道,我得到周围软件的支持,而不是像今天这样,可能被它打扰。对。
我一直在听你说话,我一直在想如何措辞,如何尝试措辞这个问题,回到你关于,你知道,有点像,我把它想象成一种“一刀切”的软件,你知道,它是确定性的,它做它该做的,而不是,你知道,我能够在前进的过程中创建和重塑事物。你已经回答了我的问题。所以那是
太棒了。我喜欢这个。我喜欢这个“一刀切”的软件与未来的定制软件。这是一个很好的术语。你是否担心,我认为,我不知道术语“AI 废话”是否适用于代码,但这个想法是,你知道,AI 模型创建的文本有点毫无意义或毫无价值,但它却被自动发布到网络上等等。
从非常,你知道,相对无知的一点来看,能够自行运行的模型生成的软件部署到公共网络上的概念,对我来说有点可怕,但我也肯定那里有一些东西。但你怎么看待这个问题?是的,我认为软件的“AI 废话”的方式是自动化系统,比如,侵犯我们。所以诈骗电话或垃圾电话就是一个自动化系统侵犯我们的好例子。或者像有很多通知的应用程序,或者,你知道,旨在具有剥削性的游戏。这些都是侵犯我们的系统。而且,你知道,我实际上认为,随着集中式 AI 系统的发展以及违规行为的规模收益
底层模型的改进是,我们作为人类将有点无力,并且依赖于控制自动化系统的人。对。这不是必要的。你知道,我已经告诉你关于未来的美好愿景,在这个愿景中,每个人都可以创建软件,每个人都可以创建定制软件。而且
就像,那是我们想要构建的未来。但这不一定是默认路径的未来。默认路径可能是存在很多审计,就像今天甚至有更多软件试图吸引我们的注意力并试图从我们这里获取东西一样。我认为我们需要,我想要的是让人们创造防御,并试图摆脱那些东西并破坏它们。你知道,希望当我能够构建自己的软件时,我可以做到。
我可以真正破坏今天正在构建的许多东西,这样我就可以拥有服务于我自身利益的软件。我有代理正在服务于我自己的利益,并帮助我做我想做的事情。
所以对于你的“AI 废话”问题,我认为肯定会有更多人创建作为机器人并打扰人们的自动化系统。就像网络安全一样,我认为存在攻防动态。我们想要的是让人们能够为自己创建对立的系统,帮助他们防御自己的环境和自己,并帮助保护我们去做我们想做的事情,过我们想要的生活。
希望也有一些,你知道,已经存在一些对此的监管方面,而且,你知道,希望会有更多针对我们所看到的东西的监管。所以这种影响是真实的。对。好的。
在生成式 AI 新闻周期中有很多内容。有一件事。今年尤其关注模型和推理以及未来的模型,正在训练的具有推理能力的模型,诸如此类。最近,OpenAI 推出了一个关于推理能力的新模型迭代。
推理是大型语言模型中发生的事情还是可以发生的事情?它是代理人所说的带来的一些东西吗?你怎么看待推理?Imbue 如何处理推理?
在您的产品中构建推理能力?是的,这是一个很好的问题。所以,是的,推理现在是一个流行词,模型肯定也进行推理。是的。而且就像底层大型语言模型肯定以人类的方式进行推理一样,它可能并不完全是我们进行推理的方式,而且它并不总是完全正确的,而且它通常不会
继续证明其自身的推理,尽管人类也会这样做。我本来想说,这很熟悉。它与人类的相似之处或不同之处如此不清楚,但底层大型语言模型肯定进行了一些推理。我们现在观察到的一个关键区别是底层大型语言模型不是
一定擅长验证其答案是否正确。作为一个人的时候,当我正在执行一项任务时,实际上,我们没有注意到这一点,但我们总是不断地检查,这正确吗?我做对了吗?这是我期望的吗?而且没有那个循环。所以这个循环是由代理部分添加的。好的。是的。我们实际上对我们的研究方向进行了大量思考,围绕着这种验证验证。它正确吗?我做对了吗?如果我有一个为我编写代码的代理,我确实希望它能够自检,嘿,
嘿,我做对了吗?我做了。哦,我没有。让我纠正这个错误,然后回到你身边。因此,它在验证自己的答案方面越好,用户体验就越好。因此,你知道,当我们谈论推理时,我们主要谈论的是这种验证和稳健性。它能够验证它正在做的事情吗?我们在验证方面实际上学习了一些非常有趣的事情
事实证明,在软件开发中,当你编写一个函数时,你通常也会编写软件测试。你正在测试,好的,软件是否具有我期望的行为?鉴于非常好的测试,底层模型实际上非常擅长创建函数或创建软件部分。对。
但是,鉴于软件部分,底层模型不太擅长创建良好的测试,这很有趣。是的。一个……知道为什么吗?是的。一个,你知道,部分原因是模型可能没有在这个创建测试的特定任务上进行太多训练。然而,第二,这可能是可能的。我们不知道。我们不是 100% 确定。但有可能实际上验证某事是否正确比……
首先创建事物更难。是的。所以它需要这种分析和判断。因此,我们的研究方向主要集中在验证上。我们如何才能让模型真正能够正确地验证输出是否正确,并且是用户想要的?我们认为这是难题
代理推理中的问题。与此同时,Imbue 已经,你预训练了一个模型吗?你建立了一个基础吗?你没有从头开始构建模型,但它是一个 700 亿参数的模型。没错。我们实际上是从头开始预训练了一个 700 亿参数的模型。它是从头开始的。好的。是的。我们实际上从这个过程中学到了很多东西。我们学到的一件事是,实际上,我们不知道我们将来是否需要进行大量的预训练。我们会看到的。但我们在该模型的后期训练中获得了许多成果。
因此,对于许多验证工作,我们实际上非常感兴趣的是后期训练微调,在底层模型之上进行强化学习。这似乎是一个提出这个问题的好地方。未来是什么样的?我几乎想就此结束,但这不公平。AI 代理的未来是什么样的?Imbue 的方法是什么?你有什么可以分享的路线图吗?这是怎么回事?我知道这,你知道,在许多方面都是一个不可能回答的问题。
但我猜你也有某种愿景。是的,这是一个很好的问题。所以,你知道,我今天谈到的是试图让每个人都能构建软件。但实际上在内部,我们思考这个问题的方式是未来所有的软件基本上都是代理。我的意思是,不是所有软件,而是大多数软件。它会更聪明一点,有点像活的软件。我们想要做的是让每个人都能构建代理。
这样在这个世界上,你知道,我们都能为自己构建自己的代理,或者使用彼此的代理,复制别人的代理,从我自己这里修改一点。从长远来看,这正是我们的产品旨在实现的目标。因此,实际上,在我们 700 亿参数的模型中,我们发布了一组博文,教人们如何设置训练此类模型的基础设施。我们预计大多数人,你知道,我们大多数人不会训练我们自己的模型,但这有点像
部分源于这种使许多这些能力民主化的愿望。我们还为人们进行模型评估以及使用干净数据等发布了一个工具包。因此,你知道,就构建代理的未来而言,我希望代理构建不像软件构建那样,只有少数人能够做好。我希望这实际上是一件像广泛民主化的事情,每个人都有能力创造自己的
而且,你知道,我认为现在我们有这样一种非常可怕的观点,即其他人将创建一个自动化我工作的系统。那太糟糕了。这真的很令人沮丧。我不希望我的工作是这样。但令人兴奋的是,
但我喜欢做的事情是自动化我自己的工作的一部分。是的。我喜欢,你知道,喜欢以所有这些不同的方式改进它。这就是我们想要让人们能够做到的事情。就像给你制作你自己的代理的工具一样,这意味着你可以制作你自己的自动化你工作一部分的东西。现在你的工作可以更高效、更高层次。现在你可以做更多的事情。
所以我们想给,你知道,其他人自动化我的工作对我来说非常令人沮丧,但有人给我工具让我自己制作自己的工具,这对我来说非常有益。我认为这种心态转变实际上非常重要。阿门。
Kenjun,对于那些想了解更多关于 Imbue 信息的听众,你也提到了博客。他们应该从网上哪里开始?网站、社交媒体、播客?我认为有一个播客。他们应该去哪里?好问题。所以 imbue.com 是我们在互联网上的位置。你可以关注我们的 Twitter 帐户 imbue.ai。
而且,随着我们开始更公开地发布产品,我们可能会有一些公告和事情,你可以开始尝试我们正在做的事情。所以请关注我们。还有一个新闻通讯注册,我们会发送
非常罕见的电子邮件。因为我们主要专注于构建。你不是一个不断试图获取信息的应用程序?不,不。不是试图吸引你的注意力,而是试图制作一个有用的产品。好,好,好。Kenjin,这太棒了。非常感谢你抽出时间来参加播客。祝你一切顺利。也许我们以后可以再次联系。当然。谢谢你,诺亚。这太有趣了。谢谢。