嘿,大家好,欢迎收听 Generative Now。我是迈克尔·马格纳诺,我是 Lightspeed 的合伙人。本周的播客中,我将分享与 Coinbase 机器学习主管 Rajarshi Gupta 的对话。去年,他和我的同事 Anand Iyer(Lightspeed 专门负责加密领域的风险投资合伙人)一起参加了 Generative San Francisco 的活动。这
这是一次非常有趣的对话,主题是 Coinbase 如何将机器学习融入公司的各个方面。Rajarshi 还回答了听众的问题,并为创始人提供了一些很棒的建议。希望您喜欢。
欢迎来到 Generative SF。我叫 Anand。我在 Lightspeed 负责加密货币业务。我很高兴 Rajesh 能来这里。我会让他自我介绍。提醒一下,这次会议的重点是模因币交易。Rajesh 是专家。我完全是在开玩笑。这里的 AI 人员真的吓坏了。所以我马上要收回这句话。但我还是把时间交给 Rajesh 吧。也许你可以简单介绍一下你自己,
以及从创世区块到我们今天所处位置的一切。好的,当然。好的,我想展望未来,我在海湾对面的伯克利大学完成了博士学位,然后在高通公司工作了 10 年。
在高通研究院,我想我的职业生涯中,最有趣的事情是我们构建了业界首个设备上机器学习引擎。这还是很久以前的事了,我们在 2015 年推出了它。这是第一个旨在通过查看手机上发生的一切来捕获 Android 设备上的恶意软件的设备上机器学习引擎。
所以,你知道,我真的很兴奋。这是我的从零到一的项目。这是我的主意。一开始我是这个项目上唯一的工程师。然后我们把它构建出来并发布了等等。所以,在我高通的职业生涯之后,我去做了一些创业公司。两家创业公司都在安全领域。第一家是一家名为 Balbix 的小型创业公司,这是一家位于圣何塞的 Mayfield 创业公司。然后我加入了一家规模更大的创业公司 Avast,它实际上是全球最大的消费安全创业公司。
有 5 亿活跃用户。然后我们进行了 IPO,从那时起,我们以 80 亿美元的价格与诺顿合并。现在这家新公司叫做 Gen。然后我加入了 AWS,在一家非常大的公司工作过,在 SageMaker 团队担任总经理几年。现在,在过去的三年里,我一直领导着 Coinbase 的 AI 工作。
不,这太完美了。感谢您的到来。我认为我们没有谈论过这种 Android 体验。我很感兴趣,因为那是在生成式 AI 之前。哦,完全是。然后你必须,我的意思是,恶意软件和 Android 一直都是一个问题。所以是的,也许,我只是好奇,也许让我们来分析一下,因为我认为我们以前没有谈论过这个。所以,那是什么样的?是的,我……就像,是……
这个模型是在设备上运行的吗?哦,是的。该模型是在设备上运行的。事实上,整个模型都是用 C 语言编写的。我们必须编写我们自己的训练算法,因为当时没有工具。我们编写了自己的训练算法。该模型是用 C 语言编写的。它必须用 C 语言编写,因为你不能将模型放在常规的 Linux 堆栈上。它必须将其放在手机的内部安全堆栈中,这样模型本身就不能被黑客攻击,代码也不能被黑客攻击。这真的很有趣。我们正在学习如何做
训练,因为当时没有人真正做好这件事,对吧,这大约是 2011 年、2012 年、2013 年,对吧,但是为了学习如何进行训练,我们必须学习编写代码,我们必须编写训练,训练是在离线进行的,但是推理代码必须以非常优化的方式编写,它查看从 Linux 层到 Android 设备上的应用程序层发生的一切,它可以真正捕获大量恶意软件,所以我们发布了
从 2050 年到 2015 年之间,我不知道,这里的大多数人可能都有 iPhone,但如果你有 Android,所以我们从 2015 年到 2019 年发布了它。它在所有高端华为、三星和 LG 手机上发布。最终,它在超过 10 亿个芯片上发布。
那是一次非常有趣的经历。学习过程是怎样的?因为你怎么知道你什么时候成功了,以及这种反馈循环是如何回到模型中的?当我们第一次开始做这件事的时候,你知道,我记得,所以高通是一家不错的公司,你知道,我想当时我就像一名资深工程师。我的意思是,作为一名资深工程师,你有一个很酷的想法,你可以直接去找 CTO 提出这个想法。他来我们办公室,我得到一个机会向他介绍这个想法。
马特·格罗布,他基本上看了看这个想法,说,这是一个疯狂的想法。它永远不会奏效。但如果你认为这会奏效,我很乐意让你尝试一下。继续尝试吧。我的意思是,这就是我们应该做的事情,对吧?如果你不鼓励你去尝试这件事,我就没有做好我的工作。所以不要相信我,去尝试一下。
然后我尝试了。我是唯一一个得到另外几个人和几个实习生来帮助我的人。然后我们构建了原型。原型是我们拿到的,曾经有一个版本的 Android 叫做
啊,我忘了名字。所以基本上你可以自己修改这个版本的 Android。然后我们让它在真机上运行。有真正的恶意软件,它实际上正在阻止和捕获它。然后基本上是演示的力量。演示是,嘿,这是真机。这是真正的恶意软件。我们有两部手机。一部没有捕获它,一部捕获了它。然后人们说,哎呀,这有效。所以让我们一起尝试构建它。我们做到了。是的。
太棒了。显然,从那时起已经过去一段时间了,你现在在 Coinbase 从事机器学习工作。是的,这里每个人了解你的角色是什么,你在那里做什么,这将非常棒,而且你知道,我知道你也有一个相当庞大的团队,而且地理位置分散。我们做的第一件事,这可能是最出名的,当然,我们的
我的团队确保每笔交易、每次登录都受到保护。就像你可能想象的那样,这不仅仅是 Coinbase,对吧?如果你有 PayPal 帐户,如果你有 Visa 帐户,每笔交易都受到一系列机器学习模型的保护。尤其是在加密货币领域,很多人试图攻击你的帐户,我们保护它。从字面上看,每次登录,每笔交易。这是其中一部分。第二种有趣的思考方式是,你知道,你打开你的应用程序,我们决定你看到什么。
老实说,我的意思是,你知道,有很多应用程序、很多资产、很多东西。在每个阶段,你进行交易,你会看到一堆你可以购买的其他资产,或者你会收到通知。当然,这就像 Facebook 或 Instagram,对吧?或者 LinkedIn。我们发送的通知是针对你的。我们决定你能看到什么。所以这些都是非常传统的。就像一个是传统的金融应用程序,一个是传统的 Web2 应用程序。有了这个应用程序,我们必须做这些事情。
我有很多问题要问你。也许我们从这里开始,因为你已经在那里工作三年了,我觉得生成式 AI。哦,对不起。是的,我的意思是,我知道你会问。我刚告诉你剩下的事情。然后我有一个庞大的 gen AI 团队,但是让我们谈谈,让我们开始吧。是的。我很想知道,比如,也许如果你能分享一些你所能分享的关于你开发的模型的信息,有多少是现成的?你使用过任何已知的旗舰产品吗?
基础模型等等。我的意思是,我们做的一件事是,当生成式 AI 爆发开始时,我会说早期,比如 22 年底,好吧,基本上 3.5 推出了,那是 22 年的感恩节,对吧?在那之后不久,我们做了一个战略性赌注,认为这将是一个改变游戏规则的东西,我们将大力投资于它。
现在,这对 Coinbase 来说并不是一个很好的时机,因为这是加密货币低迷的底部,我们刚刚进行了一次大规模裁员等等。但我当时想,好吧,这就是技术。这将真正帮助我们。所以我们将专注于此。我的意思是,好吧,我们没有招聘,但我们将专注于我们所能做的一切。我可以告诉你,我们在 23 年秋季发布了我们的员工助手。
那相当早。所以,一个面向所有公司的员工助手是在 23 年感恩节之后发布的。员工助手是做什么的?好的。我会告诉你的。那么,我们正在用 JII 做什么?所以,这个项目有两部分。一部分是为我们所有的员工构建一些东西。另一部分是为我们所有的客户构建一个助手。
现在,自然地,员工方面更容易,因为你知道,你是在和自己的员工交谈。你不必担心危险等等。第一个大版本在那里。我们正在做两件事。第一件非常简单。我们有一个员工助手角色,他们每个人都与 Glean 集成,以便能够访问你的数据,以便它可以根据你所知道的内容提供答案。非常有用。很多人都在使用它。
然后还有一系列其他事情,我的团队最初构建的,是为了帮助不同的人,比如我们的设计师,帮助我们财务人员的事情。所以我们自己构建了其中几个。公司中最受欢迎的一个是,我们刚刚经历了绩效评估时间。
所以我们有一个绩效评估助手,你基本上把你的要点记录下来,然后把它放下,它会用 Coinbase 的格式,以正确的结构,以正确的方式,以正确的字数限制为你撰写你的绩效自我评估。然后你需要编辑它并完成它。所以这次我们有,我想,3200 人中,有 2000 多人使用了它。
所以公司里的每个人,一直到高管层都在使用它。我们看不到他们在做什么,但我们可以看到我们高管团队中有很多人在使用它来做这件事。
所以这是一个例子。然后我们所做的是,我们真的想把它作为一个平台来构建。所以我们发布了许多功能作为 API,以便其他人可以基于它进行构建。所以,并不是整个公司都有 AI 专业知识,但我们构建它是为了让其他人可以将其用作 API。所以有人继续构建了一个非常好的,我们构建了所谓的事件机器人。
当发生事件时,你会进入 Slack 频道。基本上,如果你查看 Slack 频道的历史记录,基本上会有人进来问发生了什么事。有人回答。10 分钟后,另一个人进来问发生了什么事。然后事情发生了变化等等。所以现在每个人都进来,你只需要问机器人,说,“嘿,发生了什么事?”它会给你发私信告诉你到底发生了什么事。这是那个团队构建的。
我们的数据科学团队为它构建了一个文本到 SQL 机器人。然后,你知道,还有所有这些事情。这就是另一个。但是现在这是针对内部员工的,对吧?现在对于外部客户,我们发布了前几个版本,当然,你知道,我们计划为所有用户旅程构建一个助手。我们解决的第一个用户旅程是显而易见的,那就是支持用户旅程。
所以我们在 11 月发布了我们基于 LLM 的聊天机器人。所以我们现在正在处理数千万个用户请求。我们接管了搜索。
在我们的网站上。所以现在如果你在手机或网站上进行搜索,你首先会从 AI 获取 Gemini 这样的答案。现在我们正在做其他事情,比如,这还没有发布,但我们正在研究一些事情,当客户尝试进行一些研究时,客户正在尝试做的事情,当我们提供关于事情的见解时,客户正在尝试寻找和了解某些类型的加密资产,这非常复杂。我们会帮助你。然后我们将在这里扩展。明白了。
你如何评估和管理这些体验、辅助代理、模型的部署?这个过程是什么样的?我们是这样做的,所以这叫做 CBGPT,Coinbase GPT,这是一个平台。所以它真的是一个多云、多 LLM 平台。所以我们实际上使用了来自 Azure、GCP 和 Amazon 的模型。你之前问过这个问题。所以
两个最大的用例,即聊天机器人和帮助,都在云端,但它在 AWS 和 GCP 之间进行负载共享。现在,我们是这样做的,这是我对整个 LLM 领域最大的问题之一,对吧?所以,你知道,我是在机器学习的环境中长大的。我已经从事机器学习工作了,我不知道,现在 15 年了。在那之前,我从事统计工作。我的一生都在处理,这是一个预测,这是一个置信区间。
突然之间,你来到了这样一个空间,这里有一个预测,而我不知道置信区间。所以这是一个非常不舒服的情况,对吧?对于 LLM 来说,你不知道答案有多好。所以你必须做所有这些奇怪的事情,作为不同的 LLM,作为法官等等。这是一个不断变化的空间,对吧?就像你有一个 LLM,你使用其他人作为法官。现在这个 LLM 突然比法官更好。所以现在你需要一个更好的法官,对吧?
所以这变得非常困难。我没有解决方案。我们正在做与其他人相同的事情。我们有一个评估门户,人们可以在其中尝试他们自己的基本事实集,这些基本事实集很糟糕,因为人们根本没有……你是一个应用程序的普通用户。你怎么知道什么是好的基本事实集来确定你是否正在这样做?然后我们正在使用 LLM 作为法官,
然后我们正在进行人工评估,我们正在做策划的数据集。没有什么特别的。这只是其他人正在做的事情,因为我没有看到任何好的答案。所以很多创业公司,你知道,LLM 的评估,
真的,非常,非常好的问题。我们已经为几家 Lightspeed 的投资组合公司做了宣传。我们有 Glean,有 Anthropic。好的。我们将继续进行。Patronus,我们将继续进行评估。但这真的很有帮助。顺便说一句,对于有疑问的人来说,这是一个非常小而亲密的群体。所以,如果你有任何即时的想法,请随时提出。但我现在先搁置一下。我在 Anthropic 的客户咨询委员会,他们一直是一个非常好的合作伙伴。
所以对于我们的聊天机器人来说,对吧,当我们发布我们的聊天机器人时,最令人害怕的事情之一是我们在 2024 年 6 月发布它。如果你回想一下,像 Uber 这样的公司当时并没有发布他们的聊天机器人。所以我们想,哇,我们真的在挑战极限,我们很害怕。当然,恐惧是关于护栏的,对吧?如果你让你的聊天机器人崩溃了怎么办?
如果有人,我的意思是,《纽约时报》头版新闻的恐慌,对吧?他们非常友好,并提议与我们合资。所以我们与他们合作构建了护栏模型,一个单独的护栏模型。他们非常有帮助,因为我们是,我的意思是,我们是他们的早期客户,大客户。我们做了一件非常好的事情,它节省了我们很多时间。是的。现在是什么让你夜不能寐?
我认为,老实说,你知道,我告诉人们,你工作生活中大部分时间,普遍的感觉是你正在把一块巨石推上山,有重力把它往下推,你正在与某种东西对抗,对吧?就像你一生中只有一次,巨石滚下山,你追赶它。
所以现在我们正处于这个阶段,我已经这样做了两年了。太棒了。我的恐惧是,你知道,我已经担任 AI 主管之类的角色一段时间了。而且大多数时候你必须告诉人们,人们习惯了他们做事的方式,对吧?你必须去说服人们,嘿,
这种方式更好。你会这样做等等。现在突然之间,整个事情都改变了,人们只是过来问你,你能帮我做这件事吗?等等。所以我想这就是问题所在。所以让我夜不能寐的部分是,我们的员工没有计划好所需的努力和复杂程度,
才能使这些解决方案成为现实。所以我不是在谈论炒作泡沫或任何东西,而是人们的期望,我们可以满足期望,但这并非免费的。我的意思是,我已经开始告诉人们,你知道,AI 就像魔法,但在你施展魔法之前,你必须在霍格沃茨学习七年。
所以这七年是艰难的。人们不明白你不能只放一个 LLM,它就会完成工作。你必须做很多工作来使管道正确,进行测试,进行测量,进行分析。
并进行七次迭代,然后它就会变得非常好。这是一个非常有趣的观点。但是你使用生成式 AI 吗?你有一个相当庞大的团队。你使用 Cursor 或 vZero 等工具吗?工程团队是如何开始采用的?这是一个很好的观点。这是我们直接做出购买而非构建决策的一个很好的案例。
就像我们开始关注生成式 AI 时,那是……我的意思是,如果你还记得,GitHub 在 3.5 发布后的两个月内就推出了 Copilot。我和我的团队一起分析了一下,说,哇,这是一个好产品。
我们采用了它。所以现在在我们的公司里,我们已经为每个人推出了,我们已经推出了 Copilot。然后我们做了 Sourcegraph Kodi。就在今天,我们向公司所有工程师推出了 Cursor。所以,我们认为这些很棒。你知道,他们做得很好。
非常好,所有开发人员都喜欢它,我们正在采用它。不过有趣的是,所以你读到,我不知道它发生的有多好,我相信每家公司都开始衡量这一点,对吧?所以你说,好吧,25%,就像桑达尔·皮查伊在那里一样,对吧?25% 的代码是由 AI 编写的。太棒了,我可以少雇 25% 的开发人员。或者我们将有 25% 的额外时间
但事实证明,开发人员一天不会编写 8 个小时的代码。
他们每天只编写大约 2 个小时的代码。其余时间,他们试图查找数据,查找发生的事情,进行调试等等。所以总的来说,即使是 25% 的代码,也只有 25% 的 2 个小时。所以你每天节省半小时。我认为更大的优势将来自这些系统或这些代理,它们不仅可以预测接下来的三行代码,还可以理解问题。
这是一个更难的问题。如果你考虑一下,我们大多数人在生活中都是软件开发人员。你不会整天只是坐着写代码。你花费更多的时间来弄清楚如何解决问题。然后实际编写代码并没有花费那么长时间。是的。
我和我一个在 Gemini 工作的朋友谈过,他说 20%、25% 的统计数据实际上是关于代码的自动完成。是的。不是关于,你知道,编写代码本身。所以这是一个有点误导性的统计数据。当我们与一些人讨论他们在采用 AI 时面临的一些问题时,通常会出现 GPU 匮乏的问题。
质量保证出现了。你知道,这也是你一直在思考的事情吗?哦,所以,比如,几个月前我在 GCP、谷歌云下一代会议上做了一个演讲。他们给我的其中一个提示是,是什么让你夜不能寐?我
在我的幻灯片上写道,你们没有给我足够的 GPU 是让我夜不能寐的原因。然后查看它的人说,“我需要让别人审查一下。”但谢天谢地,他们做到了。他们完全同意。任何审查它的人都说,“不,这是一个正确的问题。”
所以令我非常惊讶的是,获得可用的 GPU 是我们面临的最大问题。到目前为止,就像去年整年一样,这是给我带来最多痛苦的问题。这是因为,所以,我的意思是,一开始,我们得到了我们的员工助手和这些辅助工具,用于我们的代理和我们的开发人员,很棒。
你知道,大约 8000 人,大约 600 人正在使用它。你不会遇到任何带宽问题,对吧?然后你突然从 6000 人切换到 600 万人。然后你意识到正在出现突发事件,而且根本没有 GPU。
所以在今年年初,我们遇到过几次这种情况,我们真的为此苦苦挣扎,并且不得不将其升级到 GCP。这实际上是我们主要解决方案同时在 AWS 和 GCP 上运行的原因。从字面上看,这是唯一的原因。否则没有理由这样做。这是同一个模型。
有负载平衡和在这些地方获得容量吞吐量的能力。我不怪他们。我的意思是,我曾经是 AWS 的总经理。我非常了解 Atul,他是 AWS Bedrock 的总经理。他们的问题是
这些新模型每个月都会出现。当一个新模型出现时,你不知道是否要在 1000 个 GPU 上运行该模型,还是在 10000 个 GPU 上运行该模型,以及跨模型的需求将如何变化,哪些模型将转向 Lama 等等。因此,对它没有足够的预测能力。为了更详细地解释一下,你能告诉我们工作流程是什么吗?因为你正在使用特定的托管实例并放置这些模型。它们是……
你正在这些 GPU 上托管的特定权重或特定类型的模型?- 我们有很多不同的用例。对于我们的一些用例,我们拥有基于 LAMA 系列的自己训练的模型。这些模型在内部托管,但这些模型不是高带宽的模型。
这些通常是我们出于一些法律安全原因不想让数据泄露的用例。但这些是小用例。没问题,对吧?对我们来说,大用例正在影响这些模型,特别是。实际上,Claude 和我们现在也有 Gemini。Claude 和 Gemini。
现在,发生的事情是,即使你认为它像聊天机器人一样简单,这是最常见的用例。所以这不像用户说些什么,然后我们把它发送给聊天机器人。这是一个链,在这个链中包含 5 到 9 个 LLM 调用,因为我们必须弄清楚用户是否说了什么不好的话?用户是什么意思?因为有人说不能发送加密货币。
几乎所有正确,你需要获取更多信息。你需要获取上下文。你必须弄清楚,进行 rag 调用。你必须获取信息。然后你进行调用。然后你必须更改系统,使其听起来更富有同理心。
取决于你处于流程图的哪一侧。所以实际上,取决于你处于流程图的哪一侧,它需要 5 到 9 次调用。这就是我们正在做的。当我们达到这么多时,比如每个客户,一百万个客户,你进行这些调用,你用 9 次调用来进行这些调用,它会很快累积起来。是否需要
特定类型的 GPU?比如,模型是否需要同质性?或者说,你是否总是需要 GCP 或 AWS 的特定类型的实例?我的意思是,我们尽量获得最大的实例。所以我不认为,我的意思是,你知道,我们并没有真正指定,因为我们没有这样做。我的意思是,我们还不够大,无法要求一个隔离的云实例。这太大了。所以我们是共享实例。所以我们基本上是根据延迟来工作的。
和带宽。我明白了。你知道,如果你要展望一年后,随着你开始积累你的专业知识,很明显Coinbase正在蓬勃发展,加密货币也发展良好。所以你的团队面临着更大的压力。我想,一年后你的团队会做什么?你们想在未来一年实现哪些目标?我认为我们真正试图实现的目标有两个方面,这两个方面是相互冲突的,对吧?一个方面是,我们总是担心牛市。
所以,你知道,现在正在经历牛市。我们不担心牛市。需要明确的是。我们一直担心牛市。事实上,老实说,我不知道你们是否知道,对于那些长期从事加密货币的人来说,一直以来的说法是加密货币上涨,Coinbase下跌,因为Coinbase方面,每当我们……这是第一次,我们真的为此感到自豪,选举期间以及加密货币的飙升,我们这边完全没有问题,这要归功于我们在平台上投入了大量的
投资,以确保一切顺利运行。但当然,存在容量问题,对吧?我的意思是,我们现在正在很好地处理正在发生的事情。但如果它上涨10倍呢?所以这是其中一个方面,对吧?所以不仅仅是我。平台上的每个人都担心我们不想发生这种情况。这需要付出很多努力,我们有一定的空间。
但我不知道有多少。我的意思是,我们正在估计有多少,但这些事情很难估计,因为当这么多用户涌入时,有很多……我们进行负载测试并做所有事情。
所以这是一个方面。另一方面是,但这自然会占用大量的资源和思考时间等等。另一方面是,你知道,我们正在努力构建许多新的功能和新的能力。我们正在尝试进入许多新的领域。正如你可能想象的那样,Coinbase是一家受严格监管的公司。
因为我们最终会受到两套法规的约束。我们受到常规的金融法规的约束,因为我们持有人们的资金,但加密货币往往在许多、许多司法管辖区都有自己的一套法规。所以我们公司有很多员工,他们负责确保我们遵守法规并遵守规定等等。
而且这些流程自然效率不高。法律会发生变化。法律是用多种语言书写的等等。
这些都是人工智能的用例。例如,早些时候,假设菲律宾制定了一项新法律。它以菲律宾语发布。所以你看到有一项法律被制定了。菲律宾的某个人告诉你,这项新法律已经发布了。所以你获得了这项法律。你雇佣一个可以翻译它的人。你等三周。你付给他们一大笔钱。三周后,你得到了译文。
现在,我们可以立即做到这一点。所以所有这些伟大的用例,我们正在尝试……公司有很多运营,我们正在尝试优化其中的许多运营。但这需要大量的工作,因为霍格沃茨七年的问题,因为这些事情大多不是为计算机设计的。它们是为人类设计的。我们必须做很多软件工作来
确保这些工作。所以这就是两个方面的问题。——这非常有帮助。我们很乐意听取你们的意见。我相信你们对Rajarshi有很多问题。请提出来。我只有一个问题要问你,然后请开始提问。
这里有一些人很兴奋地想要开始一些事情,或者,你知道,我相信有机会挤进一些关于初创公司或你想要看到的东西被构建的要求。那是什么样的?是的,我喜欢这个。我认为正在发生的是,我会给你们一个简短的答案。就像我们在这里和那里谈到的一些小事情一样。就像我说的,例如,一个以科学的方式进行真实LLM评估的基础性初创公司将对行业非常有用。我相信你们会获得巨大的估值。
但更广泛的一组,我认为,而且你现在正在新闻中看到这一点,对吧?正在趋于平稳的是训练收益正在趋于平稳。这是已知的,因为早在GPT-4,
我们已经提供了所有书面知识,网络也已经存在。所以你知道,只有训练收益正在到来,而不是数据收益了。但我认为巨大的差距在于加密货币的能力,它真正解决了实际的客户问题,尤其是在企业中。
企业问题中可以用生成式AI解决的资金数量是惊人的。这并非易事,因为每个公司的流程都不同。工具不同。数据管道不同。但能够解决这个问题的公司,我的意思是,我们谈到了Glean,对吧?
企业搜索,我的意思是,你会认为互联网搜索,这是一个大100倍的问题,在2005年就解决了。
就像,为什么需要17年才能解决企业搜索问题?企业搜索曾经很糟糕,对吧?它太糟糕了。为什么需要这么长时间才能进行企业搜索?因为企业的管道和事情太难了。不知何故,这是一家伟大的公司,他们设法做了一堆很酷的事情。在这个领域,有很多问题。我的意思是,你看任何东西。你看人力资源,你看财务,你看法律,你看财务。
公司所有这些运营职能都亟待改进,但他们不懂人工智能,他们没有数据管道。所以人工智能可以做什么和实际问题的解决方案之间存在巨大的差距。这就是我的建议。我们想要一个初创公司,找到一个使用这些工具的初创公司
但它正在解决问题。人工智能并不是问题的难点。这部分已经解决了。但是,你如何利用生成式AI模型的力量来解决这个问题?这就是巨大的空间所在。太棒了,谢谢。
根据你刚才所说,我认为,这难道不正是SAP的定位吗?因为他们正在……拥有……他们拥有所有企业的所有数据,对吧?每家公司都说他们今天都在使用人工智能。无论你是谁,这都没关系,即使是街上的轮胎店也使用人工智能来更换轮胎。所以,
这不是重点。当然,SAP具有优势,Salesforce拥有大量数据,他们正在使用人工智能,他们正在做很多人工智能。但是,是的,我的意思是,如果他们能解决这个问题,对他们来说很好,他们会更有价值,但我还没有看到解决方案。
所以这是我的真正问题。那么差距是什么呢?因为我真的不知道。我也不知道任何解决方案,但我们没有可见性,因为这一切都在公司内部。这正是问题所在。对于初创公司来说,数据不容易访问是一个问题。所以事情是这样的。所以每个初创公司或任何领域的公司都说我们在做人工智能。
但为了做人工智能,你必须组建一个人工智能团队。所以我们遇到了这种情况,作为一个内部试验,我们想选择我们一个非技术团队并与他们一起做一个项目。所以我的几个家伙去构建了一个东西。这些人很喜欢它。他们说,哦,这是一个非常有用的东西。但是,你知道,我们想要一个应用程序。我们说,好吧,我们是一个应用程序构建团队。
与此同时,这个团队受到了许多初创公司的冲击。我们都说我们在做人工智能,我们在做这件事,对吧?所以我们鼓励他们,然后他们决定进行一次选拔赛。选拔赛是这样的,有这五家公司,他们将使用我们作为基准,说,好吧,你知道,我们是基准,我们将选择最好的。
结果证明,我们比所有五家公司都好得多。所以这些人说,好吧,这是免费的,因为你们已经构建了它。所以我们现在只需要支付这个内部团队来构建与我们外部工具的集成。所以我们现在就要使用了。
所以,如果基础知识存在,人们就不存在。存在很大的技能差距。如果你是一个构建数据库的初创公司,或者你是一个构建销售推荐的初创公司,我的意思是,如果你在Salesforce足够大,你可以组建那个团队。
你当然有优势,但我认为初创公司还有很大的发展空间。事实上,如果你是在Salesforce这样的平台上构建的,这对你是有好处的,因为Salesforce已经拥有所有数据。所以你不必与20个东西集成。你只需要与Salesforce集成,你做优化的事情,它就能工作。
当你必须与例如17个不同的企业工具集成时,就像在安全领域一样,对吧?如果你要分析安全日志,这是一个巨大的挑战,因为你知道,有50种不同类型的日志。但是,你知道,这并没有改变这样一个事实,即技术和解决方案之间存在巨大差距,这里有很多钱可以赚。对吧?
你好,非常感谢。我是Eugene Chung。自2013年以来,我一直是比特币持有者,也是Coinbase的大多数快乐客户。如果你持有你的比特币,你真的会很高兴。是的,我不是一个投机者。但多年来,我很幸运地看到了各种周期,各种炒作。
嗯,所以,呃,你知道,显然有DeFi夏季,有ICO热潮,NFT热潮,所有这些其他事情。现在,当然,我们似乎正处于自主式AI的热潮中。我们有像马克·安德森这样的人,他给了AI机器人Truth Terminal 50000个比特币,然后让它报价投资。呃,现在我们有像Gautius Maximus这样的迷因币,呃,
AI16z,与A16z无关,市值达到约10亿美元,我认为,截至今天。所以我很想知道,鉴于Coinbase对市场趋势的反应历史,这是否是你们感兴趣的趋势?如果是这样,你预测自主式AI的一些集成会在哪里?好吧,我称它们为自主式AI主题的硬币,迷因币,因为……
很多都没有多少复杂的AI。——是的,我认为自主式AI在加密货币上,在区块链上非常重要,因为如果你只是抛开所有的炒作和一切,区块链带来了一些非常、非常有趣的特性。我的意思是,老实说,当我面试Coinbase时,其中一个问题是,什么让你感兴趣?我的答案都是关于区块链的,而不是关于加密货币的。
作为一种投资工具。因为区块链是第一个真正使分布式计算成为可能的技术,因为它提供了进行可证明的、
不可变的和匿名的能力。匿名性并不那么重要,但可证明性和不可变性很重要。然后它还有一个激励交易机制,那就是比特币,对吧?好吧,这有很多技术术语,但实际上,我在Coinbase的一位同事说得非常好。他说,嘿,一个AI代理不能拥有一个装有现金的钱包,但他们可以拥有一个加密钱包。所以我认为这是我们喜欢的领域。
因为它允许……我的意思是,加密钱包对我们来说很重要,代理提供了很好的机制,好吧,这是唯一可用于代理的机制。我早些时候在吃零食时刚和人们聊过,今天在互联网上,如果你想分享,交换20美元,你知道,你可以用Venmo,并且有很多这样的机制。但如果你想发送0.2美分,
没有机制。你不能真的互相发送0.2美分。微支付对于这些类型的自主式分发来说是一个非常重要的工具,我们可以提供它。特别是如果你来到Base的Splug,如果你来到像Base这样的东西,它的交易费用非常、非常低。所以我们认为我们喜欢这种方法。这是两个不同的问题,对吧?就像一个AI人员,我对自主式AI的看法,然后
加密货币会产生自主式AI吗?是的,不是加密货币本身,而是区块链以及交换加密货币支付的能力解决了自主式AI的一个巨大问题,我们绝对喜欢。然后另一个答案是,我是否真的觉得自主式AI?是的,我认为再一次,我的意思是,也许炒作正在扩大对代理真正能做什么的预期,但代理确实可以解决问题。并且能够解决问题,将其分解成更小的事情,
将答案重新组合在一起,这非常强大。非常强大,我的意思是,回到我之前的答案,这是解决这些复杂的企业问题的一个好方法。
太棒了,谢谢。你好,情况如何?非常感谢。我很想知道更多关于防护栏产品的信息,以及你如何从框架的角度考虑防护栏,对吧?所以你处于一个这样的世界中,我想要你的框架,但是,假设它可能是,你知道,机器人,LLM体验可能是信息性的。信息可能是通用的,也可能是私人的,也可能是真实的,并采取行动。在你的特定产品中,如果做错了,这些行动可能会非常昂贵。是的。所以无论如何,我很想知道更多一点
关于防护栏以及你如何考虑结构的信息。——你是绝对正确的。事实上,老实说,我们可以采取行动。我的意思是,甚至忘记LLM,甚至在那之前,你也可以对你的机器人采取行动,对吧?你可以与一个聊天机器人交谈,那是LLM之前的日子,对吧?就像,你知道,你点击说,“你想选择这七个选项中的哪一个?我想发送,我想这样做。”
就像,我们忘记聊天机器人了,对吧?我只是,你知道,预订,我们旅行,度假。我必须更改一些酒店。我去Expedia。不错的聊天机器人,非常受控的旧式聊天机器人,但它说,你是在尝试做这些事情中的某一件吗?是的,我想更改日期。好的,哪一个?我选择,它给了我三个酒店选项。我说,这个。他说,好吧,你的日期是从23日到25日。你想要什么?我说,我想把它改成26日到29日。好的,这是我的价格。你想要这样做吗?我说,是的,它就做了。所以,
所以你可以采取行动,这可能是相当昂贵的。我的意思是,数千美元,他们会为你做这件事。我们也可以做到。这不算什么。即使是LLM之前的聊天机器人也完全能够执行一系列操作。这没关系,因为我们还有其他ML模型正在查看,如果它说将75个比特币发送到其他东西,其他东西就会触发。
这将阻止你的交易,但不会阻止聊天机器人的功能。为了回答你更广泛的问题,即你如何设置防护栏?所以防护栏很难。它们更容易面向内部。我的意思是,我想说防护栏是主要原因,如果你看看我们发布的产品,
大多数是内部的,少数是外部的。但当然,外部产品规模最大,资金最多等等。现在,为了设置防护栏,你必须有不同的防护栏杠杆,对吧?一个防护栏杠杆是确保你不会提供任何额外信息,或者你不会说你不应该说的特定类型的语气。
另一个防护栏级别是它实际上查看传入的内容。因此,随着你赋予它更多能力,你必须不断提高你的防护栏。因为我们发布的第一个版本,你绝对击中了目标。我们发布的第一个版本只提供信息。它只会查看通用信息。第二个版本是查看你帐户信息的版本。
所以你必须有防护栏来确保我不能查看你的帐户并向你提供关于Dylan帐户的信息。然后第三个版本是可以实际对你帐户采取行动的版本。对于每一个版本,你都需要让防护栏齐头并进并执行它。所以,没有简单的答案。这是测试,这是机制。我们实际上……有一个非常有趣的防护栏用例,我们根本没有计划过。
我们正在使用防护栏来保护我们的人工代理。因为人工代理会受到恐吓、威胁,这些事情是人类……我的意思是,代理不应该处理的,比如辱骂性语言等等,这是我们没有计划过的。但后来我们意识到,哎呀,我们有这个防护栏,
它只是完全针对推特的,对吧?我们在开会,是同一个CX团队,对吧?我们正在与他们会面,他们正在谈论某个人,他们中的一位访问了中心,并看到了他们展示的东西。然后我们说,哇。然后当他们说话时,我的产品经理只是在15或20,我们的防护栏引擎抓住了他们中的每一个,并说,不。然后我们说,等等,我们已经有解决方案了。我们应该用它来……所以我们当然必须改变……
然后它只是一项软件工作,对吧?因为协议是你做了聊天机器人,如果聊天机器人没有回答,它就会去代理那里。现在,每次我们去代理那里时,代理都必须进行单独的LLM调用。所以是一堆软件工作,没有机器学习工作。所以我们正在做很多防护栏,有时你会得到免费赠品。
非常感谢你的讨论。我是Josh,AUX的创始人。这是一个AI工作培训平台,用于企业的赋能。我想谈谈置信区间的重要性,以及评估LLM让我回想起以前的生活,当时精度和召回率很重要,并且用于
衡量,你知道,每个模型迭代的出现。你能想到任何方法可以将这种严谨性带回到现代LLM吗?如何开始解决这个问题?所以我没有答案。如果我有答案,我会真的去做。这可能是因为如果你真的仔细想想,对吧?所以只是
我在这里暴露年龄了,但我所有的机器学习背景都是LLM之前的日子。所以LLM发生在2014年、15年、17年左右,那时我已经在公司工作了,不再做很多原创工作了。
所以我在这里没有答案,但我不是最合适的人或合格的人来做这件事。学术界和大学里有很多非常聪明的人正在研究这个问题。老实说,我有点惊讶这种严谨性没有出现。我实际上向学术界的一位人士提出了这个问题,他们给出的答案是这样的。他们的回答是
LLM第一次基本上是在模仿人类的语言。我们开发的所有关于准确性的机制都是之前的日子,当时他们试图研究数学。突然之间,这里有一些东西基本上模仿了人类,我们不知道如何衡量它。
所以,这可能是对这个问题的一个很好的描述。但对我来说,这不是答案。我的意思是,作为一个行业,我们应该能够弄清楚这一点。这就是我的要求。但我已经不够合格了。感觉好像,你知道,很多重点都放在LLM上了,对吧?我认为也许展望2025年,我们有一些……
我们将从概率性SLM转向确定性SLM,它们更小众,更细致,可以避免幻觉,可以理解如何在防护栏上工作,评估变得更容易,更数学化。所以也许这是我们需要从……转变的动力——是的,我的意思是,老实说,看看事情变化的速度有多快,对吧?所以即使在6月份,就像现在在12月份,就像我们在6月份工作并发布它时,每个人都担心的最大问题是幻觉。
但特别是对于企业用例和小型语言模型和RAG,
我们没有看到幻觉。它不是真的……我的意思是,你知道,我们从来没有真正解决这个问题,但它消失了。但是仅仅通过改变约束参数,就像一旦你施加约束,幻觉就不会发生。真的,我们很少在我们的东西中看到幻觉。就像,好吧,我的意思是,它说不行。但是是的,我的意思是,我认为你是对的,SLM更确定性。它们更准确。我不确定它是否更确定性。它肯定更准确。当然,更准确。
非常感谢你来到这里并花时间与我们在一起。我们真的真诚地感谢你。不,我们喜欢这些问题,喜欢这种参与。感谢你邀请我。是的,也许让我们为Rajarshi鼓掌。谢谢。谢谢。
感谢收听Generative Now。如果你喜欢这一集,请对节目进行评分和评论。当然,还要订阅。这真的很有帮助。如果你想了解更多信息,请在X、YouTube或LinkedIn上关注Lightspeed at Lightspeed VP。Generative Now由Lightspeed与Pod People合作制作。我是Michael McNano,我们下周再见。再见。