嘿,大家好,欢迎收听 Latent Space播客。我是 Alessio,Decibel Partners 的合伙人和 CTO,和我一起的是我的联合主持人 Swix,SmallAI 的创始人。嘿,今天我们非常荣幸地邀请到我们的朋友 Paul Klein……
第四位,第四位 BrowserBase 的 CEO,欢迎。谢谢,伙计们。是的,我很高兴来到这里。我想我已经认识你们两位好几年了。所以这就像我们一起闲逛一样。只是在麦克风前闲逛。在我们面前放着三个巨大的麦克风。这完全是一次普通的闲聊。是的。我想我们确实在播客中提到过你,我认为比任何其他 Solaris 播客都要多。
租户,仅仅是因为你是过去几年里启动的最佳 LLM 工具公司之一。是的。我的意思是,这真是令人兴奋的一年。Browserbase 实际上已经接近我们的第一个生日了。
所以我们已经一岁了,从作为独资创始人创办公司到拥有 20 人的团队,进行 A 轮融资,并且能够支持数百家正在构建 AI 应用程序并用于自动化网络的 AI 公司。这真是太酷了。事情发生得太快了。我认为,作为 AI 行业,让我们一起休假一周吧。我实际上两周前才休了我的第一次假,而 Operator 在第一天就发布了,一周后 DeepSeat 也发布了。我正在度假,试图放松一下。我想,我们必须用这些东西来构建,对吧?所以这是一年来的飞速发展。但我非常高兴来到这里,并谈谈我们所看到的所有事情。我也很想听听你们对什么感到兴奋,并与你们分享。从哪里开始呢?所以……
各位,你做过很多播客。我认为我强烈推荐 Jack Bridger 的《Scaling DevTools》以及 Turner Novak 的《The Peel》。而且,你知道,我相信还有其他的。所以你过去谈到了你的 Twilio 故事。谈到了 StreamClub,你被 Mux 收购了,然后你离开去创办 BrowserBase。所以也许我们先从什么是 BrowserBase 开始吧?是的。所以,Brian,
Browser base 是你的 AI 的网络浏览器。我们正在构建无头浏览器基础设施,这些浏览器在服务器环境中运行,开发人员可以通过 API 和 SDK 访问它们。在云中运行网络浏览器非常困难。你们可能在电脑上运行 Chrome,这会消耗很多资源,对吧?所以如果你想运行一个网络浏览器或数千个网络浏览器,你不能只是启动一堆 lambda 函数。你实际上需要使用安全的容器化环境。你必须进行扩展和缩减。这是一个有状态的系统。而这个基础设施就像非常痛苦一样。我对此有切身体会,因为在我上一家公司 StreamClub,我是 CTO,我正在构建我们自己的内部无头浏览器基础设施。这实际上是我们出售公司的原因,因为 Mux 真的想购买我们构建的无头浏览器基础设施。而且这是一个非常棘手的问题。我实际上告诉我的联合创始人,除非是一家浏览器基础设施公司,否则我永远不会再创办另一家公司。事实证明,这在 AI 时代非常必要,当 AI 能够实际访问并与网站互动、点击按钮、填写表单时。你需要 AI 在服务器上的某个地方运行的实际浏览器中完成所有这些工作。而 BrowserBase 为此提供支持。在你谈论它的同时,我想到,并非你会被收购或其他什么,但我想到,如果你成为无头浏览器公司的 Nikita Beer,那将会非常有趣。
你只有一个技巧,你制作被收购的浏览器公司。我确实只有一个技巧。如果我没有无头浏览器,我就完蛋了。我不是 Go 程序员,你知道吗?我……
我参与了 AI 资助项目,你知道,浏览器也是 AI 资助项目,但我们是该 AI 资助项目批次中唯一一家在 AI 上花费 0 美元的公司。你知道,我们纯粹是一家基础设施公司。所以,尽管人们很想问我关于强化学习的问题,但我可能不是谈论这个问题的最佳人选。但如果你想问关于大规模无头浏览器基础设施的问题,我可以滔滔不绝地谈论。所以这真的是我的专业领域。这是一件非常利基的事情。就像以前没有人以我们这样的规模做过我们正在做的事情一样。所以我们很高兴成为专家。是的。
你确实有一个 AI 项目,StageHand,我们会谈论到它。是的。我们可以先谈谈 browser-based 的核心内容,然后再谈 StageHand。是的,StageHand 是我们的网络浏览框架。以及你如何转向 browser-based 以及你看到的什么问题。所以,我作为软件工程师做的第一件事就是集成测试。Sauce Labs 在当时是一种主要……
当时的主要工具。然后我们有了 Selenium,我们有了 Playbrite,我们有了所有这些不同的浏览器工具,但它一直都很难做。所以很明显你以前做过这个。当你开始使用 browser-based 时,你看到了哪些 AI 特定的挑战,与多年来一直存在的问题——在云中大规模运行浏览器——相比,你看到了哪些 AI 特定的挑战?
你看到了哪些传统购买没有涵盖的 AI 独有的东西?是的。首先,我认为可以追溯到我作为开发人员所做的第一件事,就像我小时候编写代码一样,我想编写可以为我做事的代码。你知道,我想编写代码来自动化我的生活。我可能会使用 curl 或 beautiful soup 从网站获取数据并解析这些数据。我们现在都知道,就像,你知道,
获取 HTML 并将其插入 LLM,你可以提取见解,你可以总结。所以很明显,现在随着大型语言模型的兴起,动态网络抓取变得非常容易或更容易了。这就像一个明确的原因,为什么无头浏览器的使用越来越多。
这是必要的,因为许多现代网站不会通过简单的 HTTP 请求公开其所有页面内容。他们实际上需要你在页面上运行 JavaScript 来完成这个操作。Airbnb 就是一个很好的例子。你访问 Airbnb.com,页面上的许多内容在他们运行初始水化之前并不存在。所以你不能只用 curl 来抓取它。你需要运行一些 JavaScript,并且
浏览器就是那个 JavaScript 引擎,它将实际运行页面上的所有这些请求。因此,网络数据检索绝对是启动 BrowserBase 的一个驱动因素,以及能够在 LLM 中总结这些数据的能力。
此外,我熟悉的是,如果我想自动化一个网站,我可以编写一个脚本,它可以用于一个网站。它非常静态和确定性。但网络不是确定性的。网络总是在变化。在我们拥有 LLM 之前,没有办法编写可以编写一次并在任何网站上运行的脚本。这将随着网站结构的变化而变化。点击登录按钮可能
在许多不同的网站上可能意味着不同的东西。而 LLM 允许我们动态生成代码来实际控制这一点。所以我认为,编写可以在许多不同网站上运行的通用自动化脚本的兴起,对我来说,清楚地表明浏览器将变得更有用,因为现在你可以自动化更多的事情,而无需编写,你知道,如果你想编写一个脚本来预订 100 个网站上的演示电话,以前你必须编写 100 个脚本。
现在你编写一个使用 LLM 生成该脚本的脚本。这就是我们构建网络浏览框架 StageHand 的原因,它可以为你完成很多工作。但这两件事,网络数据收集以及对许多不同网站的增强自动化,感觉就像对更多浏览器基础设施的大型驱动因素,这些基础设施将需要为这些类型的功能提供支持。是的。多模态也是一件大事吗?现在你可以使用 LLM 来查看,即使 dome 中的文本可能并不友好。是的,我的一个看法是,我一直都觉得,我不认为视觉会成为 UI 自动化的一个重要驱动因素。我觉得,你知道,
HTML 是结构化文本,大型语言模型擅长处理结构化文本,但很明显,这些计算机使用模型通常是视觉驱动的,它们一直在推动事情向前发展。因此,绝对是多模态的,例如渲染页面是必需的,需要截取屏幕截图才能将其提供给计算机使用模型,以便在网站上采取行动。这只是浏览器的另一个优势,但是
说实话,这并不是我早期在想的事情。我甚至没想到我们会如此迅速地实现多模态创新模型。这是那些我在介绍中忘记提到的事情之一,我是 Browserbase 的投资者。我记得当你向我推销时,我们今天拥有的许多东西在最初的谈话中并不存在。但我的最初论点是我们之前在播客中讨论过的事情,那就是
获取 GPT 商店,自定义 GPT 商店。每个复选框和插件实际上都是一个启动项目。这就是浏览器项目。我认为主要犹豫的是,我认为我实际上花了一段时间才回复你。主要犹豫的是还有其他人。就像你不是第一个无头浏览器启动项目一样。它甚至不是你的第一个无头浏览器启动项目。总是有一个问题,那就是你是否会成为……
在一个有很多现有公司的地方成为类别赢家,说实话,它们比你大。它们只是没有针对 AI 领域。他们没有 Nat Friedman 的支持。你知道,有很多像,你在硅谷。他们不在。我不知道那是不是,但那很有趣。我认为我尝试了所有其他的,并且我感到非常失望。就像我的背景来自在优秀的开发者工具公司工作,并且
没有任何东西像 Vercel 这样的体验一样。就像我们最大的竞争对手实际上部分由私募股权拥有,他们只是大幅提高了价格。而且仪表板五年都没有改变。我实际上在我的上一家公司使用过它们并尝试过它们。我当时想,哦,天哪,就像真的需要一些像 Stripe、Clerk、Vercel 这些我使用和喜欢的优秀基础设施公司一样的体验一样。
但面向这个更具体的类别,即浏览器基础设施,这在技术上非常复杂。当你在运行浏览器时,互联网上可能会出现很多问题。互联网非常庞大。有很多不同的配置。就像仍然有一些网站只能与 Internet Explorer 一起使用一样。当你运行自己的浏览器基础设施时,你如何处理这个问题?这些是我们必须在 BrowserBase 考虑和解决的问题。这当然是一项充满爱的工作。但是……
我首先为自己构建了这个。我知道这很俗套,每个人都会为他们的创业公司这么说,但它确实是真的。如果你看看我甚至在 Browserbase 之前做的演讲,我只是真的非常兴奋地尝试建立一家定义类别的基础设施公司。而且很少有新的基础设施类别存在。我们在这里的 Chroma 办公室,像,你知道,向量数据库是一个新的基础设施类别。是吗?是吗?我的意思是,我们可以……
我们在他们的办公室,所以我们稍后再讨论这个问题。是的,这是行业辩论之一。我想我们可以回顾 Karpathy 很久以前做的 LLMOS 演讲,浏览器框非常清晰地在那里。而且似乎在这个领域构建的人……
也同意浏览器是未来将存在的 LLMOS 的基础设施的核心基元。没有人正在构建我想要使用的東西。所以我必须自己去构建它。是的,我的意思是,正是那次演讲。老实说,那个图表,每个方框都是一个启动项目。并且有代码框,然后是浏览器框。我认为在某些时候它们会开始发生冲突。总是有一个问题,那就是你是一个点解决方案,还是一种多合一解决方案?
我认为点解决方案往往会迅速获胜,但只有那些具有非常紧密、一致的体验的解决方案才会获胜。让我们谈谈 browser-based 的一些难题吧。你的网站很漂亮,谢谢。你使用的是哪个机构来设计它?Herb.paris。他们很棒。Herb.paris。是的,它是 H-E-R-V-E。我强烈推荐给开发者工具的创始人,与消费者机构合作,因为他们最终会创造出美丽的事物,而巴黎人知道如何创建美丽的界面。所以我必须给予准备。而且聊天应用程序显然非常快。哦,是的。Mistral 聊天。是的,Les Mistral。Les Chat。Les Chat。
然后还有你的视频,拍摄得很专业,对吧?A 轮融资视频。是的,是的,是的。Nico 制作了这些视频。他很棒。不是你在新的……第一个是奥斯汀拍摄的初始视频。另一个克里斯托弗·哈里斯的视频。但是是的,我的意思是,就像……
当你考虑如何谈论你的公司时,你必须考虑你如何展现自己。作为一名开发人员,你认为你根据 API 的可靠性和 P95 来评估一家公司。但许多开发人员会说,网站好吗?信息清楚吗?我是否信任我正在为其构建整个功能的这位创始人?所以我试图做到这一点,以及基础设施的可靠性。你是对的,这很难。当你大规模运行无头浏览器时,你会遇到很多陷阱。
对。所以让我们选择一个。这里有八个功能。无缝集成、可扩展性、快速或速度、安全、可观察性、隐身。这很有趣。可扩展的和以开发者为中心的。你认为最难的两个或三个是什么?是的,我认为大规模运行无头浏览器是最难的一个。也许,我可以技术性地讨论一下吗?可以吗?我听说这是一个技术受众。所以我将与其他技术人员交谈。哇。
他们在听。是的,他们很生气。他们准备好了。AGI 生气了。
好的,那么如何在云中运行浏览器呢?让我们从这里开始,对吧?所以假设你正在使用流行的浏览器自动化框架,例如 Puppeteer、Playwright 和 Selenium。也许你已经在你的电脑上本地编写了一些代码,它会打开 Google,找到搜索栏,然后输入,你知道,搜索 latent space 并点击搜索按钮。该脚本在本地运行良好。你可以看到小浏览器打开。你想将其投入生产。你想在云环境中运行该脚本。所以当你的笔记本电脑关闭时,你的浏览器正在做一些事情。浏览器正在做一些事情,对吧?
好吧,我们在 Browserbase 使用 Amazon。我首先想到的可能是某种无服务器基础设施。我可能会尝试将其部署到 Lambda 服务器上。
但是 Chrome 本身太大而无法在 Lambda 上运行。它超过 250 兆字节。所以你不能轻易地在 Lambda 上启动它。所以你可能必须使用 Lambda 层来将其压缩进去。也许可以使用较轻的 Chromium 版本。然后你将其放在 Lambda 上。太好了。它可以工作。但它运行速度非常慢。这是因为 Lambda 资源非常有限。它们只使用一个 vCPU 运行。你一次只能运行一个进程。记住,Chromium 非常强大。它在我的 MacBook Air 上几乎无法运行。
我仍然正在从预运行中下载它。从之前的测试中,对吧?我在开玩笑。但它很大,你知道吗?所以像 Lambda 这样,它根本无法很好地工作。也许它可以工作,但你需要更快的东西。你的用户想要更快的东西。好的,那么让我们把它放在一个更强大的实例上。让我们运行一个 EC2 服务器。让我们把 Chromium 放到那里。太好了。
好的,这在一个用户的情况下运行良好,但是如果我想运行 10 个 Chromium 实例,每个用户一个呢?好的,我可能需要两个 EC2 实例,也许是 10 个。突然之间,你有了多个 EC2 实例。这听起来像是 Kubernetes 和 Docker 的问题,对吧?现在,突然之间,你正在使用 ECS 或 EKS,Amazon 的 Kubernetes 或容器解决方案。你正在扩展和缩减容器,你正在花费整个工程师的时间来
维护这个有状态的分布式系统。这些是最糟糕的系统之一,因为当它是有状态的分布式系统时,这意味着你受到与该事物的连接的约束。你必须在有人使用它时保持浏览器打开,对吧?这只是一个痛苦的架构。Chromium 还有一些其他的小问题。像,
顺便说一下,Chromium 是 Chrome 的开源版本,你必须安装所有这些字体。你希望表情符号在你的浏览器中工作,因为你的视觉模型正在寻找表情符号。你需要确保你拥有表情符号字体。你需要确保你配置了所有正确的扩展程序。例如,你想要广告拦截吗?你如何配置它?你如何实际记录所有这些浏览器会话?就像它是一个无头浏览器一样。你无法查看它。所以你需要某种可观察性。也许你正在录制视频并将它们存储在某个地方。所有这些加起来就变成了你项目的这个巨大的怪物部分,而你只想在生产中运行许多浏览器,以便这个小脚本可以访问 google.com 并进行搜索。当我看到一个复杂的分布式系统时,我看到了建立一家伟大的基础设施公司的一个机会。我们真的用 Browserbase 来抽象掉这一点,我们的客户可以使用这些现有的框架,Playwright、Puppeteer、Selenium 或我们自己的 stagehand,并以无服务器的方式连接到我们的浏览器。
并控制它们,然后在完成后断开连接。他们不必考虑所有这些背后的复杂分布式系统。他们只需随时随地获得一个浏览器。非常容易连接。我相信你会有问题。我对任何事情的标准问题,所以本质上你是一家无服务器浏览器公司。
并且过去有一些其他的无服务器工具,我熟悉这些工具,无服务器 GPU、无服务器,我不知道,网站托管。这就是我使用 Netlify 的地方。一个问题就像,你承诺在毫秒内启动数千个服务器。
我觉得还没有真正的解决方案可以做到这一点。我只是很好奇如何做到。我所知道的唯一解决方案,就是让一堆服务器保持预热状态,这很昂贵,但也许并不那么昂贵,因为它只是 CPU。
所以我只是,你知道。是的,你说的对,对吧?我的意思是,就像,你如何为显然不是无服务器的东西提供无服务器般的体验,对吧?答案是你需要能够在单个节点上运行多个浏览器。我们在 Browserbase 使用 Kubernetes。所以我们有很多正在调度的 pod。我们必须可预测地对其进行向上或向下调度。是的,在毫秒内启动数千个浏览器是最佳情况。如果你向我们发送 10,000 个请求,你可能会遇到较慢的冷启动,对吧?所以我们在预测性扩展方面做了很多工作,并且能够将内容路由到不同的区域,在那里,你知道,我们有 Browserbase 的多个区域,我们有不同的池可用。你还可以根据较低的延迟选择要访问的区域。往返时间延迟对于这些类型的工具非常重要。有很多请求正在通过网络传输。
所以对我们来说,使用像 Firecracker 这样的虚拟机来支持后台的所有内容,使我们能够非常灵活地快速扩展和缩减,并具有强大的多租户功能。但最终,这是我们在 BrowserBase 必须处理的复杂基础设施挑战。我们的路线图上还有很多东西,可以让客户拥有更多可以使用的杠杆来交换信息。
你想要非常快速的浏览器启动时间,还是想要非常低的成本?如果你愿意在这方面更灵活一些,我们也许能够更好地满足你的用例。既然你使用了 Firecracker,Fargate 不应该为你做这件事吗?还是你必须比这更低级别?我们必须比这更低级别。我发现 Fargate 客户经常遇到这种情况,这对于 Fargate 来说令人担忧。我们曾经是 Fargate 的大型客户。实际上,Browserbase 的第一个版本是 ECS 和 Fargate。不幸的是,这是一个很棒的产品。我认为我们实际上曾经是我们地区最大的 Fargate 客户一段时间。不,什么?是的,说真的。不幸的是,这是一个很棒的产品,但我认为,如果你是一家基础设施公司,你实际上必须对这些基元拥有更深层次的控制。我认为这与数据库也是一样的。我们使用过其他数据库提供商,我认为
是的,无服务器 Postgres。令人震惊。
但我认为这实际上取决于关键路径中的内容。我们试图对它拥有深入的所有权。在分布式位置方面,网络是如何工作的?你可能会在不同的位置获得不同的内容,但客户期望,你知道,如果你在美国,我希望是美国版本。但是如果你在我的浏览器中启动……
我会得到法语版本。是的,这是一个好问题。好吧,通常情况下,在本地化方面,浏览器中有一个名为区域设置的工具,你可以设置你的区域设置是什么,如果你在 ENUS 浏览器中或不在其中。但是有些工具使用 IP 位置
基于 IP 的路由。在这种情况下,你可能需要一个代理。例如,假设你正在欧洲运行某些东西,但你想确保你显示在美国。你可能想要使用我们的代理功能之一。因此你可以打开代理来表示,例如,确保这些连接始终来自美国。
这也是必要的,因为当你浏览网络时,你来自,你知道,数据中心 IP,这会使浏览网络变得更加困难。所以我们确实拥有这种代理超级网络,我们将根据你的去向为你选择合适的代理,以便你可以可靠地自动化网络。但是如果你在欧洲被调度,这种情况不会经常发生。我们试图将你安排在你试图访问的来源附近。但通常情况下,你可以控制可以放置浏览器的区域。因此你可以指定 West one 或 East one 或 Europe。我们目前只有一个欧洲区域。
实际上。哪个更难,浏览器还是代理?我觉得,对我来说,感觉上大规模可靠地使用代理比大规模使用浏览器要难得多。我很好奇。都很难。都很难,对吧?我认为这是不同级别的困难。我认为代理基础设施的问题在于,我们与许多不同的网络代理提供商合作,有些比其他的更好。有些日子好,有些日子不好。而那些自己构建了浏览器基础设施的客户,他们必须去处理可疑的行为者。
首先,他们弄清楚自己的浏览器基础设施,然后他们必须去购买代理。这就像你可以用比特币支付一样。这感觉有点可疑,对吧?这就像你在购买毒品一样,当你试图在线获取代理时。我们与这些交易对手建立了深厚的合作关系。我们能够对它们进行审核,并说,这个代理的来源是否符合道德?就像它没有运行在某人的电视上一样。它是散养的吗?是的,散养的有机代理,对吧?我们进行了一定程度的尽职调查。我们是 SOC 2,所以我们必须了解这里发生了什么。
但随后我们能够确保我们绕过无法工作的代理提供商。有些代理提供商会……代理会突然停止工作。然后,如果你在自己的浏览器上没有冗余代理,这对你来说很难,或者你可能会遇到一些严重的影响。对我们来说,我们很聪明地知道,嘿,这个代理无法工作。让我们转到这个。你可以构建多个提供商的网络,以真正保证客户的最佳正常运行时间。是的,所以你没有拥有任何代理。我们没有拥有任何代理。你是对的。团队一直在说……
谁想带回家一个小代理服务器?但还没有。我们还没有到那一步,你知道吗?这是一个非常成熟的市场。我认为你不应该自己构建它。你应该只是他们的超级客户。我认为抓取是它的主要用例。我想这会让我们谈到 CAPTCHA。嗯哼。
以及关闭,但让我们谈谈 Captcha。你有一些关于 Captcha 的内容想谈谈。哦,是的,我只是,我认为很多人会问,如果他们在考虑代理,他们也会考虑 Captcha。我认为这是同一件事。你可以在线购买 Captcha 求解器,但购买体验是一样的。这是一个可疑的网站。你必须集成它,就像,
购买这些东西一点也不好玩,你真的不能相信它们。文档很糟糕。BrowserBase 的做法是,我们集成了许多不同的 CAPTCHA 提供商。我们自己也做了一些事情,但通常我们只是与一些知名的供应商集成,并持续监控和维护这些东西,看看它们是否有效?我们能否绕过它?这些是 CAPTCHA 求解器。CAPTCHA 求解器。不是 CAPTCHA 提供商,是 CAPTCHA 求解器。对不起,CAPTCHA 求解器。我们真的努力确保所有这些都能为您工作。我认为作为一个开发者,
如果我购买基础设施,我希望它一直都能工作。对我们来说,确保一切都能正常工作并自行监控非常重要。目前,CAPTCHA 的世界很棘手。我认为人工智能代理尤其领先于互联网基础设施。CAPTCHA 的设计目的是阻止所有类型的机器人。
但现在有好的机器人和坏的机器人。我认为将来,CAPTCHA 将能够识别哪个是好的机器人,希望通过某种 KYC。对我们来说,我们一直很幸运。我们几乎没有已知的 BrowserBase 滥用情况。
因为我们非常仔细地审查与我们合作的人。对于某些类型的验证码求解,我们只允许它们在某些类型的计划中使用,因为我们希望确保我们能够知道人们在做什么,他们的用例是什么。这确实使我们能够尝试成为优秀机器人的仲裁者,这是我们的长期目标。我想与 Cloudflare 等人建立良好的关系,以便我们可以达成一致,例如,这些是可以接受的机器人。我们将为您识别它们,并确保在它们访问您的网站时进行标记,这是一个好的机器人。
Cloudflare 表示他们希望做更多这样的事情。因此,他们将默认设置。如果他们认为您是 AI 机器人,他们将拒绝。我很想知道您是否认为这将是浏览器级别的。我的意思是,Cloudflare 的 DNS 级别似乎更适合它。但我很好奇您是如何看待这个问题的。我认为网络将会改变。我认为我们现在拥有的互联网将会改变。我们都需要接受这个事实。
与其希望互联网像 2000 年代那样,您可以拥有不会被抓取的免费内容线,这根本不会发生。相反,我们应该考虑以下几点:第一,我们如何改变在线发布信息的模式,以便人们能够充分将其商业化?第二,我们如何重建那些期望 AI 代理代表他们登录的应用程序?这些事情将使我们能够
识别好的机器人和坏的机器人。我认为 Clerk 团队在身份验证方面做得非常出色。实际上,我认为身份验证是阻止代理访问内容的最大因素,而不是验证码。我认为将来会有代理身份验证。我不知道这是否会来自一家公司,但实际上是身份验证提供商拥有隐藏的“作为代理登录”功能,然后您输入您的电子邮件,它将收到推送通知,例如,
您的基于浏览器的代理想要登录您的 Airbnb。您可以批准它,然后代理可以继续进行。这确实避免了使用验证码或以您的身份登录并共享您的密码的需要。我认为代理身份验证将成为我们将来识别优秀机器人的一种方式。我认为许多验证码求解都是短期问题,因为互联网正在重新调整自身,以适应像人们一样浏览网络的代理。是的。Stitch 最近在 Hacker News 上谈论代理体验 AX,这是
Netlify 也在尝试克隆和创造并谈论的事情。我们之前在之前的剧集中谈到了这一点,从某种意义上说,我认为这可能是唯一需要为代理重新发明的东西。其他一切都可以保持不变,CLI、API 等。但是,是的,我们需要代理身份验证。它大多是短暂的,例如,它不应该,它应该与人类有不同的身份,并且
但是成对的,我几乎认为,就像每个社交网络都应该有您的主要个人资料,然后是您的备用帐户或您的 Finsta 一样,这几乎就像,您知道,每个,每个人的令牌都应该与代理令牌配对。然后代理令牌可以代表人类令牌执行某些操作,但不能被认为是人类。是的。这就像,这实际上与 OAuth 非常相似,这就是我的想法。而且,你知道,Stitch 的 Thread 是投资者,Clerk 的 Colin,Octaventures,所有 BrowserBase 的投资者,因为,
我希望他们能解决这个问题,因为它将使基于浏览器的准入成为可能,因此我们不必克服所有这些障碍。但我认为这将是一个类似 OAuth 的流程,其中代理将请求以您的身份登录。您将批准范围。它可以在 Airbnb 上预订公寓,但不能向任何人发送消息。然后,代理将在应用程序中拥有某种基于角色的访问控制。我很期待。棘手的地方在于,这里有一层委托,那就是您正在授权我的用户的用户。
诸如此类。我不知道这是否棘手。明白了吗?是的,实际上在 Twilio,我曾在登录身份和访问管理团队工作,对吧?所以,就像我构建了 Twilio 的登录页面一样。您是该团队的实习生,然后两年后成为负责人?是的,是的。我从 2016 年开始担任实习生,然后成为该团队的技术负责人。如何?这不正常。我……
他不正常。
是的,我能够在一家不断发展的公司中在一个不断发展的团队中花费大量时间。因此,它为这里的许多事情提供了信息。我认为这些问题已经通过 SAML 协议与 SSO 得到解决。我认为它与 WebAuthn 的关系,就像您可以用来验证人员的不同类型的身份验证方案一样。工具都在那里。只需要稍微调整一下才能适应代理。我认为已经提供身份验证即服务的公司这一事实确实为其奠定了良好的基础。
困难的事情是为代理重新发明互联网。我们不想重建互联网。这是一项不可能完成的任务。我认为人们经常说,我们将为代理构建第二层 API。我说,我们将针对最重要的用例这样做。但是,如果我们只是调整现有的互联网,这在身份验证方面,我认为我们将成为未来的傻瓜,不幸的是。我认为人工智能将能够完成我们在网上执行的许多任务,这
意味着它将能够访问网站,代表我们点击按钮并代表我们登录。因此,随着这种网络代理未来的到来,我认为通过一些小的结构性变化,就像您所说的那样,感觉它可以与现有的互联网很好地结合在一起。还有一件事,那就是您的实时视图 iframe,它允许您进行控制。
是的。显然现在对运营商来说非常重要,但是,技术上有什么有趣的事情,或者人们喜欢,人们总是想要这个吗?它真的很难构建,你知道,所以,好吧。无头浏览器。你看不到它们,对吧。它们在云中的某个地方运行。你不能看它们。我只是想真正做到,这是一个奇怪的名字。我希望我们能为这个东西想出一个更好的名字,但你无法看到它们。对。但是,
客户不信任 AI 代理,对吧?至少是第一次。因此,我们对实时视图所做的是,当您使用基于浏览器的工具时,您可以实际嵌入正在云中运行的浏览器的实时视图,让您的客户看到它正在工作。这就是第一个原因,建立信任。就像,好吧,我有一个脚本,它将去自动化一个网站。我可以
通过 iframe 将其嵌入到我的 Web 应用程序中,我的客户可以观看该过程。然后我们添加了双向通信。因此,您不仅可以观看由 AI 操作的浏览器,如果您想暂停并实际点击此 iframe 周围的内容,该 iframe 正在控制浏览器,这也是可能的。
这都要归功于一些较低级别的协议,称为 Chrome DevTools 协议。它有一个名为 Start Screencast 的 API。您还可以将鼠标点击和按钮点击发送到远程浏览器。所有这些都可以嵌入到 iframe 中。您在浏览器中拥有一个浏览器,哟。然后你模拟另一边的点击。确切地。
这对于例如无法解决的验证码来说非常有用。您在 Operator 中看到了这一点。您知道,Operator 实际上使用了一种不同的方法。他们使用 VNC。因此,您能够看到,您在这里看到整个窗口。我们正在使用 Chrome DevTools 协议做一些更低级别的事情。它只是通过网络传输的 PNG。但同样的事情也是正确的,对吧?就像,嘿,我……
运行一个窗口,暂停,你能在这个窗口中做些什么,人类,好的,继续。有时是 2FA 令牌,例如,如果您收到该短信,您可能需要一个人输入。Web 代理仍然需要人机交互式工作流程。您仍然需要一个人与浏览器交互。构建一个代理它的 UI 非常困难。您不妨向他们展示整个浏览器,并说,嘿,你能帮我完成这个吗?然后让 AI 继续进行。将来我会将我当前的桌面流式传输到基于浏览器的工具吗?
我不这么认为。我认为我们非常重视云基础设施。是的。你知道,但我认为我们正在做的很多事情,我们确实想构建工具,例如,我们稍后会谈论舞台和 Web 代理框架。但是,如果很多人正在为消费者使用而首先使用桌面。我认为云正在做很多这样的事情,我希望看到,你知道,MCP 确实围绕云桌面应用程序有一个原因,对吧?我认为很多这些工具都将在您的计算机上运行,因为它使……我认为它正在突破。人们把它放在服务器上。是的。
哦,真的吗?好吧,太好了。我们会看到的。我们会看到这一点。我很惊讶。我认为浏览器公司也是如此,使用 Dia Browser,它运行在您的机器上。你知道,它将会……是什么?所以 Dia Browser,据我所知……我过去使用过 Arc。是的。我没有使用过 Arc,但我非常喜欢浏览器公司。我认为他们在消费者方面做了很多很酷的事情。据我所知,这是一个浏览器,您可以在其中有一个侧边栏,您可以与之聊天,它可以控制您机器上的本地浏览器。所以……
如果您想象一下什么是消费者 Web 代理,它与您的浏览器一起存在,我认为 Google Chrome 拥有 Marina 项目,我认为。我几乎称之为 Marinera 项目,出于某种原因。我不知道为什么。不,我认为有人非常喜欢《水世界》。哦,我明白了。经典的凯文·科斯特纳。是的。好的。在我看来,Marinera 项目与 DA 浏览器类似,据我所知。您有一个浏览器,它有一个 AI 接口,可以接管您的鼠标和键盘并为您控制浏览器。非常适合消费者用例。
但是,如果您正在构建依赖于浏览器的应用程序,并且它是更大 AI 应用程序体验的一部分,那么您可能需要更像基础设施的东西,而不是消费者应用程序。因为我已经在这个领域探索了一点,人们是否想要分支?所以我拥有我浏览器所在的状态,然后我想要 100 个该状态的克隆。
人们这样做吗?人们目前没有这样做,但这绝对是我们正在考虑的事情。我认为分叉浏览器的想法非常酷。技术上有点难。我们开始在代码执行中看到这一点,人们正在分叉一些代码执行过程或分叉一些工具调用。
或分支工具调用。尚未在浏览器级别看到它,但这很有意义。例如,如果 AI 代理正在使用网站,并且不确定它想要采取什么路径来抓取该网站以查找它正在寻找的信息,那么它并行探索这两条路径是有意义的。那将是一个非常像一条未走过的路。是的。并希望找到正确的答案,然后说,好吧,这实际上是正确的答案,记住它,并在将来在路线图上使用它,当然。请不要制定我的路线图。你知道,你到底是怎么做的?
你怎么分叉?我觉得浏览器对很多事情来说都是有状态的。序列化状态,恢复状态,我不知道。好吧,所以这就是我们还没有这样做的原因之一。很难,你知道,真正分叉实际上相当困难。天真的方法是在新标签页中打开同一页面,然后希望它处于相同状态。但是,如果您有一个半填充的表单,您可能必须像获取整个容器一样,暂停它,所有内存,复制它,从那里重新启动。这可能会非常慢。所以我们没有找到任何东西,就像分叉的简单方法就是复制页面一样。
复制页面对象,你知道吗?但我认为那里需要一些更强大的东西。是的,所以 Morph Labs 有这个无限分支的东西。是的,完全正确。他们编写了 Linux 的自定义分叉或某些东西,让他们保存系统状态并克隆它。Morph Labs,联系我。我会成为客户。我认为这是唯一的方法。除非 Chrome 为您提供一些特殊的 API。是的,可能有一天我们会反向工程一些东西。我不知道。
让我们谈谈 Stagehand,这是一个 AI 网络浏览框架。您有三个核心组件,观察、提取和操作。非常干净的登录页面。创建框架背后的想法是什么?是的,有三个框架非常流行或已经存在,对吧?Puppeteer、Playwright、Selenium。这些用于构建硬编码脚本以控制网站。
一旦我开始使用 LLM 加浏览,我就发现自己正在生成 Playwright 代码来控制网站。我会获取 DOM,将其传递给 LLM。我会说,你能生成 Playwright 代码来点击这里合适的按钮吗?它会这样做。我想,这真的应该成为框架本身的一部分。我变得非常痴迷于将自然语言作为 API 输入一部分的 SDK。并且
这就是 Stagehand 的作用。Stagehand 公开了三个 API,它是 Playwright 的超集。因此,如果您转到一个页面,您可能想要执行一个操作,例如点击按钮、填写表单等。这就是 act 命令的作用。您可能想要提取一些数据。这个命令使用自然语言,例如,从该页面中提取超级碗的获胜者。您可以为其提供 Zod 模式。因此,它返回结构化输出。然后,也许您正在构建一个代理循环,并且您想在执行操作之前查看此页面上可能有哪些操作。您可以进行观察。
因此,您可以观察页面上的操作,它将生成操作列表。您可以指导它,例如,给我与购买商品相关的此页面上的操作。您可以立即购买、添加到购物车、查看送货选项等。
并将此传递给 LLM、代理循环,以说明给定此高级目标的适当操作。因此,StageHand 不是 Web 代理。它是一个用于构建 Web 代理的框架。我们认为代理循环实际上非常接近应用程序层,因为每个应用程序可能都有不同的目标或不同的执行步骤的方式。我认为我没有见过通用的,也许你们是这里的专家,我没有见过一个真正好的 AI 代理框架
框架在这里。每个人都有自己的特殊方法,对吧?我看到很多开发人员正在构建自己的代理循环,他们正在使用工具。我认为 StageHand 是浏览器工具。因此,我们公开 act、extract、observe。您的代理可以调用这些工具。由此,您不必担心生成高性能的 Playwright 代码。您不必担心运行它。您可以将这三个工具调用集成到您的代理循环中,并可靠地自动化 Web。特别感谢 Anirudh,我在您的晚宴上遇到了他,我认为他收听过播客。所以是的。嘿,Anirudh。Anirudh。
Ani 是个男人。他是 Stagehand 的人。我的意思是,关于这些 API 的有趣之处在于它们都是创业公司。特别是 Extract,您知道,Firecrawler,Extract,还有 Expand AI。有很多 Extract 公司。他们只专注于 Extract。我很想知道。我觉得你们会在某个时候发生冲突。现在,一切都很好。每个人都在蓝海中。
在某个时候,它的价值将足够高,以至于会有一些地盘争夺战。我认为您没有参与战斗。我认为您可以模拟提取以使用外部服务,如果它们比您更好。但这只是一个观察结果,就像我看到自定义 GBT 侧面的每个选项、每个复选框都成为一个创业公司,或者 Carpathi 图表中的每个框都成为一个创业公司一样,这也正在成为一件事情。是的,我的意思是,StageChain 的工作方式是它是 MIT 许可的,完全开源的。
您可以将您自己的 API 密钥带到您选择的 LLM。您可以选择您的 LLM。我们不会从提取中赚钱,或者说,我们只有在您选择使用我们的浏览器运行它时才会赚钱。您不必这样做,您可以实际使用您自己的浏览器,本地浏览器。Stage gen 完全开源的原因就是这样。
是的,就像我认为如果您正在构建非常复杂的 Web 抓取工作流程,我不知道 Stagehand 是否适合您。我认为它更适合您正在构建需要一些通用工具的 AI 代理,或者它正在执行大量 Web 自动化密集型工作。但是,如果您正在构建一个抓取公司,Stagehand 不适合您。您可能想要一些可以
获取 HTML 内容、将其转换为 Markdown、查询它。StageHand 不会这样做。StageHand 更注重可靠性。我认为我们非常注重可靠性,而不是成本优化和速度。我实际上觉得 StageHand,StageHand 的工作方式是这样的,例如 page.act,点击快速入门,对吧?这有点像您必须编写的代码的集成测试,就像您必须编写的属性代码一样。当页面结构发生变化时,因为它总是会发生变化,
那么这仍然是测试。这仍然是我必须编写的测试。所以它有点像一个不需要实现细节的测试框架。好吧,是的,我的意思是,Puppeteer、Playwright 和 Sliding and Brawl 被设计为测试框架,对吧?现在人们正在将它们组合在一起以自动化 Web。我会说,也许这是……
我太具体了,但是当我编写测试时,如果页面结构在我不知情的情况下发生变化,我希望该测试失败。所以我不知道 AI 是否会像这样重新生成它,例如人们正在使用 Stagehand 进行测试,但这更多的是用于可用性测试,而不是像测试前端一样,它是否已更改。所以,好的。
但总的来说,我们看到人们真正腾飞的地方是,如果他们正在使用某些东西,如果他们想在他们的应用程序中构建一个有点像 Operator 或 Deep Research 的功能,他们正在使用 Stagehand 来为他们自己的代理循环提供这种工具调用。好的,很酷。所以让我们进入 Operator,这是 OpenAI 今年推出的第一个大型代理。似乎他们已经安排了很多事情。你正在休息,你的电话响了。
您对计算机使用代理(他们所说的)的总体看法是什么?在进入 OpenAiOperator 之前,只是 Operator 的总体承诺,我会观察到我尝试过一次,还不错,但我再也没有尝试过。这与我的经验也相符。就像我非常喜欢 OpenAI 团队一样。我认为我不认为 Operator 是 BrowserBase 的公司杀手。我认为它实际上向人们展示了可能性。
我认为计算机使用模型很有意义。我实际上最兴奋的是计算机使用模型,就像它们能够真正拍摄屏幕截图、推理和输出步骤一样。并且
我认为使用鼠标点击或鼠标坐标,我发现它不如我想要的那么可靠。我只是想知道这是否是正确的形式因素。我们对框架所做的是将其锚定到 DOM 本身,将其锚定到实际项目。因此,如果它正在点击某些东西,它正在点击该东西,你知道,就像它更准确一样。无论它在哪里。是的,完全正确。因为它确实很好地结合在一起,并且它可以一次处理整个视口。而像
操作员只能处理它所看到的内容。你能悬停吗?悬停是你能做的事情吗?我不知道我们是否直接将其公开为工具,但我相信有一个悬停的 API。例如,将鼠标移动到此位置。是的,是的,是的。我认为您可以通过 DOM 本身的 JavaScript 触发悬停。但是,我认为当我们看到计算机使用时,每个人的眼睛都亮了起来,因为他们意识到,哇,
人工智能实际上将为人们自动化工作。我认为看到这两个实验室发生这种情况,我相信我们将看到更多实验室推出计算机使用模型,我很高兴看到人们用它构建的所有东西。我认为我希望看到计算机使用能力,例如,
在 BrowserBase 上控制浏览器。我认为 OpenOperator(这是 OpenAI 的 Operator 的开源版本)是我们第一次尝试如何将这些模型集成到 BrowserBase 中。我们处理基础设施,让实验室处理模型。我不认为
Operator 将作为 API 发布。我不知道。也许会。我很想知道这将如何运作,因为我认为对于像 OpenAI 这样的公司来说,做一些事情,例如支持验证码求解或拥有代理,将非常困难。我认为这在结构上对他们来说很难。想象一下这条《纽约时报》的标题,OpenAI 验证码求解。那将是一个非常糟糕的标题,这条《纽约时报》的标题。基于浏览器的工具解决了验证码。就像,
没有人关心。我们的投资者很无聊。我们都对此感到满意。我们正在构建这家公司,知道验证码求解是短暂的,直到我们找到验证优秀机器人的方法。我认为对于像 OpenAI 这样的公司来说,它拥有如此优秀的品牌,很难与 Web 自动化的令人讨厌的部分相平衡,这可能很难解决。我相信 OpenAI 知道在他们需要你的时候该联系谁。我相信他们将建立良好的伙伴关系。OpenOperator 只是
您的营销策略吗?您如何看待资源分配?因此,您可以非常快速地启动它。现在,所有这些都像开放式深度研究一样,人们正在构建所有这些东西。你是最初的开放者。我们是最初的 Open Operator,你知道吗?这只是,嘿,看,这是一个演示,但我将帮助您为自己构建一个实际的产品。您是否对走产品路线更感兴趣?这有点像 OpenAI 的方式,对吧?他们最初是模型提供商,然后
是的,我们目前不打算走产品路线。我认为 Open Operator 是一个参考项目。让我们向人们展示如何使用现有的基础设施和模型来构建这些东西。这就是它的作用。就像 Open Operator 非常简单一样。这是一个古老的循环。它说,例如,制定一个高级目标,将其分解成步骤,使用工具调用来完成这些步骤。
它拍摄屏幕截图并将这些屏幕截图与步骤一起馈送到 LLM 中,以生成正确的操作。它在后台使用 Stagehand 来实际执行此操作。它不使用计算机使用模型。它有一个不错的界面,使用我们讨论过的 iframe 实时视图将其嵌入到应用程序中。因此,我觉得人们在发布当天想要弄清楚如何构建他们自己的版本。我们非常快速地解决了这个问题以向他们展示。我希望我们也能对其他事情(如深度研究)这样做。我们还没有深度研究发布。我认为 AOMNI 的 David 实际上有一个很棒的开放式深度研究平台。
他推出的 GitHub 星星数量约为 10,000 个。所以他正在粉碎它。但我认为,如果人们想将这些功能本地集成到他们的应用程序中,他们需要良好的参考项目。我认为 OpenOperator 就是一个很好的例子。我不知道。实际上,我对 API 驱动的 Operator 非常看好。
因为这是唯一一种方法,你可以这样,一旦它足够可靠,很明显,现在我们还差得很远,但如果再过五年。它会发生的,你知道的,然后你可以启动它,浏览器在后台工作,你不需要知道。它只是为你预订餐馆,等等。
我绝对能看到未来的发展。我在这里的登录页面上写了这个。这可能有点乱序,但你有三个基于浏览器的用例。开放式操作器,或者只是操作器用例,有点像工作流程自动化用例,在 RPA 类别中是一个全面的 UI 路径。你同意吗?是的,我同意。然后是我们已经讨论过的代理,以及网络抓取,我想象现在这将是你工作量的大部分,对吧?
不,根本不是。我会说实际上大部分是浏览器自动化。对于网络抓取来说,我们有点贵。我认为,如果你正在构建一个网络抓取产品,如果你需要进行偶尔的网络抓取,或者你必须进行每次都能工作的网络抓取,那么你就会想要使用基于浏览器的工具。但是,如果你正在构建网络抓取工作流程,那么你应该这样做
你应该做的第一件事是对网站进行 curl 请求。看看你是否可以在不使用浏览器的情况下获取它。然后第二个请求可能是一个特定于抓取的 API。有大约一千个你可以用来尝试获取数据的抓取 API。Scraping B 就是一个很好的例子,对吧?是的。然后,如果这两个都不起作用,
拿出重磅武器。基于浏览器的工具将 100% 起作用,对吧?它将在真实的浏览器中加载页面,并对其进行水化处理。我明白了。因为很多人不渲染到 JS。是的。好的,很酷。我只是想大致了解一下。是的,完全正确。所以,我的意思是,三个主要的用例,对吧?比如,你知道的,自动化、网络数据收集,
然后,你知道的,如果你正在构建任何需要浏览器工具的代理程序,你就会想要使用 BrowserBase。有没有什么你非常惊讶的用例,人们甚至可能想不到?或者是你能分享的任何东西?长尾很疯狂。我认为我们网站上最有趣的案例研究是这家名为 Benny 的公司。它的工作方式是,如果你在美国领取食品券,你实际上可以获得在线回扣。
如果你购买某些东西,也许是买一些蔬菜,你向政府提交收据,他们会给你一点回扣。说,嘿,谢谢你买蔬菜。这对你有好处。提交收据的过程非常痛苦。Benny 的工作方式是,你使用他们的应用程序拍摄收据照片,然后 Benny 会为你提交收据,然后将钱存入你的账户。
这实际上根本没有使用任何 AI。它都是硬编码的脚本。他们维护脚本。他们做得很好,他们构建了这个令人惊叹的消费者应用程序。但这只是一个例子,说明人们为了日常工作而必须完成的所有这些繁琐的工作流程。我以前从未听说过食品券回扣或必须填写的复杂表格。但这个世界是由数百万个繁琐的表格、签证等驱动的,你知道的,灯塔是一个客户,对吧?你知道的,他们办理 O1 签证。
数百万个表格正在占用人们的时间。我希望 BrowserBase 能够帮助为软件提供动力,从而使我们不再需要的网络表格自动化。是的,我的意思是,我非常……
支持这一点和表格。我认为政府本身应该更多地采用 AI 来进行更人性化的表格填写,但我并不乐观。我没有屏住呼吸。是的。我们会看到的。好的。我想我快要缩小范围了。我有一些关于计算机使用情况的简短内容,然后我们可以讨论创始人方面的事情,那就是我倾向于将开发人员工具市场视为不可能的三角形,其中,你知道的,
每个人都从一个利基市场开始,然后他们开始分支。所以我已经暗示了这一点,对吧?我们提到了 Morph、ETB、Firecrawl,然后是 BrowserBase。所以,就像……
所有这些东西都像拥有无服务器虚拟计算机一样,你可以将其提供给代理,并让他们使用它。并且有很多方法可以将其连接到互联网。你可以只连接到搜索 API,如 SERP API,或者其他任何 API,EXA 是另一个。这就是你搜索的内容。你还可以拥有一个 JSON markdown 提取器,也就是 Firecrawl。
或者你可以拥有一个虚拟浏览器,如 Browserbase,或者你可以拥有一个虚拟机,如 Morph。然后可能还会有一个虚拟的代码环境,如 Code Interpreter。所以,就像有很多不同的方法来解决向代理提供计算机的问题。
我只是想知道你是否看到每个人都快乐地存在于各自的利基市场中。作为一个开发者,我只是去挑选一个每个都包含的购物篮。或者你认为最终人们会发生冲突?我认为……
这不是一个零和博弈市场。我认为我们谈论的是人们在线可以自动化的所有知识工作。所有这些在线发生的数万亿小时的工作。我认为有如此多的软件需要构建,以至于我不倾向于考虑这些公司将如何发生冲突。我只是尽我所能解决这个问题,并使我认为这是一种重要的基元,尽可能地完善这个特定的基础设施部分。是的,我认为有一些参与者实际上会喜欢它。我认为有一些参与者会推出像顶级平台一样的代理平台,这些平台内置了所有这些工具,对吧?就像谁在为代理工具构建 Ripple,它拥有搜索工具、浏览器工具、操作系统工具,对吧?有一些,对吧?我认为最终,在我作为开发人员的时间里,我所看到的一切,以及我所查看的所有喜欢的工具,就是对于具有足够复杂程度的工具和基元,你需要一个真正适合该基元的解决方案,你知道的?我充分相信浏览器足够复杂,值得拥有一个基元。很明显,我必须这样做。我是 BrowserBase 的创始人,对吧?我在谈论我的书。
但我认为我可以给你一个关于仅仅运行整个操作系统的辛辣看法。我认为,当我第一次看到计算机使用时,我看到计算机使用的大多数用例都是控制浏览器。
我们真的需要运行整个操作系统来控制浏览器吗?我不认为这是必要的。如果你正在运行一个带有 GUI 的成熟操作系统,那么 BrowserBase 可以以更低的成本运行浏览器。我认为这只是浏览器的优势。它就像浏览器是小操作系统一样,如果你很好地协调它们,你可以非常有效地运行它们。我认为这使我们能够……
以运行完整操作系统的 10% 的成本提供平台所需 90% 的功能。是的,我绝对能理解其中的逻辑。有一个马克·安德烈森的引言,我不知道你是否知道这个,他基本上观察到浏览器正在将操作系统变成一组调试不良的设备驱动程序。
因为大多数应用程序都从操作系统转移到了浏览器。操作系统也有其位置。我认为有一些应用程序只能在 Windows 操作系统上运行。而 pig.dev 的 Eric 在即将到来的 YC 批次或上一个 YC 批次中,他正在构建所有运行大量的 Windows 操作系统,以便你可以使用你的代理来控制它们。还有一些遗留的 EHR 系统只能在 Internet Explorer 和 Windows 上运行。而 BrowserBase 并没有探索。是的,我认为就是这样。
我认为对于特定操作系统和特定遗留软件来说,有一些用例,我很高兴看到他用它做什么。我只是想向 pig.dev 网站致敬。当你点击它们时,猪会跳起来。是的。太棒了。Eric,他也是 banana.dev 的前联合创始人。哦,那个 Eric。是的,那个 Eric。好的。
好的,他放弃了香蕉,选择了猪。我希望他不要再到处带着猪了。就像他到处带着香蕉一样。一个小玩具猪。是的,我喜欢这个。我们还错过了什么?我认为我们已经涵盖了很多关于基于浏览器的产品历史的内容,但是……你希望人们问你什么?是的。
我希望人们多问我一些关于软件的未来会是什么样的问题。因为我认为这正是我花了很多时间思考为什么选择基于浏览器的原因。对我来说,创办公司就像是一种不得已而为之的手段。除非你绝对必须这样做,否则你不应该创办公司。我相信软件的未来是你点击一个按钮,它就会代表你做一些事情的软件。现在,软件,你点击一个按钮,它可能会像调用一个 API 并计算一些数字一样。它修改了一些文本,等等。
但软件的未来是软件使用软件。因此,我可能会登录我的业务的会计网站,点击一个按钮,它会加载我的 Gmail,搜索我的电子邮件,找到它,上传收据,然后为我进行注释,对吧?它可能会使用 API,也可能使用浏览器。我不知道。我认为两者兼而有之。
但这与我们迄今为止构建软件的方式完全不同。而软件的未来具有不同的基础设施要求。它将需要不同的 UI。它将需要不同的基础设施组件。我认为浏览器基础设施是其中一个适合的组件。
以及你提到的所有其他类别。因此,我认为这将要求开发人员以不同的方式思考他们为应用程序级别构建软件的方式。我很高兴探索这其中的更多含义。我认为从迄今为止使用 Browsery 的客户那里,我们已经看到了一些真正创新的方法来获取软件并真正重新构想它,以便为 AI 构建具有聊天界面的东西,构建具有人工循环流程的东西,构建更异步的东西,因为 AI 更慢。并且
这些模式仍在出现,我认为我们还没有掌握所有最佳实践。我对这一点没有太多反馈。就像这是真的。保罗是对的。保罗是对的。由 Swix 引用。是的。太棒了。我正在为它制作框架。它不够具体,所以不会出错。这意味着保罗对我来说仍然是对的。我不知道我是否听错了。
我总是试图提示人们做出可证伪的预测,因为你可以预测事情会普遍好转,但如何做到呢?就像,这些是你需要在其中投入一些精力的事情……是的。我的意思是,我可以预测 Brassways 将有一天成为一家价值数十亿美元的公司。
所以让我们五年后再来看看。你知道的,如果我在 Coinbase 担任 PM,那么肯定出了问题。哦,天哪。是的。是的。我们挑选了你关于创始人的一些推文。是的。我认为你是一个非常公开建设的人。是的。我努力做到这一点。我认为我想强调的主要一点是,你在介绍的开头就强调了这一点,那就是你是一个独立创始人。我认为山谷中普遍存在着更多独立创始人的趋势,但第一次听到这一点的人却不知道。他们会说,
你是什么意思?YC 强迫我找一个联合创始人。这是什么?所以我以前听你谈论过这个,但也许你想为那些没有听说过它的人重述一下你的说法。是的。是的。我的意思是,我在我之前的公司有过联合创始人。我爱我的联合创始人。他们是结婚对象。我认为,如果你想让公司发展得非常快,那么拥有联合创始人最困难的部分之一就是,你必须进行联合创始人对齐,然后进行公司对齐。
然后团队中的一些人可能会将事情告诉一个联合创始人,因为他们有一个最喜欢的。然后,联合创始人必须代表他们的利益。Matt Brasway 是一个仁慈的独裁者。你知道的,如果我想做出改变,我会与团队一起工作,我们一起决定。我们行动迅速。我们在联合创始人层面没有额外的认可层。坦率地说,我认为尤其是在
尤其是在 DevTools 公司中,如果你能够谈论你的产品并与客户交谈,并且你可以构建产品,那么你就不需要一个业务人员或业务方面的人。你知道的,我首先是一个开发者。我由两个销售人员抚养长大,所以我猜这就是为什么我能与客户交谈的原因。但从根本上说,我喜欢……他们从事半导体和制药销售。我的父母。哦,非常不同。是的,非常不同。但也很企业化。很好。是的,是的,是的。我的意思是,像……
它以某种方式影响了我。我小时候只是想玩 WoW,他们让我去参加体育运动。所以我不知道它是怎么变成这样的,但这确实都回到了这一点,作为一个独立创始人,你需要愿意走出去,你知道的,谈论你的产品,与客户交谈,说服人们为你工作,但也要……
拥有关于你如何构建这家公司以及你想构建什么产品的核心原则。值得庆幸的是,如果你能够做到这一切,你就可以成为一个独立创始人。你只需要快速招聘并组建合适的团队。我很幸运拥有我们现在的团队,他们围绕着我,并提升着整个公司。
所以,有点像决策,然后是公司的文化。很明显,作为一个独立创始人,你对每个人都有很大的影响力。苹果公司也许是一个典型的例子,你知道的,你有乔布斯和沃兹尼亚克。没有像,你可以有两个联合创始人,他们各自都很有影响力。顺便说一句,还有一个联合创始人。谁是第三个联合创始人?我不知道。他很早就卖掉了他的股份。没有人谈论他,但他就像,他总是有点后悔。是的。
但无论如何,是的。你如何考虑构建文化?你知道的,很明显,初创公司非常紧张,但你也会一直让自己筋疲力尽。独自一人这样做有什么见解吗?是的。我的意思是,就像我谈到的那样,作为一个独立创始人,我更容易做出决定。真正的秘诀是拥有一个你给予很多代理权和所有权的优秀团队。很多人……
做出构成 Browsbase 成功的每一件事的细微决定。例如,网站,我对此有一些参与,但其中很大一部分是团队,对吧?然后是产品。我认为团队确实拥有许多这些日常决策的所有权,这些决策加起来构成了一个具有凝聚力的产品体验。从文化上讲,我们完全是当面进行的。也许这是我们所做的一个疯狂的举动,但我们也不是太当面进行。比如我们的第一次会议是上午 10 点,
人们大约在 5 点或 6 点离开。我们周一到周五当面工作。这就是预期,对吧?我认为人们在当面工作方面做得太过火了,他们一周 7 天都在办公室,上午 9 点到晚上 9 点。太多了。只是一个轶事。我刚参观了一个办公室。我现在暂时不透露他们的名字。但对我来说,我们是 996。
是的。对于那些不知道的人来说,996 是上午 9 点到晚上 9 点,一周 6 天。我认为我们做得太过火了。对于一些团队来说,我知道另一家匿名公司也做类似于 996 的事情,他们现在正在取得巨大的成功。对。所以,就像它确实会产生结果。但我认为对于我们的文化来说,我们当面聚集在一起,我们每天都穿上裤子去办公室,这样我们就可以一起工作。对。
或者短裤,我猜,对吧?然后我们都知道我们会在办公室外工作。我们有时会在家里工作。我们可能会在周末来。周末是用于有趣的工作的。这正是我们让员工从事不在路线图上的工作的地方。这使他们能够构建一些东西,并在周一将其带回团队,并说,看我构建了什么。这很酷。从文化上讲,我们有很多前 YCCTO 和前创始人或未来的创始人。是的。
我发现这些人往往是公司非常优秀的早期员工。他们明白了。我认为对于他们来说,特别是那些前 XYZ 的人,那些可能没有找到 PMF 的人,来到一家拥有 PMF 的公司,对他们来说是一件非常令人耳目一新的事情,因为他们可以进来执行一切。
而且我们有很多明确的事情需要去构建。如果你是一位有才华的工程师,能够每天都去构建并产生影响,这是一种非常令人满足的事情。另一方面,我的问题是,你也在谈论很多招聘,尤其是在你谈论的播客中。
为什么没有基于浏览器的招聘代理?这是一个好问题。我认为这是因为我不做太多外联。我确实会给人们发消息,但现在很多都是通过推荐进行的。这是非常有针对性的。如果我看到有人正在从事非常酷的事情,我会直接给他们发消息。好的。
我不想要一些在网上搜索并向每个 Kubernetes firecracker 专家发送消息的东西。我尝试在我的被动网络浏览中寻找他们。当我找到某个人时,我只是想亲自花时间说,嘿,我喜欢你正在做的事情。我认为这真的很酷。让我们来谈谈。是的,来自 Hacker News 和其他东西。是的。
喜欢从 Hacker News 招聘。是的。让你在最后宣传一下。我的尝试失败了,那就是我真的很讨厌 LinkedIn Sales Navigator。我认为它只是在利用人们为 LinkedIn 进行数据输入。我希望 BrowserBase 总有一天能够帮助消灭 LinkedIn Sales Navigator。这是我的……
我不知道我们是否会直接这样做,但我们的一个客户肯定正在尝试这样做。所以我认为有一些公司正在这样做。这些 AISDR 公司正在取得巨大的成功。是的。996 公司是一家 AISDR 公司。就是这样。是的,非常经典。这太棒了。我们错过了什么?你也有错误的俱乐部。你在公司文化和社区文化中都混合了哪些其他东西?我知道你经常让人们聚在一起。是的,我认为我们试图公开构建,并且像,
就像你可以在 Twitter 上看到很多 browse space 的人一样。每周一我们都有一个跑步俱乐部。人们一起跑步。我们跑得并不快,但这是一种一起度过时光的好方法。我只是怀念在我第一家公司当面工作的时间。我们有像这样的人,他们就像职业生涯的早期阶段一样。在职场上工作了 20 年、30 年的人。所以这不仅仅是一家年轻人公司。就像这是一个巨大的组合。
但是,当你让人们做出两极分化的决定时,比如,我每周五天都会来办公室,人们最终会做出更多与文化相符的决定。所以这几乎就像,如果你能让你的文化变成二进制的,或者你参与其中,或者你退出,那么同化和保持凝聚力的文化就会更容易。我认为这从对我们来说是一个办公室开始,但对于其他人来说,这可能是像……
搬家或使用 Discord 而不是 Slack,或者其他类似的二进制决策,人们可能必须做出这些决定。我喜欢问创始人的一件事是,你知道的,你很有名地不是一家 AI 公司,或者,你知道的,你为 AI 公司服务,但你自己并不是一个消费 LLM 的公司。但如果你真的是的话,你会创办什么公司?什么像,什么像一个明显的好主意。是的。我很久以前发过这样一条推文,内容是,有很多钱可以赚,方法是获取专有研究,然后将其转化为……
和自动化,这显然是一个非常像基于浏览器的启发式方法,比如收听小城镇的所有市政厅或市政厅会议,然后知道他们什么时候会批准新的沃尔玛,然后在沃尔玛周围买地,因为当他们安装这个东西时,地价会上涨,所以考虑一下如何找到新的数据渠道,这将使你能够做出高阿尔法决策,并从经济上获益,我认为这方面有一些有趣的东西,比如
只是现实生活中发生的许多对话都被记录下来,在线上,你可以使用网络浏览器找到它们,当然。然后根据这些做出一些有趣的决定。所以,我不知道。就像我喜欢浏览器的东西一样。就像它符合品牌一样,对吧?就像我必须……
至少我是一致的。不要通过原生应用程序在手机上查看它。只通过浏览器查看它。我最喜欢他的一个视频片段是,他们在演示时,身后有这些人拿着蜜蜂。所以这就像一个真正的彩蛋类型的事情。那是 stagehand,对吧?是的,stagehand 视频。他们并没有拿着它。他们实际上是在头上戴着这些蜜蜂箱。我们拍摄了五次,可怜的 Sean 和 Samil 带着这些蜜蜂箱来回晃动他们的头,因为我们买不起特效,伙计。这是非常严肃的。
好的细节。好的努力细节。是的。非常感谢。祝贺你取得的所有成功。感谢你们的邀请,伙计们。这是一段非常美好的时光。是的。我相信我们会再次邀请你。是的。我很乐意再来。