快乐周末,各位。继我们的 DeepSeek V3 播客之后,本周 DeepSeek R1 的发布震惊了人工智能界,论文和模型质量都令人惊艳。我们在 YouTube 上发布了与 Bespoke Labs 团队关于使用 DeepSeek R 的简短访谈。
然而,今天我们要谈论的是另一组值得关注的、从对冲基金交易员转型为人工智能领域的团队,他们组建了一个规模虽小但技术精湛的团队,打造了一家利润丰厚的消费级人工智能公司——Chai Research。在某种程度上,他们是 DeepSeek 的西方同行。在过去三年里,他们在 Noam Shazeer 创建 Character AI 之前就创建了一家聊天 AI 公司,并在 Shazeer 离开后依然存续。
在两年半的时间里,日活跃用户数突破了 100 万。William 首次与我们分享,他们目前的日活跃用户数已达到 140 万,比几个月前增加了 40%,而收入则从 1000 万美元增长到超过 2200 万美元。所有这一切都建立在他们的 ChaiVerse 模型众包平台之上。
该平台将三到四周的 A/B 测试周期缩短到三到四个小时,每周部署 100 个模型。William 邀请我们前往他们在帕洛阿尔托的办公室,我们很高兴现在能与大家分享音频和视频对话。
其他新闻,纽约市第二届人工智能工程师峰会(2 月 20 日至 22 日)的邀请函现已发出。我们将从世博会中带来令人惊喜的成功的人工智能领导力主题,而人工智能工程主题现在完全专注于工作中的智能体。
如果您在 2025 年正在构建智能体,那么这是今年最好的会议。我们正在审核所有与会者,并在下周公布来自 DeepMind、Anthropic、OpenAI、Meta、Jane Street、Bloomberg、BlackRock、LinkedIn 等公司的演讲嘉宾后,门票将售罄。更多赞助商和与会者信息,请访问 apply.ai.engineer,期待在那里与您见面。请注意安全,照顾好自己。
大家好,欢迎收听 Latent Space 播客。我是 Alessio,Decibel 的合伙人和首席技术官,今天我们来到 Chai AI 的办公室,和我一起的还有我的常驻联合主持人 Swix。嘿,感谢你们的邀请。我们很少有机会离开办公室,所以感谢你们邀请我们来你们家。我们现在在 Chai 的办公室,和 William Beauchamp 在一起。是的,没错。你是 Chai AI 的创始人,但在此之前,我认为你还在同时运营你的基金?是的,我......
我同时还在运营一家算法交易公司。是的。但我幸运地能够退出,我认为是在去年第三季度。是的,恭喜。是的,谢谢。Chai 一直在我的关注范围内,首先,我认为你们在湾区做了很多广告,所以效果不错。是的。其次,我联系共同朋友 Joyce 的原因是,我
是因为我对消费级人工智能领域、聊天平台普遍感兴趣。我认为我们可以从中获得很多推理方面的见解,以及人类心理学方面的见解,这两种见解的结合有点奇怪。我们也有着从金融领域转型的共同经历。我想我们可以从 Chai 的起源故事开始。为什么选择......
开发消费级 AI 平台而不是 B2B SaaS?简单谈谈金融背景。我最初来自英国,出生在伦敦,我很幸运能去剑桥大学学习经济学。
我于 2012 年毕业。当时,英国的每个人,我课程上的每个人,高频交易、量化交易都是非常热门的事情。就像一股浪潮席卷而来。所以这个领域有很多机会。
在大学期间,我打过扑克。所以,你知道,我尝试过成为职业扑克玩家。我通过打扑克积累了大约 10 万美元。
当时,我的朋友们去 Chainstreet 或 Citadel 等公司工作,我做了一些计算。我只是认为,如果我自己交易资金,我可能会做得更好。我赚的钱会比去 Chainstreet 工作多。用 10 万美元作为本金?是的,是的。这不算多。好吧,这取决于你采取的策略。而且,你知道,规模小也有优势,对吧?
因为如果你有 10......一些策略在规模大时行不通。没错,没错。所以,如果你有一个 1000 万美元的基金,如果你发现市场上存在一个小小的异常情况,你每年可以从中赚取 10 万美元,那么这相当于你 1000 万美元基金的 1% 回报。如果你的基金是 10 万美元,那就是 100% 的回报。
对。所以,从某种意义上说,规模小是一个优势。所以,我开始学习 Python,机器学习也成为热门领域。机器学习真正成为主流是在它首次用于图像识别的时候,神经网络出现,然后是 dropout 技术。
所以,这是当时正在发生的大事。所以我毕业后的前三年可能都花在了构建神经网络、构建随机森林来预测资产价格上,对吧?然后用我自己的钱进行交易。结果还不错。
而且,你知道,如果你开始做某件事,并且进展顺利,你就会尝试雇佣更多的人。首先想到的是那些有才华的大学同学。所以我雇了一些朋友,结果很好,然后又雇了一些。最终,我找不到更多朋友来雇佣了。所以,那时我才成立了公司。从那时起,我们经历了起起伏伏。这本身就是一个漫长而曲折的故事。
但在做了八九年之后,在我 30 岁生日那天,也就是四年前,我退后一步重新评估我的生活,对吧?这是人到 30 岁时会做的事情。
我听说了。我明白你的意思。而且,你知道,我回顾了我的 20 多岁,我很喜欢那段时光。我很幸运,能与这个优秀的团队一起工作,取得成功,也经历了很多艰难的时刻,在艰难的时刻中学习到了智慧,然后取得了很多成功,而且,你知道,能够享受成功。所以,公司每年大约能赚 500 万英镑。只有我和一个大约 15 人的团队,都是牛津和剑桥受过教育的数学家和物理学家。如果你想创办一家量化交易公司,这就像你梦寐以求的场景。就像......都是你自己的钱?是的,没错。都是团队自己的......
钱,我们没有客户抱怨问题。没有投资者说,你知道,他们不喜欢我们承担的风险。我们可以。我们可以真正按照自己的意愿来运营公司。就像 Susquehanna 或 Rintec 一样。是的,没错。是的,而且,它们是我们创建公司时会参考的公司。但在我 30 岁生日那天,我回顾过去,说,好吧,太好了,这个公司赚的钱已经足够任何人了,然后我想,如果我们继续沿着这个方向走下去会发生什么?很明显,我们永远不会对世界产生巨大的影响。我们可以让自己富有。我们可以赚很多钱。团队中的每个人都会得到很好的报酬。我想我可以赚到足够的钱去买游艇什么的。但是这些东西对我来说并不重要。所以我感到一种责任感,如果你拥有如此多的天赋,如果你有一个有天赋的团队,尤其作为创始人,你应该将所有这些天赋用于有益的事情。我当时考虑过进入加密货币领域,我对加密货币有非常强烈的看法,那就是就赌博工具而言,这是有史以来最有趣的赌博形式,非常有趣。
我认为这是一种规避货币监管和银行限制的好方法。我认为它也绝对令人惊叹。所以它有两个杀手级用例,不是那么多银行业务,而是其他所有事情,而是与区块链和网络相关的所有事情,是 Web 3.0 还是 Web,你知道,这对我来说没有多大意义。所以......
我没有进入加密货币领域,因为我认为即使我成功了,我也会遇到很多麻烦。我认为也许最好是创造一些政府不会反对的东西。
我知道大型语言模型(LLM)是一件大事。我认为公开地,他们还没有发布 GPT-3,但他们说过 GPT-3 非常强大,我们无法将其发布到世界上。是 GPT-2 吗?然后我开始与之互动,我认为谷歌开源了一些语言模型。它们不一定是大型语言模型,但它们是。是的,没错。所以我能够使用 BERT 进行试验。
现在,很多人已经与 ChatGPT 互动过。他们明白了,但这就像你第一次可以与电脑对话,它会回应你一样。这是一个特殊的时刻。而且,你知道,每个做过这件事的人都说,哇,这就是它应该有的样子,对吧?它应该是这样的,而不是在谷歌上搜索,你应该能够直接向谷歌提问。好吧,
当我看到这一点时,我阅读了相关文献。我了解了规模定律。我认为即使在四年前,所有拼图碎片都在那里,对吧?谷歌做了这项惊人的研究并发表了很多成果。OpenAI 仍然是开放的。所以他们发表了很多研究成果。所以你真的可以充分了解人工智能的现状及其发展方向。所以在那一刻,我足够自信,值得一试。
我认为大型语言模型将是下一件大事。所以这就是我想在这个领域构建的东西。
我想,我能构建的最有影响力的产品是什么?我认为它应该是一个平台。我自己喜欢平台。我认为它们很棒,因为它们可以创建一个生态系统,任何人都可以为其做出贡献。对。所以,如果你认为 YouTube 是一个平台,而不是好莱坞那种情况,如果你想制作电视剧,你必须说服迪士尼给你钱来制作它。相反,
相反,世界上任何人都可以发布任何他们想发布到 YouTube 上的内容。如果人们想观看它,算法就会推广它。现在,你可以看看 Mr. Beast 或 Joe Rogan 等创作者。如果没有这个平台,他们永远不会有这样的机会。像 Twitter 这样的其他平台也很棒,对吧?但我认为维基百科是一个平台,而不是大英百科全书,它就像一个整体
你把所有研究人员聚集在一起,把所有数据聚集在一起,然后将它们组合成一个整体的来源。相反,你拥有这个分布式的东西。你可以说任何人都可以在维基百科上发布他们的内容,任何人都可以为其做出贡献,也许他们的贡献是删除一些东西。
当我听到 Sam Altman 和马斯克对人工智能的观点时,这是一种非常整体化的东西。这完全是关于人工智能基本上是一件事,那就是智能。
数据越多,就越智能,计算能力越强,就越智能,人工智能研究人员越多越好,就越智能,对吧?他们会把它描述成一场竞赛,看看谁能获得最多的数据、最多的计算能力和最多的人工智能研究人员。这将最终导致最智能的人工智能。但我并不相信这些。我认为这就像完全,就像我认为这种观点是......
是从未真正做过机器学习的人的观点。因为对于机器学习,首先,你会看到模型的性能遵循 S 曲线。所以它不像只是无限增长,对吧?而 S 曲线,它在人类水平的性能附近趋于平稳。你可以看看 2010 年代进行的所有机器学习,所有东西都在人类水平的性能附近趋于平稳。我们可以考虑一下自动驾驶汽车的承诺,
你知道埃隆·马斯克一直说自动驾驶汽车明年就会出现,明年就会出现。或者你可以看看图像识别、语音识别。你可以看看所有这些东西。
除了像 AlphaGo 这样的东西之外,几乎没有什么东西能够超越人类。我们可以讨论为什么 AlphaGo 能够超越人类。所以我认为最可能的情况是这样的。我认为这不会是一个像大英百科全书那样的整体化事物。我认为它一定是一个分布式事物。我实际上喜欢观察金融世界,看看我认为成熟的机器学习生态系统会是什么样子。
所以金融是一个机器学习生态系统,因为所有这些量化交易公司都在运行机器学习算法,但它们是在像市场这样的中心化平台上运行的。并非只有一家拥有所有数据、所有量化研究人员、所有算法和计算能力的巨型量化交易公司。
而是它们都专注于不同的领域。所以一个会专注于高频交易,另一个会专注于中频交易,另一个会专注于股票。另一个会专注于......我认为这就是世界运行的方式。就是这样。所以一定存在一个平台,小型团队可以在其中为特定目的创建人工智能。他们可以迭代并为其构建最好的东西,对吧?
所以这就是 Chai 的愿景。所以我们想为大型语言模型构建一个平台。这就是导致你创建公司的内部与反向观点。那么最初的想法是什么呢?因为如果你仔细想想,如果有人告诉你这就是 Hugging Face 的创立故事,人们可能会相信。这有点像背后相似的精神。你今天是如何确定产品功能的?也许你最初考虑过哪些想法后来被放弃了?
我们构建的第一件事,从根本上说是一个 API。所以现在人们会把它描述成智能体,对吧?但任何人都可以编写 Python 脚本,他们可以将其提交到 Chai 后端,然后我们将托管此代码并执行它。这就是平台的开发者端。
在他们的 Python 脚本中,接口本质上是文本输入和文本输出。一个例子是我创建的第一个机器人。我认为它是一个 Reddit 新闻机器人。所以它首先会提取热门新闻。然后它会提示任何内容,就像我刚使用 Burr 或 GPT-2 等外部 API 一样,它是一个非常非常小的东西。
然后用户可以与之交谈。所以你可以对机器人说,你好,机器人,今天的新闻是什么?它会说,这是头条新闻,你可以与它聊天。四年后,这就像困惑度或类似的东西。这就是,对吧?但在那时,模型首先非常非常愚蠢。你知道,他们的智商就像一个四岁孩子。而且用户,对于与新闻互动并没有任何需求或产品市场契合度,对吧?
所以我当时想,好吧,很明显这没有产品市场契合度。所以让我们再做一个。我做了一个机器人,你可以用它来谈论食谱。所以你可以说,我正在做鸡蛋。我的冰箱里有鸡蛋。我应该做什么?它会说,你应该做煎蛋卷,对吧?这没有产品市场契合度。没有人使用它。所以我一直在创建机器人。所以每天下班后,我都会想,好吧,我们有 AI。我们有这个平台。我可以创建任何文本输入、文本输出类型的智能体并将其放在平台上。
所以我们一直在创建东西。然后我认识的所有程序员,我都会对他们说,看,这是一个平台。你可以创建任何聊天 AI。你应该把它放在上面。而且,你知道,每个人都说,聊天机器人太烂了。我们绝对不想碰你的聊天机器人应用程序。没有一个懂 Python 的人想在这个平台上构建东西。我一直在尝试构建这些机器人,但没有消费者想与它们交谈。然后我的妹妹,当时她正在大学毕业,我对她说,我说,如果你想学习 Python,你应该为我的平台提交一个机器人。她创建了一个治疗师机器人。
然后第二天我检查了应用程序的性能。我当时想,哦,我的上帝,我们有 20 个活跃用户。他们平均在应用程序上花费了 20 分钟。我当时想,哦,我的上帝,他们平均花了 20 分钟与哪个机器人交谈?我查看了一下,是治疗师机器人。我当时想,哦,这就是产品市场契合度所在。对食谱帮助没有需求。对新闻没有需求。对爸爸笑话、酒吧测验或有趣的事实没有需求。他们想要的是治疗师机器人。
当时,我反思了一下,我想,好吧,如果我想获取新闻,最有趣的方式是像 Twitter 一样。并不是说来回互动有什么价值,对吧?我认为如果我需要食谱方面的帮助,我实际上会去《纽约时报》查看食谱部分,对吧?这实际上并不难。所以我只是认为 AI 擅长的是
一种对话,对吧?这并不是本质上的信息,而是更多关于机会。你可以说任何你想说的话。你不会受到评判。如果现在是凌晨 3 点,你不需要等待你的朋友回复短信。就像,这是即时的。他们会立即回复。你可以说任何你想说的话。这是没有评判的。它更像是一个游乐场。它
你可以看到,如果 AI 赞美一个人,他们会喜欢它。让 AI 赞美你比让人赞美你容易得多。从那天起,我说,好吧,我明白了。人们想与人类或类人实体交谈,他们想玩得开心。那时我开始减少对谷歌等平台的关注,开始更多地关注 Instagram 等平台。我试图思考人们为什么使用 Instagram?我认为 Chai 满足了同样的愿望或同样的动力。
如果你使用 Instagram,通常你想查看其他人的面孔,或者你想了解其他人的生活。所以,如果像巨石强森在欺骗日给自己做煎饼,你会有点感觉像巨石强森的朋友,或者你像和他一起吃煎饼一样,对吧?
但如果你做得太多,你会觉得自己很悲伤,像一个孤独的人。但有了 AI,你可以与它交谈,告诉它故事,让它告诉你故事。你可以随意与它玩耍。你不会觉得自己像一个悲伤、孤独的人。你会觉得自己实际上有一个朋友。那是什么?你对此有什么看法?我认为这只是人类心理学。我认为这只是这样一个想法,对于老式的社交媒体,你只是被动地消费。
所以你会一直滑动。如果我在看 TikTok,就像一直滑动、滑动、滑动。即使我正在获得观看引人入胜的视频的多巴胺,但我的脑海中还有另一件事,那就是我感觉越来越懒。一段时间后,我会想,伙计,我刚刚浪费了 40 分钟。我什么也没做。但有了 AI......
因为你在互动,你会觉得自己,这不像工作,但你会觉得自己正在参与并为这件事做出贡献。你不会觉得自己只是在消费。所以你基本上不会感到后悔。而且,你知道,我认为总的来说,人们谈论、尝试与 AI 互动的方式,他们以非常积极的方式谈论它。就像我们得到一些患有饮食障碍的人说 AI 帮助他们解决了饮食障碍。那些说自己抑郁的人,它
帮助他们度过难关。所以我认为这种互动中有一些内在的健康之处,TikTok、Instagram 和 YouTube 并没有完全做到这一点。从那时起,我们开始构建越来越多的以人为中心的人工智能,让人们与之互动。我说,好吧,让我们做一个坎耶·韦斯特机器人。对。然后没有人想与坎耶·韦斯特机器人交谈。
我当时想,哦,对于青少年来说,谁是一个很酷的人物?我当时想,我试图找到网红之类的人。但没有人关心。他们不想与......是的。相反,真正特殊的时刻是我们意识到......
开发人员和软件工程师对构建这种 AI 不感兴趣,但消费者感兴趣,对吧?与其让我每天都猜测应该向平台提交哪个机器人,为什么我们不直接为用户创建工具让他们自己构建呢?所以现在,这在世界上是最显而易见的事情,但当 Chai 最初这样做的时候,这根本不是一件显而易见的事情,对吧?所以我们采用了
一个 API,让我们说它是,我认为它是 GPT-J,这是一个 60 亿参数的开源 Transformer 风格的大型语言模型。我们使用了 GPT-J,我们允许用户创建提示,我们允许用户选择图像,我们允许用户选择名称。然后这就是机器人。通过这种方式,他们可以塑造体验,对吧?所以如果他们说这个机器人会非常刻薄,它将被称为操场上的恶霸,对吧?
那是我从未想过的一个完整类别。人们喜欢争斗。他们喜欢发生争执。然后他们会创建,会有所有这些我从未知道存在的浪漫原型。所以,当用户可以创建他们想要的内容时,Chai 能够获得这种大量多样化的内容。与其吸引我所了解的 1% 的人口,他们想要什么,我
可以吸引更多的人。所以从那一刻起,一切都非常非常清楚。就像 Chai 一样,Instagram 是一个允许人们创建和上传图像、视频的社交媒体平台。Chai 真正关注的是我们如何才能让用户知道?
在 AI 中创建这种体验,然后分享、互动和搜索。所以,你知道,我说它就像一个社交 AI 平台。Chai 这个名字从何而来?因为你和 Character AI 同时开始。聊天 AI。哦,好吧。我当时想,它是 Character AI 的缩写吗?
你们同时开始。也许他喜欢茶。不,不,不。好吧,英国的起源是第二个,Chai。我们在 Character AI 之前很久就开始了。有一个有趣的故事,Chai 的数据非常非常强劲,对吧?所以我认为在 20 年,我认为是 2022 年年末,或者可能是 2023 年年初,Chai 是应用商店中排名第一的 AI 应用。
所以我们大约有 10 万日活跃用户。然后有一天,我们发现了一个网站,我们当时想,哦,这个网站看起来就像 Chai。它是 Character AI 的网站。
我认为现在,我认为这是更普遍的知识,当他们带着资金离开谷歌时,我认为他们知道什么最流行,排名第一的应用程序。我认为他们是这样做的。你们为他们找到了产品市场契合度。我们为他们找到了产品市场契合度,没错。是的。所以我非常努力地工作了一年。然后,那时我学到了一课,那就是如果你有风投支持,并且如果你
Chai,我们已经运行了,我们已经到了这个地步,我是唯一一个投资的人。我可能在公司投资了 200 万英镑。通过这些,我们能够构建这个东西,达到例如 10 万日活跃用户。然后当 Character AI 出现时,第一个版本,我们都笑了。我们当时想,哦,我的天哪,这个东西太烂了。他们不知道自己在构建什么。
他们正在构建错误的东西。但我看到,哦,他们筹集了 1 亿美元。哦,他们又筹集了 1 亿美元。然后我们的用户开始说,哦,伙计们,你们的 AI 太烂了,因为我们当时提供的是一个 60 亿参数的模型,对吧?Character AI 能够负担得起多大参数的模型,对吧?所以我们会花费......
假设我们每位用户花费一美元,对吧?在整个生命周期内。每场会话一美元,每次聊天?不,不,不。每月?假设在一年内,我们有一百万用户,我们在人工智能上花费一百万美元。没错,没错。对吧?他们可以花一百倍的钱。所以人们会说,为什么你的AI比Character AI笨得多?
然后我想,哦,好吧,我明白了。这就是硅谷风格的超规模业务。所以,是的,我们搬到了硅谷,获得了一些资金,并迭代构建了飞轮。是的,我非常自豪能够与之竞争。所以,我认为我们能够做到这一点的原因仅仅是客户至上。我想这与DeepSeek能够制作出如此引人注目的模型类似,
与OpenAI这样的公司相比,对吧?所以DeepSeek,你知道,他们的最新V2。是的,他们声称花费了500万美元来训练它。可能更多,但是......为什么你要对此大惊小怪?是的,这里面有目的。是的。你提到了DeepSeek,所以我们必须问。你与他们有过联系吗?我们有过。我们有过。我们有过。让我想想该怎么说。
我认为,首先,他们有一个惊人的故事,对吧?所以他们的背景再次是在金融领域。他们是你的中国版本。没错。有很多相似之处。是的,是的。我非常喜欢那些创始人领导、以客户为中心并且努力构建伟大产品的公司。我认为DeepSeek取得的成就非常特别,他们拥有这个惊人的推理引擎。他们能够显著减少KV缓存的大小,对吧?
然后通过这样做,他们能够显著降低推理成本。我认为对于AI,人们非常关注基础模型或模型本身。
他们不太关注推理。举个例子,对于Chai,假设典型的用户会话是90分钟,这非常长。相比之下,假设TikTok的平均会话长度是70分钟。所以人们花了很多时间。在那段时间里,他们能够发送,比如说,150条消息。
这是很多完成,对吧?这与OpenAI的情况大相径庭,在OpenAI的情况下,人们可能会进来,他们心中会有一个特定的问题,他们会问一个问题和一些后续问题,对吧?所以因为他们正在消费,比如说,30倍于聊天的请求或对话体验,他们
你必须弄清楚如何在成本和质量之间取得正确的平衡。所以,你知道,我认为对于AI,一直以来都是这样,如果你想要更好的体验,你可以把计算能力投入到问题中,对吧?所以如果你想要一个更好的模型,你可以把它做得更大。如果你想让它更好地记住,那就给它更长的上下文。
现在,OpenAI正在大张旗鼓地做的事情是,通过拒绝采样,你可以生成许多候选者,对吧?然后通过某种奖励模型或某种评分系统,你可以选择这些候选者中最有希望的。
所以这有点像是在推理时间计算方面进行了扩展。所以对我们来说,仅仅将AI视为绝对性能是没有意义的。所以,如果你看看像MMLU分数或人们喜欢查看的任何这些基准测试,如果你只得到这个分数,它实际上并不能告诉你任何信息。
因为这实际上就像进步是通过提高每美元的性能来实现的。所以我认为DeepSeek能够表现得非常好,令人惊讶的是如此。所以我非常想知道Lama 4会是什么样子,以及他们是否能够与DeepSeek在每美元性能增益方面取得的成就相匹配。
在我们进入推理、一些更深入的内容之前,你能让人们了解一些数字吗?所以我想我上次检查的时候,你现在有140万日活跃用户。收入超过2200万美元。所以这是一个相当大的业务。是的。我认为去年我们的用户增长了三倍。收入翻了一番多。
这非常令人兴奋。我们正在与一些规模很大、资金雄厚的公司竞争。Character AI获得了这个,我认为它几乎达到了30亿美元的估值,他们有500万DAU。这是我上次听到的数字。Torquay,这是一个由Minimax公司拥有的中国制造的应用程序,这些公司资金非常雄厚。
而这些公司去年并没有增长三倍,对吧?所以当你拥有这家公司和这个团队能够继续构建一些让用户兴奋的东西,他们想告诉他们的朋友,然后他们想来,他们想坚持在这个平台上,我认为这是非常特别的。所以去年对团队来说是伟大的一年。
是的,我认为这些数字反映了我们付出的辛勤工作。然后从根本上说,AI的质量就是你所体验到的质量。你实际上发布了你的DAU增长图表,这很不寻常。我看到一些拐点。它不仅仅是一条直线。有些东西确实发生了变化。是的。哪些是主要的?酷。这是一个很棒的问题。让我想想一个好的答案。我基本上是想为这个图表添加注释,它没有注释。酷。
我想说的第一件事是,我认为了解成功最重要的事情是,成功源于失败,对吧?因为只有通过失败我们才能学习。你知道,如果你认为某个想法很好,你做了,它成功了,很好。但是你实际上什么也没学到,因为一切正如你想象的那样。
但是如果你有一个想法,你认为它会很好,你尝试了,但它失败了。现实与预期之间存在差距。这是一个学习的机会。平稳期,这是我们在学习。然后上升期,这是我们在收获成果。所以我认为2024年增长激增的主要原因是
真正影响我们增长的第一件事是我们的后端。所以我们达到了这个规模。所以从第一天起,我们就建立在谷歌的GCP之上,也就是谷歌的云平台。他们很棒。当我们只有一个日活跃用户时,我们就使用它们,它们一直运行得很好,直到我们达到大约50万。
它从来都不是最便宜的,但从工程的角度来看,伙计,这东西扩展得非常好。像Vertex?不是Vertex。像GKE,那种东西?我们使用Firebase。所以我们使用Firebase。我很确定我们是Firebase有史以来最大的用户。这很贵。是的,我们与工程师进行了交谈,他们说,
我们不建议在这个点之后使用此产品,而你已经超过了三倍。所以我们将谷歌推到了他们的绝对极限。你知道,这对我们来说很棒,因为我们可以专注于AI。我们可以专注于尽可能多地增加价值。
但是后来发生的事情是,在50万之后,只是我们使用它的方式,它就无法再扩展了。所以我们经历了一段非常痛苦的,至少三个月的时期,因为我们一直在不同的服务之间迁移,弄清楚我们想保留哪些请求在Firebase上,哪些请求想迁移到其他服务上?然后,你知道,犯错误并以艰难的方式学习。
然后大约三个月后,我们做对了。这样我们就可以在没有GCP进一步问题的情况下扩展到150万DAE。但是发生的事情是,如果你出现中断,访问你应用程序的新用户会遇到功能失调的应用程序。
然后他们就会退出。所以第二天,应用商店跟踪的关键指标将是诸如保留率、支出金额和星级(他们给你的评分)之类的指标。在应用商店。在应用商店,是的。暴政。所以如果你在娱乐领域排名第50位,你将有机地获得一定数量的用户。如果你进入并获得了糟糕的体验,它将损害你在算法中的位置。
然后可能需要很长时间才能重新获得排名,至少如果你想有机地做到这一点的话。如果你投入资金,你可以跃居榜首。我可以谈谈这个。但总的来说,如果我们看看2024年,图表中的第一个拐点是由于达到50万DAE而导致的中断。后端不想超过这个规模。所以我们只需要进行工程设计并克服它。
好的,我们克服了这一点,然后我们获得了一点增长。所以,好吧,感觉好多了。我认为接下来是,
我认为,我不会撒谎,我觉得当Character AI获得......我在想。我认为是这样。我认为,所以Character AI团队基本上被谷歌收购了。我不知道他们改变了什么业务。我不知道他们是否减少了广告支出。产品不会改变,对吧?产品就是这样。我不这么认为。是的,我认为产品就是这样。这就像维护模式。是的。我认为人们的问题,你知道,有些人可能认为这是一个显而易见的事实,但是......
经营企业可能会非常具有竞争力,对吧?因为其他企业可以看到你在做什么,他们可以模仿你。然后还有一个问题,如果你有一家公司每天花费10万美元用于广告,而另一家公司花费为零,如果你考虑市场份额,并且你正在考虑进入市场的新的用户,那么每天花费10万美元的那家公司将获得90%的这些新用户,对吧?
所以我怀疑,当Character AI的创始人离开时,他们减少了在用户获取上的支出。我认为这给了其他应用程序喘息的机会。因此,Chai能够以真正健康的方式再次开始增长。
我认为这有点像第二件事。我认为第三件事是我们真正建立了一个伟大的数据飞轮。我想说的是,AI团队在第二季度末完善了他们的飞轮。我可以详细谈谈这个,但是......
从根本上说,我的描述方式是,当你构建生活中任何东西时,你需要能够评估它。通过评估,你可以迭代。我们可以查看基准,我们可以说明基准的问题以及为什么它们可能不像人们希望的那样好地推广,以及使用它们时面临的挑战。
但是一些非常有效的方法是从人类那里获得反馈。因此,我们构建了这样一个系统,任何人都可以将模型提交到我们的开发者后端,它会被呈现在5000名用户面前,用户可以对其进行评分。然后我们可以对哪些模型或用户发现更具吸引力或更具娱乐性进行非常准确的排名。
现在已经到了每天都能做到这一点的地步,我的意思是,我们每天都会评估20到50个模型,LLM。所以即使我们只有一个由,比如说,五个AI研究人员组成的团队,他们也能够迭代大量的LLM。所以我们的团队发布,让我们说,每周至少100个LLM是我们能够迭代的。
现在,在那之前,我们可能每周迭代三个。你知道,曾经有一段时间,即使每月做五个也是一个挑战,对吧?通过能够改变反馈循环,使其不再是,让我们发布这三个模型,让我们做一个A/B测试,让我们分配,让我们做不同的队列,让我们等待30天看看第30天的保留率是多少,这是一种,如果你正在做一个应用程序,这就像A/B测试101一样,做一个30天的保留率测试,将不同的处理分配给不同的队列,然后在30天后回来。
这太慢了。这太慢了。因此,我们能够将30天的反馈循环缩短到大约三个小时。当我们这样做的时候,我们能够真正地完善诸如DPO、微调、提示工程、混合、拒绝采样、训练奖励模型之类的技术,对吧?非常成功,就像砰砰砰砰砰一样。所以我认为在第三季度和第四季度,我们得到了......
我们获得的AI改进数量令人震惊。我当时想,这里还有什么更多的优势?但是团队可以继续前进。
那是拐点的第三个原因。还有第四个?关于第三个重要的事情是,如果你访问我们的Reddit或与AI用户交谈,就会有一个明确的日期。大约在10月份左右。用户们改变了主意。在10月份之前,用户们会说Character AI比你好得多。
然后从10月份开始,他们会说,哇,你们比Character AI更好。这是一个非常明确的积极信号,表明我们已经做到了。我认为人们,你不能欺骗消费者。你不能欺骗他们。你不能胡说八道。他们知道,对吧?如果你要在平台上花费90分钟......
对于应用程序来说,切换的障碍非常低。就像你可以试用Character AI一天。如果你厌倦了,你可以尝试Chai。如果你厌倦了Chai,你可以回到Character。所以用户,忠诚度并不高,对吧?
让用户留在应用程序中的是体验。如果你提供更好的体验,他们就会留下来,他们可以分辨出来。所以第四个原因是我们很幸运地获得了这次招聘。他们招聘了一位非常有才华的工程师。然后他们说,哦,在我上一家公司,我们有一个增长主管。他真的非常好。他是字节跳动两年的增长主管。你想和他谈谈吗?
我说,是的,是的。你知道吗?是的,我认为我会的。所以我和他谈了谈,他让我对他的用户获取知识印象深刻。你知道,这就像一种3D象棋游戏。你知道,就像我对AI的了解一样。像字节跳动,就像TikTok美国。是的。字节跳动是其他东西。是的。他正在面试我们,就像我们正在面试他一样,对吧?他有各种选择。是的,没错。所以他一直在查看我们的指标,他说,
我看到他很兴奋地说,伙计们,你们有100万日活跃用户,而且你们没有做任何广告。我说,没错。他说,这闻所未闻。他说,我从未听说过有人这样做。
然后他开始查看我们的指标,他说,如果你有机地获得了所有这些,如果你开始花钱,这将非常令人兴奋。我说,让我们试试吧。所以他来了,我们刚刚开始加大用户获取力度。所以这看起来像是支出,你知道,让我们说我们开始每天花费1万美元。这看起来很有希望。然后是2万美元。现在我们每天花费4万美元用于用户获取。
这仍然只有Character AI或Talkie可能花费的一半。但从那时起,我们以每年大约两倍的速度增长。这让我们以每年三倍的速度增长。
所以我正在成长,我越来越像硅谷风格的超高速增长。就像,你知道,你构建了一些像样的东西,然后你可以贴上一个巨大的......你做了重要的事情,你首先构建了产品。当然,但是然后你可以贴上火箭或喷气发动机之类的,这只是现金注入。你投入大量现金,购买大量广告,你的增长就会更快。不是说,你知道,我只是很好奇现在什么有效,以及什么令人惊讶地无效。
哦,有很多令人惊讶的事情不起作用。令人惊讶的事情,最令人惊讶的事情是,几乎所有事情都不起作用。这就是令人惊讶的地方。我给你举个例子。大约一年半前,我们对音频非常兴奋。我说,音频将是下一个杀手级功能。我们必须把它添加到应用程序中。我想成为第一个。所以Chai所做的一切,我都希望我们成为第一个。我们可能不是执行力最强的公司,但我们总是可以成为最具创新性的公司。
有趣。你们的执行力很强。我们更强。我们之所以在这里,很大程度上是因为我们是第一个。如果我们今天发布,获得吸引力将非常困难,因为这就像获得飞轮,获得用户,构建人们兴奋的产品一样。如果你是第一个......
人们自然会对此感到兴奋。但是如果你排在第五或第十位,伙计,你必须非常擅长执行。所以你们是第一个使用语音的吗?我们是第一个。我们是第一个。我只知道Character何时推出语音。他们推出了它。我认为他们在我们之后至少推出了九个月。好的。好的。但是我们推出了,我的意思是,团队为此付出了巨大的努力。在我们这样做的时候,延迟是一个巨大的问题。成本是一个巨大的问题。获得正确的语音质量是一个巨大的问题,对吧?是的。
然后还有用户界面和获得正确的用户体验,因为你并不仅仅希望它开始大声喊叫,对吧?你想激活它,但是你不需要每次都一直按按钮。要获得真正流畅的音频体验,需要做很多事情。所以我们继续前进,我们投资了三个月,我们构建了所有这些。然后当我们进行A/B测试时,结果是......
数字没有任何变化。我说,这不可能是对的。一定有错误。我们花了一周时间检查所有内容,再次检查,再次检查。结果是用户根本不在乎。只有大约10%或15%的用户甚至点击了按钮,就像他们想使用音频一样。
他们只会在10%或15%的时间内使用它,所以如果你计算一下,如果只有七分之一的人在七分之一的时间内使用它,那么你改变了大约2%的体验,所以即使那2%的时间非常棒,当你查看保留率、参与度和货币化率时,它也不会产生很大的影响,所以音频没有产生很大的影响,值得注意的是我
我对音频非常感兴趣,但是是的。是的,我也喜欢它。但是,你知道,我做的很多事情,我是一个大人物,你可以有一个理论。你抵抗,是的。没错,没错。所以我认为,如果你想让音频发挥作用,它必须是一种独特、引人入胜、令人兴奋的体验,这是他们其他地方无法获得的。是的。
可能是你们的模型不够好。不,不,不。它们很棒。哦,是吗?它们非常好。好的。但这就像,这有点像,你知道,如果你听有声读物或Kindle之类的,你只是听到这个声音,这就像,你不会说,哇,这很特别,对吧?这就像一件方便的事情。是的。
但是这个想法是,如果你可以......如果Chai是唯一的平台......比如说,你有一个MrBeast,而YouTube是你可以观看MrBeast视频的唯一平台,它是你想观看的最引人入胜、最有趣的视频,你会去YouTube。所以对于音频来说,你不能只是把音频放在那里,人们就会说,哦,是的,它好2%。或者像......
5%的用户认为它好20%,对吧?它必须是大多数人,在大多数体验中,都会说,哇,这是一件大事。这就是你需要发布的功能。如果它不会吸引大多数人,在大多数体验中,它也不是一件大事,它就不会产生影响。酷。所以你取消了它。是的。我不再看到了。没错。是的。所以我喜欢这个。
时间越长,它就越俗套,我想,但是我工作在Chai的时间越长,我认为团队也同意这一点,所有那些格言,至少我认为它们是格言,你会从史蒂夫·乔布斯那里得到,就像构建一些非常棒的东西,对吧?或者专注于某件事,或者,你知道,最重要的事情是对不工作的事情说不。所有这些教训,都非常真实。
所以现在我就像,我说的每一句话,我都在引用史蒂夫·乔布斯或扎克伯格。我说,伙计们,快速行动并打破常规。你现在已经从阿波罗跳到了酷爱达了。是的,就是这样......他们说的每一句话都是如此真实。有点稀薄。高领衫。是的,是的,是的。一切都是如此真实。这是我这边最后一个问题,我想把它交给Alessio,是关于......
一般来说的多模态。这实际上来自A16Z的Justine Moore,她是我们的朋友。很多人都在尝试为AI伙伴做语音图像视频。是的。你刚才说语音不起作用。是的。什么会让你重新考虑?史蒂夫·乔布斯,他非常,听着,他非常清楚这一点。
工程师们有一种习惯,一旦他们获得了一些很酷的技术,他们就想找到一种方法来打包这些很酷的技术并将其出售给消费者。这行不通。所以你可以自由地尝试建立一家创业公司,你拥有很酷的技术,你想找到人来购买它。我们Chai不是这样做的。在Chai,我们从消费者开始。消费者想要什么?他们的问题是什么?我们如何解决?
所以现在,用户面临的首要问题不是音频。这不是首要问题。也不是图像生成。那也不是他们的问题。AI用户面临的首要问题是这个。所有AI都是由硅谷的中年男性生成的,对吧?这就是所有的内容。你正在与这个AI互动。你平均每天与它交谈90分钟。它是由中年男性训练的。那些家伙在那里,他们在那里说,哦,
在这种情况下,AI应该说什么,对吧?什么是有趣的,对吧?什么很酷?什么很无聊?什么很有趣?这不应该是这样。应该这样:用户应该创建AI,对吧?所以我谈论它的方式是这样的。Chai,我们拥有这个AI引擎,它位于一层薄薄的UGC之上。所以这层薄薄的UGC是绝对必要的。
对吧?只是提示。但是只是提示。只是提示。只是一张图片。只是一个名字。就像我们只做了1%的事情。所以我们需要继续加厚UGC层。必须让用户能够训练AI。如果强化学习强大而重要,他们就必须能够做到这一点。所以必须存在一个
我对团队说,就像MrBeast能够每年花费1亿美元或任何金额在他的制作公司上一样,他有一个团队来制作内容,MrBeast的内容,然后他会在YouTube平台上分享,直到有一个团队每年赚取1亿美元或花费1亿美元来制作他们为Chai平台制作的内容,我们才算完成。所以这就是问题所在。这就是我们兴奋要构建的东西。而过于沉迷于技术行业
我认为是一件愚蠢的事情。这行不通。顺便说一句,我在亚马逊Prime上看到了Beast Games。它做得并不好,我很想知道。这有点像......观众阅读量很高。运行到中间很糟糕,但观众阅读量很高。但是它不像排名前10名那样。我看到它从......是的,那个我不知道。我很想知道,你知道,这有点像类似的内容,但平台不同。然后回到你所说的一些内容,就像,你知道,人们来尝试期待某种类型的内容。是的,我认为......
我认为讨论护城河及其构成因素很有意思。举例来说,如果你看看像YouTube这样的平台,我认为其护城河首先在于生态系统。这个生态系统由内容创作者、用户、消费者和算法构成。
因此,这就形成了一个飞轮效应:算法能够根据用户及其数据进行训练,推荐系统则可以向内容创作者提供信息。例如,MrBeast就知道哪个缩略图效果最好,
他知道视频的前10秒必须以某种特定方式呈现。因此,他的内容非常适合YouTube平台。这就是为什么它在亚马逊上表现不佳的原因。如果他想在亚马逊上取得好成绩,他在YouTube平台上创作了多少视频?我想,数千甚至数万个。
他需要在亚马逊上进行这些迭代。因此,在Chai,我认为关键在于如何获得最引人入胜、最丰富的用户生成内容,将其置于AI引擎和推荐系统之上,从而形成一个良性循环:更多用户、更好的推荐、更多创作者、更多内容、更多用户。
你提到了算法。Chai上有Chaiverse的概念,你们还有类似于LMSYS的ELO系统。那么,你们的模型优化目标是什么?用户优化目标是什么?也许可以谈谈你们是如何构建它的,人们是如何提交模型的。Chaiverse我认为是一个开发者平台。
当我们谈论Chai时,更多的是在谈论Chai应用程序。Chai应用程序实际上是面向消费者的产品。因此,消费者可以使用Chai应用程序,与我们的AI互动,并与其他UGC互动。这实际上就是这些机器人。它只是一层薄薄的UGC。好的。
我们的目标不仅仅是拥有非常薄的一层UGC。我们的目标是拥有尽可能多的UGC。因此,我们必须拥有,我不希望Chai的人员训练AI。我希望人们,而不是中年男性,来构建AI。我希望每个人都来构建AI,尽可能多的人来构建AI。
好的,所以我们构建了Chaiverse。Chaiverse有点像原型,可以这样理解。它始于这样的观察:每天有多少模型提交到Hugging Face?数百个。对吧?所以每天都有数百个LLM被提交。
现在考虑一下,构建LLM需要什么?实际上需要大量的工作。这就像有人投入了几个小时的计算时间、几个小时的时间,准备了一个数据集,启动它,运行它,评估它,然后提交它,对吧?所以这里面有很多工作。因此,我们说,为什么我们不能为他们托管他们的模型并将其提供给用户呢?然后会是什么样子呢?
第一个问题是,你怎么知道一个模型好不好?我们不想向用户提供糟糕的模型,对吧?所以我们会,我喜欢LMSYS的风格。我认为它真的很酷。它很简单,非常直观,你只需向用户展示两个完成的结果。你可以说,看,这是来自模型A的,这是来自模型B的,哪个更好?因此,如果有人向Chaiverse提交模型,我们会做什么呢?我们会启动一个GPU,下载模型,
我们现在将把该模型托管在这个GPU上,并将开始向其路由流量。我们将发送,我们认为大约需要5000个完成的结果才能获得准确的信号。这大致就是LMSYS所做的。
由此,我们能够对人们认为哪些模型有趣,哪些模型不有趣进行准确的排名。如果你看看最底层的80%,它们都很糟糕。你可以直接忽略它们。它们完全糟糕透顶。
然后,当你得到前20%时,你就知道你得到了一个不错的模型,但你可以将其分解得更细致一些。可能有一个模型非常具有描述性,可能有一个模型具有很强的个性,可能有一个模型非常不合逻辑。那么问题是,你如何处理这些顶级模型呢?
由此,你可以做更多更复杂的事情。你可以尝试进行路由操作,例如,对于给定的用户请求,我们将尝试预测用户最喜欢的这些最终模型中的哪个。事实证明,这相当昂贵,而且并没有带来巨大的优势或改进。
Chai喜欢做的一件事是混合,简单来说,你最终会发现,你会很快发现你有一个非常聪明的模型,一个非常有趣的模型。你如何让用户获得既聪明又有趣的体验呢?
很简单,50%的请求,你可以为他们提供聪明的模型,50%的请求,你可以为他们提供有趣的模型。只是随机的50%吗?是的,只是随机的。这就是混合?是的,这就是混合。你可以在此基础上做更多更复杂的事情,就像生活中的所有事情一样,但80-20法则,如果你这样做,你就能立即获得非常强大的效果。随机数生成器。我认为这就像随机性的鲁棒性。随机性是一种非常强大的优化技术,它是一种非常鲁棒的技术。
因此,你可以非常有效地探索大量空间。有一件事非常重要,也是我最兴奋的事情,那就是
在进行排名后,你会得到一个ELO分数。你可以追踪用户的首次加入日期,他们首次向Chaiverse提交模型的日期。他们几乎总是会得到一个糟糕的ELO分数,对吧?所以,假设第一次提交,他们得到一个1100或1000左右的ELO分数。你可以看到他们不断迭代,不断迭代,不断迭代。然后会是这样的......
没有改进,没有改进,没有改进。然后突然就有了。你会给他们提供任何数据,还是他们必须自己想出来?我们会,我们会,我们会,我们会,我们会。我们试图在提供非常有用的数据和遵守GDPR之间取得平衡,这意味着你必须非常努力地保护应用程序用户的隐私。
因此,我们试图尽可能多地向他们提供有用的信号。最低限度是,我们将只给你一个分数,对吧?这就是最低限度。但仅凭这一点,人们就能很好地优化分数,因为他们能够提出理论,提交它。它有效吗?无效。一个新的理论,它有效吗?无效。然后突然,一旦他们想出了什么,他们就会保留它,然后他们会迭代,然后突然,他们想出了什么,他们就会保留它。
去年,你在你的博客上发表了一篇文章,名为“众包通往万亿参数AGI之路”,你称之为专家混合、推荐器。12个月后有什么新的想法吗?我认为AGI的可能性和时间表肯定被推迟了。现在,这是在......
我是一个有争议的人。我不知道。让我们来做吧。我只是认为......你不相信规模法则。你认为AGI还很遥远。我认为这是一个S曲线。我认为所有事情都是S曲线。我认为模型在推理方面比人们想象的要差得多。而且我认为,每当我听到人们将LLM称为推理引擎时,我都会有点畏缩。
我认为这不是它们的作用。我认为它们更像是一个模拟器。我认为它们就像一个,对吧?所以它们被训练来预测下一个最可能的标记。它就像一个物理模拟引擎。所以你会看到这些游戏,你可以建造一座桥,然后你把一辆车扔下去,然后它会预测会发生什么。这就是LLM正在做的。与其说它们在推理,不如说它们只是在做最可能的事情。
因此,从根本上说,人们添加智能的能力我认为非常有限。我认为,大多数人认为的智能,AI并不是一个众包问题,对吧?现在,对于维基百科来说,维基百科是众包知识的,对吧?
它并没有众包智能。所以这是一个微妙的区别。AI擅长知识。我认为它在智能方面很弱。而且很容易混淆两者,因为如果你问它一个问题,它会给你,你知道,如果你说,美国第七任总统是谁?它会给你正确的答案。我会说,好吧,我不知道答案。你可以把它与智力混为一谈。但实际上,这是一个知识问题。
知识实际上是关于这样一种说法:我如何存储所有这些信息?然后我如何检索相关的信息?好的,它们在这方面非常出色。它们擅长存储知识和检索相关知识。在这方面,它们优于人类。因此,我认为我们需要想出一个新词来形容智力。
AI应该包含比任何个体人类都多的知识。它应该比任何个体人类都更容易获得。这是一件非常强大的事情。这是超级强大的。
但是我们用什么词来形容呢?我们之前邀请过一位来自Exa AI的客人,他们做搜索,他试图创造“超级知识”这个词来与“超级智能”相对。没错。我认为“超级知识”是一个更准确的词。是的,你可以存储比任何人都多的东西,但你可能并不更聪明。你也可以比任何人都更好地检索它。我认为这两者结合起来才是特别之处。我认为这件事会存在。
这件事是可以实现的。我认为你可以从一些有趣和好玩的事情开始。而且我认为,我经常认为这就像,看,这将是一段20年的旅程,而我们现在才刚刚开始第4年,或者就像互联网一样。这就像1998年左右,你知道,在亚马逊这样的巨型数万亿美元的企业成为每个人每天都在使用的企业之前,你还有很长的路要走。所以今天的AI非常简单,而且,
从根本上说,我们使用它的方式、飞轮效应以及每个人如何为其做出贡献以真正放大其带来的价值。现在,我认为这有点悲哀。现在,像......
大型实验室,我将以OpenAI为例。他们会去找这些人工标注员,然后说,我们将付钱给你,让你只标注我们想要获得高质量数据集的这部分问题。然后我们将获得我们自己非常强大的计算机。这就是问题所在。
对我来说,这太像大英百科全书了。这太疯狂了。所有对区块链感兴趣的人,都认为,这就是需要去中心化的地方,你需要去中心化这件事。因为如果
如果你将其分散开来,人们就可以以分散的方式生成更多的数据。更多。你需要激励措施。是的,当然。但我的意思是,这就是维基百科令人兴奋的地方,它是一种理解,就像激励措施一样,你不需要用金钱来激励人们。你不需要狗狗币?不。有时,人们会从看到正确的事情中获得满足感。数字上升。是的。我的意思是,你确实为此付钱。
我们已经向模型创建者支付了超过10万美元,但你知道我们看到了什么吗?这并没有什么激励作用。我们发现这并没有什么区别。如果他们以一定的速率提交模型,如果你付给他们很多钱......
他们并没有改变速率。这笔钱让他们能够做的是,如果他们想在一夜之间在八个H100上微调一个Llama 70B,如果你给他们钱,他们就可以做到。或者你可以给他们计算资源。是的,所以我认为我们从与Chaiverse互动中看到的最令人兴奋的人是,我们给了一个大约......
17岁的孩子。我认为我们给了他1000美元,他把所有的钱都花在了购买一个物理GPU上。他拍了一张照片,说,这就是我买的,我将用它来训练更多模型。
这就是为什么我喜欢平台的原因。你应该雇用他吗?这是诱惑。但你想保持团队规模小。不,不。作为一个平台,我们不能只雇用每个优秀的内容创作者。我们必须构建系统。而今天最好的内容创作者明年可能就不是最好的内容创作者了。关于Evalso呢?你谈到了
谈到了推理和知识。人们使用的大多数基准都希望模仿推理。我想注册一下,我不同意推理的说法,但我们必须继续进行。是的,我很想知道。你如何看待对你来说重要的评估?是的,ELO不能是唯一的评估。你必须进行内部评估。你提到了评估。我认为ELO是一个极好的北极星。原因是,或者说,这是我们想要看到的上升的主要指标,因为它是一种人类反馈。人类知道他们想要什么。
这很美妙,因为当你提出一个评估时,你实际上是在进一步远离真正的问题,对吧?所以,无论你试图优化或找出什么,你都必须将其切片。然后你得到了这个,它就像一个快照。一旦你饱和了一个评估,你就需要找到一个新的评估。但是通过对人类说,哪个更好,A还是B,它非常强大。它非常通用。它一直在扩展。所以
所以我们过去使用评估来克服障碍。举个例子,就是有一个安全过滤器,或者你想确保你的模型......因为听我说,用户会发现......你会对非家庭友好型内容的相关性感到震惊,无论是脏话。人们发现AI说脏话很有趣。所以如果你有两个完成的结果,A或B,
就像,如果你给我任何LLM,我可以通过训练它说脏话来让它有趣20%。所以问题是,我们如何衡量质量改进?我们是在衡量肤浅的改进吗?
这实际上与LMSIS有关。他们做了一个风格控制。我们实际上在播客中邀请了他们。这就是我更愿意依赖人类反馈,并继续使其更强大、更有用的方式。
而且,你知道,你可以说有些人是GPU匮乏的,有些人是GPU丰富的。我们就像,我们是反馈丰富的。当你每天有一百五十万人时,我们会得到尽可能多的人类反馈。所以我们不需要太多评估。当我们这样做时,我们很快就会饱和。所以一个安全性的,你知道,在一个月内,我们就不再需要使用了,因为它已经......
问题已经解决了。我认为我有一个问题,这是一个更广泛的产品问题,那就是ELO适用于整个用户群体。没错。显然,用户行为,有一些细分市场,比如,我是一个角色扮演者,我是一个治疗师,我是一个不适合工作的角色。你不会把它们分开吗?这就是为什么我说,我认为我们正处于20年计划的第4年,就像......
最终,如果我们都使用Spotify,或者想象一下,如果Spotify只有前五名音乐家,我认为它将保留超过85%的现有用户。是的。对。我认为如果YouTube只保留前五名内容创作者,对大多数人来说就足够了。
我在这里想分享的是,关于人类的一个令人惊讶的事情是,他们的偏好是相当相关的。你认为有趣和娱乐的东西,我也认为有趣和娱乐,他也认为有趣和娱乐。可能会有程度上的差异,我可能会觉得它超级有趣,你可能只觉得它稍微有趣一点,但优化到全局效果非常好。
而对于细分来说,如果它真的有效,细分会非常有效。如果你发现一个评论超级无聊,而我发现它超级有趣,如果我们可以对它进行细分,那么这将解锁非常强大的功能。但不幸的是,这不是人类行为的模式,对吧?就像我可能会给它打10分有趣,你可能会给它打7分有趣。它就像它没有给你那么多发挥的空间,就像你希望的那样。
这是AI目前能够产生的内容多样性的一种体现,那就是它不像YouTube那样多样化,你可以观看MrBeast的视频。这与化妆教程完全不同。所以这里有足够的多样性,如果你查看我的YouTube推荐,它与我妹妹的完全不同。我妹妹的推荐,都是女性。而我的推荐,都是......
秃顶的中年男性,要么谈论MMA,要么对吧。但我认为,对于AI来说,现在进行这种程度的细分还为时过早。所以我认为这一切都来自于推荐系统、个性化。但这就是为什么我喜欢不要从技术开始,而是从问题开始。问题是UGC。我们必须为用户提供工具,以创建更多样化和更引人入胜的内容。是的。
是的。我觉得,当我尝试Chai时,我感到很惊讶,它有多薄。是的。它非常薄。你有没有想过?就像Cobalt、Silly Tavern这些家伙的生态系统一样。他们有模型卡。这几乎已经成为行业标准了。同意。我可以直接导入它们吗?我不知道该说什么。哦,你已经在做了。不,就像他们,我记得当Chai指的是Chai、Silly Tavern和Cobalt时,Cobalt AI基本上和Chai一样老。
所以当Chai存在时,他们也存在。我们都在使用GPT-J。是的,是的,是的。我记得很早以前,我想,这些人根本不应该存在。因为如果我们构建一个足够好的平台,他们就应该将他们的内容发布到我们的平台上。是的,但它们是开源的。没错。这就是我学到的。最终,我了解到,他们所兴奋的事情与普通消费者略有不同。而且
我的答案是,这有点复杂,这实际上取决于内容创作者的需求,他们通常是为自己构建的。
而且他们通常是想为自己创造一种体验。一个内容创作者可能需要写一千字来描述,让我们以一个科幻场景为例。他们说,好吧,你在一艘宇宙飞船上,你正在飞向太空,你的船员,这些是你的船员。你有一个非常友好的,一个非常刻薄的,而你是一个新学员,你想晋升到最高职位。他们可以详细地描述,对吧?然后你可以把它交给Llama 70B。
Llama 70B会很好地遵循提示,用户也会获得良好的体验。好的。在Chai上,很少有用户会达到这种内容创作水平。如果相反......
用户,我们可以让我们的AI更好地理解用户,这样一来,就不需要使用一千个字符或一千个标记来描述场景,我们可以直接说,看,你在一艘宇宙飞船上,你有三个船员,这将是戏剧性的,应该有一些冲突。然后AI会给你更好的体验。那么内容创作者就会更开心。从根本上说,我这样考虑的方式是
AI的可控性。因此,我们在Chai上做的很多工作实际上是说,我们希望AI以他们最想要的方式对用户和内容创作者做出反应。一种类似的比喻是TikTok。我认为TikTok做得非常出色的一点是,他们让任何人都很容易做到这一点。如果你在TikTok上制作一个视频,几乎任何人都可以很容易地制作一个有趣的视频。
你只需要在上面放一些音乐。你添加一些动画,制作一个有趣的视频并不难。我认为这更像Chai的风格,用户不需要工作。你知道,如果你的内容只有在像莎士比亚那样的时候才好,那么如果任何在家的人都能制作这个东西,那就更好了。这就是我对Silly Tavern风格的回答。
我认为正确的答案是如何让Silly Tavern的人微调模型来创造真正特殊的效果?
在我们结束之前,这是一种行动号召。首先,你们有Chai Grant,我认为很多人不知道,这是针对开源项目的赠款。当然。任何想法,任何你想让人们参与的项目都应该申请?是的,让我想想。我认为,所以我们做Chai Grant,从根本上说,你知道,我们提供现金,没有任何附加条件。
这是一种做两件事的方式。首先,回馈并支持社区。我们受益于许多开源软件包。我们的许多开发人员和工程师都喜欢......
非常支持开源,然后这也是结识人才和扩展联系的好方法,因此,关于Chai Grant,如果任何人有任何GitHub项目,任何他们构建并引以为豪的东西,都可以申请,直接申请,这就像没有附加条件的现金,而且人们的成功率相当高,所以这是第一件事,其他行动号召是,我认为Chai是这个,你知道,它是一个初创公司。我们是一个小型团队。大约有15个人。我们工作非常努力。这是一个非常硬核的环境,我们发现很多人不喜欢。他们不喜欢,你知道,他们会问我们工作与生活平衡的概念。有一次,一个人说,他们说类似的话,我无法完成这项工作,因为我周五要休假。我说,什么是PTO?好的。它代表带薪休假。
我知道这是什么。这个人走了。他们四周后就不再在这个公司了。从法律上讲,我认为你必须。这是真的。没问题。如果你必须休假,对吧?我们都有自己的生活,对吧?
但这关乎责任感。如果你周五不在办公室,你仍然有你的责任。所以我并不在乎你是否在周四努力工作来完成它。我不在乎你是否在周六努力工作来完成它。这不是借口。这个人谈论的方式,就像一个借口。
我认为这是一个环境,非常有才华的工程师在一个紧张的环境中非常努力地工作。这就是让我兴奋的事情。这就是为什么我认为我真的很喜欢在Chai工作,因为这是一个人才的地方。这是一个人们非常努力工作的地方。所以是的,我认为那些在初创公司工作过的人,这就是他们想要体验的,我认为他们应该联系我们,他们应该申请。我认为90%的人会说这听起来很糟糕。不要申请。这并不适合他们。是的,没错。没错。是的。
我刚刚意识到我们跳过了一个重要的部分。所以你们去年在计算方面花费了1000万美元。你说你可能会将其增加三倍。是的。我相信你们在定制内核方面做了很多工作,就像推理优化一样。有什么很酷的东西你想分享吗?是的,有很多很酷的东西。所以简单来说,我认为推理非常重要。它非常重要。它被严重低估了。
我们可以看看所有不同的基础模型和技术,以及基础模型在推理成本方面的性能差异。例如,专家混合在成本方面通常表现非常好。
我们与一个非常有才华的团队合作,叫做MK1。所以我在Chaiverse日志中看到了他们。他们是什么?我们运行VLLM有一段时间了,VLLM真的很棒,非常棒,他们所做的工作和取得的成就。在某个时候,我认识了创始人,他的名字是Paul Morola,他是Neuralink的联合创始人。
在硬件方面非常专业。他向我解释说,他说,看,如果你非常了解硬件,你就可以很好地编写CUDA内核。他说,你应该看看我们的推理引擎。当我们评估它时,它比VLLM快得多。我认为他能够为我们做到的特别之处在于,我们喜欢拒绝采样。所以我们比通常情况下进行更多的拒绝采样。
而且,你知道,生成。所以我们永远不会只生成一个完成的结果,对吧?这就是为什么我们不做流式传输的原因。很多人,像ChatGPT过去经常做流式传输。就像完成的结果会一次一个地出现。我在你的用户体验中没有注意到这一点。通常情况下,聊天需要流式传输。没错。但Chai从未做过流式传输。因为如果你进行流式传输,你就无法进行拒绝采样。对。
而且,你知道,生成。所以我们永远不会只生成一个完成的结果,对吧?这就是为什么我们不做流式传输的原因。很多人,像ChatGPT过去经常做流式传输。就像完成的结果会一次一个地出现。我在你的用户体验中没有注意到这一点。通常情况下,聊天需要流式传输。没错。但Chai从未做过流式传输。因为如果你进行流式传输,你就无法进行拒绝采样。对。
这样做的好处是可以使用更大的模型。原因是,他们说,与其在四秒钟内生成一个完成,因为用户更快地获得第一个标记,不如在十秒钟内生成。那么,如果你有十秒钟来生成完成,你就可以使用一个更大的模型。
因此,通常情况下,那些进行流式处理的人,他们得到的好处是他们正在使用更大的模型。对于Chai,我们给你,你知道,第二个答案来了,砰,你得到了完整的完成。这样做的原因是我们想生成16个完成,查看整个回复,然后评估我们认为哪个最好。是的。
你们有单独的LLM评估器吗?是的,我们有。所以通常它们被称为奖励模型,这是一个来自强化学习的术语。为此,你可以从一些非常简单的事情开始,那就是你认为用户会回应它吗?这是一个简单的。所以你可以训练,你可以获取5000万条消息,并查看用户回复的所有类型的消息,哪些他们没有回复,然后你可以训练这个奖励模型来评估完成情况。
因此,它知道,好吧,如果你这么说,用户不会回应。所以不要费心把它发送给用户。如果你这么说,用户肯定会参与其中。所以把这个发送给他们。在顶部使用MOE扩展到不同的专家,然后在底部使用拒绝采样从不同的路径中进行选择,这之间有一个有趣的平行关系。我完全同意。这就是人工智能的未来。我认为这是令人兴奋的事情。
并且还有一个平行关系。为什么AlphaGo能够超越人类,对吧?这是生成许多不同路径的能力。树搜索,没错。所以,我认为,如果你想谈谈智能会是什么样子,它看起来更像是树搜索,对吧?
将这些LLM的生成特性与一个非常好的树搜索相结合。这就是OpenAI用O1和O3所做的。我不知道他们是否使用树搜索。他们从未说过他们使用。这是隐含的。是的。好的。是的。是的。你认为O1是一个推理引擎吗?不,不,不,不。我说它在推理方面更好,因为它们很好地利用了树搜索。
推理的问题是他们说,这就像他们训练,他们让模型来说,这在逻辑上正确吗?以及它在逻辑上正确的可能性有多大?因此,你可以建立复杂的机制来减少它在推理方面的不足。
但是你最终会看到人工智能真正擅长什么。人们不会说它总是擅长检索。它总是擅长存储知识,这些知识与智力高度相关,以至于我们经常认为它们是相同的。人工智能真正擅长并且让消费者感到兴奋的是它是生成的。
它可以创造东西。我们以前从未有过可以创造东西的技术。模拟,是的。是的,所以这是特别的,这是令人兴奋的事情。太棒了。还有什么临别的想法吗?不,很高兴。我想补充的唯一一点是,我们的办公室在帕洛阿尔托。所以,你知道,有创业经验的人想加入一家快速发展、影响力大的创业公司。
高影响力的创业公司。是的,我们会找到你的文化资料,这很好。哦,太好了,太棒了。然后还有,是的,10万。是的,如果你通过交易赚了10万美元,我们会加快你的申请速度的故事是什么?我的意思是,我有点符合条件。是的。我们只是看了看团队,结果是......
它达到了这样一个地步,几乎团队中的每个人你都可以指出,他们在加入团队之前都做过一些特别的事情。就像他们一样,他们有强烈的标志,就像他们身上有一些特别的东西。这并不是说这是一件排外的事情。你必须取得一些特别的成就。但这只是我们得到了一位工程师,她开始上大学。她15岁的时候就去了卡内基梅隆大学。这有点特别。是的。
还有一位工程师,他创建了一个Git仓库,我认为他获得了大约1500颗星。它就像一个仓库,就像他编写的一些驱动程序一样。这就像一个非常低级的低级的东西。我说,这有点特别。
我们还有另外一个人,他加入了团队,他通过买卖运动鞋赚了10万美元。交易。是的。所以,这就像,这只是一件事,就像如果你去过哈佛,酷,那很好。这表明你非常聪明,而且工作非常努力。酷。这很好。但是如果你真的创造了一些东西并做了一些事情,那么更切实的东西会让我们更兴奋。酷。好吧,感谢你们来到TriHQ。是的,谢谢你们。谢谢。