We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Building an Interestingness Leaderboard

Building an Interestingness Leaderboard

2025/3/29
logo of podcast Hallway Chat

Hallway Chat

AI Deep Dive AI Chapters Transcript
People
F
Fraser
N
Nabeel
Topics
Nabeel: 我认为,评估AI模型的方式应该与评估AI产品的方式有所不同。我们应该创建一个AI产品的趣味排行榜,以促进AI应用的创新和发展。我认为AI生成的应用应该按照“有趣程度”排序,而不是其他指标。通过vibe coding的方式,我们可以创造更多有趣的AI应用,Levels.io的成功案例就是一个很好的例子。我认为下一代AI游戏平台应该类似于一个整合了Cursor和Reddit的平台,允许用户访问和修改其他用户的代码,并查看和学习其他用户的作品。我认为,目前缺乏一个平台来展示和分享AI应用,这阻碍了开发者之间的学习和交流。我们需要一个平台来促进AI应用开发者之间的交流和学习,这个平台应该是一个自包含的平台,而不是一个简单的链接集合。它应该提供一些筛选机制,例如按应用类型进行分类,并提供一个筛选机制,帮助用户快速找到感兴趣的应用。我们可以通过抓取Twitter和AI相关的新闻邮件来获取AI应用的发布信息,并通过分析网站流量数据来构建这个平台,这个平台应该展示新兴和流行的AI应用,而不是仅仅展示最受欢迎的应用。 Fraser: 我同意,目前缺乏一个平台来展示和分享AI应用,这阻碍了开发者之间的学习和交流。我使用Claude 3.7测试了一些vibe coding应用,发现它比其他工具更好,但我目前还没发现任何vibe coding应用因为Claude 3.7的改进而从不可行变成可行。我认为AI生成的早期游戏更像是娱乐消遣,而不是真正意义上的游戏。我计划用Cursor尝试修改开源的《命令与征服》游戏代码,尝试将开源的《命令与征服》游戏代码导入Cursor,看看能用vibe coding实现什么。我认为,一些以前不可行的想法,现在可能因为AI技术的进步而变得可行。我认为AI应用迭代周期变慢的原因之一是成本增加,以及缺乏一个排行榜来展示和比较不同的应用。我认为,这个平台应该足够宽松,以便开发者能够发现和学习相关的应用。早期的一些平台,例如Flickr和Midjourney,通过其独特的机制,形成了自己的创意生态系统。我们需要一个平台来促进AI领域的集体对话和学习,目前,我们缺乏一个合适的指标来衡量AI应用的价值。我认为,这个平台可能需要是一个封闭的平台,类似于Roblox。我不认为每个垂直领域都需要一个独立的平台,我们需要一个统一的平台来促进整个AI生态系统的进步。早期互联网也存在类似的平台,但它们的用户规模较小。这个平台需要提供真实的信号,而不是虚假的信号,并提供客观的衡量指标,而不是主观的评价。Taft是一个尝试构建类似平台的例子,但它失败了,因为它展示的应用不够有趣。这个平台应该按照“有趣程度”来排序应用,就像Flickr曾经使用“interestingness”作为排序标准一样。

Deep Dive

Chapters
The conversation explores the idea of an AI product leaderboard, similar to app store rankings, to foster innovation and inspire new AI applications. The discussion touches upon the viability of AI-built games and the potential for community building around AI development.
  • AI product evaluation is discussed
  • Vibe coding and its role in AI game development are explored
  • The potential for a breakout success of an AI-built game is considered

Shownotes Transcript

这就像在看情景喜剧的同时,也在看情景喜剧的制作过程。感觉会像愚蠢的玩具、娱乐和社区。可能确实如此,但这至少是对当今系统能力的良好测试。我用氛围编码编写了这部分代码。它太傻了,但看看这个其他的东西。弗雷泽,我希望按趣味性排序。

嘿,弗雷泽。我们今天要进行的对话,几乎就像公开征集意见一样,对吧?我认为肯定有人会有一些有趣的想法,这些想法会从我们昨晚和本周在晚餐时进行的谈话中获得灵感,帮助我们增加AI应用世界中的趣味性,而这可能是一个我们应该能够通过氛围编码来实现未来的产品。让我们开始吧。是的,让我们从头开始。弗雷泽,你说你一直在……

本周查看了一些东西,然后我们会深入探讨。我回去使用了所有类似氛围编码的应用程序,使用Claude 3.7进行检查,但我不知道,就像只是效果更好。这样做的原因是因为,哦,只是Claude 3.7。它在编码方面要好得多。

当然,每件事都会好10%,或者好100%。但在你的阅读中,当你尝试所有这些应用程序时,你所查看的任何公司都没有从不可行变为可行。因为这将是一件疯狂的事情。如果有一些东西,就像一个有点笨拙的产品,无法制作出那种客厅游戏或……

无论是什么,应用程序平台或游标追逐其他垂直领域的一些衍生产品等等。然后就像突然3.7一样,哦,我们现在可以做到这一点。至少你本周在第一次粗略尝试中没有发现这一点。没有,我没有。但是你见过levels IO吗?你一直在关注他所做的事情吗?

使用Cursor和Sonnet?没有。他基本上用氛围编码编写了一个多人在线的飞行模拟空战游戏,他已经拥有了26000名同时进行空战的人。然后他……

有人说,嘿,我会为此付费,所以他可爱地整合了F-16的概念,你可以把它作为你的高级空战装备,他已经卖出了数量不等的这种装备,然后一家公司联系他说可以做广告,所以他又像氛围编码一样把飞艇放进了游戏中,然后上面有他们的品牌,我们是不是应该辞职,公开进行开发,你当时会用氛围编码编写什么样的电子游戏,弗雷泽?

我太专注于此了,因为它太搞笑了。我会用氛围编码编写什么?我的答案太普通了。好吧,也许这是一个有趣的谈话,因为在此之前,我们一直在用氛围编码……

小行星或类似砖块破坏的游戏,或者你知道人们仍然对多人贪吃蛇很兴奋,对,唯一不好的地方就是图形,我的意思是,不仅仅是图形,还有……

很多,但是。好吧,还有就是,这是氛围编码。显然,如果这是一个打包好的商品,没有人会购买它。你所做的一部分只是跟随levels IO的人,你只是,这是社区建设,对吧?你就像,这是娱乐的一部分。这就像在看情景喜剧的同时,也在看情景喜剧的制作过程。是的。网络模拟游戏的人称之为?

通过软件开发进行自我表达和娱乐。这并不是那些热衷于软件开发的人。这就像他的粉丝,然后它变成了一个模因。就像每一个伟大的模因一样,它被接受了。所以也许有一些想法是我们现在都没有想到的,如果两年前你在游戏空间中玩耍,如果你只是试图建立一家公司并进行原型设计,那么这些想法就太笨拙或不可行了,你应该回去……

思考一下。我不知道它们会是什么,但我必须承认,有些不可行的事情变得可行了,尤其是在编码方面。我的意思是,曾经有一整个时代,你知道,令人上瘾的游戏和所有其他Flash网站游戏生成器。并且有一批AI游戏,但没有一个真正成功。但也许有了3.7,我们将看到,我们将在30天内大吃一惊。这可能是时候了。我认为这可能是时候了,这是我的猜测。可能是。可能是

可能是。我的猜测是,AI制作的游戏将属于你几分钟前提到的第一类,因为它将是娱乐和爆米花,而不是游戏。那些正在构建AI游戏平台的人,如果他们成为突破性的人,我会感到惊讶。你认为它会是什么感觉或样子?我的赌注是,它会感觉更像是愚蠢的玩具、娱乐和社区,而不是游戏平台。

是的。你玩过什么吗?我当然一直在玩弄所有深度研究的东西。我这个周末想尝试的,与同一个主题相关的是征服

那个古老的游戏,来自艺电的第一款即时战略游戏,刚刚作为开源项目发布。所以这是一个非常可行的现代……它不是现代的,就像去年的使命召唤那样,但它是现代的,拥有开源代码。我迫不及待地想等到明天,把它拉进Cursor,然后看看……

我可以在这样一个结构良好的环境中完成氛围编码,看看会发生什么。可能确实如此,但这至少是对当今系统能力的良好测试。我不知道它是否会很糟糕。我的猜测是你能够做一些事情。我在这方面进行了一次有趣的谈话,我昨晚不知道,几乎变成了,几乎像是在与六位设计师一起现场制作原型。如果我们在这里稍微讨论一下,我很想知道它可能会走向何方。问题是,有没有更多奇怪的应用程序

AI实验,对吧?如果你看看移动设备的早期或互联网的早期,甚至Facebook应用程序平台的早期,就会出现更多奇怪的实验。我们只是说,也许这项技术更适合B2B SaaS类型的解决方案。也许ChatsPT更适合B2B SaaS类型的解决方案,我一点也不相信。一点也不。你对此的看法是否有所改变?

就像我们现在已经经历了这件事几年了。这是一个非常水平的爆炸,机会实际上无处不在,但我们没有看到那么多奇怪的东西。感觉迭代周期实际上有点慢。就像看看另一个家伙有了另一个模型,也许它便宜一点,或者其他什么。我不知道我是否认为它在任何更深刻的方面有所发展。

当然,初创企业的工业化以及我们作为一个更广泛的社区所庆祝的东西,可能已经改变了人们至少在某些子集中的优先级。我认为我们也不应该低估与此相关的成本。你可以在2000年代中期进行实验。

使用Web 2.0,或者你可以在Facebook平台上进行实验,甚至可以使用iOS,而无需额外成本。你说得对。你说得对。也许在这个世界里,像DeepSeek这样的产品只是对实验数量的净收益。因此,它不仅提高了模型的速度,这是一个完全不同的问题,而且提高了整个生态系统的速度。是的。我的理解是,这是因为没有排行榜。

嗯。我更多地考虑了这个问题。一位朋友说他认为这是因为没有分销,你拥有应用商店的移动分销优势,突然之间你有了新东西,一种新的增长方式。而Facebook,当然还有Facebook应用程序平台,它对创始人的承诺部分是,你可以病毒式传播,并通过你的孤独奶牛出现在某人的信息流中并获得增长。

但我认为这是缺乏排行榜,或者换句话说,是缺乏一个共同的新闻媒体来讨论谁赢了谁输了。我们现在的新闻源几乎就像试图观察股票市场行情,以便弄清楚。

随着时间的推移,财富500强公司将会如何,对吧?——是的。——就像想象一下,你只是盯着股票市场行情,然后我会在一天结束时问你,“嘿,今天哪只股票涨得最多?”“进展如何?”就像,或者本周或本月,就像这是一种糟糕的了解情况的方式。我作为Facebook应用程序平台的创始人所记得的事情是,包括我在内的所有其他创始人,每天都会登录,查看顶级应用程序的排行榜,每周都会出现一些新的东西激增

而且,你知道,看,大多数都是糟糕的,但这给了你一些可以尝试的东西。然后你去看它,你会看到,哦,那个人以不同的方式尝试了他们的登录流程。哦,这有点酷。他直接把你带入游戏。我以前从未见过这种情况。你知道,就像,然后你就像,哦,我可以在我的游戏中尝试一下。移动设备也是如此。你拥有移动应用商店。

所以在早期,你每天都会查看它,你会看到各种新类型的游戏、新类型的商业应用程序和新类型的旅行应用程序正在流行。这就像给你带来灵感,让你站在巨人的肩膀上,然后构建你的下一个东西。奇怪的是,在一个一切都被排名的世界里,现在没有AI产品的App Store产品狩猎等价物。

这是否引起共鸣?我看到一些点头,但是——不,确实如此。我最初的回应部分是,这听起来像你正在论证你朋友提出的你所驳斥的分销问题。但我意识到你正在谈论灵感、发现和认可,而不是分销。是的,我正在谈论构建者能够看到其他构建者正在做什么。这就像我们在一个公共沙龙里。

我们在这里批评彼此的作品,分析彼此的作品,并快速迭代。我理解,结果也可能是它会吸引更多消费者,如果他们看到的话,但这并不是我认为有价值的结果。是的。尽管拥有数千万消费者进入你的应用程序也很有价值,让我们明确这一点。这引起了共鸣。坦率地说,这就是WebSim如此吸引人的一部分,对吧?这个想法是,这是一个创意场所,人们在那里聚集、寻找和创造

分叉和寻找灵感,构建,然后它就在那里,然后你可以为它做出贡献。WebSim最好的地方在于它提供了一个这样的版本。它并没有为整个AI生态系统提供它,只是为WebSim的东西提供它,但我真的很高兴没有Cursor的版本。没有真正的AI应用程序排行榜或探索页面。它需要足够宽松

作为其他构建者的发现机制,你也可以找到一些与你正在考虑构建的东西接近的东西。我认为,这就是这里的问题所在。它不能过于受限。因为如果你也得到了这一点,就像它会发展出自己的元宇宙一样。我在Web 2.0早期的Flickr中,这是最早的Web 2.0宠儿公司之一。它就像一个带有探索页面的照片分享网站。我无法告诉你,在我第一个孩子的时候,我拍了多少照片,专门是为了……

考虑Flickr Explore页面及其页面的元数据以及什么会让我流行起来。Midjourney在早期也做了同样的事情。就像,Midjourney几乎发展了自己的创意元宇宙。人们通过盲目地撞击提示来学习如何提示,并且只关注老虎机拉杆以获得他们想要的东西。你正在探索Discord,你正在查看Explore页面,然后你正在查看其他人如何使用该产品。我认为我们只是……

以这种方式发展得更快。我们没有在玩耍的层面上进行这种程度的集体对话

Claude或玩CodeGen或玩AI通常。所以我们剩下的就是,好吧,什么里程碑让你看起来?就像,我不知道,就像他们刚刚筹集了3000万美元的B轮融资。就像,好吧,这种情况并不经常发生。而且成为你应该关注的创意中心的里程碑并不有趣。所以你分享的关于Facebook平台和iPhone应用商店的两个例子,

有一个解决方案,作为消费者,你可以发现它,并且你可以在该平台上无缝地使用它。我认为这可能是一个重要的部分。我的意思是,它不能是产品猎手或Reddit之类的东西,就像,这是今天的五个很酷的应用程序。然后你必须链接并使用它。

它就像一个独立的平台。所以这就是我之前评论的地方,我认为下一代AI游戏将感觉不像AI游戏平台,而是会感觉和你刚才描述的一模一样。而且它将是,

某种版本,你知道,像游标一样,这里有游标氛围创建的应用程序或Reddit创建的应用程序。Loveable应该明天就做这个。是的。是的。它不会是那些,但你将能够像去寻找人们已经购买到存在状态的可玩或可用的软件版本。你将能够像重混它的各个方面。你将能够像,

进入源代码并获取你需要的部分,并将其分叉到自己的东西中。——是的,我认为你找到了方向。你说得对,问题的一部分是这一切都在互联网上。

所以你的观点是它可能发生在一个封闭的平台内,就像它在Roblox中发生的那样。就像人们会查看流行的东西,这有助于告知你接下来应该在Roblox上构建什么。人们会查看Steam页面和Steam Spy来查看哪些内容有效,这会影响接下来会发生什么。我有点认为这是真的,但这会让每个被分割的村庄

垂直市场去做他们在市场上要做的事情。我不知何故不认为,你知道,当然,Glyph将会有一个探索页面,Wordware将会有一个探索页面,Zapier将会有一个探索页面。很好。我认为这不是我们正在寻找的集体对话。

作为创始人和投资者等等,推动整个生态系统向前发展。所以当然,这可以发生,但我不想放弃更大的目标。所以,是的,你说得对。我们没有苹果。没有一个单一的平台在推动它,比如Facebook或苹果。在某种程度上,这在早期互联网上也发生过吗?就像在非常早期的互联网时代,雅虎是一个目录。我们也有一些像酷猎和类似的产品。那是更早的世界,我们当时只有大约

500万人使用互联网,或者当时是什么。但我认为我们有它的联合版本,也许Product Hunt就是一个例子,不是一个非常成功的例子,而是一个联合版本的例子。你只需要信号。你需要真实的信号,而不是虚假的信号才能使其发挥作用。因为App Store拥有的,Roblox拥有的,是他们可以看到数据。

对吧?他们可以看到浏览量。他们可以看到以一种非产品时间的方式向上移动的东西,这只是一个单独的其他评级系统。这只是一个挖掘系统。

或Reddit的东西。它更少的是衡量运动,更多的是衡量社区对某件事的认可,这是一件不同的事情,对吧?它是粉丝作为社区喜欢的内容对象,这是一件完全不同的事情。所以你只需要一种方法来进行某种客观衡量。也许我们应该构建这个

弗雷泽。所以我想知道我们是否可以通过查看流量统计来构建它。就像如果我们付费获得一个提要,呃,

网络流量。所以你可以看到有多少人访问X域名与不同的域名。那会是好的数据吗?我认为我已经忘记了你试图做什么了。想象一下应用商店。我想登录一个网站,它只有AI产品。我想看看在过去的30天里,AI产品的激增情况。我应该注意什么?我现在应该尝试什么?我说我忘记了主题的原因是

我不知道你是否从那里开始。你说你想看到奇怪的实验。是的。哪些包含AI的产品正在激增?它可能是销售代理,SDR销售代理。是的,但你不想看到它。它不在这个类别中,对吧?我不是说这是一个由奇怪程度排序的确定性列表。哦,那将是我们应该回头讨论的另一个问题。我只是在想象Facebook应用程序平台时代发生的事情。我会在星期五登录。

早上,我会查看应用商店,应用商店将按新内容和趋势内容进行组织。所以,如果我试图查看排行榜,它仍然会在顶部显示Farmville。这并没有什么帮助。

但是你查看新内容和趋势内容。你会在那里看到的是,当然,如果你只是浏览一下,你会看到四个不同的农场。这很好,你看到了这一点。我不需要点击它们。但是之后,你可能会看到我的宠物乌龟。你以前从未见过宠物游戏。你就像,哦,这很奇怪。那是什么?人们为什么尝试那个东西?然后你进入并查看它。所以它更像某种……

所有正在发布的东西,这很好。我们可能可以抓取Twitter和所有AI通讯以及所有其他东西,以获取过去一两个月发生的发射。但坦率地说,这个列表太长了,无法尝试。所以它只是,它正在对该组进行热度检查。

减少到10个或15个。然后,是的,我认为我可能只需要检查其中的一半,但我现在正在查看一个包含10个项目的列表,而不是一个包含400个项目的列表。这有意义吗?是的。是的。我的意思是,不,你不认为它会让我得到。你不认为它会让我得到我想要的列表。不,我认为Facebook平台的视野范围大大缩小了,因为该平台的限制、受众的性质以及在该平台上构建的人。就像,

如果你当时有一个列表,这里有一些流行的网络应用程序,或者使用某种技术的人,你知道,HTML,那么你就会不感兴趣。如果你只是根据他们是否使用AI来做这件事,那不是你想要的。你想要我所说的Facebook平台灌输的第一层策划。也许这就像我一直在谈论的所有事情一样简单。

但随后会有一些自动分类。因此,你可以查看面向客户服务的那些,我可以查看面向游戏的那一些,另一个人可以,你知道,类似的东西可以获得一些感觉更受限于该空间的东西。令我惊讶的是,没有

对好奇的AI实验的现代解读,就像迈克尔对企业家精神和这些疯狂的网络应用程序体验的庆祝是如此纯粹,以至于

所以你的答案是编辑性的。好吧,这是简单的第一个解决方案,对吧?是的,没错。这让我们回到了我们需要编写的PRD,因为这就是你正在谈论的。这就是你想要构建的,这个策划的地方。这是一个我尝试过的奇怪的小应用程序。很酷。我用氛围编码编写了这部分代码。它太傻了,但看看这个其他的东西。所以让我给你举个例子,然后你告诉我为什么这行不通。我同意。

我认为它还不够,但有一个名为Taft的产品。有一个AI为此和T-Com。你可以进入那里,然后转到趋势。所以这应该是一个类似雅虎的目录,几乎包含现在正在构建的所有AI内容。趋势应该在他们自己的启发式算法中。

我要求的东西,也就是现在很热门的东西。是的。但是看看那个列表,告诉我为什么,为什么这会出错?因为他们在,他们没有趣。是的。他们没有趣。他们很肤浅。他们以一种粗鲁的方式很肤浅,比如创建AI课程和创建涂色页。这些就像GPT,但你不需要完整的東西。你,你只需要不同的创造性新颖内容。

它可以像它可以的那样肤浅。我记得在Flickr流行的时候,他们没有按浏览量或受欢迎程度对其进行排序。它按一个名为“趣味性”的词进行排序。

是的。我希望按趣味性排序,弗雷泽。是的,是的。好吧,这是一个对这个想法很好的探索。我相信网上的朋友们也会有一些想法,我们稍后会再讨论。谢谢大家。和往常一样,如果你看到一个值得聊聊的AI产品,或者你对这个有一些评论,请告诉我们。再见。很好。