We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

#144 詹雨安 Heptabase CEO/創辦人 - 探索 AI 技術進化之路：從大型語言模型 (LLM/GPT) 到通用人工智慧 (AGI)

2025/2/17

電扶梯走左邊 with Jacky (Left Side Escalator)

AI Deep Dive AI Chapters Transcript

People

Jackie

詹

詹雨安 (Alan Chen)

Topics

詹雨安 (Alan Chen): 我专注于创造心流产品，让用户预期想要的结果更容易发生，减少心流被打断的可能性。大型语言模型 (LLM) 的准确预测能力源于其学习到的重要模式，这取决于训练数据的分布。单纯的 Transformer Decoder 难以解决需要推理和问题解决的位置问题，需要结合其他方法进行组合式搜索来降低搜索复杂度。 Heptabase 已经达到了产品市场匹配 (PMF)，这是一个多阶段的过程，我们已经达到了初始的 PMF。产品市场匹配 (PMF) 的三个关键条件：留存率、盈利能力和营收。衡量 PMF 需要综合考虑多个指标，并结合对公司成长趋势的感受性判断。创业过程中，不安全感是不可或缺的，它会驱动创始人不断尝试和进步。随着公司成长，决策方法也在不断变化，需要适应公司发展的新阶段。公司发展过程中，会经历起起伏伏，保持专注于目标和使命至关重要。公司发展需要长期耕耘，保持专注于目标和使命，才能取得成功。公司发展过程中，要坚持初衷，专注于使命，才能应对各种挑战。公司发展过程中，保持精简团队规模，避免官僚化，是保持高效的关键。一个人不能同时处理两件非常复杂的任务，需要合理安排工作，避免过度工作。招聘是 CEO 最重要的任务之一，需要 CEO 高度参与才能保证招聘效率和质量。公司文化需要与公司愿景保持一致，招聘需要关注候选人对公司愿景的认同程度。公司发展需要保持精简，避免过度扩张，并专注于与公司愿景相关的项目。搬到英国伦敦，有助于专注于工作，并有机会接触到更丰富的研究社区。搬到英国伦敦，改变了生活环境，有助于重新建立日常工作流程，并提高工作效率。我研究 AI 的原因是为了获得智力上的满足，并将其应用于公司发展。大型语言模型 (LLM) 是一种处理自然语言处理 (NLP) 的大型模型，其规模不断扩大，这与注意力机制的出现和模型的可扩展性有关。注意力机制改变了编码器和解码器的工作方式，使得并行处理成为可能，从而解决了 RNN 模型训练时间长的问题。 Transformer 架构的创新在于它不需要 RNN，只需要注意力机制即可。Transformer 使用编码器和解码器，编码器将输入序列编码成向量，解码器则利用这些向量进行解码。多头注意力机制允许模型从不同的角度关注输入序列中的不同部分，从而更好地理解上下文信息。大型语言模型 (LLM) 可以被视为一个巨大的压缩器，它将大量的文本数据压缩成更小的表示形式。Kolmogorov 复杂度理论可以用来解释为什么大型语言模型能够通过预测下一个 token 来学习到大量的知识。 AGI（通用人工智慧）的目标是在各种环境中完成各种任务，并且表现良好。大型语言模型虽然在许多任务上表现出色，但距离 AGI 还有很长的距离。AGI 的衡量标准是其在各种环境中完成各种任务的能力。构建 AGI 的一个有前景的方法是结合强大的序列预测器和布尔搜索算法。强大的序列预测器可以预测未来的事件，而布尔搜索算法可以探索所有可能的解决方案。然而，这两种算法都是不可计算的，这意味着我们永远无法找到完美的解决方案，但我们可以不断地改进。当前的大型语言模型，如 GPT-3 和 GPT-4，通过增加数据量和模型规模来提高性能。然而，大型语言模型仍然存在一些局限性，例如缺乏常识推理能力和处理超出训练数据分布之外的问题的能力。未来的研究方向包括改进模型架构、提高模型的推理能力和常识能力，以及开发更有效的训练方法。 Jackie: 开场白，欢迎收听节目。介绍本期嘉宾詹雨安 (Alan Chen) 和 Heptabase 的更新，以及本期节目的主要内容：Heptabase 的发展、Alan 的个人反思，以及对 AI 技术的深入探讨。本期节目将深入探讨 AI 技术，特别是 ChatGPT 等大型语言模型背后的技术原理。节目时长较长，将考虑分成上下两集播出。节目时长较长是出于对内容深度的追求。再次欢迎嘉宾詹雨安 (Alan Chen)。回顾上次访谈中关于 Alan 的创业经历和人生规划的内容。介绍 Heptabase 是一款视觉化笔记软件。恭喜 Heptabase 1.0 发布并获得 Product Hunt 生产力类别冠军。介绍 Heptabase 的愿景和产品定位。介绍 Heptabase 的成立时间、团队规模和发展历程。介绍 Heptabase 的财务状况和增长速度。介绍 Heptabase 的愿景：打造一个任何人都可以有效地对任何事物建立深度理解的世界。Heptabase 1.0 的产品定位和发布时机。回顾上次访谈中关于 AI 对劳工和创业者的影响的讨论。本期节目旨在通过对话帮助听众了解 AI 的背景知识，包括 ChatGPT、AGI 和 Transformer 等概念背后的技术原理。 supporting_evidences

Deep Dive

Chapters

本段落回顧 Heptabase 的發展歷程，從 2021 年成立至今，團隊規模擴大，產品獲得肯定，並探討產品市場契合度。

Heptabase 於 2021 年 9 月成立
團隊規模從 3 人擴展到 10 人
Heptabase 1.0 在 Product Hunt 獲得生產力類別冠軍
產品市場契合度包含：使用者留存率、獲利能力和營收

Shownotes Transcript

我觉得一个很重点就是要怎么去创造达到心流产品就是在用户要去做一件事情的时候他去尝试一个动作然后就他发现就他预期想要得到结果就发生了这样如果这件事情能越容易的发生那用户的心流就越不容易打断好像这个产品能读他的信一样就是说他要做什么时候那个东西就 ready 在那边这样

很多人会说,Decoder 就只是在预测下一个 Token 但是它要能做到预测下一个 Token 而且还预测得非常准就代表它已经学到了非常非常多很重要的 Pattern 那当然这件事情它就很取决于你的 Training Data Distribution 就如果你 Training Data 就这些那你可能这个 Model 在这个 Training Data Distribution 内的问题它都可以解决得很好

但是如果是位置的人类位置的问题的话单纯靠一个 transformer decoder 一定还是很难解的或是甚至大部分都是解不出来的那我们通常要怎么去 approach 位置的问题呢位置的论题理论上你就是要去 try 各种不同的方法嘛所以你就会去做这种组合式的搜寻这样你有搜各种各种可能性但是你就会发现大部分的位置问题如果你去暴力搜索的话

就是那个搜索复杂度太大了那所以如果你把两个合在一起你还是需要做搜索但是你有了这个 Deep Learning Prior 以后你的搜索空间可以降低很多那我就可以更进入到这个所谓的 Reasoning 或 Problem Solving 的这样的一个过程嘿我是 Jackie 欢迎回来电影母题搜索编让我们去做最好的自己更好的我们

今天 Heptabase 的 CEO 創辦人張宇安 Alan Chen 回到我們節目他是之前第七十四集的來賓大家非常愛的一集我們聊得非常非常深這次聊了三個小時大家都聽得非常非常喜歡兩年之後 Alan 回來了那 Heptabase 有很多的 update 他們也搬到了倫敦我們想聊一下他在創業跟指牙上人生上的一些變化跟發展跟怎麼樣面對 Private Market Fit 怎麼樣持續保持他們創業的熱忱持續前進

我们比喻创意上是在空中掉下来的状况边掉边主飞机一样的 up and downup and down 上上下下的一个旅程那这几年会比以往的技术层面还要多很多我们聊他最近在研究一些 AI 的根本技术核心技术

那會講可能我們平常用的這些 ChatGBT 它這些 AI 大型語言 model 底下引擎蓋打開來是什麼東西是什麼運作的那真的技術層面成分比較高所以不見得適合每一個人但大家可以聽看看然後我們這次也會分成三開兩極

最近有人回饋說最近兩三個小時可能比較沒那麼好消化所以可能會嘗試回覆以前有時候會分上下兩集的這樣的模式看大家會不會比較喜歡所以你有什麼回饋盡量告訴我們

那當然我自己會因為集數這麼長是我自己的堅持我覺得一定的長度才有一定的深度嘛所以雖然我們平常錄音可能是 3 到 5 個小時以上已經把它濃縮成了比較精華版的時候謝謝大家體諒我這邊的熱忱跟堅持那

在开始之前呢我想再念一个淀粉加入淀粉自我成长大家庭的原因一个新的淀粉 Ashley 她说一直很喜欢淀粉体走走编之前也参加了别把钱留到死的读书会和 2025 年计划工作坊期待新一年加入淀粉大家庭做更好的我们谢谢 Ashley 好那我们接下来就进入这一集的内容 Let's go

嗨我是 Jackie 歡迎收聽 DMT 走走編那我們一起自我成長離開輸出圈做最好自己更好的我們今天很開心可以歡迎我們以前的上個 Podcast 的來賓 Alan 張宇安

Heptabase 的創辦人回到這個 podcast 我們上集其實 2023 的 8 月的時候上的所以 4 個如今已經 1.5 年以上應該是 5 月錄的 5 月錄但 8 月上對記憶力還比我好快兩年對快兩年了然後 since then 就是很多 updates 我們可以聊聊然後今天我們大概可以聊的東西是這兩年 Heptabase 怎麼樣 How's Heptabase doingHow are you doing 你的生活你的一些反思還有

还有一个很大重点是一个 ai 你刚出了一个 article 是你这两个月 what i learned about ai in the past two months

你最近这两个月就是把 AI 过去十年的一些技术的一些背景啦一些 innovation 重新读了一遍然后会讲一些我们未来离 AGI 多远然后现在的 LM 是什么让我们就是透过这个对话去让大家更了解 AI 的背景大家常用的 TouchBT 啦呃或大家常听到 AGI Transformers 底下引擎底下是什么东西 how does it actually work 啊所以希望今天我们可以用前行一种方法去解释一些 AI 的一些啊一些原理 so welcome back Alan

我不知道你具体的上次聊话聊的内容我上聊的时候其实我们有讲到 AI 一点点好像有这时候就是我们在讲 attention is all you need 那个 paper 的时候那时候你说你还没有看那个 paper 但是我们聊了可能 AI 对于 labor founder 的 market 对于劳工跟创业者的一些影响然后还有它新的可以

解决以前没办法解决的问题然后还有就是新技术可以带来新的生产力可以带来新的社会框架社会架构也可能会产生新的宗教你记得这个吗哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈รรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรร

不知道他最近出了一本新的 Nexus 对让你们看我还没看但我有一个实习生他有看他有跟我讲这样然后关于 Headed Base 的 update 你们 2023 9 月出了 Headed Base 1.0so congratulations 恭喜

然后在 product hunt 是很多人用的一个找新产品的一个平台 2023 得到就是生产力类别的冠军这个是 golden kitty award 金猫奖 so congratulations 拿了个猫咪奖杯真的有个猫咪奖杯吗对一个很现代风格的猫咪奖杯果然 HeadedBase 的公司我也跟大家介绍一下 HeadedBase 的

一些 context 然后你还可以帮我补充任何不得了的东西所以你们是 2021 九月成立的嘛然后在这两年间从三个人扩展到六个人我不知道现在是不是也是六个人现在刚好十个刚好十个人哇 OK 那时候你说过就是其实团队越小有越高的执行速度跟机动性

其实那时候你们背景是你们 YC 参加 YC 嘛是美国全世界最好的加速器然后你们 raise 了 1.7M 的 seed 跟很多企业软体公司不同的是你们从第一年就已经现金金流转正所以你之前说过你们其实没有用到任何投资人的钱也没有花费任何行销费用然后每年至少三倍的幅度在成长中 so that's awesome 然后那时候在 1.0 的时候你也说现在 1.0 产品大概只有公司运行的 10%

然后还有很长的路要走 so yeah that's awesomeon the 你最近的 hepthebase updatenice 然后也提醒大家一下 hepthebase 的 vision 是什么就是 to create a world where anyone can effectivelyestablish a deepunderstanding of anythinghepthebase ranging 是打造一个任何人都可以有效的对任何事物建立深度理解的世界 that's super cool 然后你也讲过就是在探索收集思考创作分享的这个

知识的生命周期之中 HealthyBase 1.0 希望打通收集思考创出这三个环节所以 1.0 的定位像是一个帮助你学习研究复杂主题的最佳工具然后你以产品角度来说你也把 HealthyBase 比喻成像 Apple 一样的 ecosystem 当大部分的用户在一个一打开产品就可以马上进入专注思考跟学习的心理的时候那你觉得这就是 HealthyBase 1.0 可以发布的时候

但我蠻好奇就是你怎麼知道大家可以一打開產品就直接進入新流這個對我覺得這個東西有幾個層面啦就第一個是我們怎麼去做這件事情這樣就是因為我們以前會做很多用戶訪談嘛那用戶訪談有蠻多不同類型的就像有的類型的用戶訪談是在專門去了解這個用戶的背景或者說這個用戶的 just-to-be-done 是什麼或者說有的訪談是為了去了解說這個用戶怎麼發現我們產品的那但也有的訪談是

就是专门看用户怎么去使用我们的产品或者说去看用户在使用我们产品的过程中遇到了哪些比较卡关的比较觉得卡卡的地方这样所以它其实是你会把很多这些东西不断的去一个一个挑出来一个一个去把它

算是补掉或者说像是把它处理得更顺畅这样所以所谓的打开进入新流就有点像说哎假设我今天用户访谈的时候我发现用户第一次使用我们产品的时候他做了某件事情比方说他把某个档案拖到白板上这是可能一个最简单的事情然后什么事都没发生 OK 好因为我们没有这个一开始可能没有这个功能嘛嗯

那但我们就多知道说哦用户在第一次使用我们产品的时候他可能会去把某些类型的档案从某个地方拖到白板上他可能会做这个动作那我们就可以针对这个动作去做一些相应的功能来让他能更快的达到就是用户他期待的奥康或者说可能用户他读了一个他创建了一个 PDF 卡片对那他可能就会在上面去选取一个东西然后他可能会期望一些事情发生那我们就是当然就是我觉得一个很重点就是要怎么去创造达到心理的产品就是

在用户要去做一件事情的时候他去尝试一个动作然后就他发现他 expected 就是他预期想要得到的结果就发生了这样如果这件事情能越容易的发生那用户的心流就越不容易打断那用户就能越容易的去专注在他可能原本学习和研究的那个 flow 的

而不会去说这边怎么没有各个功能或者说这边我想做这件事情但做起来好像步骤要很多这样那当然并不是说我们产品已经完美了就是说完全就是所有地方都不会有任何你停下来发现没有这个功能就一定还是会有但我觉得就是我们在推出 1.0 之前就花了非常非常多时间再去 refine 这每一个细节每一个维体验的那些 detail 让用户尽可能的做到说

好像这个产品能读他的信一样就是说他要做什么时候那个东西就 ready 在那边这样对

我觉得我们 take a moment 就是补一下前面的 context 因为不一定每个人都听过我们之前那一集第七四集我们那时候讲你在 YC 的新创体验跟你怎么样大量学习跟布局人生怎么样在连续辍学两次后来创业然后之前也还有就是去卖过便当在那个很多很有趣的你说创业之前的故事然后怎么样大量学习跟布局人生然后怎么样 arrive 到去创办 Heptabase 这样的一个笔记软体跟你的你的 life vision 是什么样子

我们也补充一下 Heptabase 是一个什么样的软体它就是一个视觉性的笔记软体

呃看你有没有什么想补充一下 Heptabase 的东西啊 just in case 就是我们在讲 Heptabaseupdate 的时候前面一些 contextin case people don't knowok 呃 Heptabase 是一个就是帮你学习和研究复杂主题的四句话笔记软体这样那就像你刚刚讲的它的重点是让你可以对任何事情建立深度理解也就是说如果你今天有一个主题然后你很想要去认真的去研究它认真去学习它理解它的话那你就可以用 Heptabase 来做这件事情嗯然后

然后 Headed Base 的话我们产品主要的功能它就是一个基于卡片和白板的系统那当然它还有其他东西但核心的东西是围绕在卡片和白板去打造的这样那卡片我们现在有非常多不同类型的卡片比方说笔记卡片就 Note Card 那它可能就有点像是

你使用其他笔记软体那种就是副文本的编辑器什么 Google Doc, Notion 这些东西就是笔记卡片另外我们也有一些像是 PDF 卡片像是 video 卡片然后 audio card 然后还有 image cardhighlight cardjournal card 就有些不同类型的卡片有些是不同档案类型它对应到一张卡片这样有些是不同的场景比方说 journal card 它可能跟笔记卡片是类似的但它专门是用来写日志的所以它会多一些日期的属性这样

所以用户就可以在我们的系统里去添加创建或是导入很多不同的卡片那这些卡片就是他的所谓的 knowledge source 就是他的知识的来源这样那白板的话就是专门用来去利用这些卡片去对某个主题建立深度理解所以白板通常是围绕在一个主题比方说可能我最近在学 transformer 那我可能 transformer attention 他就是一个白板这样那我可能只有学 reinforcement learning 的一些东西他可能又是一个白板那

那你就可以在这个白板里面去放很多就去把你的卡片放到这个白板上研究那你可以在这个白板上把大的卡片拆解成很多小的卡片或是你可以从一个卡片里面做 highlight 那把那些 highlight 拖出来变成新的卡片所以你就等于可以在这个白板里面去做这种知识的拆碎和充足或知识的创建和导入的这样的一个过程来建立你的一个

对一件事情的理解用视觉化的方式然后同一个卡片它可能可以在很多的白板中重复使用比方说你以前可能就是上了一门课这门课可能是演算法那你在里面就创建很多卡片每个卡片在讲一个演算法怎么运作的

那你以后可能你做一个 project 那这个 project 是一个 engineering project 它里面有很多这个 project 的 setup 就是跟这个 project 有关的 idea 跟这个 project 有关的一些你要用到的技术等等等等然后你突然发现说我想要 apply 一个我以前学过的演算法那你可以去演算法那个白板把那个卡片 import 到这个新的 project 的白板里头那你就可以

用這種方式去 reuse 你的知識然後讓知識可以在很多不同的場景裡面去不斷的去擴展然後不斷的讓你真的所學的東西真正可以就是為你所用的這種感覺

nice 那我想问就是刚刚你讲 heptabase 的部分因为我们上一次聊天的时候我记得有一段我们在讲 product market fit 然后那时候你说 oh we are pre-product market fitpre-pnv 就是还没有找到一个产品市场的吻合点然后我很 surprised oh you sure 就是 you've been positiverevenue positive 那已经很多很多 users 那从现在的角度看的话 heptabase 1.0have you found product market fit

我觉得是有的有的 OK 就是 Pro Market Fit 也是有很多阶段就可能 Initial Pro Market Fit 然后未来的 Expansion 以后又有新的 Pro Market Fit 这样子但我觉得第一个 Pro Market Fit 应该是就算是有达到这样所以你觉得 1.0 是定义你说 OK 我到 Pro Market Fit 我有大家所谓的这个丝滑的苹果体验那表示我确实达到 Pro Market Fit 吗

你是这样定义他的吗还是你怎么去定义这个事情其实我前几天刚好有在另外一个访谈然后他也问我 Pro-Market fitbut whatever 就是因为 YC 对 Pro-Market fit 的定义是相对严格的对这样就是你通常呃

你如果去看 Mark Andreessen 他有写过一些跟 Proper Market 有关文章你就会发现说其实大部分认为他们有达到 Proper Market Fit 其实没有达到 Proper Market Fit 这样子那当然 Proper Market Fit 的话就是几个条件就是 retention 然后 profitable 然后还有 revenue 就是你这三个东西都要得到达到一定的

benchmark 你才可以比较说说 OK 我现在是有 paramark fit 比方说 retention 的话你要说不同类型的 business model 它 required 的那个 retention benchmark 不一样那但是 overall 就是说你的 retention curve 要 flatten 就是说你要是平的这样不管是像我们是 subscription 嘛所以我们最重要的就是 customer retention 跟 usage retention

对那我们公司可能就会 track 说 ok 一个用户进来他到第 24 个礼拜 week24 的时候他的 usage retention 是多少以及他没有 flatten 到一个值这样那或者说 customer retention 就是

呃我们公司就有人订阅了这个产品呃过一年后还有多少人 return 就过到第二年有多少人 return 那这个 retention 的 curve 是不是 flatten 的这样那这个就是呃你这两个 curve 要尽可能的去呃接近 flatten 甚至完全 flatten 甚至微小就是你这样才会比较说是你的产品是有 power market fit 那第二个就是 uniconomy 就是或是 profitable 就是说你的产品要能盈利那你产品要能盈利对

它基本上就是说你不能 sell $1 but cost $2because like 你 skill 上去的话你就是一直在烧钱这样那盈利的部分通常我们比较关注的除了公司有没有盈利以外其实更关注的是 unit economy 包含你的 acquisition cost 也要算进去就是你 acquire 一个 customer 的成分对应到你的用户的 lifetime valuelifetime value 的 formula 就是 ARPU 除以 churn rate 这样

但 overall 来讲其实就是他就算说平均你一个用户长期上来讲他们每个用户会贡献多少营收那你这个用户的 LTV 要大于你的 acquisition cost 通常是 acquisition cost 只能占 20 到 30%这样才是一个比较好的一个 ratio 因为你后续还有一些 cost of good sales 或是其他的成本考量在里面这样

but whatever 就是 unit economy 必须要是正的 positive unit economy 那尽可能 profitable 那如果你不 profitable 的话你要有一个合理的理由比方说 ohyou reinvest 你所有的 profit on growth 那这样的话你可能账面上不 profit 但是你 unit economy 是正的没错这样

然后 revenue 的话通常就是一秒点两秒点的 AR 我印象中以前好像比较宽就是以前好像是一秒点现在好像到两秒点但对但就是因为 inflation 嘛或是现在的价格是 size 比较大这样所以大概就会有这些就是 ok 你要有 revenue 要达标然后你的那个 retention 要达标你的 unit economy 要达标然后这些东西全部算起来 ok 你有 power market fit 至少的 2 或 YC 他们

然后再来就还有说就是你要感觉你的成长就是怎么样怎么样的就是有一些感受性的东西所以我那时候当时的时候会说我们觉得还在有点 pre-profit 当然我们公司在成长我们 profitable 然后但我觉得就 overall 来讲还是有一些东西是可能我们也还不确定有没有因为我们 data 还不够这样但我们现在有三年的 data 了所以我们大概就知道说 ok 我们的那个用户他 overall retention curve 长怎样以及这个 curve 有没有在变好这样子

我看你之前就是回到你们的 YC 云年嘛对然后那时候你也说就是 YC 有 6%的公司到后来都变成像是 StripeAirbnb 这种程度的公司嘛对然后就我们这群人里面其实很多人也是可能会成为这样的 founder 对世界有这样的影响力你也说就是你既讨厌这种不安全感同时也觉得说真心渴望想要改变这个世界就是有这样不安全感也是不可或缺的然后会让你感觉到就是不确定自己是否能做到但就是想试看看的感觉

所以你其实公司到现在三年了吗然后像 Jerry 第一年其实你看到很多然后成长很多然后你有讲到说在做决定的方法也在随着公司成长也越来越不一样 Yeah I think it's really interesting 这三年的转变吗就是从想要改变这个世界然后到现在第三年了然后开始 scale 从三个人到十个人然后也搬到不同的城市

你在做这些决定的时候 maybe 讲第一个问题就是去 address 这个你所谓感觉到这个不确定自己是否能做到但就想试试看的感觉 I guess 你怎么样去 kind of sit with it 然后让它变成你更大的 motivation 是不是第一个问题

我们开始吧!第一个问题想问就是关于怎么随着公司成长随着你的成长怎么做决定?第一个问题是如何跟它坐在一起?在 YC 在 SF 在 London 看到的这个世界上很多影响力很大的一些创业家跟改变世界的企业对你什么感觉然后对你有什么样的启发?

我觉得好像也没有特别说要怎么 sit with it,you just sit with it,那个就有点像你说创业就是你在往下坠的过程中要组飞机这样,那你要怎么组,你就组吧,这样这样的感觉,就是 the fact is there,对,所以我会觉得本来你就会被一些你接触到的人所影响,as a founder 的话,

你总是会有更高的 ambition 你看到别人做到很厉害的事情你总是会想说欸自己能不能也做到同样厉害的事情这样子所以就是说事实就是事实那 you do your day to day work 这样我觉得你很能在你的 vision 跟你的 moderation 跟你的运行上这个伸缩自如的方向文章 rightyeahthe big picture 你的 life mission 跟 have the big mission 跟你每天要做的事情嗯

那随着公司成长三年之后你有个文章讲说就是认识自己跟认识公司是很像的东西就回到那个本质是我是谁对啊然后怎么样做正确决定嗯维持决策品质嗯那你觉得你这几年下有什么东西是你觉得肯定需要做比较大的决定是以前没有接触过的然后你对决策品质的衡量有没有因此这个时间改变

嗯比较大的决定的话当然有一些啦就是什么 Launch 1.0 啊开 Free trial 啊或是公司扩编啊我觉得这些东西通常都是相对第三个什么公司公司扩编招新的员工这样对一定是有一些相对大一点的决定这样子

那当然更多的是每天 day to day 无数的小决定对这个反而是更多的这样就是很多产品面上要怎么做要怎么做的这样的决定就像我一开始讲的我觉得毕竟做第三年了嘛所以 offs and downs and ups and downs and ups and downs and ups and downs 就是都是就是你会你会开始感受到它的周期有些 offs and downs 是每个月都会有的有些 offs and downs 是一年一次的有些 offs and downs 是一季一次的但 overall 它都会有个

就是你会慢慢的去看到这些 up and down 的 pattern 然后当你慢慢的看到这些 pattern 之后你就会就有时候你可能第一次说哦现在抽很快然后就我好爽我是不是做对了什么然后有时候哎现在怎么变慢了我是不是做错了什么哎怎么又变快了这样又变慢了这样那 in the end 我现在就是比较 whatever we dowhatever we result 那那所以所以我才会说就是知道自己想做什么还是比较重要哦

因为大环境一直在变嘛经济在变技术在变很多东西都在变但对我们来讲就是 OK 我们要做这个东西然后我们要解决这个问题我们接下来 SHIP 的这个版本可以让我们更好去解决这个问题嗯那我们把它 SHIP 出去那我们在下一个版本可以更好解决它我们再把它 SHIP 出去就现在我就是会比较专注在这件事情上对对感觉以前是数据比较少或是经历过的东西比较少的时候就是 Uptime 会让你每一次的反应更巨大 right 但现在是看久了之后觉得 OK

还是因为像就是回到初衷的感觉吗回到你是谁公司是谁你要做运行是什么 soas long as you're on the mission 其实那些上下都是蛮正常的

你可以去看他但你不能被他太大影响对就有句话叫做 10 year overnight success 就是就是所谓的很多很多公司他们 overnight success 但是他们在 overnight success 之前他们有 10 年的产品上的耕耘这样所以对我来讲就是说公司什么时候会达到那个愿景我们不知道但是我们知道我们现在做的事情是就是对于达到我们最高愿景绝对是就是在那个 path 上这样

那你有没有什么一些你觉得非常 up 非常 down 的一些可以分享的一些点吗非常 up and down 你要听 up 还是 down 对 start with up

哈?Let's start with upOK 其实我们的 up 跟我们的 down 有点像就是哦真的?我说好就是我们有一个公司的哲学就是我们希望能用最少的人就是我们要尽可能不 hire 人这样我们要尽可能的维持我们的精实的程度这样因为人变多就是逐渐迈向 bureaucracy 的过程逐渐迈向那种官僚制然后要一堆 process 一堆可能跟 deliver 跟把价值产生给我们的客户无关的事情而且人变多的话

CEO 也會越來越難知道公司現在發生什麼事情對所以我們算是以六個人的團隊堅持了非常非常久那但因為我們我們從 1.0 出來以後就是有一段爆發性的成長等於是我們人數沒有變但是我們的產品的用戶數成長三四倍這樣對所以

所以我们就现在进到了一个就是很多人都在 multitasking 的状态就是说你同时有好几个大的任务要做这样然后那时候就发现大家都有点 burn out 然后我也有点 burn out 然后也因为这样所以我们有一个 task 就是做到满后面才发现我们前面设计错了所以我们必须要把那个东西砍掉重做这样那东西做了两三个月

然后对所以那时候就 OK 就是一直在我已经花了两三个月在干这件事情了结果我现在要把它 undo 就理论上它还是可以用但是它对公司长期的愿景会影响到就是那个架构就是不 work 的所以那时候学到一个很重要的事情就是一个人不能同时间处理两件很复杂的事情你可以同时间你可以处理一件很复杂的事情和一些很简单的事情但你不能同时间处理两件非常复杂的事情特别是工程师这样那时候得到的一个重要的教训是这样子

然后所以也大概是在那个时候因为我们知道人手不足了但因为我们的用户变多了然后我们有很多 support request 这样子然后所以我就必须招新的员工但是在招新的员工过程中公司就变更慢了因为要招新的员工我就要花很多时间在面试然后而且我的工程师也要花时间出题目然后要面试所以招新的员工进来的过程

理论上新的员工招完都 on board 完了以后公司会变快但在那之前你会经历到一段更慢的时期然后我们就是一边就是在烧就是很多用户很多 request 很多什么然后或者抱怨说我们迭代数字怎么变慢了然后另外一边我们在努力的找新的员工然后新的员工刚招进来的时候就是还要 on board 他们然后又发现就是我们前几年因为全部都在开发所以我们写的文件箱有点不足

然后所以新的员工 on board 进来的时候要再去想办法赶快把那些文件补出来这样子然后新的员工说诶这个文件怎么没有那个文件怎么没有这样的 OK 我们赶快写赶快写好不容易把这些文件通通写出来才终于把新的员工都 on board 到他们可以 productive 的一个状态这样对所以一边是这样然后另外一边就是要不断找新的员工要不断补文件不断面试我那一阵子应该一两个月里面面了几百个人这样然后

因为我是第一关所以我就是我就在一直看履历之面一直看履历之面为什么你不是最后一关因为我们人力不足所以我不想浪费工程师的时间去过第一关因为第一关人一定是最多的然后再加上我也会有一些 culture 上的我要的人要有特质所以我觉得我先 filter 完是最有效的因为我觉得招聘就是 CEO 最重要的任务之一

那你刚刚说的这些你需要的一些 culture 的东西是你刚刚说的那些可能是比较 general 的一些特质吗就是我们公司最重要的一件事情就是我们的愿景就是我们的就是所谓的让任何人都能对任何事情建立深度理解然后我们在这个愿景上是有一些规划的就是说我们要做什么要做什么要做什么那绝对不是每一个规划都是对公司当下的 business 最有帮助的

就有点像我做什么 Dynamic Representation 这东西现在做下去是会用的你觉得不会那么多但有些东西我一定会是 Experiment 因为这个东西是 Align with our vision 这样子所以我们公司从创立一开始的时候就是我们就尽快进到 Profitable 阶段嘛就尽快进到盈利的阶段让我们可以不需要有筹下一个 VC Run 的压力然后并且就是做比较多 Cash Reserve 然后不去搞那种 Base Scaling

就是我们 marketing 只有 affiliate marketing 所以 affiliate marketing 就是说就是有客户是创作者他们想要 promote 我们的产品那我们给他一个 link 他们可以得到一些 fundraise 我们除了这个 affiliate marketing 以外我们没有任何其他的就是我们其他东西全部 90% organic

所以一定会有人他们加入我们公司他们是想象说他们想要加入一家什么独角兽公司快速上市然后 cash out 什么东西的这样对我来讲就是这种人会被我在第一关就 filter 掉就是我第一段会我就关注说他到底对于我们的这个 vision 就是他为什么会对我们 vision 感兴趣他有没有真的对我们 vision 感兴趣这样我会去戳很多不同的问题来理解这个部分就是对你来讲我们公司要达到目标这件事情

对你来讲是不是够重要的然后或者说你以前做过哪些事情可以说明你真的对这个问题是足够在乎的这样但我想要 question 你刚刚说就是一个人不应该同时就两个复杂的问题这个 lessonis that necessarily true 因为

这个问题好像显得是 contact switching 的问题嘛对不对嗯对但是如果你 properly contact switch 的话嗯其实一个人是不是可以同时解决两个很复杂的问题如果那两个问题不够复杂的话是可以的但如果那两个问题都超级复杂的话你就没办法 properly contact switch 了所以你能不能 contact switch 取决于那两个问题的复杂度 oh yeah 你不可能同时解各的把它拆向然后又解 transformal interpretability

但是你也许可以同时做两件困难的事情比方说你可以同时练羽球又练网球或是你可以同时去写程式但是又去中训然后或是就是我觉得对就是我觉得还是要看那问题是什么所以 it's very context specific 这样那因为我们的情况是我们出现那两个问题他两个都是需要很独立的去睡觉的时候都要去想他你才有办法比较好去 architect 但如果你去你去对因为他要考虑非常多 edge case 这样

对一个跟同步机制有关一个跟 collaboration 有关哦对所以你等于是要 design 两个 system 然后两个 system 蛮不一样的我但这两个其实是会要互相 interoperable 的话那两个不同的去 design 的话会不会 communication cost 其实更高啊所以你要把中间的 interface 建好就是等于是同步是一个 module 然后 collaboration 去调这个 module 的东西对对就要看程度啊就是我讲的就是要看你这两个任务是什么有些东西可能比较好一起做有些东西比较难

很多时候这种时候会某个 architect 这个可能是最高 level 的人就说你要做这个你要做这个然后他去当中间这个桥梁吗对去 interoperable 对但我们当时的情况就是我们

只有三个人哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈

对,然后我觉得 CEO 的蛮多 daily operation 比较像是 mentally hard,但不是 intellectually hard。对。对,但是,呃,像如果今天是在做那种数学研究,那就是 very intellectually hard,我不认为创业的过程中会遇到任何东西比某些数学研究还要困难。对。

但你會不會因此得不到你的 intellectualfulfillment 所以我才要研究 AI 我會說研究 HCI 研究什麼就是它一方面對公司有幫助啦然後另外一方面就是跟我們公司 long term vision 是有關的另外一方面也是就是你需要一些 intellectual assimilation 不然你都在做 operation 其實有時候蠻無聊的這樣對啊對啊

你前阵子也搬到英国去了对对对差不多去年的去年三月所以也快一年了对对对哇 OK 我看到你在部落格上有分享去英国的申请那个什么 O1 VisaGlobal Talent Visa 对 Global Talent 还有你们去找房子直接付了一年的房租太猛了笑死对对很有趣的故事

你觉得搬到英国对 Head of Base 有什么影响?就是,maybe 就是你觉得在英国生活跟工作感觉怎么样?我觉得对我的话是比较 focus 就是,有 change of environment 嘛,然后带一个比较陌生的地方这样子,然后你可以再重新去 build 的一个 routine 这样,然后,因为有时候在台湾待久了

会有点会有点腻吗我会说会太舒服了对对对然后再加上英国的话就伦敦至少那边也有 YC Community 然后他们伦敦的 YC Founder 的数量比整个欧洲还要多他可能仅次于美国的那几个就 Asia Big City

YC 那边有个分院没有分院但是他们会有一些 YC 的 meetup 我之前有去跟他们踢足球然后对然后伦敦的应该说 overall 英国这边的 research community 也是蛮不错的这样子就是说是做一些 academic research 也是有蛮多人才在这边

對我真的覺得在陌生環境會真的會幫助你 focus 因為你就是重新 build 一個你的 routine 重新 build 你的生活圈你需要什麼從零開始就只會留下這些真正需要的東西對在台灣久了會變成是有很多可能社交上的壓力啊或是家人什麼需要你去哪裡需要你做什麼就 ok 你就會

会心甘情愿开心的答应但是他会 take you away from other thingsrightok cool 既然你之前在已经讲过 pmf 那我觉得我们来讲就是因为你在 headspace 1.0 最后你也讲到说 headspace 2.0one of the things you mentioned isai 的能力跟整合应用嗯然后我们就可以从这个 segway 到就是哎你最近分享那个文章嗯你最近这两个月在 ai 上学到的东西所以这个文章分三个部分嘛对不对

第一部分講大型語言 LM 背後的技術原理還有 Transformer attention 的機制然後第二部分是 LM 過去幾年的發展趨勢然後什麼是 scaling law 然後第三部分是談到什麼是 AGILM 跟 AGI 的關係然後我們在 AGI 的路上還缺什麼那我們先從就是你為什麼會寫這個 article 或是為什麼會做這件事情開始我最近一直有一種感覺就是 OK

我觉得我们越来越接近 AGI 的这样的一个 feeling 但我同时发觉就是我在技术上对于现在在发生的事情并没有很深入的了解因为我本身不是这个 background 的所以 whatever I wroteit could be wrong 对我先先有个 disclaimer 就是我不是 AI expert 就像我在文章里面写的我对 AI 的特别是 deep learning 这一 part 的

理解大概就是我在當兵的時候那時候讀那個 Deep Learning with Python 這樣把那本書讀完所以那時候還沒有 Transformer 那應該是一因為說 Transformer 可能出了只是我那時候還不知道這樣我應該是 18 年 17 年讀的 Transformer 應該是 17 年 17 年出的對對對所以那個時候我讀的 AI 還都是比方說主要在講 Convolutional Like Work 然後 RNN LSTM 然後或是 GAN 這樣那時候看到蠻多在講 GAN 的東西

那当时读完以后后来就觉得哦这个东西蛮有趣的这样但没有特别继续的去深入然后到后来就是开始有这些 Chad GPT 或是 language model 出来各种 advocation 出来那我们比较多都还是在可能使用它但一直因为工作很忙嘛所以一直没有时间好好地去研究这些就新的这些技术它实际是怎么运作的或者它原理是什么那我就觉得说

我每天都在看到很多别人对于在讲这个 industry 要怎么改变然后对 AI 的未来做出预测这样但 it's not first hand knowledge 对那我就想说我希望我可以用我自己的方式去理解这件事情这样那这样我才能比较清楚知道一些比较关键的问题比方说未来这几年就是 AI 的发展然后他们对我们产业的影响具体的影响这些东西是什么这样所以起心动念大概是这样子

OK 你今天會想講的很深嗎?Do you wanna go deep?Up to you! Up to you!因為你只跟我說你要講這一篇你沒有跟我說具體會 cover 到就是是不是會全部 cover 到對我覺得如果全部 cover 肯定會有點深啊所以我覺得我覺得我們可以從簡單開始然後 naturally 更 deep 然後

上一集发开的时候我们聊的东西也蛮深的,but more like a scientific, 就我们讲 relativity,然后讲 philosophy, religion,people loved it, 大家很喜欢那一集。我们可以以简单为目标,但我们不用特别的去 hold back,and then anything that's really, 非常难的东西我们可以用简化方式去解释,我觉得 that's really cool,but yeah, we can start with, 什么是 LLM?

large language model 大型语言模型对够简单啊对不过他就很有趣他其实就是一个他就那个游戏就是我先跟你说我是嗯然后我就问你说下一个字是什么嗯你能不能猜出来嗯那如果我有你的 contact 我可能猜说哎下一个字可能是张嗯那下一个字可能是语嗯在下一个字非常非常 99%可能是暗嗯

其实 LM 就是一个给他很多很多文字然后跟他说好你去猜这个句话下个字是什么可以这样形容吗你刚刚讲的更精确来讲是

某一种 LM 就是 Decoder 然后而且是特别是用比较自回归的方式 Auto regressive 的方式去训练出来的模型对那但因为 LM 就是 Language Model 对 Large Language ModelLarge 就是大型的那所谓大型就是它可能很多很多的 Parameter 因为我们的 Deep Learning 的 Neuronet 就是很多的 Weight 就是很多数字这样嗯

然后 language model,model 当然就是模型,language 就是他在处理的是语言类型的问题对,那所以 LLM 就是有点像是专门去处理 NLP,natural language processing 的比较大的这些模型那它有点像是,就是你要处理 language,这些 NLP 的问题你也可以用小模型去处理对,但是近年来的趋势就是

大家不断把模型越变越大那这背后就是当然就有一些跟就是我们刚讲的嘛 attention 的这些出现是的我们发现我们这个东西是可以 scale 的所以有 scaling 的我们才会有 Larger language model 对所以在其实在 2017 那个 google 那个 paperattention is all we need

出来之前以前的 deep learning 跟这些这些 AI 的东西是 sequential 的它是一个可能像我们如果讲说刚才是如果你要看一本书你要把这个书里面的智慧拿下来以前可能是一个字一个字去 process 去 encode decode sequentially 那现在的 LM 刚刚讲的 attention 它可能是等于是一次把这本书里面所有的字一次去吸收

嗯然后因为他是一次降息之后他还可以用数学的方法把它变成很多不同的阵列没确实阵列吗啊对就比较精确来讲的话是说

以前因为 language model 在处理这些 sequence processing 的时候要 sequential 的去 process 那 sequential 是要一个一个 process 嘛所以你如果今天要 process sequence 很长的话你的 training time 就会非常长所以我们通常就不会有太大的 model 但是因为我们现在的 attention 它可以做 paraprocessing 可以做平行处理

能做平行處理的話那就是錢的問題就是說你只要就時間就不是問題了因為所有東西都是 parallel 在發生的這樣子對對呃因為我覺得你剛剛講這個剛好可以講一下就 attention 之間是 RNN 嘛對那我可以大概講一下之前是怎麼處理這種類型問題好就是呃 NLP 有一個蠻比較經典的問題就是 sequence to sequence 這樣就是你有 input sequence 然後你要輸出一個 output sequence 對因為大部分的語言的問題都是 sequence to sequence 的問題 OK 比方說

你在跟 ChadGB 对话,你在做 question and answering 你的 input 就是一个 question sequence,你的 output 是一个 answer sequence 或者说你要做 summarization,你的 input 就是一篇文章,你的 output 就是一个 summary 所以它的 input output 也是 sequence 你要做 translation,你 input 是中文,output 是英文所以它是 sequence to sequence,这样所以 NLP 它有非常非常多的东西都是在解决这个 sequence to sequence 的问题 NLP 的中文是什么?自然语言处理,就是 natural language processing

那 Seq2Seq 的问题它的传统解决架构就是你要有一个 Encoder 一个 Decoder 那 Encoder 会把这个 Input 的 SeqEncode 成一个就是 Representation 就是一个编码成一个东西这样子然后 Decoder 就要去把这个东西去解码把它 Decode 成 Output Sequence 比方说你把

Input Summary encode 成某个 representation,然后 Decoder 再把它 decode 成 Output Summary 这样子所以 Seq2Seq 问题的比较经典架构是这种 Encoder Decoder 的这样一个架构那 Attention is all you need 或是说 Attention 的机制它主要影响的就是你怎么去实作这个 Encoder 和 Decoder 因为在 Deep Learning 这些 Encoder Decoder 就是 NeurNet 嘛

Neuronet 它就有很多不同的架构比方说以前你刚讲的那个 Sequential 的就是一个逐一处理的那就是 RNN 的架构就是 RNN 叫 Recurrent Neural Network 对

那, 传统在可能 R&N 的或是这种 Recurring Architecture 的 Encoder & Decoder 你就想象一下 Input Sequence 我们就举个简单的例子好了就 Input Sequence 就是一句话就是可能我今天来参加访谈这样,这是一句话然后每一个 Token 我们就先简化我们就说是每个字这样子对,因为 Token 不一定是字它可能有其他不同的 Encode 的方式或是一个字可能两个 Token 对对对好,那就是你今天有一个 Input Sequence 那你要把它翻成英文就是我们刚开始中文嘛那

通常就是 RNN 的架构的话他会拿第一个 token 然后去建立一个 hidden state 然后一个 output 然后这两个东西会到第二个就是他会传到第二个东西上然后第二个东西会拿第一个原本的 output 和 hidden state 拿下一个 input 然后这样一路传这样一个字一个字在猜嘛对对对在算演算

对不算是财但是就是他要做训练的过程中你要去 process 你就是每一个你每一个东西都需要上一个 token 的 hidden state 所以你上一个东西要先算完了你拿到那个 hidden state 以后你才能去算下一个 token 为什么会说他是 hidden statehidden state 因为他不是 output 他就是中间某个中间的产物这样但这个中间的产物在中间会被用到这样

所以 RN 的话就是说你逐一的 process 这些 token 然后你每一个 token process 完都会有一个 hidden state 然后最后全部 process 完后会有最后一个 hidden state 那那个东西会在 decode 的 decode 的时候会去用到最后的那个 hidden state 这样子对那我们的类型就是 token 这件事情它可能是一个字可能是一个声音可能是一个 pixel

它就是任何 AI 的 input 我们就要 token 对就是它 token 对它也可以是一个字根或一个字首这样因为就是这种 token 就是你怎么去 tokenizer 写 tokenizer 其实有很多种东西什么像 GPD 可能是用一个叫什么什么 by pair encoding 就是那个东西可以很难写这样一个字可以分成很多的 token 什么之类的然后各种的像你说的对

但是但我们以简化方法就是可能你可以想象一个 token 是一个字对这是最简单的一个字母或是一个单字或是什么的因为你可以说你就是你的 token 你可以选取不同的可以说是一个知识单位对不对可以这样讲最小知识单位或是符号单位对这样符号单位可能更

更精准 OK 这样 OK 对好好那 RN 的架构就是说我们刚刚讲嘛每一次你 process 这个 token 都会有 hidden state 这样然后你最后会用最后的 hidden state 和一些就是你 decoder 会用到最后的 hidden state

但这种做法就是说第一个它的训练时间很长因为如果你 input 的 sequence 有十万字好了你就要一个一个 process 完你到第十万字你才能把它完全 encode 完成那我们如果看全身完它就不需要它就是一起就是 parallel process 一次对那第二个是就是资讯压缩就是说你把所有的东西有点像是全部都 compress 到最后一个 hidden state 所以你 decode 了在 decode 最后的那个 hidden state 的时候那个东西是

呃一定会有 information loss 的所以你的 sequence 很长的时候其实你 decode 的就是你的表现就会不好这样对不管是性能的表现还是 result 的表现都不是很理想对等于说你看一本很长很长的书如果一个这个这个看的话到最后可能前面的都忘记了对对对可以这样形容对然后那另外当然就是呃

当然还有一些就比较 technical 像是什么 gradient explosion 就是因为你这就是 sequence 太长了然后对然后你在做 gradient descent 的时候就是有些数值会爆掉这样所以才会有像是什么 LSTN 或是 GRU 他们就用一些 gating 的机制来让你可以做一些更长的 sequence 但它基本上

逃不過那一個所謂的你很長就他們還是不擅長處理這種很長的 sequence 對 training time 確實 training time information loss 就這些東西確實都有點像是這種遞回的 model 的結構下就是會比較容易遇到的問題這樣

那 attention 的机制第一次被提出来的时候他其实那时候有点像是说他一样是用 RN 的架构但是他在 deco 在 deco 的时候他不是只看最后一个 hidden state 他可以去动态的去选择说我现在要 deco 这个 token 的时候我要去关注哪几个 hidden state 这样哪几个 token 的 hidden state 所以我们所谓的注意力其实有点像是说我今天我要 deco 这个 token 那我要去对哪几个 tokenpay more attention 或者什么时候 attend to 这样对

对这个 paperattention 是澳语你中文会怎么讲注意力就是你需要的一切是这样翻的吗对应该是注意力是你需要的一切 OK 对然后这边注意力就讲说我们在 process 不同的 token 资讯的时候符号的时候我们随便去把我们的注意力放在不同的符号上然后动态去调整然后用一个 transformer 的方法去陈列然后去让他可以自己去

彼此挑选他们彼此的关系对你可以想象说像是一本书里面所有的字他们之间会有一些上下文的互动的关系那 Attention 这个架构就可以比较简单的去呈现这些他们之间的关系可以让他们自己去自我调整可以这样形容吗大概就是对就是看你要对哪些东西给予更高的关注在这个脉络下那当然就是 Attention 不一定只有在 Transformer 就是因为 Attention 在 2014 年就有了然后那个时候就是在 RNN 的架构下

去实作 attention 那 attention is all you need 的重点是说你不需要 RNN 就是你只要 attention 就好了所以它才可以有那一大堆 power processing 因为 RNN 的话都还是会有那些 sequential 的那些就是处理 long sequence 会很久的问题对所以如果以前就 attention 那 2017 是说 RNN 不需要 RNN 然后它在 attention 上做了什么样的一个 innovation 如果是 transformer 的话就 transformer 一样就是 encoder decoder 嘛因为它一样是 sequence to sequence 的架构这样子

我想想这可能要先讲一下 transformer 大概怎么 work 假设 encoder 是一个 10 个 token 的 sequence 或者 10 个字的 sequenceok 那他就 encoder 他就 encoder 出就 10 个 vector 这样然后 de-coder 就会再把这 10 个 vectorvector 总共是什么向量向量对所以 matrix 是矩阵对矩阵可以去 transform 一个向量这样向量 ok 对

所以对不起去举这个象征的意思是说你 apply 一个 vector 在一个 matrix 上就像是你一本书里面很多字但你全部把它调整一下之类的你 apply 一个 matrix 在一个 vector 上对然后所以这个 matrix 会对这个 vector 做 transformation 对而且因为是 matrix 嘛所以它是 linear transformation 这样子

那如果你是个方正的话好了就假设这个 vector 是三维空间的 vector 然后你有一个三乘三的方正对那你就可以去对这个 vector 可能做 rotation 这样子对那如果你是可能五乘三的或是三乘五的三维空间的 vectorproject 到一个五维空间上这样所以它可以做 projection 这样子等于是个集体制造运算对不对可以这样形容

对像是资料的 transformation 对的这样子知道转换跟运算对这就是为什么大学要好好学线性代数就是你就发现就是很多东西都会用到就是这些东西

好那回到你刚刚那个的脉络所以对 Transformer 的话它一样是 Encoder Decoder 但它就没有用到 RNA 架构它只用到它其实很单纯它 Encoder 就是很多个 Transformer Block 那每个 Transformer Block 会包含一个 Attention 的 Layer 跟一个 Fee-Forward 的 Network 大概就这样 Fee-Forward 其实就是最简单的 NeurNet 就是说你一层一层 Probably 给过去这样子对那 Attention 的部分的话它就是有点像是说

如果你看过那篇 paper 的话你会看到所谓的 qkv 就是 query key 和 value 这样子那其实就是对应到一个 attention head 的三个矩阵这样子对好什么是一个 attention head 然后这些 qkv 是什么我用一个简单的例子好了对就是假设你有一个句子那我们刚刚说我看一个 token 的时候我要 pay attention to 其他 token 对

那我要 pay attention to 哪几个 token 呢就如果这里有十个字那我问你第九个字现在在这个 attention 汉里头他要特别关注哪几个字他可能会关注第一个字和第三个字对吧但他也可以关注第二个字或第七个字啊所以你有不同的 pay attention 的方式

所以每一个 attention head 都会有它独特的 pay attention 的方式所以像 Anthropic 他们在做那种 interoperability 的研究他们就发现说有的 attention head 它专门在做 induction 就是看到前面有什么 pattern 后面就去 fill 什么字这样子对

对,那,呃,总之你想象一下如果你今天有一个小说好了,这样,那你今天你要关注一个字的意思,但是你可以用不同的角度去关注它,你可以用时间的角度去关注,你可以用空间的角度去关注,你可以用那个一些形容词的角度去关注,所以你不同情况下,the way you pay attention is different,that's why you have different attention head。所以所谓的 multi-intention,其实就是我们可以比喻它是一本书,然后你有不同的专家去用不同的方法去解读这本书,一个是物理学家,一个是律师,

对不同的字有不同的敏感不同的注意的地方的方法去解释它然后这些不同的 multi-attention 组合出这本书的架构的资料就会变得非常的各种的 perspective 都会包含到可以这样形容吗对这个 analogy 应该算是对的对对对但就因为具体是怎么发生就是这是 interoperability 的问题就是你很难说他到底怎么关注的那他是一个 research problem 对对对但是如果用 analogy 来讲确实就是每一种 attention 代表某一种

观念对就某一种 the way you pay attentionit comes from the perspective 就像说如果我来形容一个句子然后我想去讲说这是一个什么蓝色然后很大然后很毛毛的一只狗从颜色角度的话我就会注意到 ok blue 对然后从它的触感或视觉角度说 ok fluffy 狗我就要注意到这些不同的字对或是说有种 attention 它可能就是专门注意形容词那另外一种专门注意动词也有可能这样对对对对

但因为我实际上也就是我没有很仔细的研究过 interoperability 所以我觉得这种就是有点像是说 OK 直观上我们可以这样理解就是说 there are different way to pay attention 那你刚刚讲的严格上你刚刚讲的那叫 multi-head attention 就是有不同的 attention head 那当然因为后来其实可能我们在优化性能所以会有些不同的变种像什么 multi-query attentionmulti-latin attention 就是就有很多新的变种但 transformer 的 original paper 就是 multi-head attention 就是说你

这个 input token 进来以后它会遇到好几个 attention head 每一个 attention head 会决定一种 pay attention 的方式然后它经过这 attention head 之后这些 token 的 vector 就会被移动这样子我觉得这边可以补充一个东西这样会比较好理解就是说如果我们今天有一个句子嘛那它里面就是很多的 token 然后每个 token 就是理论上它一开就是一个字但你要怎么样把它变成一个 vector

就是你一定要先做这一层这样所以你会有一个所谓的 embedding layer 会把每一个字就是你把字先 tokenize 以后你再把这些 token 去转换成一个高维空间的一个 vector 这样所以整个 encoder 就是这些 vector

就是每一個 token 變成一個 vector 了那我現在就是要透過好幾層的 attention feed forwardattention feed forwardattention feed forward 然後把這些 vector 移動做一些移動移動移動然後移動到一個可以幫助我最後達成我要達成的任務的一個位置這樣就是你說這些不同的字被移動其實另外解釋方法就是說其實同樣一個字在不同的上下文很多不同的意思對

所以我们这样做需要把它放到一个 vector 或是一个 matrix 上用意就是要它可以在各种不同的 contact 下有不同的意思可以这样形容吗应该这样讲为什么我们要把每个字变成一个 vector 对

首先这是因为在一个 vector space 里头我们就会有很多的参数对很多的运算对比方说两个 vector 如果很近的话就代表他们的意思很近很近就是说它内积起来是比较大或者说 vector 可以有加法减法嘛对就比方说我们之前就发现说

如果國王是個 vector 然後女生也是個 vector 那你把這兩個 vector 相加起來他就會變女王這樣然後或者說如果

鸟是一个 vector 然后攻击性是个 vector 然后加起来就变老鹰这反正就是对就是整个 model 他会在 high dimensional vector space 里面学习到对就是这些语义的向量的这些对关联这样子或者说他们的运算规则所以你今天如果你有一个句子那你先把这个句子

投影到就是把它转换成就是这个 vector space 里面的 vector 然后你让一开始已经是 randomized 的但是你训练训练训练后这个模型就会学会那些 vector 的规则

那所以这是为什么要用这些 vector 就是要 project 到把 token 变成 vector 的的比较重要的原因那当然你变成这些 vector 之后刚刚讲的 attention head 或是 feed forward network 就他们比较像是说我们一开始的时候就这些 vector 嘛但是我们希望他们可以透过 pay attention to each other 嗯

的过程能学到更多 contextual information 把这些 contextual information 加回这些 vector 这样你在做比方说你刚讲的 predict the next token 的时候对你会更 context aware 要怎么做 prediction 因为你在这一层又一层的 transformer block 里面你已经

透过对于很多其他的 token 的 vectorpay attention 的过程得到了很多新的资讯对所以我们把所有的字放到这个三维空间里面去来表示他们的意义跟他们跟其他字的关系关联的接近度是多少是一个数学方法去表达每个字的 context 所以像是假设一个句子说

hairy is 嗯然后这个其实后面是什么字其实很多可能对但如果他这个 context 更多更多 vector 可能前面字有什么在讲 Hogwarts Harry Potter 然后就是 oh hairy is a wizard 就可能他是个巫师对但如果你的 context 是英国皇室什么的哦在讲英国的东西英国的历史那可能 hairy is a prince 对就是因为你的 vector space 在哪里会前面上下文有什么不同的东西

然后用 vector 的方法去找它相近的距离然后去 predict 下一个字是什么可以这样形容吗对就是最重要的事情就是 you pay attention to previous context 对你对于前面的那些 token 用很多不同的方式去 pay attention 进而使得你能更容易的去达成你接下来做的任务这个任务可能是 predict the next token 对但也可能是做 translation 也可能是做什么就看你 model train 的 objective 是什么那当然就是以 transformer 来讲就是它的那个架构是可以用在不同的 task 啊

那你可以定义不同 objective function 但是如果你单纯就是用这种因为 de-coder 也会有这些 transformer block 那 de-coder 它专门就是在做 predict next token prediction 的这个 task 那你确实你一层一层的 attention 这样下来确实就能帮助你去 predict 说下一个 token 更可能是什么东西这样子 okok 所以我们刚讲的可能就是

LM 是什么怎么样去形容 LM 然后 LM 它在 LM 之前 2017 之前其实已经有 attention 但它没有还是用 RM 的模式在一个字一个字的方法来处理到现在的 LM 之后加上 transfer 然后把这些东西都放在 vector 上其实我们就可以 process 更多资讯 at once 然后它们之间的关系每个字之间的关系每个 token 之间的关系也更清楚在一个 vector 里面 OK 那我们刚才讲的就是 multi-head attention 其实 attention 它是一个

你怎么去看你的事情然后 attention 包括你的 qvcqkvqkv 对就是 qkvqkv 就对就是如果你今天有一 sequence 那对你现在这边 sequence 有 10 个 token 那你拿一个 token 当作 query 对

那你拿其他的 token 当作 key 那你就去做一些 inner product 你就可以算 attention 然后你再可以把每一个 token 去 compute 的一个 value 然后你就用这个东西加权那你就可以算出你现在这个 token 的 vector 要移动多少所以说 qkv 应该说 qkv 它对应到的就是三个矩阵就是可能我们就说 wq wkw 就是这三个矩阵一开始都 randomize 因为它因为模型就是要学这三个矩阵的数值是什么对

比方说 WQ 就是说它是一个矩阵它 apply 在现在这个 token 的 vector 上它会算出一个 query vector 那 WK 它 apply 在一个 token 上它会算出一个 key vectorWB 它 apply 在一个 token 上它会算出一个那个 value vector 那你有了 query vector 有 key vector 你算出那个

一些 attention matrix 的群众然后你再用这个东西去加权最后的那些 volume vector 你就可以知道怎么要去 move 这些东西那不同的 attention hat 就会有不同的 wqwkwb 所以刚刚讲的说他学到怎么 attent

WQWKWV 其实就是你怎么去 attend 的这样的一个的数值化的一个矩阵那这是整个 model 在 training 的过程中他会去不断的去 update 这些矩阵的值那当然他会 update 其他的就只要所有的 machinery 都会 update 但最重要的应该就是这些 attention 的值这样子对所以 attention 可以说是很多的 QKB 组成的然后 QFA 如果他可以讲是 query key value 对不对对那如果用

我尝试用个稍微白话一点的方法解释但准确读你的方再帮我纠正 ok 他很像是说一句话我的 query 就是我会问一个问题说哪些形容词然后他 key 就会帮我去找到那几个字是需要 pay attention to 然后 value 就是这个东西他最后需要 pay attention 的量是多少可以这样形容吗我想一下 value 那边可能不能但是 ok 对但 q 和 k 这两个东西会算出你要特别注意哪些 token

那 Value 是决定说你最后算出了这些 Token 以后那你要怎么去移动所以 OK 但对这边确实对没有学过的可能会有点抽象我用一个比喻好了好就是我是一个 Token 那

那我在经历了一个 Tension Blocker 的一个 feed forward 以后我为什么会移动呢因为我看到了很多其他的跟我有关的 token 然后我把这些东西 factor 进来了所以我现在变得有更多的 context 了所以我要移动到一个更精确的一个位置

所以 value 最主要就是决定我要怎么移动的那 Q 和 K 就是 query 和 key 是用来去算说我在移动过程中我要去比较多的去考虑哪几个 token 这样然后你移动了你所谓的你移动的位置就是你精确要去的位置这其实都是相对于你的环境里面适合你在的地方对吧就是在这样的 context 下我的位置更准确应该是哪里

嗯对就是对像刚刚看到说我看过哈利波特看到什么那我知道 Harry 的位置应该是离巫师比较近对然后如果看到是因果皇室那我觉得哈 Harry 的位置可能是离王子比较近可以这样形容吗啊对就是 ok 啊也也也 depends on 就是你这个 model 训练的 objective 是什么就是如果你训练 objective next token prediction 的话那理论上你最后会移动到的地方就是那个 next token probability 对这样子哦 really coolok 嗯

所以 Attention is all you need 那个 paper 那时候的 innovation 那我们也可以讲到就是 Comogolo Compressor 这个东西这个也是从那个文章里出来的吗从那个 research 里面出来的吗不是这个是那个 OpenAI 的 shift scientistformer shift scientist 那个 former shift scientistIlia 就是在一个 talk 里面讲的这样子对我想一下这要怎么讲呢你说 Comogolo Compressor 这个东西吗 Comogolo Compressor 好

我试着形容看看然后你在纠正我 OK 好他因为现在语言模型越来越大嘛嗯所以这个 compressor 他就是压缩这个压缩器他就想办法让更多的资讯可以压缩在更少的单位里面嗯所以与其说我给你一个句子说我现在很开心我可把换成一个 emoji 一个笑点 emoji 那就是表达我同样的意思但是更小单位去

表达所以不断的 compress 找到最简单最短的方法去显示一个资讯这样形容准确吗嗯

我给你一个 definition 就是应该算对的就是说应该说我先讲什么是 common goal or compressor 因为这是很简单的概念就是如果你今天有一个 infinite sequence 那你要怎么去找到一个 program 来 generate 这个 sequencewhat is the shortest program 就最短的那个程式是什么那

就是 comagora complexity 这样所以如果你有一个 0101010101 那你 comagora complexity 就是 01 然后 infinity loop 这样这是这个 program 那 program lamp 就是 comagora 就是这一个 sequence 的 comagora complexity 这样那

要讲到这个东西之前可能要先就是对因为对因为这这里有这里有一个就是呃为什么我要谈到 common core 那他的他的大前提就是因为我们把整个 language model 比喻成一个巨大的一个 compressor 一个巨大压缩器这样我觉得我先先回到 transformer 那边我补一点 context 这样对就是我们刚在讲 transformer 的时候我们不是说有 encoder decoder 这样

那 Decoder 其实也就是里面就是也是很多 transformer block 他训练的就是 next token prediction 这样就是

如果我今天有一个 sequence,encoder 会先把 sequence encode,但 encode 完,如果那个 sequence 是 10 个 token,它最后 encode 完还是 10 个 vector,这样,那 decoder 就要把这 10 个 vector 去做 decoding,那 decoding 的时候它可能会,它长度可能是 random 的,因为你不确定它会 decode 多久,那为什么长度会是 random 呢?因为 decoder 会去在 decode 过程中去 pay attention,

to encoder encode 那十个 vector 这样所以有点像是说 encoder 决定了 k 和 v 但 decoder 有它的 q 这样那所以 decoder 它一开始是空的嘛一开始没有没有 decode 任何东西这个是空的它第一个 cycle 的时候它就算利用这十个 vector 去预测一个一个 token 然后它把这个 token feedback 回来

然后再以这个 token 为基础和那十个 vector 去预测第二个 token 然后再 feedback 回来然后再预测第三个 token 再 feedback 回来再预测第四个 token 他就这样所以我们说自回归 auto regressive 就是他会不断的 predict 那我们刚刚讲的 de-coder 会拿他这边当做 q 然后 encoder 那边的 kv 就是那十个 vector 那这个东西叫 cross attention 那 encoder 那个叫 self attention 就是说他 q kv 都是自己的但 de-coder 的话是 kv 是是来自那个 encoder

Encoder 然后但是 Q 是来自 Decoder 对所以你刚讲到一个新的概念是 Cross-Attention 对这就很像是说我今天把英文翻译成中文就是一个 Cross-Attention 对就是你 Encoder 先把对中文 Encode 成某个 Vector Space 上的 Representation 然后 Decoder 再透过 Cross-Attention 去把那个 RepresentationDecode 成英文对这样那因为中文英文就是 Language is a finite set 就 Fintite Symbol Set 所以反正它就是去算

下一个 token 的 probability 那 de-coder 什么时候会停呢里面上它可以无止境嘛但它通常就是它会预测到一个 token 叫做 end of tax 那预测到以后 de-coder 就 stop 了那这个它就完成了这样子所以我们会说 de-coder 就是在做那个 next token prediction 这样那

像 Chad GPT 这样的 model 应该说 OpenAI 他们就是专门在做 Decoder only 的 model 这样,也就是说他们没有拿 Encoder 他们就是拿 Decoder 他们就拿 Decoder 出来然后去训练他就持续拿很多资料很多资料去训练他做 Next Token Prediction 的能力

也就是说他就不做 cross-pension 了因为他没有那个 encoder 他就是去念说我今天给一堆 text 然后你要去以这些 text 为基础去训练 next token prediction 所以在过程中你会做些 masking 就是说你有一个句子那你前面这边有嘛那后面就 mask 掉然后你去念你 predict 下一个 token 的能力然后看一下说 predict 好不好这样子因为你是有答案的这样我觉得这个东西它有几个比较重要的 implication

首先第一个 implication 是什么?第一个 implication 比较像 general implication,就是说 Transformer 的出现使得你今天你在训练语言模型的时候,第一个你解决了 RNN 的训练时长的问题这样子,然后因为你东西可以 parallel processing,所以你可以训练很长很长的 token,然后再加上 attention 的机制,使得你不论你的 sequence length 多长,你都可以表现得很好这样。

然后再加上 Decoder 这个 Next Token Prediction 使得你可以用 Unlabeled Data 去训练你的 Model 所以这些东西加在一起

有点像是它造成了整个 language model 越做越大的一个关键原因以前 language model 做不大是因为你处理很长的 sequence 的时候你要花很久你也表现不好而且你不一定有那么多可以用的资料这样但你现在你花的时间变快了你表现又很好你又可以拿 internet 上 data 去 trend 就是如果是 computer vision 就是计算机视觉的话

我们常常会是要有 Label Data 的就是说你要有很多图片然后你每个图片都要有一些 Label 说这个图片里有什么像 ImageNet 这样那但是呃 Natural Language Processing 它的问题就在于说我们没有那么多 Label Data 这样然后我们又不擅长处理 Long Sequence 但我们现在擅长处理 Long Sequence 的然后我们又可以用 Unlabel Data 在 Decoder 这个 Next Token Prediction 用 Masking 的方式去 Trend 所以基本上整个 Internet 都是我们可以用来 Trend 的 Trend 的东西嗯

可以说是以前就是我们会有 supervised learning 嘛就等于说要 label 的 data 所以说可能我给你一百张图片都是有咖啡杯的图片然后这个 label 就说 coffee cup 然后 AI 看久了就知道说 ok 这是 coffee cup 这样就训练出来那现在你在形容的是说我们现在不需要人工去 label 说这是什么我就给你一串字所有网络上所有的字都丢给你然后你就直接把

我是然后后面盖起来然后透过这 contact 去训练他把这每个字他的的 contact 跟他之后可能会下一个字为什么的几率一直拉到最高然后这个是不需要人工去说下一个字是什么他就是直接是 data 给他让他直接拿去自我学习自我训练就很像是说你今天要学一个新的语言对我不用给你一个字典我不用给你一个教科书我直接就把一堆

韩文三一大里面去你就哦原来韩文这样你就会了对对对对就是 unsupervised learning 这样 unsupervised learning yes yes 所以 transformer 的出现使得我们可以在很多的这种 NLP 的自然元处理的任务上

做 on-super-5 learning 这样然后那个时候那时候 OpenAI 他们就是拿 Transformer Decoder 然后训 GPT 这样那 GPT 的一个很重要的发现就是说我如果先 train 一个 decoder 那 decoder 的训练就是 next token prediction 嘛它的 objective function 是 next token prediction 然后我在这个 GPT 上我稍微针对一些不同的 task 做 fine tuning 然后用少量的 label data 做 fine tuning 对然后结果它就可以在这些 task 上表现非常好

这是个很厉害的发现就是说 CV 也会这样做嘛就是说 CV 就计算机视觉你也一样你会拿很多 Data 去做一个 Pretrain 的 Model 然后最后再针对一些比较 Specific 的 Task 去做 Find Tuning 但差别在于 CV 用的是 Label Data 然后 GBD 用的是 Unlabel Data 所以这是比较大的差别就是说哇我拿这么多 Unlabel Data 我只要做 Next Token Prediction

我最后我 fine tuning 就可以非常非常的简单这样子那就可以用很少的 label data 再去做 fine tuning 这样那某种程度上就是说这些这是 decode 在 pretraining 的阶段就已经学到非常非常多跟 language 有关的重要的结构了所以我 fine tuning 的时候我不需要那么多的 label data 我就可以把它做得很好那 OpenAI 出 GBT 然后后来 Google 他们就出 BERT 这样那 BERT 就是

改成那 Transformer Encoder 然后他用不太一样的 Masking 机制用一样弯形天空的机制然后一样去训练预测然后因为他拿更大的参数拿更多 Data 所以表现比 GPD 好然后但 OpenAI 他们就继续 scale 这样就是他们就再拿更大的 Primary Size 就是更大的 Model 然后更多的 Data 再继续 Train 然后他一路就是 GPD2GPD3 他其实是越做越大嗯

那做到越来越大的时候他就发现说 OK 我甚至连 fine tuning 都不用我可以做 in context learning 就是我在 prompt 里面去给一些例子他就自然又来学会那个 task 了这样子所以

所以我们所谓的什么 Zero shotFew shot 就是说 Zero shot 就是你完全不给他例子他就可以解决这个任务 Few shot 就是你给他几个例子他就可以解决这个任务那这些东西就是你好像 model 不断的 scale 上去以后他就可以学到更 general 的 capability 然后做越来越多的事情这样你说的 Fight tuning 就很像是以前我们会需要该去回馈跟他说谁样的答案是好不好

然后慢慢去调整它那个计算过程 Find Tuning 的话可以做很多不同类型你刚讲是其中一个叫 Reinforcement Learning with Human Feedback 就是说 Summa Summa Summa 那当然就是我刚讲的 Find Tuning 比较像是说它可能针对特殊的 Task 去做 Supervised Learning 的 Find Tuning 所以你会需要一些 Label Data 这样

所以就是 language model 越大的话它就可以做到很小量的 funtuning 在不同任务达到很好的效果甚至可以不用 funtuning 做到 in-context learning 那我觉得这是整个从 transformer 出现

一直到 large language model 最主要就是这一段历程啦就是说 transformer 的架构 transformer 的 attention 机制使得大家可以一直去 scale model 因为你一直 scale 你就可以达到更好的表现更好的成效那刚刚讲的那个 comagorov compressor 他就是有点像是去尝试去解释说

为什么会发生这件事情就是为什么 scaling load 会发生那或者说为什么你只要拿 next token prediction 去训练一个非常非常大的 model 那

那你就可以用很少量的 data 在针对特殊的 task 去做 fine tuning 还达到很好的成效这样然后我印象中 Iliya 当时给的一个 analogy 就是说你把整个 language model 想象成是一个巨大的 compressor 巨大的一个压缩器那这个压缩器就是你给他整个 internet 的 data 然后他就去 compress 它这样那如果你今天有两个 dataset 我们先讲压缩器就是假设你今天有两个 dataset

把他们分开压缩和把他们一起压缩你觉得哪一个会压缩更好一定一起啊对因为一起压缩的话他会找到一些 share structure 嘛对所以他找到 share structure 他就可以利用那些 share structure 去得到更好的 compressing 的 compression 这样 compression rate 对那所谓 compression 就是在找一些可能这些资料之间的一些共同架构跟公式之类所以你有越多资料的话你就可以用简单的方法去表达更多的资讯对对

那如果你今天你就把想象成是 Next Token Production 这种 On Supervised Learning 你把它想象成是第一个 Data Set 那你 Find Tune 的东西是第二个 Data Set 那一样的就是说如果这两个东西它们有很大程度的 Share Structure 的话那是不是你如果一开始的时候已经学到了一整个很好的一个 Compressor 它里面把很多的 Share Structure 都学到了

那你就不需要那么多 level data 对你就可以进一步的在这样的基础下去学会新的东西就是去把新那个 specific 任务做得非常好所以所以他主要是就是他用的 analogy 就是说如果你把整个 language model 想象成一个 compressor 的话那你可以解释为什么我在做大量的 next token prediction 训练之后

我可以用非常少的 fine tuning 就达到很好效果这是这个 analogy 的就是数据训练的量越大你需要 fine tuning 越少嘛就是你需要调整越少就是越准对就是很 simple 的概念对那最主要对这东西当然直观上是算能理解但是就是说

Unsupervised learning 以前最令人困惑的地方就是因为我一开始训练目标就是 predict next token 这个东西跟什么 question and answering 那些东西完全没有关系对但为什么我 fine tune 的时候我那么少的东西我就可以表现好因为我原本训练目标不是这个但是我最后用很少的资料在这件跟我一开始训练目标无关的事情上竟然可以达到这么好的效果这样我觉得这是 unsupervised learning 最一开始比较让人困惑的因为我们没有一个 mathematical framework 可以去解释

这件事情就是我们当然事后看合理就是说 okthere's a share structure 但是 why is there a share structure 那如果你用

compressor 的角度去想的话就会发现说 ok 这东西好像可以用这种方式去解释 compressor 的 analogy 大概是这个对所以从 chatgpt 1 到 4 它其实差别就是资料量的差别然后其实 AI 这种东西就是它的 model 其实对我们来说是个 black box 就我们其实没办法去 debug 它为什么会产出那个字它就是这些一堆训练结果出来的就是所有的 vector 里面最后产出 predict 出来的结果对

所以很多时候哎呀如果会和路斯内会会幻想嗯这其实也是蛮正常的但我们没有办法去底爆因为他觉得我们来说是个黑箱对我们是可以去把这个黑箱拆开来研究的就是对就是花很多时间在做这件事情这里呃我觉得这里呃因为因为你刚刚讲到是因为跟 skeleton 都有关吗对然后我觉得这里还有一个很重要的点就是说嗯

如果你把 LN 想象成是一个 compressor 一个 very large 的 language compressor 然后你知道我们的 deep learning 的圈名就是用 gradient descent 去想办法去 update 这些参数所以某种程度上你可以说你就是在用这些 gradient descent 想办法搜寻到一个最理想的 compressor 你想办法透过 gradient descent

在一次又一次的 training 的 cycle 里头去更新去搜索到那一个最理想最好的 compressor 那个 loss function 最小的那个 compressor 这样所以整个 model 训练过程就是一个在找寻最佳的压缩器的最佳的 compressor 的一个过程

那但为什么到底为什么 Common Ground Composite 重要呢他在这个 computing 下唯一的用途就是因为首先他不可计算 It's not computable 他不是 Turing 对 Not Turing computable 也就是说你花再度的资源你都无法找到这个东西 OK 那这代表什么呢这代表什么呢

这代表你永远可以变得更好但永远不办到最好所以 skilling though 就是说就是你没有天花板的那种感觉吧一直可以更好但没办到最好对就 theoreticallyyou have a larger modelyou have more datathen you can get a better resultthat's howskilling though meansright 就是你可以一直 skill 一直 skill 然后不会碰到天花板 pretraining 的天花板就是 common core compressor 但那个天花板人类有再多的运算资源都碰不到所以你唯一可能会为什么再多运算资源都碰不到

都碰不到因为 it's not computable 无法计算对无法计算这样子就是你不管有再多运算资源再多时间你都无法算到那个东西这样这个是对 computational theory 里面可以 theoretically prove 的东西这样我们可以去 provewhy chromograph compressoris incompatible 那一旦我们 prove 这件事情了

那么就可以说 OK 因为我们现在用的所有的 training 都是 turing machineit's turing incompatible 所以我们达不到那个东西 but we can try tolike get closer to itmaybe not approximatebut get closer 就靠近那个 compressor 这样那 if we have more dataif we have a bigger networkthen we can get closer to it

或是那个 depointment get there 就是 singularity 对如果没有 hypertuning 超图灵计算对就是每一个 step 都比前一个 step 就是都是一半的时间的话也许我们可以做一个有限时间内逼到 corner complex 的一个 training 但那个东西就是对我们现在是没有看到这个未来的对那

所以我们就会说 pre-training 的天花板其实是 data 但如果 data 没上线的话理论上你是可以 pre-training 是可以变得非常非常好的那另外一个可能会限制 pre-training 的成效的就是 computing cost 我们说 pre-training 那些分数它要 linear 成长你的 model size 那些 computer 要 exponential 成长所以一定到某个阶段它可能超越了人类头脑 GDP 之类的那我们就算 theoretical 可以做到这件事情但就没钱做

从这个 context 在讲刚刚讲 LM 然后 Transformer 然后 Compressor 从 GBT-1 到 4 这些都是在一个 Large Genre Model 的一个 framework 底下然后我们刚刚讲到说 Singularity or like 我们可能所谓俗称的 AGI 就是 Artificial General Intelligence 就是所谓的中文怎么讲通用人工智慧通用人工智慧等于说这个 AI 已经像人类一样的办的智慧跟灵活运用的情况之下就所谓的 AGI

那你刚刚前面也讲到说你觉得我们离 AGI 越来越近嗯也是让你想要去做这些研究的一个初衷对那 language model 要带我们到 AGI 其实还有很长很长的距离因为它只是个 prediction 它只是像刚刚讲在猜下一个字是什么的一个运算的一个机器对的压缩器那什么是 AGI 呢就其实这个定义也蛮有趣的对你在我们上次讲过说 AGI 是在各种环境都可以呃完成 task 的一个机器人对所以

可能说你可以解决一个很厉害的数学的公司但如果你不能 figure out 怎么去弄个 sandwich 弄个很简单的东西的话那就不是 AGI 对就是可以在对那是 Google DeepMind 的定义那也是我自己 personally 比较 follow 的定义因为这个定义是可以去 formalize 可以去 measure 应该说它是 intelligence 就是说它的问题比较像是说我们要怎么 measure intelligence 那 Google DeepMind 的 co-founder Shane Leck 他在他的博士论文就是花很多时间在探讨这个问题这样

那如果说比较口语化的定义的话就是 an AI agent that can accomplish a lot of tasks in a wide range of environment 而且 perform well 就是说他在很多不同环境里面执行很多不同任务都能执行得很好所以这边有三个关键词就是不同的环境不同任务而且很好很好的话就代表他有所谓的好或不好他是可以 quantify 的你可以去量化说什么是好什么是不好

那所以一个 AGI,General Intelligence,他就是说他在很多不同的任务上,就同样一个 model,同样一个 AI agent 在很多不同任务上都能表现得很好,那像你刚刚讲他可能可以下棋,他可能可以玩游戏,他可能可以做菜,他可以开车,他可以回答你问题,他可以做机器翻译等等等等所以为什么 language model 会让人更关注 AGI 是因为我们刚刚讲了嘛,他

可以在不 fine tune 的情况下把很多不同的任务都做好所以他一定是比在这些 large language model 之前的那些就是可能针对某个 touch specialized model 在这个定义下是更有智慧的这样

虽然以前就是第一次 AI 打败一个那个什么围棋的冠军的时候大家说哇 AI 很强但他只能做那件事情所以不是个 general 的 intelligence 对当然就是 Google 他们就是后来是可以就是用类似的架构去做出那种可以在很多游戏里面都可以表现很好的

所以某種程度上就是因為他們也是要想想做 AGI 嘛不然他們不會花那麼多時間做 reinforced learning 然後去做那種可以同時打很多遊戲的 agent 這樣對但這樣還是不是算 AGI 他只是一個在遊戲裡面可以表現好的一個 agent 這就 dependent 說我們我們剛講是 intelligence 要怎麼 measure 這樣那就是看他在所有不同環境的表現然後出去做個加權這樣子

但是 human 就是我们通常说 AGI 的时候我们通常是跟人说 human level AGI 对也就是他在所有人类擅长的环境下都能表现得比人类还要好对那当然你要是表现得比所有人类都还要好还是表现得比平均人类还要好还是表现得比 PR99 人类还要好我觉得 everyone has different definition

但重点就是那些人类在乎的环境下你都能表现得很好的话那我们就会比较愿意承认说这个东西是 human level 的 artificial general intelligencehuman level AGI 那当然就是 Shangri-La 的它 original 的定义是比较 formalized 的定义就是比较 mathematical 的定义那比较 mathematical 的定义

我们刚刚讲人类环境比较就是任何环境这样对那什么叫任何环境呢所以他其实是用一个用一个 reinforcement learning 的 frontward 去想这件事情因为我们刚刚说什么是什么叫表现好吗这件事情就到底要怎么去说你这个表现是好还是不好这样

那你就想把你丢到一个 environment 里头然后你在这个 environment 做很多事情然后并且在这个过程中可能会得到一些 reward 并且这个 environment 的 state 会改变然后就是你看到的 environment 会改变然后你在做新的 action 然后新的 reward 然后 observe 新的 state 这样子那所谓的表现好的意思就是说可能就是你

long term 上得到的长期的回报是最好的那这样就是表现好 long term 上得到长期回报比方说下围棋好了就是你可能中间都没有 reward 但是你最后赢了就有 reward 输了就没有 reward 这样那对那

那或是解数学问题之类的就是中间没有 reward 但就是解对了有 reward 解除了没有 reward 这样所以你 technically 你可以把任何的环境的任何的 task 和 reward system 把它编码成一个 sequence 就是你可以把它按时间按 time step 说现在这个时间点的我的 observation 是什么我的 action 是什么然后我拿到什么 reward 然后再然后再下一个时间点 observation action rewardobservation action reward 所以你可以把

任何 possible environment 通通都 encode 成一个 sequence 这样

所以史上最强的 AI 他可以做什么事情他可以做到的事情就是他在任何的 environment 里头他都可以 maximize 他长期的 expected reward 那问题就是说到底要怎么做到这件事情如果我们今天有无限的 compute 有无限的时间无限资源的话我们要怎么去打造这个史上 theoretically 最强的 AI agent 这样这个就是那时候 Shenlake 跟他的

博士指导教授 Marcus Harter 他们在研究的东西然后他们就提出了一个 framework 叫 AXI framework 这样那 AIXI 对 AIXI 对那 AXI framework 它其实就很单纯讲结论就是你有超强你有史上最强的 sequence predictor 再加上 Bluetooth search 你就可以做到这样就是所谓的最强的 sequence predictor 就是说我们刚刚讲说就是我们把所有的 environment 和它的那些 reward 把它 encode 成一个 sequence 嘛那

你一个 agent 在 operate 的时候他只能看到前面的一部分的 data 但最强的 sequence predictor 要能给予这部分 data 去有效的去做 sequence prediction 比方说我现在有 observation action reward 然后我有一些 data 比方说我今天去我要买股票好了这也是一个 environment 一个 task 然后他有长期 reward 我现在只有 historical data

那 sequence particular 就是说我看到这些 historical data 那我现在开始 boot flow 是说如果我这个时候做这几种不同的 action

那他后续会发生什么事情我做一个 prediction 然后我就可以去找到那个后续的期望的 reward 最高的那个 action 那我就去做它所以理论上你有这样一个 theoretically the most powerful secret predictor 然后再加上 booth for search 你就可以做出一个在任何环境里面都最强的 AGI 如果我们用下棋的环境来讲

就是子隆就等于说他可以在每一步都预测下步最好的步可能是什么但我同时也可以把所有的可能的每一步都算出来就所谓的不分是把所有的可能性都算过一遍对最后找到那个最好的可能性所以同时可以预测同时可以演算所有可能那一定就是最好的

可以这样形容?对,大概可以了。就是超强的 Sequence Predictor,它根据 Historical Data,它可以去做 Prediction。然后,并且你再有一个 Buffal Search,这是 Theoretically 最强。那当然是做不到。就是那个 Sequence Predictor 也是 Incomputable 的。就是它叫 Solomon of Induction。Solomon of Induction 就是一个史上最强 Sequence Predictor。那它的 Predict 的基本的原则是,

尤其像我那篇文章要举个例子就是智力测验的例子对就想象一下你今天我给你一个字串叫 01 01 01 对请问下一个数字是多少很难说吧可能是 0 对它可能是 0 可能是 1 嘛对但如果它在智力测验的话你会填多少 0 对吧那你觉得为什么你会填 0 它也可以是 1

就是 pattern 看 pattern 猜就是因為你如果想像說就是這世界上有無限種 program 它可以生成一個 infinite sequence 的開頭是 01010 這樣但是最短的 program 就是最 possible 的 program 這個叫 Alkane Razor 就是 Alkane T-Login 就是如果有無限種解釋的話我們認為最簡單解釋是最可能的解釋所以 Solomon induction 就是說

我给你 01010 那请问下个数字是多少的时候他可以告诉你下个数字是 1 的几率有多少下个数字是 0 的几率有多少

他具体怎么做呢他就是把所有的 possible sequence generator 都找出来那因为每一个 program 他都你都可以找到一个最短的程式嘛对所以每一个 program 都有他的 common goal complexity 这样那你就用这个 common goal complexity 去做加权那你就看有些 program 他们下一个数字是 1 有些 program 下一个数字是 0 但你做了这些加权之后你 overall 你发现就是

因为你认为 common goal capacity 越低的那个是越可能发生的所以 01 repeat 无限次这个 program 最短所以说它可能在这个加权过程中 contribute 更多所以下一个就是 1 的几率更高那所以这是 theoretically 我们可以找到的最好的 predictor 因为它基本上就是如果我们人类就相信奥坎提到法则认为所有满足当前 data 解释中最简单的还是最可能的话

那同样的就是如果我今天给你一个股票的 historical data 那我现在 apply 什么 normal induction 上去的话他就可以预测下一个东西是什么的几率是最大的但一样

not computable 就是 Solomony induction 是 not computable 的一个东西所以你也是没有办法找到这个 sequence free tip 为什么说它是 incomputable 可能性太多吗因为你 Solomony induction 是要算说下一个数字是 1 的几率是多高吗或者下一个 token 是什么的几率

是有多高所以你要有那个几率值但你要怎么有那个几率值你要穷取这世界上所有可以产生 01010 的 program 那这个数量无限走所以你没有办法你没有办法真的算出分母是无限所以对 theoretically 这个东西存在但 in computation 你没有办法找出这个东西就像你没有办法找出 common growth compressor 即便你知道这个东西存在但你找不到它

对所以那个 AXIE 我们刚刚讲的那个最强的 AGI 它就是你会想象成是 Solo Mode of Induction 加 Boo for Search 但这个东西就是理论上最强但是实物上我们找不到这个东西但我们可以我们如果只是要做 Human Level AGI 那个东西是理论上最强嘛人类本来就不是什么理论上最强的

所以不需要所有的可能对对对所以就是像 deepmine 他们就会做一些比方说像 alpha goal alpha zero 就是他们的 search 又不是 proof false 他们就是 multicolor tree search 或是一些变种这样子所以他不需要真的去遍历所有东西但他在就是训练或 test time 的时候做 multicolor tree search 一样可以打败我们最强的围棋的骑士这样那 sequence predictor 呢就是

你就看 Transformer Decoder 本质上就是个 Sequence Predictor 对吧就是即便这个不是理论上最好的 Sequence Predictor 但是它还是一个

已经比所有人类都还要好的 sequence predictor 所以整个我们说我们要打造 AGI 的这条 path 里面其实现在看起来最 promising 的架构就是你要有一个非常非常好的 sequence predictor 然后你要在上面 apply 一些 search 所谓的 reasoning 那这个 sequence predictor 它的用途

它就是一个所谓的鲜艳知识一个 deep learning 的 prior 就是因为 deep learning 最擅长的事情就是做 pattern matching 我觉得我们刚刚就讲了一些词我们可以把它整合一下就是说我们讲 sequence predictor 我们讲 compressor 我们讲 pattern matching 我们讲 learning 就这些东西在这个 contact 下是同一件事情就是有句话叫做科学就是在做压缩科学家我们会找出一些 equation 嘛

那些 equation 怎么找出来就是我们看的非常非常多的 data,我们透过归纳法,然后透过各种方式我们去找到一个公式,这个公式可以去 predict future data。所以 compressor is a predictor,but it's also induction, it's also learning。所以很多人会说 de-coder 就只是在预测下一个 token,但是

他要能做到预测下一个 token 而且还预测非常准就代表他已经学到了非常非常非常多很重要的 pattern 这样所以重点不是说 Decoder 在做什么事情而是说 Decoder 为什么能做到这件事情所以 Decoder 能做到这件事情就是因为他学到了他学会了非常非常多的 pattern 他学会了非常多的 knowledge 他学会了非常多就是甚至连人类本身都还没有学到的东西这样

所以 decoder 才可以这么强所以说 transformer decoder 它就是一个 deep learning 的 model 那 deep learning 的 model 擅长的就是这种 learning 这种 pattern matching 这种把很多很多的东西 compress 起来变成一个 compressor 这种做 prediction 它就擅长做这件事情那当然这件事情它就很取决于你的 training data distribution 就如果你 training data 就这些那你可能这个 model 在这个 data 内的东西

就是在这个 Training Data Distribution 内的问题它都可以解决得很好但是如果是位置的人类位置的问题的话单纯靠一个 Transformer Decoder 一定还是很难解的或者甚至大部分都是解不出来的因为它那些位置的问题就不在这个 Training Data Set 里头

那我们通常怎么去 approach 位置的问题呢?就是位置的论体理论上,你就是要去 try 各种不同的方法嘛,所以你就会去做这种 complementary,就是组合式的搜寻这样,你搜各种各种可能性。那但是你就会发现大部分的位置问题,如果你去暴力搜索的话,就是那个搜索复杂度太大了。那所以如果你把两个合在一起,你就会说 OK,我这个 deep learning prior,

它有点像是 provide intuition 就是你还是需要做搜索但是你有了这个 deep learning prior 以后你的搜索空间可以降低很多那这个就有点像我们的人类的系统一系统二嘛就是我们 system one 我们做很多 pattern matching 然后我们就是我可以想都不想要就说很多话那这句话不一定 make sense 它有可能 hallucination 有可能有 arrow 这样子但如果我现在停下来呢我开始思考然后我可以利用我所已知的东西去

已知的一些拍子人去针对位置问题去做一些 search 的话那我就可以更进入到这个所谓的 reasoning 或 problem solving 的这样的一个那个过程所以

像是 Chad GPT-01 或是 O3,它基本上也是一个所谓的就是有一个 transformer decoder 这样的一个 language model 的作为一个 deep learning prior 然后但是它在上面去做 search,那它 search 的是什么呢?就是它 search 的是一个 channel thought

就是说它有点像是它利用这个 language model 去生成一个 tree of thought 然后它用了一些 reinforced learning 的方式去给这 tree of thought 里面的每一个节点一些 reward 这样这个叫做 process reward model 它跟我们刚刚讲的那个你说好或不好有点像但不太一样的地方是说以前的 RLHF 都是在根据结果就你拿到结果然后你说这是好的这是不好的

然后 model 就会去学习什么是好的结果什么是不好的结果这是 Outcome Reward Model 的训练那 Process Reward Model 的训练是你给这些 reasoning step 那你针对每个 step 你都可以有一些 reward 不管它是一开始可能是 human label 的比较 supervised 的方式去给这些 reward 或是说到后来 AI 也可以自己去给 reward 但它就可以让 model 更容易的去 search 到就在这个 tree of thought 里面去 search 到一个

比较好的 Chain of thought 因为 Language model 这些 Large Language Model 他们可以做 In-context learning 他们可以透过 Chain of thought 去做 Reasoning 这里面的研究其实就是之前有发现说我今天对一个在面对一个 Language model 的时候我跟他说 Let's think step by step 这样就是一步一步的思考他表现会更好或者说你甚至把每一步要想什么都给他他就能更接近正确答案

那 reasoning 就是现在的 01,03 的这些 reasoning model 就有点像是说他想办法去产生更好的这个 step by step 的 reasoning 的 path 然后把这东西作为 prompt 去 prompt 你的那个 deep learning prior 的 language model 然后就发现说这样我是能更容易的去 leverage 我的这个 prior knowledge 来针对新的问题找到正确答案的

所以就是 Reasoning Model 就已經不是單純的 LLM 了它是 LLM as a Dependent Imprior 在上面 Apply Search and Reinforcement Learning 所做出來的一個 Model 然後我們就發現說如果花越多時間在 Search 上我 Search 當然一樣就是我如果把 Search 的 Compute Exponentially 成長那我的 Model 的表現會是 Linear 的成長這樣所以理論上

你可以透过去 scale 这些 compute 来解决用这个人工虚化度去解决更难的问题嗯我这边稍微整理一下刚刚讲这个脉络我觉得这是从我们刚刚讲 LM 到 AGI 中间一个很重要的一个步骤 right 就是我们刚刚讲 GBT1 到 4 是怎么样把一个以前的资料训练到你可以

预测下一个就像你的直觉你觉得下一个哦应该是这个对一个直觉出来嗯那我们刚讲到新的 gbt 的 model 是 01 跟 03 嘛对那这其实是更高层次的的思考模式吗呃的的训练模式然后他的他的方式跟我们刚刚讲我们刚中间还讲一个 agi 就是如果有个最屌最厉害的一个 ai 他会长什么样子对就是我们假设他会长什么样子他就是讲 ok 他可以

很准确的猜到下一个可能但同时也可以把所有的可能都算过一遍对就把这个世界上所有可能的的情况环境参数跟结果都知道的话当然你很容易去预测接下来会发生什么事或是给最好的答案但是这个是 incomputable 是算不出来的东西对所以我们就是能越接近去它越接近去这样的算法越接近它这样的一个

这个理想的架构能做出的东西是什么就是刚刚讲就是呃 gpt 01 跟 03 的这个这样的架构他组合就是那个 sequence prediction 跟 search baseright 对就是说他不像是说以前说那个呃你下这一步赢得几率多少他很会想说哎我这样思考这个 train of thought 这样的思路脉络

对不对然后直接在脉络上给他回馈对不是给他结果上的回馈对就是哪一条 Channel Soul 更能逼近正确答案这样所以你很多时候就是要给一个问题然后给一个正确答案然后用这个东西来用所谓的 reinforcementfine tuning 去找出更好的 Channel Soul 对其实如果要比喻一下群众的话他可能有点像是说以前的 ChatGPT 可能会你刚说的故事就是说好你帮我写的故事我要说这只猫在森林里面然后遇到了一个人然后怎样怎样怎样对他可以很轻松把这个

他后面的这个故事写出来但那故事可能如果很长的话变成一本书它可能是一个毫无逻辑或是不能说毫无逻辑它可能不是一个很 sophisticated 不是一个很有逻辑或者很有脉络的一本书它就是一个故事但如果你用这样子 01 03 比较有 reason 的 model 去算的话他就可能会写出那想一下那这个猫有什么样的个性这个故事有什么样的框架这个环境有什么样的架构那我们怎么样的方法去迭代去拼出出一个很合理跟很有故事心理的故事然后又包含了更高层次更成熟的意义

它这个是有思考脉络的一个演算法然后刚刚你讲到就是 system 1 system 2 我就证明我可以稍微 expand 一点因为这个概念来自于一个诺贝尔的心理学家叫做 Daniel Kahneman 然后他一本书我很喜欢就是 Thinking Fast and Slow 他讲说人类有两个大脑 system 1 和 system 2 那 system 1 比较像一个直觉你接到介绍一些资讯你直觉性反应什么那 system 2 可能是你会停下来去思考说 ok

我们逻辑跟一些其他咨询跟过去的一些东西去思考说 ok 呃我觉得怎么反应会更好嗯其实我们这个 AGI 就是这个 O1O2 就更逼近人类大脑思考模式有个直觉性的反应也有一个逻辑性的框架在帮我们找到最好的脉络嗯这是不也酷对我这样总结应该比喻应该算是算准确吗对应该对对想哈哈哈

对然后你刚才讲到一个概念就是说应该说这是一个更策略性思考的一个呃的 AI 的算法吗很有可能是带我们更进 AGI 的一个因为更贴近人类思考的方式更贴近我们大脑思考的方式嗯呃那你刚才讲的另外一点是什么 scalingtest time computeright 就是怎么在呃给他更多运算的脉络更多的一些资源嗯那可以说是让他想更久就是说好

你在解决这个问题之前你再多想想这个步骤怎样是更合逻辑把这麦多想清楚之后再去解决的话这个效率会更高然后这个是 linear scalable 对吗就是你 test time compute 如果是 exponentially 成长的话对你的 model 的表现会是 linear 的成长

但对你要怎么去面对处理这个 exponential 当然就是有几种做法第一种是 more slow 或者说就是等那种就是 NVIDIA 不断出更屌的晶片那里面上你的 computation 就 cause 就下降那第二种就是 model architecture 上的改进这样比方说像我们前面有讲到 multi head attention 对

那但这可能不是最 efficient 的做法这样就是我们常常会有呃因为他有 qkv 那但就会有所谓的可能 multi query 或是 group query 的架构或是像 deep seek 最近有什么 multi latin 的架构他可能就可以把那个 k vector v vector 就是对 up 做一个 up down projection 到一个 latent space 里头那这样的话你 compute 的时候你的 kv cache 就会少非常多你的计算成本也会大幅下降这样

所以我觉得让计算成本下降本身就是一个人类在过去几十年来一直在做的事情这样但因为 Explanation 就是你就是拿一个 Explanation curve 去对决另外一个 Explanation curve 所以就是你要看哪一个 curve 长得比较快那 Wait can you elaborate 就是就是我说另外一个 Explanation curve 就是说就 more slow 对对对这就是 Explanation curve 嘛计算成本在 Explanation 的下降

但是你 test and compute 要让分数线性成长你投入的计算要指数的成长对所以一个在指数下降应该指数成长那啊我觉得对那当然就是最重要的还是说我们到底需要多少 compute 在所有我们人类在乎的问题上都能解决的非常好对这样那如果我们发现说哎我们追上了那那就是一个对人类来讲很重要的一个里程碑那当然我觉得

这边还有一个很重要的一点就是说我并不是在说刚刚这个就是 LN as a prior 再加上 search 就一定可以抓 AGI 因为 LN 其实有一些就像你看杨力克最爱嘴的就是 LN 有很多的缺陷比方说它就是一个完全基于 language 的一个 model 所以 language 是一个 finite 的就有限的符号集吧这样讲就全世界所有 language 就那样

但你如果叫 LM 去开车他开不了这样那如果你说 AGI 的话他应该能开车吧我说如果你叫 LM 去学怎么打棒球或者什么的就是这些你做不到这样那

最大的关键还是在于说就是我们人类是有能力在比方说我们看到世界上很多东西然后我们是可以就是在与世界互动中去建立我们对这个世界理解也就是所谓的建立一个 world model 然后以这个 world model 为基础去做 future planning 然后去 take action 去学会一些东西这样子那等于是说我们在这个过程中我们会这个 world model 我们会对这个世界去建立一些 abstraction

然后利用这些 Astraction 来帮助我们做事情那 Language 的话它有点像是

作弊我说作弊就逃避了这个问题嗯就是说因为 language 本身就是一个已经被 abstract 后的结果嗯所以你拿一个已经被 abstract 后的东西来去训练你当然表现很好对但如果你拿没有被 abstract 过的东西比方说你拿一个 video 然后你要去做 next frame prediction 那这个东西就是我们现在做不好的东西就是现在的这些 architecture 还没有办法做得很好的东西所以呃所以你如果看那个

就是现在很多大厂像 openai 他们在做 sora 对吧然后或者说 google deepmind 或者是就他们他们我忘记名字叫什么但是前面这次也做了很多 world simulator 的东西这样然后或者是 navidia 说有一个 cosmos 然后就是专门去 simulate the world 然后有更多的这部分的 training data 然后又或者说

像刚刚讲的 YoniKong 好他在做 Jypa 这样 Jypa 就有点像是在做 video prediction 的时候你去把中间的这些 frame 先去 encode 到一个 abstract representation 然后在上面一样用那种 self-supervising 的一个方式去做 prediction 这样就是这些东西就是我觉得这里就一定还会有一些就是我们还没解决但需要解决的问题就是怎么样打造真正的 AGI 的话因为我们讲他如果要在所有人类擅长的 task 上都能做得比人类好的话

那現在的 language model 以現在的這個反應趨勢的話一定還是有很多東西是他做不到的然後像 language model 還會有一些其他問題像是我們現在沒有所謂的情節記憶這樣他當然在同一個 context 裡面可以記得他跟你講的很多東西但如果你開個新的 context 他就沒有辦法把過去就其他 conversation 的那些記憶去建立起來但人類是可以不斷的去建立情節記憶的那

雖然你 somehow 可以 argue 說那我嘗試去做一個 infinite context 的就是 context window 好像就可以解決這個問題這樣但這樣就是有點作弊這有點像是說我說我只要有一個無限的 working memory 我就不需要 long term memory 但這兩個東西運作方式反而就不一樣然後現在的這個做法現在的 language model plus search 的做法也還不擅長做一些 planning 有關的東西那另外

在面对 out of distribution 的问题到底能解到多好也还是一个未知数就是因为你很多你现在训练的时候很多东西可能混在全力大家 set 也是你才能 benchmark 表现那么好这样但有时候有时候你把一些题目它的一些数字 tweak 一下或者说你给他去建一个完全全新的问题那他能表现的多好

这件事情还是稍微有点争议的就是我们很多的很多的 eval 都在做那种 com memorization 像是 arg egi 他基本上就是说每一题都需要一个全新的解法是其他题目没有了全新的解法这样那确实欧三在这个 bench 上表现很好对但是就一样就是像我在跟我朋友 debate 的时候他就说他就会说什么

就是你很多东西感觉上还是就是他们在训练过程中还是用了一些方式来让他提早学会这种东西那细节是什么因为他们还没有公开所以我们现在也不是很确定说到底就是

面对 out of distribution 的 problem 的时候到底能不能很好地解决或者说在面对这个问题的时候我们需要花的 compute 到底是不是我们现在认知的这样还是其实我们需要花非常非常高的 compute 我们才解决这些问题对我觉得这还是有还是有蛮多未知数的但就我觉得现在情况有点像是我们不是我们我们有在 train model 但是就是这些大厂我觉得他们没有缺任何的 idea 就哪些东西要怎么解他们都有很多想法可以去实验的

所以目前没有一个明显的 blocker 说我们没有办法把这个问题解决目前没有一个说这是 common growth compressor 我们找不到这什么 induction 我们找不到就是没有这种 theoretically 的限制现在感觉就是 empirically 如果过去这几年发生的事情继续发生的话理论上这些东西都可以

很快被解决掉这样因为现在所有资本都在这边所有最聪明的人都在这边然后一些很最重要一些已经非常困难问题我们都已经都有很好的解法了这样子像这些 reasoning model 的 search 的能力或者说像是 language model scale 的能力这些东西这些可能在 17 年 14 年之前就是根本没什么头绪的东西现在都做得非常非常好这样所以我觉得是蛮有机会

可能接下來這幾年我不知道今年會不會但是就是看到那種就是 fully agenticgeneral intelligence 就是實際上的參與到去獨立的去執行很多對人來講本來是困難的工作或是對人來講是重要的工作

这样对那然后另外一个就是说 OKif AGI happen before like 27 或是什么的那这件事情不会停止就是你还是可以继续这样吧吧吧吧这样继续往下 scale 你现在 work 的做法然后去打造 super intelligence 就打造那种就是他们相较原本跟我们相较原本猴子是一样的那种 super intelligence 就是我觉得这个东西都是蛮有机会在可能 30 年 35 年的可能这个 range 就很有机会发生的事情

谢谢你收听帮我个忙帮我把这集 podcast 分享给一位你觉得也会喜欢这集 podcast 的朋友

我認為 feedback is a gift 回饋是最美好的禮物對於這集 podcast 對於整個節目有任何的回饋你覺得可以更好的地方或是有其他來賓你覺得想要我去訪問都歡迎來我們的 IG 告訴我們我的 IG 是 leftsideescalator.jackie 不定時也會辦一些抽搐活動所以如果聽到你們的回饋在現場看到你們我會非常非常的開心

那如果喜歡這個 podcast 想要支持除了可以在 Spotify APP 上訂閱給五顆星之外也歡迎加入我們的澱粉自我成長大家庭我們集結了一群想要自我成長的好夥伴透過一起養成習慣一起探索興趣在自我成長的路上有陪伴那我們會透過每個月的澱粉咖啡廳幫你配對每個月最適合你深度交流的一味澱粉然後還會有

Mentor Mentee 的 Program 讓你可以在技能跟知識上有實質的成長每個月會有大師的 Q&A 我會邀請過往來賓或是一些專業人士來我們的 Discord 跟大家講個講座跟我們做 Q&A 的活動那會害羞的朋友們我真的相信這世界上沒有陌生人只有你還不認識的新朋友所以我希望在澱粉社群裡面看到你們或是線上 IG 收到你們的回饋那接下來我也會分享一些澱粉們加入澱粉大家庭之後的心得

好,我们下期见加了淀粉时间大概两个月的时间我觉得因为在淀粉社群会遇到的人都不是过去的生活圈嘛所以比较不会聚焦在关系啊连结这些事情上面反而是会因为议题兴趣还有想法去结交朋友然后可以更好的分享这些感受我是在疫情的时候就是 2021 年的时候加入淀粉我自己觉得是一个很棒的旅程因为在这边认识很多好朋友

最大的不同我觉得是有更多的勇气做自己想做的事情当我想做什么事的时候我第一个念头会是说我要做吗是我想要的吗那要我就去做而不是说我会不会做不到我今年一月才加入然后我觉得到目前最大的收获就是这里的人都能量很够然后可以让我想到很多东西例如之前的咖啡厅交流然后跟不同的人聊天然后可以激发自己的很多想法

我加入淀粉超过了一年到今年的八月就两年觉得最大的收获是我开始重视自己的生活步调然后会开始去调整一些自己的生活作息然后也开始真的会去想自律这件事情然后也在这里交到非常多好朋友所以我很期待下一次的淀粉活动

#144 詹雨安 Heptabase CEO/創辦人 - 探索 AI 技術進化之路：從大型語言模型 (LLM/GPT) 到通用人工智慧 (AGI) 01:48:05 Share

電扶梯走左邊 with Jacky (Left Side Escalator)

Deep Dive

Shownotes Transcript

#144 詹雨安 Heptabase CEO/創辦人 - 探索 AI 技術進化之路：從大型語言模型 (LLM/GPT) 到通用人工智慧 (AGI)