We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

INDIGO TALK / 驱动 AI 的加速计算 - EP14

2024/12/9

INDIGO TALK

AI Deep Dive AI Chapters Transcript

People

郑

郑琪霖

Topics

郑琪霖: 我将计算机架构比作厨房，CPU 是厨房台面，内存是冰箱，存储是橱柜，算法是菜谱。摩尔定律推动芯片集成度提升，就像厨房不断增加设备，提升计算速度。CPU 发展是从简单的家庭厨房到专业的私房菜馆，不断优化硬件和软件，提升效率。GPU 最初用于图形处理，后来发展为通用计算处理器 (GPGPU)，核心在于大规模并行计算能力，就像大型餐馆，许多厨子同时处理相似任务。TPU 专注于张量运算，NPU 专注于神经网络处理，它们牺牲通用性以换取特定领域的高效能，就像预制菜中央厨房，专注于特定菜品的高效生产。TPU/NPU 通过降低运算精度来提升效率，就像用更简单的烹饪方法来加快出菜速度。2012 年 ImageNet 竞赛、2015 年 AlphaGo 引发了 AI 热潮，推动了 AI 芯片的发展，但 2019-2022 年期间发展相对停滞，直到 2022 年底 ChatGPT 的出现带来了新的突破性需求。ChatGPT 的训练需要 GPU 提供通用目的的处理能力，因为模型不固定，专用处理器无法满足需求。在 AI 领域，软硬件协同优化比单纯的硬件性能提升更重要。即使硬件性能提升 90%，但软件跟不上，也无法充分利用提升的性能。未来 AI 芯片设计可能由 AI 完成，高级工程师只需要定义架构，AI 可以自动生成代码。目前 AI 基础设施仍处于早期阶段，推理方面尤其混乱，而训练方面由于英伟达的绝对实力而趋于统一。在推理领域，拥有大模型的公司占据优势，没有大模型的公司很难进入这个领域。我认为我的工作不会被 AI 取代，这将是一个伟大的时代。未来，推理机会很多，但训练方面，英伟达占据主导地位。边缘端计算将是下一波机会，对能耗和速度要求更高，Meta、Apple 等公司有更大机会。李厚明: (作为普通人视角，提问并引导讨论，未提出核心论点)

Deep Dive

Chapters

本节以厨房做饭为例，生动形象地解释了计算机架构的核心要素（计算核心、存储器、算法）及其发展历程。从简单的家庭厨房到专业的国宴厨房，类比了计算机架构从单核到多核、从简单指令集到复杂指令集的演进，以及缓存、SRAM、DRAM等存储层级的优化。

计算机架构的核心要素：计算核心、存储器、算法
摩尔定律推动芯片集成度提升
缓存和SRAM等存储层级优化提升效率
CISC复杂指令集提升执行效率
多核并行处理技术提升计算速度

Shownotes Transcript

欢迎回到 Indigo 数字情下的新栏目 Indigo Talk 我会不定期的邀请朋友们来和大家分享科技趋势的新思考欢迎回到 Indigo Talk

这一期我还是邀请了我们的老师李厚明今天继续来帮我们主持 Indigo Talk 后续我们可能会这样子长期配合了对我邀请了一个女性主持人会让这个节目会有趣一点会不同的视角然后另外今天我们邀请的一位嘉宾是来自于 Google 的麒麟麒麟你自己来介绍一下吧

大家好我叫齐琳我是现在在 Google 做 tpu 是 tpu 的设计的 engineer 然后我今年是刚从美国杜克大学博士毕业我的博士的方向基本上就人工智能芯片设计

然后我这个方向做了从我本科在北京大学读的读本科的时候就一直在研究从 2017 年 2016 年那个时候开始开始做人工智能芯片一直做到现在然后现在我到了公司里 industry 去真正的去做产品级的东西然后很荣幸跟大家分享一下我这些年对 AI 芯片领域的专业知识然后

希望能给大家带来一些 insight 对我们很需要因为我们的节目好像 deep tech 越来越深了对已经到 TPU 和 GPU 了对因为之前可能讲的还比较泛一点我觉得我们后续会陆续的邀请各个行业或者公司里面的有独特视角的就在一线

这就是一线的工作的同学们来给大家分享现在的 AI 科技或者是生科技或者说是一些社会上有些比较有趣的话题所以说我们今天就很荣幸的邀请到了七零因为他做 TPU 浩铭你可以来问你的问题了

好的,我先说一下我代表的视角,我主要代表的视角就是普通人视角因为我总觉得 Indigo 怎么说都是创业者加上技术出身我呢就是淡投资干了很多年,基本上技术也不是很懂,勉强看过一些商业模式所以其实我在准备这个问题的时候是麒麟和 Indigo 都帮了我很多很多的忙

而且我越准备呢我觉得越有意思因为今天的整个这个 GPU 算是 AI 发展的一个基础嘛对吧就是很多这种 Machinery 包括现在的一些 AI 的框架如果不在 GPU 上也成长不出来嗯

所以我其实是非常非常想从这个历史先了解起就是麒麟你能不能这个非常简单的就带我们过一下如果一个普通人想要了解到这个行业应该先知道哪些知识过去十年发生了什么好的好的

那我就可以先从基础的计算机架构知识可能开始简单的讲一遍。你可以快一点,不然我们时间不够了。对,我们简单不会讲得太快。快点,pdf 嘛。对,我们放一下我做的 slide。简单的讲一下,我们随便聊聊。先从基本的计算机架构开始讲。希望可以给大家讲的清楚一些。

首先我们是说计算也在干什么我们这 hardware computer 到底在做什么我们就想简单一点我们把它想象一个厨房我们在做饭对吧然后你计算机架构设计的就是说厨房怎么设计那么我们整个系统里面有 core 有计算的核心那就是我们厨房的台面然后我们也有存储器 memory 它就是厨房里面的冰箱

然后我们做饭我们需要有算法就是菜谱一道一步一步怎么做这就是有这三大核心要素我们就可以去把做饭这件事情完成了

然后 storage 比如说我们为了方便放一些东西我们还可以加一下 storage 这个就是相当于是 cabinet 就是台上面挂的顶柜所以整个这一套就是一个最基本的计算机也就是说 CPU 整个 Silicon Valley 硅谷基于这样一个最简单的东西开始往前走的

然后我们肯定是这是 80 年代 70 年代的东西我们怎么样到 90 年代 00 年代我们在干什么就摩尔定律在干什么摩尔定律所提供的就是说我们可以在同样大小的 silicon chip 上放更多的东西

因为我们比方说以前你是一微米现在变成变成点一八了你就相当于是面利用率可以到 4 倍然后现在可以放更多的东西放更多的东西就是相当于在厨房里可以加更多的东西让它更快

那类比到我们厨房的这样一个优化里就是说我们之前你做饭你切好东西你得往冰箱里放然后你每切一个你往冰箱里放然后再拿出来再切就很麻烦所以说你在中间引入这个 cache 和 sram 这些东西就是存储器它相当于我们就是引入一些 plates 和盘子我们加这盘子以后我们就可以切好东西随手一放之后要用的时候再从很快的去拿

然后指令集就是说我们的造台可以完成的事情我们让它越来越复杂就是 CISC complex 的一个 instruction set 然后也就是说以前锅可能只能煮现在我又能煎又能炒又能炸什么都能干这样的话它代价就是说它的资源会更复杂但是它好处就是它会执行的更高效

然后以及有其他这些优化比如说并行并行就很关键就是说我们有两个造可以同时做两份菜这个是很重要的一个优化

然后 CPU 的核一样和内核对我们这个比例很好对就类似的东西然后 DRAM 就是说存储器我们知道 memory 我们相当于是 CPU 主存越来越大主存就是说我们冰箱越来越大你可以把更多的临时用的数据放到冰箱里而不是说你跑老远去仓库里面拿

然后包括 hard disk 也就是说我们有更大的这些东西这个 cabinet 这样我们就让整个厨房变得越来越专业越来越做菜出菜越来越快这些都是硬件上的当然我们还有软件上的就是说菜谱做的更好对吧我们菜谱做的更高效所谓算法优化就是什么时间复杂度空间复杂度优化就是说我们菜做的更高效

这就是 CPU 的优化是一步一步然后我们再进行极致的再往上走就是 90 年代到 2000 年就更好的 CPU 了就是继续往前做但它还是厨房还是私房就是说从家庭厨房变成了那种开私房菜馆的厨房但它本质上还是一个可能是原来以前是家庭主妇做的现在是国宴大师做的但它出菜还是一道一道出它可能做的菜越来越复杂但它出的还是一道一道

比如说他用的工具会变得越来越好它的主要会有 Soc 就是系统很多东西都放到一个厨房里了然后 L1 L2 L3 的 cache 也就是说这 memory 更多碟子把它分类分得更多有大碟子有小碟子小碟子就临时放的就是传菜用的快然后大碟子就是用来用相当于是他去考虑食材的操作就是操作的次数和它被移动的次数

让他尽量去决定他放在小的还是大的然后就引入新的 MemoryHBM 就高带宽的 Memory 然后以及固态硬盘就 solid state disk SSD 也就是说他冰箱他拿东西更方便所有的这方面就是 CPU 上的优化就 Intel 时代的优化 Intel 从 EVM 做到 3 纳米 7 纳米 14 纳米就是一步一步的基于这些东西往前走

我提个问题这些比方是你想出来的吗还是这是一个这个行业里面通用的比方我自己琢磨了之前琢磨过怎么样

我觉得这个太好意思了首先是这个非常拉近和我们观众的距离啊就是即使我是一个既不做饭也不懂技术的人我觉得都非常的清楚然后这个图片我记得你说是由 MeJelly 做的对吧对这图片全都是 AI 生成的这个图片太等你了要去生成什么样 scale 的这样一个这样一个

这个风格也非常的 geek 难怪说老黄的爱好是烹饪烘焙可能有那么一丝相似之处这很有意思本质上厨房的优化和计算机的优化是一样的就是说它是要完成一个特定的任务然后在那个任务上怎么让它更快

但是 CPU 好我们说回这个 CPU 就是因为它是给 desktop 就是个人电脑处理的它处理的任务是非常 worth of time 的也就是说它什么任务都可能做它可能用来打游戏可能用来处理文字可能来怎么样它必须要满足什么都能干这样一件事情所以它就要像这种就是说它就不断

要去处理更复杂的菜谱所以他需要去像你从一个家庭主妇的厨房向国宴大师的厨房去游玩但是 GPU 就是另一个故事 GPU 是什么样子的 GPU 你可以把它想成一个餐馆 GPU 在最开始的时候是 G 是什么意思 Graphics 是用来处理图像的比如说我有一千个点那么我这一千个点可能要干类似的事情

给 1000 个点算一个颜色然后把它呈现出去我有一千乘 1000 个点这样现在越来越高清了你会发现它每个点干的事情是相似的

也就是说你需要更多的厨子你需要更多的人去干这个事情而不是说一个比方说你现在在 serve 一个餐馆的大食肉一个人餐馆然后你一个人点了婚宴 16 桌都一样的东西对吧你现在还让一个国宴大师给他一道一道的烧这就烧的很慢

然后 GPU 的好处就是说我是个餐馆我原来是个 complex 的 core 至于 CPU 来说我现在没有那么 complex 吧这简单一点你每一个学徒就可以了你不需要是大师大概能干明白就行了然后你像 CPU 是 multi instruction 就是说我好几个盒可以干不同的东西现在不需要了你不同的盒你有 1000 个盒你干一样一个事情干一个事情就可以

然后它的 global memory 然后变成 GPU 的 memory 就是它自己内部的 memory 把它作为一个斜处理器和放在主的 CPU 旁边这样一系列优化就会导致它是什么开了 KFisher 它可以提供巨大的并行路同时它又可以做 general purpose 的处理这个是叫 GPGPU 就是 general purpose GPU

在这些年通用目的是吧通用目的就是 GPU 就说 GPU 的发展的时候一开始它就是做 Graphic 的然后在 2006 年的时候就是 NVIDIA ERO CUDA 就是打算用 GPU 去做计算通用计算就专门出来处理这种 restaurant 这种类似的这种计算一个人炉灶在前面每个人一个

对每个人一个每个人一个但是炉灶的关键点就是他还是什么都能做可以煎可以炸可以炒和 CPU 一样只不过做的没有那么好所以它是 general purpose processing 叫 GPGPU 然后 GPGPU 最早应用最早比较有意思因为就是挖矿挖矿就是一开始大家发现 CPU 算很慢但是挖矿这个东西它这个算法很适合并行大家用 GPU 去挖

对挖比特币然后我记得是 10 年左右英伟达那个时候已经快不行了游戏市场不大行了然后靠 GPGPU 挖矿就又起来一次类似的这个东西这是 GPU 然后 GPU 我们这重要的特点它可以提供巨大的并行度算那种规整的任务之后算的很快然后第二个是它通用 general purpose

然后我们之后就是说 TPU 和 NPU 这是你们专业的特别解释一下什么是 TPU 我觉得会很多人不懂的 TPU 的 T 指的是 tensor processing unittensor 张亮张亮就是矩阵 tensor processing unit 然后 NPU 的 N 指的是 neural processing unit

Neural 是 specific for neural network 就是说神经网络这件事情这很有意思在哪里大概 2016 年那个时候从 A 到 ZAPU BPU CPU 全都拆起来了那个时候做硬件人都给自己加一个自己的什么 PU 但到现在留下来的在这个领域的基本上就 TPU 和 NPU 这两个词比较常见剩下的就是

NPU 我理解一下是不是 Apple 的 M 系列里面就有 NPU 吗在里面它管的叫 NPU Neural EngineNeural Processing Unit 然后华为的然后一些比方说韩 5G 他们都管它叫 NPU 它 design a process unit for neural network

然后 Google 是无论叫什么办法写进去的吗没有没有直接写他使用来算就是 tpu 和 npu 他的内核是类似的 tpu 是 tensor 他处理的是 tensor 然后 npu 处理的是 neural network 但 neural network 的底层又还是 tensor 所以这两个东西它只是名字不一样但实际上是一个类似的东西

然后它和 GPU 的最大区别就是说首先它是 GPU 它为了保证什么它为了保证 general purpose 它实际上是舍弃了很多性能比如说我每一个造

我还是需要算提供 general purpose 处理我还是得算比方说我得算浮点处理算高精度小一点厚多少位对吧我现在算神经网络不需要那么精度你知道图差不多糊的也能认出来不糊的也能认出来所以我就把再简单就是所谓的偷工减料以前造你得什么掉汤掉个多少天现在我不用了就是撒一条味精拉倒一个道理它变得更简单

然后 CMT 变成了 CMD 的时候就是说我不需要让每一个核都去完成相对复杂的东西我就是完全更简单只是一组数数据进来他给他盖比方东西进来像刘水仙一样盖个章然后走下一波进来盖个章然后走就更加简单然后再重点就是他从 share memory 的模型变成 local memory 以前 GPU 为了让他高效处理你每一口灶都可以去冰箱里拿东西

OK 对每一个单位可以拿是吧对也就是那样的话你对于程序员对于使用这个人来说你可以给每一扣造编程就是说我定义了一个在冰箱里定义一个数组在冰箱里定义一组鸡蛋你造一去拿鸡蛋造二去拿什么东西对吧但是你到了 NPU TPU 里面我不要这样子

我就每一个东西有自己 local memory 这样就更搞笑相当于是说你整个台面上你就少了很多互联你不需要说我这个人要跑到冰箱老远拿东西我就直接我这切好了以后往旁边一扔然后旁边那个人切好了再往旁边一扔听上去应该会丧失很多灵活性非常对丧失了很多灵活性所以它就叫 domain specific processing

比如说 TPU 的处理的精度是 tensor 他是用来处理 tensor 并且他 core 的

他的 core 的运算的精度是降低的他不用处理全精度的 tensor 对他只能处理一个特定大小的 tensor 特定大小然后特定数据精度比如说我们以前是算一个算一个叫什么浮点数就小数点后多少位留思维现在我不算我就小一点后就一两位就拉倒了只能算这样一个东西

所以这导致了他不能够通用计算这个就是现在主流的 tpu npu 的这么一个这样一个对比就是从 cpu

家庭厨房发展到国宴大师的这种专业厨房然后又现在到这种预制菜这种中央厨房预制菜对我觉得听起来有点像是一个深度工业化对吧就是说这个工业化的程度越来越深然后分工越来越细然后我其实在刚刚听你说这个 tpu 的时候让我想到了 giga factory 就是伊朗马斯克做的那个自动工厂就是很大很自动化但只能服务于他自己

对没错这个是非常高度定制的这是多米斯巴西克 processing 这个这个概念就是在 2017 年拿了图灵奖了就是那个 dame paris 和他们哦对

就是因为说我们的 computer architecture 有一个变革之前是大家都讲怎么样把 CPU 做得更好更快但是在 2000 年一些摩尔定律死了以后摩尔定律死的时候就是说我发现我们很难让 CPU 做得更快了就那么大点死过好多次了现在还没死现在基本上就是没有以前那么那么那么

发展那么快了我们读书的时候我读书本本课时候大家强调是 postmortem generation 已经是后模二时代后模二时代就是我们你很难通过 scaling law 去让

晶体管做的更小对物体在极限的 1 到 1 纳米已经是极限的对一点几纳米 3 纳米基本上极限了再往下你的 silicon 就漏电了它量子就穿消瘾了这个就不工作了你想让它更高效的话就换材料然后

然后就换材料相当于说你比方说你换碳石墨烯什么碳纳米管 base 那种晶体管它就相当于它在 28 纳米可以拿到硅的 3 纳米的或者 7 纳米的性能稍微提一点类似这种这种反正你的产业结构都要改我觉得身份太高了对那个是很难的那个是很难的所以说我们就是 sick for 什么东西就是 domain specific process 就是我做什么计算我就算什么我做这个

我挖矿挖比特币我做一个矿机对我做人工智能处理我就做这种 tpu npu 然后还有做 video 的处理我就做那种视觉的引擎 video 的引擎对类似这样这个是现在的一个计算机的驱使所以就是硬件加速所谓的你有一个特定的任务然后这个任务你会经常发生所以你定制一款芯片处理这个任务

比如说自动驾驶类似的我听下来的感觉是摩尔定律的狭义的摩尔定律就是在物理层面上的摩尔定律可能停止了但是摩尔定律背后的这个 skating law 可能在其他的领域还在怎么说呢甚至是更快的速度在发生就是摩尔定律这个词变成了一种

变成了一种共识变成了一种概念一种 concept 然后在各个领域去对吧去更大的范围的被理解我觉得我是定义因为他肯定是没法计算的他应该是我们对于

这个计算能够一直往前走的一种信仰对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对代对代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代

对我其实这个是因为比较好奇就是你觉得在背后推动这个往前去走的背后的这个商业的 drive 是什么因为芯片是一个周期性比较长的一个这个行业周期性比较明显然后最近呢我们肯定是在芯片非常非常好的一个周期里面然后你能不能简单给我们介绍一下就是这些计算现在被用在哪些领域然后这个我们作为普通人怎么来理解它的这个背后的一些商业价值

现在要讲就是说为什么比如说这个问题为什么最近这两年 AI 芯片又重新活起来重新活起来就是由于这个拆 GPT 的原因对不对那么我们可以先回顾一下 10 年前刚开始 AI 领域刚开始发生的时候好挖掘到 GPT 对我们就聊一下 AI 的这 10 年

想想这是 2012 年的时候我们是有一个最早的一个就是 ImageNet 那样一个东西就是说我们是有这样一个举办就是 Stanford 李飞飞教授他们做了一个 ImageNet 就是一个图像识别的一个竞赛然后那个时候呢有一个叫 AlexNet 的这样一个卷积神经网络他们通过

通过在 GPGPU 上训练

达到了前所未有的识别率就是在 2012 年这个是基本上是在我认知中是开启了人时代的一个对在 G-Force 上面 NVIDIA 是吧没错那个时候是非常弱的一个 GPU 一个模型需要部署在好几个 GPU 上然后去训练才能把那个训练出来为什么之前没有了这个算法实际上是在 LeCun1995 年 97 年就提出了解数字

但是那个时候他没有办法训练太大了 CPU 跑不动然后 GPU 大家就是他最创新的点就是他怎么样去把这东西用 GPU 给他训出来然后训出来以后发现诶这个识别率很高就是说方法就在那但是因为算力不够所以没有人能只有等了十几年才想才有算力对当时瓶颈是什么是工程问题还是材料问题还是什么就是

首先 ImageNet 这件事情是第一个瓶颈是数据就是在嗯

就是研究者做计算机视觉研究者一直在收集数据在 2012 年的时候才收集到很多有价值的一个数据集叫 ImageNet 然后基于这个数据集才能展现出算法的一个力量来对然后第二个就是说我们在那个时候大家为了去研究算法的极限自己想我一定要把算法数据灌进去让他训练然后 CPU 跑不动大家就想办法我用 GPU 去想办法对

对就是非常早期的那个时候我们就在讨论什么神经网络 deep neural network 然后 deep learning 这些词

然后网络也开始从 AlexNet 进化成 Google 的 GoogleNet 然后到 VGG 前 AI 时代 2014 年这个时候大家对 AI 还没什么认知直到 2015 年基于神经网络的 AlphaGo 起来 2015 年

那个时候比方说我回忆下那个时候刚开始读本科快就是我 14 年上本科那个时候刚读本科那两年就是又的人学计算机吗我就学微电子我一开始学化学然后后来就后来后来就学微电子

后来我们那个北大的那个信科是可以自己选方向的你可以选计算机可以选 v 电子我们那年 v 电子只有 15 个人就是 300 个人的 300 个人的系里面只有 15 个选 v 电子大家全都去学计算机全都学人工智能因为 alpha go 出来对有时候 alpha go 是一个基于神经网络的一个副产物神经网络加上这个这个这个 alpha go 这个强化学习这个 dqn 这个任务产生了这个神经网络然后在那个时候呢

那个时候大家就发现意识到这个训练的这个 platform 很很很重要这个 infra 很重要嗯因为你就有了这个 infra 你才能真正的把你的这个算法的那个力量给它展现出来然后那段时间大家还是在 consume 那个 ImageNet 呃就是对于 CV 的人来说计算机视觉人来说 ImageNet 的魔力还没有被呃还没有被这个挖掘透重复对对然后

为了把这个挖掘头比如说我要看我人工设计的算法能到多大的识别率能不能把真人比真人要强能不能完成比真人还要厉害的一个图像识别就给你一张图你识别它是什么在我的印象中那一年正好第一次 AI 的爆发因为我那个时候我刚刚我还在国内 2015 年我刚刚准备来加拿大但是那个时候因为我在微博

之后那一期我离开的时候就感觉那一次 AI 大爆发了因为有很多的识别出来

各种识别识别识别然后这种没错全是识别全是因为 CNN 网络对其他那一波爆发是大家是认识到了这个很重要就是什么很重要呢首先第一个数据数据很重要然后第二个就是算法然后第三个就是算力算力非常重要就是你只有算力好的数据加上算力你才能真正证明你那个算法好不好用

用你不能说我随便 CPU 训一个 10 分钟我说不好用那就不好用这个没有说服力了你必须要训个好几天怎么样甚至上万个成百上千个小时的在那个时候还没有那么夸张你才能说这个才能看到这个算法的上限所以大家开始 build infrastructure 谷歌那个时候大概从 14 年 AlphaGo 就是在 PPU 上训练第一代 TPU 的对第一代 TPU 的第一代手机的

然后 Google 还是开发 tensorflow 然后 meta 那边开始 Facebook 开始拍 touch 这东西是什么就是 infrastructure 就是说你怎么样让写代码的人不要看到硬件写代码的人不喜欢看硬件这是烦的话我不关心你是让哪个灶给我去烧哪个菜我不关心你给我烧好就行了

所以说 infra CUDAtensorflow 然后 codnpythor 这些东西就是提供了一个软硬件接口它让软件编程的人就写起来更符合他们的习惯但是它又能高效的部署到硬件上这个就是这些 infra 的东西的力量

然后那个时候大家也开始做 NPU 就是比方说韩 5G 一个著名的 Cambricon 开始做他们的 NPU 然后很多公司英伟达也开始做 NPU 叫 NVIDIA NVIDIA Deep Learning Accelerator 英伟达深度学习加速器 NVIDIA 一开始在做但是大部分人还是做 InferenceTraining 那个时候并没有那么大市场因为第一个

那时候 training 大家也懒得去做芯片就因为拿 GPU train 就行了因为你需要 general purpose 它是一个叫什么那个时候主要的还是 discriminate 的任务就是说是一个判别式的 AI 就是我给你东西你看它是什么模型实际上没有那么大

没有那么大你 GPU 你什么 G force1080 太已经是很厉害的 GPU 了已经可以去了我记得刚开始搞科研的时候你 GPU 是你可以自己从网上定自己装然后自己装现在的很多识别都可以装到非常小的移动设备上面他就没错没错探测器对吧对那是 tinyML 那是下一个时代这个时代是大家还在探索算法就是说那个时候实际上算法没有那么复杂

就是说我们还没有因为我们现在经常说你搞科研你学校里搞不了没有 GPU 训不了你得上公司里做那个时候还没有那么多怨言那个时候就是说你自己学校里搭一个台子那时候英伟达股价没有那么高因为 GPU 不需要就不是保证那个大家没有发现没有觉得是就小抱怨一下就说要有更多就好了但是没有也可以凑合用那个时候英伟达还是用挖矿长的对

然后那时候还做 inference 吗 NVDRA 是做 inference 他想在 GPU 里面集成一些 inference 的盒然后看看能不能加速一下对就类似这样子这 15~18 年这个我可以就说他大概意识到 infra 的力量开始很多公司开始 build 的 cambray cone 什么地平线然后基本上所有的很多公司都会高通苹果大公司华为华为达芬奇架构他开始 build 自己的 NPU 的部门

然后再后来 19 年到 22 年的主权率肯定是 COVID 对吧大家收起来也回忆了对吧对然后这个时候大家发现 infra 已经 built 的差不多了但是在我的认知中它的计算机视觉并没有

特别很好的商业模式变现对在那几年所以这个热度就会降下去了大家感觉好像什么比方说你云上云上就是给什么 P 个图然后或者说是阿里那边是识别个图片的那种东西那样子的对的是的那个时候变现并没有那么那么那么那么我觉得那个时候中国的这些公司都是 to government

对对出干们他是他比如说安防摄像头那那那那那对然后所以说呢呃大家大家就是对这个的热度会下降

下降了下降了一波也加上那那几年 NPO 的技术卷实在是太快了所有的家的东西都趋同了因为就那么几招数据流然后吸输然后比方说什么低精度然后这几招就是一开始你看就比方说我做学术研究的时候你得读 17 年 17 年你去读文章你发现这很有 insight 不同角度的优化然后到 1819 年 20 那发现怎么大家做都一样

所有的飞船全加进去了就是所有人的东西都有所有的飞船就变成那样子去同了对去同了已经去同了没有什么这个意思的模型也要去同了对然后呢那个时候那个时代那个时代就是是一个呃比较低低迷的时期对我感觉一是因为呃口北的第二个是这没有什么技术的爆发对大家有点像对有点像黎明前的黑暗就是我感觉在那个时间点大家的这个

科研其实也走向两个方向对吧其实当时像 Hinton 他们研究只是还没有浮出水面但是已经有很多人在里面开始发力了其实还没有做出来一个我们经历过 2022 年市场暴跌的时候加息跌得最惨的就一样那是那种 Transformer BERT NLP 之前都在讨论 CV 就是那三年这三个东西才开始往前走就是语言不适合

自然语言处理 bert transformer 只要这东西 transformer 2017 年就有了但是一开始大家不是不是很关心嗯大家都在做计算机视觉这个东西能往前走到什么程度没有人没有人太知道然后然后这个 infra 也一直在 build 库达然后拍套这些东西一直在往前往前走嗯一直在迭代

然后做自然界视觉的人做普通的 NPO 发现没有什么就是做的没有那么好玩这是卖不出去因为它无非就是卖语音端语音和端测就是语音上就是给服务器上用服务器上用比如说阿里我做我自己的服务器我去不断的给别人 influence 图片然后第二个就是在手机上或者说自动驾驶一种端子上面去用比如说我在自动驾驶车里面我放一个

soc 一个系统级的芯片它可以去识别整个的 workload 整个的任务或者是安放摄像头上的一个处理然后这些东西激发了一个 tiny ml 就是要做很小的模型这也是这段时间一个方向但是很小的模型它有什么问题就是它性能肯定会下降它只能用在特定的场景下它是一个很小的蛋糕

嗯对所以那那那那那段时间很多公司在做这种很小的很小的模型就是他模型算法硬件一起优化他做那个全套的解决方案我我我设计一套算法然后给这个应用场景是一套算法对他全套都是全自己设计的就是

厨房我是自己做菜谱我也是自己定制的对肯定是他性能非常好性能会非常好但是他市场很小他只能就是出了一两个任务在那个时候

然后加上口味的大家就整个这个社会也比较比较就是就是还有很多那个供应链也中断了对对对所以那段时间是比较黑暗然后直到就是 23 年大早就新出现对就是 chatgbt 两年前的 11 月 30 号哈哈哈对就就刚好过完两年生日他们对语言模型从语言模型变成了大语言模型 language model to large language model

然后 Bart 想要 GPT 的基本的原理叫 TransformerTransformer 它的模型然后那篇文章很经典 2017 年叫 Tension is all you need

你所有需要的东西就是注意力就好像和我们现在的社会一样对我后面发现这些科研人员实在是太会起名字了很多论文的标题的名字非常的我告诉你做科研跟做媒体一样的你的目标就在上头条

没错这个是说的太对了学术界的运行规则 somehow 也是 attention is all you needattention is all you need

甚至说我们之后叫什么起名字你首先你的文章一定要给你的一个东西一定要起一个简称然后那个简称呢必须要有一个具体的意义然后然后你还得符合你的那个你的特征技术里面那几个词选一个你起不出来好像就不是一篇好文章一样就是这种感觉现在然后

然后这个 ChessGPT 它和之前的主要区别是什么它这个 Large-Range-Way Model 它属于 Mistral of Expert 这模型我不确定现在 OpenAI 它们用的是什么

第一个大模型是 mixture of expert 就是叫 moe 混合专家模型他把很多小的 transformer 放在一起相当于是他那个就是比如说我有一百个专家然后我一张一个 token 过来我找某个先预打分然后找打分的专家最高的让他去做 inference 也就是说他这种 moe 模型把那个模型横向扩大了非常多倍

但是纵向没有扩大也就是说他需要把这个模型的这个这个模型的运算运算的量没有增加但那个模型本身变大很多他需要存储需要通信这个代价变高嗯对这个就导致了说这个训练这件事情变得没有那么容易了

不是我以前从淘宝上定上两张卡插上酷大一桩 CODN 桩我能训了以前是这样子以前一开始就是随便定两张卡然后甚至是你去玩以后还可以打游戏是吧完全是一样现在不行

这个模型变得很复杂你需要有一个集群你需要有一个专业的这么一个甚至不仅是专业的机房甚至是还找很多人管理这个东西而且那个 infra 在前几年的 build 的过程中它也跟上来了

我刚开始做的时候你刚开始学的时候你派套和森尔福里面全是 bug 你自己写完我这一堆 bug 你还给他 debug 你用那种东西根本就不能想象他怎么样去我同时操纵多个 GPU 同时操纵一个超大的机群用那个东西完全不敢想象但因为这两年他给推荐系统用的时候他把 infra build 起来

就是 Meta 他们做推荐系统也是一个神经网络模型它也在这两年就是在疫情期间他买了大量 GPU 通货就是我所推荐的结果正好碰上了 CHI GPU 出现结果一下就找到 GPU 了对没错搞死你了 GPU 就用起来了 CHI GPT 必须要用 GPU 选为什么因为 GPU 可以提供 general purpose 的处理

OK 我在模型没有固定的情况下我拿一个 domain specific 的东西去处理是没有意义的因为我都不知道它需要酸什么对有个问题这里 TPU 现在你 Google 的产品训练模型的时候这个限制是什么对于 GPU 来说做训练的时候

比如说 TPU 它高效的处理只有那么几个类似的只有几个类似的这样一个算子那么你在设计算法的时候你就相对于会倾向于用那些算子那你不用那些算子的算法跑的就没有那么高效那设计上就受限制

通用的是吧也是通用的 GPU 是通用的对 TPU 是通用的是有通用的有很多版本 TPU 很多版本有专门做 influence 的有专门给大模显示有专门训练的对但是他训练的那个部分并没有 GPU 那么 GP 就没有 GPU 那么 GNOS 了解懂了对所以说这个就是说

GPU 在大模型训练这个任务就是说生成是 AI 我们把大模型扩展为 generative AI 生成是 AI 的训练这个任务中 GPU 是不可或缺的对基金我能不能这么理解基本上只要你是在做 training 对吧在 pre-training 这个部分里面 GPU 的位置确实是独一无二的因为现在是这样子的因为那个算法不固定等那个算法固定了

那你就可以在 customize chip 去 train 上对也没有关系然后今天能做 general purpose 的训练的也只有英伟达的 GPU 也没有其他的产品的替代我们那也可以谷歌的 TPU 也可以但是它不往外卖

然后 AMD 也可以但 AMD 的 infra 不好 bug 太多了我有听过一个 AMD 的八卦就说 AMD 其实也去 pitch 过一些大公司然后就说什么可以有更便宜的价格我有更多的工程师来帮你但是实际上在最后的转化当中大家很难做决定

因为它的稳定性实在是差太多了 AMD 的性能纸面性能据我所知是比新亚级比较好的

AMD 硬件做的很好什么叫纸面性能就是纸面性能是什么对纸面性能就是 tflops 比如说我算力我把芯片拉满了没有 bug 的时候那它马力全开我直接 700 匹直接零百加速三秒对吧但是你真正开的时候用的时候你发现它全是烂路它加不起来速就是 bug 特别多

这个我也有个问题啊就他他有这么多 bug 的原因会是什么就是因为他的 infra build 的时候在

前几年这一段时间这 PyTorch 这些东西都是基于英伟达的 CUDA 去 build 的在你看这 15 年开始做这东西 15~181922 这小这 6 年多的生态发展对都是基于 CUDA 去 build 的那个东西的也就是说那个时候我们可以想象说你想迅速线网络先买英伟达的 GPU 然后装 CUDA 装 CUDN 才能用 PencilFlow 或者是 PyTorch

AMD 那块怎么做网上连教程都没有对所以我能不能这么来理解就是最终的训练效果它是一个软硬结合的一个事情然后软件和硬件都很重要然后 AMD 呢它可能输在两个方面第一个呢是它虽然硬件说它的纸面性能那么高但它由于产量没有英伟达那么大所以它本身的硬件的稳定性我自己觉得可能就不如这个英伟达那么好

第二个是由于他没有软件所以他软硬的配合就一直都一般所以在这个过程当中对吧不管是数据和数据之间的传输还是这个表片之间的连接所以都不会很好都会更大的概率出现 bug 我这么理解对吗第二点是更重要的第一点说因为它的硬件稳定性和硬件达这个不好说 AMD 东西是挺好

就是说它软硬件不好用不好用不是说它本身不稳定它挺稳定它不好用 OK 然后这个不好用想变成好用是不是唯一的办法就是更多的人来用

有一个很好的社区更多人来用然后 report bug 然后有人解释解决这个问题然后不断的去维护然后那个版本从 1.0 2.0 3.0 一直在迭代迭到最后形成一个趋于稳定的版本这个就是 GPU 和 CUDAGPU CUDAPYTOUCH 这些东西的一个交互就是说这一些 10 多年的积累不是一个公司想通过对这个不是公司能搞定的就是生态比如说 PYTOUCH 是 META 开发的

Meta 开发的拍套是基于 Nvidia 的 CUDA 它的背景是 CUDA 对这两个是联合在一起的 Google 的 TensorFlow 是 TensorFlow 另一套 Google 是自己的全是自己的 TensorFlow 它下面有 CUDA 吗但是它也可以在 CUDA 上使用吗 Google 不是有 CUDA 是 Customize for GPU 的 Google 是直接 TensorFlow 接到 TPU 上这也是 Google 这 10 年的生态

这是两个生态已经带味儿者所以我能这么理解吗就是说现在肯定最大的生态是 NVIDIA 的酷大的生态但是 Google 由于自己有 TPU 在跑所以至少 TPU 是有生态的然后其他的人都 barely 能说自己有生态对吧没错没错就是说可以甚至大言不惭的说真正能用上真正能用起来的只有 NVIDIA 和 Google 真正能用起来能用来处理模型的

但谷歌又不给别人用所以记得自己不够用然后自己就不够用所以我正好还有一个问题因为我们刚才你的历史讲得很好对我也学到很多的你的 CPU GPU NPU 转然后后面的这个

现在这么多年的 AI 的发展怎么在这些硬件技术之上成长起来的可是另外一个非常好的视角正好顺着这个现在我们就前一个月很多媒体都报道了什么训练撞墙了然后摩尔丁利也在这个时代是给你诺回事效了但是我在上两周 Jason Huang 接受忘了 Low Powerless 的采访说他们 Podcast 我印象很深刻我听了一次他说

Media 未来 10 年的计划他也透露出来每年要把自己性能提升 2 到 3 倍这个他就是现在要进入了一个超模儿的时代然后他具体讲的就是说数据中心集产品你要把一个数据中心就是一个大的一个集产单元然后要把这个里面装上比如说 3 万块 10 万块或者物理定律没有限定过我不让装 100 万个 GPU 串联起来唯一限定的就是网速

你们怎么看这个事情我感受 NVIDIA 已经并不是一个硬件公司它是一个软件公司甚至说它是一个 AI 公司它说把算力往上去增加指数值增加它并不是说

增加一块芯片的对这个算力他是说把系统集群比较的更大用的够大然后他解决芯片互联的问题相当于在造一个 AI 时代超级计算机 NV Link 它的核心技术对 NV Link 是一个带宽的就是一个带宽的优化就是说我以前是说我一块 chip 一块 chip 它里面怎么样跑得更快现在说十几个 chip 甚至以成百上千整是 1000 of chip 放在一起

怎么跑更快这跑更快你发现它的保留链已经并不是说里边怎么弄它就是说芯片和芯片之间互联怎么弄这样一个问题它的优化超越了硬件本身到更上层的听上去我看过发布会讲过整个数据中心就是一个 GPU 对没错这就是一个 infra 的一个力量就是 software hardware interface 它可以让

他可以让写软件的人把它看成一个 GPU 而不是说我先给他写一句话你 GPU1 你去干什么 GPU2 你干什么干完以后你一从二你那拿数据拿完了以后你再给我怎么样这样对于写软件人来说他会很痛苦

我自己的感受就是英伟达的这个竞争力就是从这个微观走向了宏观就从微观里面最开始设计这个小芯片的结构到今天我自己觉得它可能是全行业少数的能够可能是唯一一个能支持做十万卡的集群甚至马上做百万卡我感觉

对我自己感觉 10 万卡会很快成为标配因为 XAR 做出来了会很快成为标配然后背后的交付方就是英伟达所以至少肉眼可见英伟达在未来的比较短的一段时间里面要给 10 家左右这样的公司交付 10 万卡他说了 6 个

因为现在这个也有需求嘛这个也有需求嗯就是说大模型的磨砺在网上能到什么程度现在好像是被算力棒的住了我们不知道你把它 10 万卡变 100 万卡以后那模型会变成什么样子对不知道所以说所有人都想知道在这个 10 万卡训练出来的 group3 对啊所有人都想知道会变成什么样子所以说这个这些做硬件的东西会猫着就是去猫着进去

所以我其实想知道现在至少在 GPU 这个方向它是一个战略是明的就像 Indigo 说的它实力要做的事情其实说的也比较清楚那与此同时 TPU 也有做训练的能力然后今天的战争从微观刚刚我们说走到第二阶段生态甚至走到第三个阶段宏观那就是 TPU 的下一步

就大概你觉得从公司那边来看会怎么来做首先是谷歌作为一个互联网公司它实际上它并不是一个芯片公司的文化它是一个互联网公司一个软件公司的文化

他这边做的整个 infrastructure 的目的是为了摆脱 NVIDIA 的控制就是做自己的做自己的东西对所以他肯定会他是一个就是内部是有很多的很多的这个很 aggressive 的一些 plan 往前走就是说我们要做更好的这样一个推理然后推理训练什么样各个各样的一个芯片都是要都是在做然后

他并不会只把目光放在训练上推理也会做因为他有 serve 的模型他正好问了一个问题我来问吧我来问这个问题关于推理的或者在推理之前我还有一个问题现在有怎么说呢因为我刚才说到了 NVIDIA 的解决方案它把整个机房变成一个大的 GPU 一个 GPU 然后所有的

内存的数据还是跟计算是分开的它只是快速传输是吧现在有一种方案比如说 Cerebras 或者说是类似于 Tesla 的 Dojo 里面用的 D1 芯片他们好像是把纯算都放在一块然后内存你计算特别近然后芯片做的特别大

对这种方案你觉得它是能够来完成特定任务的还是你觉得会成为一种新的竞争就全力计算 emap computing 我就老本行 emap 分别很多种对然后 servers 是个什么叫 wifr scale computing 就是 wse 就是 wifr scale engine 就是整个大的芯片全都是一个大的 chip

然后上面就是一个新面上就是一个数据中心这个是我比较看好能够有颠覆性传统计算模式的一个东西然后如果是比方国劳科的那种存力计算的话我个人认为是

差点意思这个纯算做的比较好的 Cerebrus 不太算纯算它是一个更多的是一个 vifor scale computing 那那个 Tesla Dojo 里面用的芯片的架构更多的感觉更像 local memory 的一个 supportlocal memory 是吧我认为它是传统的纯算因为他就是说在片上放了更多的 memory 而不是说让 memory 去有计算能力

OK 我刚才可能说错了刚才说的我说只是说片上面内存你芯片计算单元更近他刚才说的纯算是一体的那不一样但我做到现在我的感受是说现在更重要的是软硬件的交互结合是吧你 core 是怎么算的实际上没有那么重要

我现在感受到没有那么重要他 infrastructure 比如说我做硬件给提升了 90%但是你软件跟不上你提升的东西你用不起来你芯片在空转他不转他在等别的东西对了他在等程序员给他编程苹果硬件太理芯片太理贴然后软件不行现在对所以未来就是要 software hardware code design 这也是很重要 code design 非常重要尤其是对于

对于 serve inference 来说就我模型已经差不多固定好我模型已经固定好了我需要去高效的去 serve 它比方我在数据中心上 serve 我去机器人上那种就是 tiny 的一点的 serve 我那个模型会变得通过模型压缩方式变得很小很比如说我降低它的运算精度我给它做吸出它算力需求变小然后并且这种模型还会根据硬件定制一个自己的处理的这样一个系统

这个是 influence 的未来所以 influence 这个里面会有好多不一样的机会对 influence 的机会有非常多但 training 现在看到的是需要 general purpose 处理的能在市面上给大家卖的是很美的我已经听到 Nikun 最新的 podcast 已经讲了他说不要和 VDA 竞争在 training 上面然后他说话很简单因为别做出来的东西

然后就你给别人提供说我这有一个啊因为他卖便宜便宜 100 倍但是不好用你买我算的不准能算的快但是不准啊哎 inference 上现在是什么格局啊

Inference 上我说如果是 specific LRM 的话我感觉现在虽然能提供 LRM inference 服务的公司也没有那么多嗯对然后很多芯片公司他都在呃出都在支持自己的 inference 就是 LRM 的 inference 比如说那个呃呃

rock 这些他们在做自己的 influence 的 platformplatform 但是说到底有没有模型模型的公司去用它不好说因为我个人认为将来做 influence 强的公司一定是做模型的公司

你没有模型你做硬件然后别人说你在我这边上跑这个一定不是最高效的要高效一定要 software hardware code design 我听上去 google 还是有机会的是吧 google 互联网公司 googlemeta 都是有机会的对都是有机会 google 和 meta 也在做自己的 chip 然后 openai 也在做自己的 chip 对

openai 最近你看他 openai career 找很多 senior 的人这是另一个有意思的地方就是 openai 只找 senior 为什么因为 openai 跟他们内部的人聊天就是发现就是说 openai 的人他发现大元模型可以帮助 chipdesign 不需要 junior 的

你一个 senior 的以前是一个 senior 领着比如说我 define 一下 architecture 然后下面召集一堆小兵去帮我你写这个模块你写这个模块然后 OK 我直接拿 7HPT 让 7HPT 写出来我不需要是小兵就是不需要召领小兵只需要一个说你写这个就可以了对对这个正好你说到这个话题我问一下因为我也看到

就是 Google DeepMind 不是有论文吗说你们现在 Google TPU 现在越来越多的采用了 AI 设计了

它是有很多部分刚刚说设计师说是前端 logic design 就是你要告诉你去 define 芯片有什么功能然后后端的那些部分比如说你怎么样去把功能变成芯片的 layout 图纸然后交给台积电或者交给什么 fabrication 的人给你做

这两个部分是不一样的 AI 做的哪一部分做的是我们现在我认为 AI 比较容易做的是第一部分先做 logic design 你 AI 比较擅长处理逻辑的东西就是说动脑子的东西和 physical 相关的东西 AI 还是很弱一些然后这是第一个而且如果是说想要去把这个东西做出来的话我个人感觉

因为答案也是很有机会的因为他里面可能有很多人在做这个事情因为他的优势是什么因为他因为他他妈他有数据

因为它有很多数据它已经设计了 30 年芯片了它有芯片设计的数据它有太大的数据积累这经验了其实这个 low-how 别人不知道它没法训练对就可以把这些数据喂给模型它这是比 OpenAI 厉害的地方 OpenAI 有很好的大模型但是它没有很好的数据我感觉再往后进化两年原模型能够设计运行自己的东西了设计运行自己的 hosting 的硬件它改进自己

这个我我不认为是一个不可能的事情这样就很严谨的一个回答很严谨的一个回答这个事件很 promising 因为它并没有那么难并没有那么难我不认为我的这个工作

被 AI 取代不了这个该取代的正好说我想跟着一个话题我说在这种情况下你怎么办啊哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈

工资费会不会替代那太没意思了对不对对你可以抢 indigo 的方案玩做博主哈哈哈哈这是一个伟大人人类的变革因为你想你作为一个博士生你你的工作都可以被 ai 替代那这个人类文明是不是已经已经到了一个

全所未有的地步已经站在了一个历史的巅峰上对然后这个时候你还琢磨明天工资站上多一零少一零的事对基本上所有的智能任务都可以完成而且我觉得生产力会按照资产业扩展我只要有能量有能够生产 GPU 我就能够扩展对

并且这个是 training 的一波的机会但是 training 完了以后 serve 那 machinery 的 serve 一定是继续下一波机会就是说我怎么样去把功耗给它打下来我怎么把这个 chadgp 做到手机里 chadgp 做到机器人上 embody AI 就是说 physical

而不是说一定要所有东西跑到服务器上去算一下我拉到我本地去算公号而且我觉得对大量的这个可能 90%多的这种需求都是在本地计算百分之对没错没错这是为什么一开始做那个 cv 的那个任务的时候大所有的公司都跳出来做 influence 第一个是简单第二个是确实它市场需求大

对就做 training 呢就让英伟达做去吧别人我不管不抢人蛋糕就做做 inference 对我们韩武技啊什么我就做 inference 地平线然后那个呃深建科技当年在 pg 上做那个呃就是安防摄像头的那个端的一个 inference 都是都是做这样的我听上去 inference 的

格局会不一样会和之前因为推理那个训练基本上是一家农的因为它有历史积累有很多社群在成立这么多年对这个问题大家可以把 tip 关掉的声音然后在推理上面而且我听上去和软件关系更大比如说哪一个模型它有自己的需求它就会设计推理比如说 Tesla

Tesla 当他的 optimus 他现在用的 AMD 芯片他肯定要做自己芯片没错必须得做自己芯片因为他那么多车而且用的是同样推理结构是吧他和 optimus 机器人是吧 Tesla 是有做芯片的传统的他之前做过很多 chip 所以说他一定是有自己的部门去做这件事情而且自己做的好处就是刚才说的 co-design 对于这种

寸土寸金的功耗寸土寸金的地方来说他必须要把那个功耗压到极致就是说我一点点冗余都不行我的算法必须高效且只能高效的跑在我这个 chip 上对我刚听麒麟在想他说这个软硬一起的能力特别重要那我也会在想就是 Inference 如果能出新的机会会是什么样的公司能摘到果实听起来有可能是像 Tesla Meta 这种

做应用对做应用拥有最大场景最大前端的公司能摘到这个股市对吧他知道算法要干什么他知道什么样的算法好用然后然后再定制硬件

这个是叫什么我想想从 90 年代到现在的以前是说做硬件的就是说你别管你要算什么我给你做的更快就行了我们就聊什么每秒钟算多少次加法就聊现在格局就变了就是说

我告诉你我算什么你给我做一个算的更快的东西对变成这样子而且我觉得正好我们有话题还没问就是在 edge 端就是在侧端中文叫侧端然后英文叫 edge 边缘端这种场景我觉得会对你说的能耗速度软硬的非常高会要求更高我们可以想想

未来在 A 级端要用的这些芯片是什么呢就是首先我们所有智能设备已经被两家融合了 Google 还有苹果是吧这两家对然后剩下就是智能穿在身上这些东西什么手表苹果然后就引现在我就下一波很多人要竞争就是眼镜眼镜眼镜眼镜这个里面会有巨大的

没错所以说这应该是下一波最重要的一个在 A 级段的一个突破口没错没错对但这一波的机会我不认为是传统硬件公司可以抓住的如果他不知道他们要算什么他做的东西没人用我觉得 Meta Apple

Meta Apple 是不算传统的对我说的机会可能在他们这在 Meta Apple 上面包括高通都不可能高通他可能现在只是在他 Meta 定制但是 Meta 以后

就直接我自己做了对 Meta 是有很多做芯片的部门的我们可以从 career job post 上看出来对不对他们主要是会做自己的一个是 ARVR 然后第二个是做推荐系统推荐系统对就是一个云一个端一个 cloud 一个 edge 他们也是在进行对

但是我觉得 Edge 端的芯片的突破才能更有机会带来更多人去使用到一些 AI in power 的硬件没错没错它不可能这个能力只在 Apple 和 Meta 手上这个能力最后一定要繁华才能够进入到更多普通人的生活

就是说等一个模型变得更简单了以后或者说开源的更多了以后那么硬件厂商也可以去做它模型不要开源了 open source 我硬件厂商我可以拿来模型去训练一下我自己提供我自己的东西硬件厂商就像这样硬件不是个硬件厂商它就变成一个像软件厂商现在 Glock 不就是在跑 Lama 吗

对 girl 但 lama 是买他做的吗所以说对是类似这种他没有办法的这个时代谁控制在这个时代还是谁控制软件最流行谁控制应用对谁控制在上面谁谁谁他和以前的不一样他和 90 年代对最后一张图这样放的这个我给你放上来嗯对最后一张

就是说他和我们 90 年代 PC 的逻辑是不一样的那个时候 Windows 和 Intel 两个一联合我不管你们做应用的是什么你们必须可着我的操作系统来对你们必须可着我的硬件来你在 Windows 上跑不了你在 Intel 上跑不了你东西没人买现在不是了现在反过来了现在我的硬件微微糯糯的我得跑你的模型我得跑 Lama 我得跑什么跑不了他没人买

对是的对 Yesterday was more 对对我是很就回顾一下 90 年代到现在我现在感觉到现在是 AI 的一个什么时代就是 infrastructure build 的一个时代就是像 90 年代 PC

慢慢做 chip 和操作系统这两个做起来了以后然后在 personal computer 那些应用才慢慢起来了对吧然后像互联网时代一开始造基站造那些就是协议互联网协议我小时候 2000 年初那个时候谷歌百度什么 4399 那些东西是什么 163 门户网站

然后一开始是那些东西大家是渐渐熟悉互联网上上网上得打电话拨号嘛对不对一开始嗯后来后来才我不是我博客 block block 博客博客博客然后什么土豆啊呃优酷啊这些都还记得六间房那个哼那个那些东西还是去美国时间他这不够长不够长就对

对经历了比较完整的中国互联网时代到了 08 年 08 年那个时候然后互联网的应用才起来微博但那个时候因为也没有那么赚钱感觉后来微博甚至是 10 年代开始起来的东西然后 10 年代我感受是最大的就是移动互联网就是 MT Internet of Things 智能设备万物互联

对手机在我 08 年 190 年上初中初中初高中的初中的时候就在看 iPhone3 iPhone4 那时候对刚开始但是一开始大家也不知道怎么玩就是 assume 这是一个能玩水果忍者的一个电话 that's it 对吧然后 TikTok 像这种移动互联网时代的 killer application 也是在

20 年 10 年之后有了对也就是说现在我们出现 AI 可能大家认知就是一个像三炮 10 年前能玩水果忍者的一个 tiktok 一个手机对我现在好像还没有出现水果忍者对现在连水果忍者都没有现在操作系统 AI 实在操作系统都不知道就是操作系统我理解为就是说人机交互的一个

一个媒介嗯就比方说 windowswindows 它变它的最大的变革是 gui 嘛对不对对是是用鼠标用用键盘去点而不是打字像以前对啊然后苹果的移动互联网就是用触摸屏去接触这个世界而不是

要跑到网吧里去看电脑对那么 AI 时代的怎么接触可能是眼睛可能是项链可能是什么我觉得可能眼镜是一个非常重要的一个对眼镜是就是我视觉和语音的交互对但我的眼睛不习惯有人就不习惯到时候你自然会习惯的你现在到时候不得不习惯对你拿个手机习惯吗肯定不习惯对现在自然喜欢这类似的类似的对现在甚至连操作系统都没有

那么将来 killer application 就更 far away from that way 对所以说 AI 有很长的路要走你刚刚讲的挺好就是说我们现在还处于 AI infra 的初期阶段 infra 都还不成熟现在我们推理还很混乱每家都有自己然后训练值算被统一了训练值算因为现在的这种这个 media 的绝对实力把它统一了

但是在推理这一段其实还好还有好多机会而且我感觉是一个软件驱动硬件的机会对而且现在训练它主要是说你要模型要改如果以后模型不改了只是说我给他灌数据跟他反 tuning 模型就是我模型就那么模型但我想让他更聪明我有为别的数据就是说模型定下来了算什么定下来这个时候也可以定制训练行程

甚至可以定出圈链的芯片 POST 这个圈链的芯片对所以我们去看未来有几个关键的关键的问题可能我们要我们要去讨论第一个就是模型在什么时候可能会定下来我自己的我自己的感觉就是这个不到百万卡是不要想这个模型能定下来的人类一定会冲百万卡集群对模型一定越来越大但是他希望把这个全世界所有的数据全都给他灌进去

对那么第二件事情那个那个 Athropic CEO Dario 他讲的是如果说我们到了 1000 亿美金来建立数据区训练中心的训练的时候在我后面在建的时候就编辑消音机简单他认为可能在这之前就是你说的那个时间节点就是在做 1000 亿那就是说 100 万一张卡以上或者 300 万张卡连起来训练大概是什么时间呢

所以我们随便预估啊 27 年 27 年我们能看到千亿美金的集群对千亿美金集群啊那那欧盟也得融多少钱啊哈哈哈我也自己也在做自己的心情啊对这是个很很很了不起的伟大就像当年上月球一样你就是人为了上月球玩成那样那个航天技术在迭代式的往前走

我不管上去会怎么样我就是想看看对我想看看到了那 100 万以后那个模型会变成什么样的可能就这种好奇心驱使人往前走对现在就是我觉得 2027 年会发生两件事情一个是可能 2027 年或者 2080 年我们会发现千亿美金的这个集群诞生然后人类有可能会让火星

对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对对期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期期

对对我先问我第二个问题啊第二个问题就是说千亿美金之后大模型的这个事情格局能看清楚吗就是在 influence 这个领域大概将来会是一个什么格局我们知道的确定性的拿到门票的玩家是是 meta 是 apple 对吧是一些比如像 google 那 tier2 是创业公司还是像什么高通这一类的公司还有机会就你怎么来看

就是在这个端册或者是推理这个领域很复杂我个人感受到现在如果没有大模型的话就很难往前进场对暂时还进不下来对其实你的意思是说如果公司手上没有模型那就没有门票对现在我觉得很难

对这很现实那就现在我们掰着走的土的时候是什么样的模型但是你提供 infra 还是有蛋糕可以分的比如说你要做互联然后做互联 broadcom 它提供高速的 switch 对你要做互联你也离不了它的光通信的那些东西对吧然后高通他自己就是 quality communication 他自己擅长做通信那你 NV link

它里面那些核心技术它也可以去分一杯对对对对我们现在还有一个传统的硬件公司他更提供的是硬件里面的一些就是核心的设备像像这像这像做发动机里面的某个零件一样对但他不直接送

对这个其实有点像车对吧就是上一代这些造车的人都以为电车就是三电系统没想到等这个电车真的来了以后三电系统是里面最简单的其实是自动驾驶是数据是电池对所以我觉得算是一个划时代的一个东西正好这个我以为是什么就是商业模型的就 OK 就是门票模型就是门票而且模型好像两个档的 TL1 和 TL2

现在有模型了他就可以迭代现在如果没有模型了他从零 build 主要是他从零 build 我个人感受他他步步付出他没有成本他得烧多少钱才能干这个事情没有钱我觉得这一场战已经结束了这种一些公司对

这个入场时间已经结束了正好这个问题我也想问问 Indigo 因为你在互联网的时间很长对吧而且你现在又是一个科技博主知识博主今天我觉得在 AI 领域尤其是在 AIinfra 这个领域的竞争格局是非常有意思的

就是基本上 NVIDIA 处在一个垄断性的 unbeatable 的无法挑战的一个霸主地位然后从你的角度来看你觉得历史上有哪些时期我们可以参考以及你怎么来看就是这个竞争态势的一个变化趋势未来十年会怎么变历史上像这样子

绝对垄断好像 PC 时代都没有诞生过的它只是 IBM 兼容机这个协议垄断的是吧这个 IBM 和 Intel 的那种感受对那个是 IBM 加 Intel 的垄断但是它也没有像 NVIDIA 这么厉害把训练垄断到低水不漏然后再往前走再往历史再往前推呢推到 100 年前那个时候我想想看在做什么电力供应也没有然后那个时候 IBM 商用打卡机是垄断的很厉害

那个年代你看那个计算机博物馆的时候最开始展出的都是 FBI 打卡对对对对那个是垄断的很厉害对对对但是再往前面走可能因为人类还没有那么多集中生产全球化还没那么大的规模还是很分散的所以说没有那么大垄断的公司出现现在是因为高度全球化之后 30 年高度全球化大家组装那些什么东西

而且还有互联网所以说它垄断起来会比以前更快现在硬件你看软件公司垄断其实更厉害对比硬件所以它就对平台的选择你没有选择是吧说是我就是谁的然后社交网络就是谁的你根本就没有选择你没法选就这一家所以说训练就这一家这一点我认为是这个时代造就的而且它有它的机遇它有它的运气但是

NVIDIA 的特点就是每一个阶段的时候它总是撑着热点是开始做游戏加速然后挖矿然后 AI 然后它什么而且接下来它可能还有一个一波机会除了 AI 训练之外它的模拟 simulation

也是靠 GPU 的而且你看这种空间智能 simulation 它还是有机会的因为英伟达起家的是 graphic 对又回到他的身体上了对他又轮回回去了他本来就是渲染的将来做那个 ARVR 英伟达垄断了计算

computing 这个概念而且是规模化计算它垄断的不是说终端上计算它垄断的是规模化计算当我要把计算的一切的时候组合成一个超大计算的时候它就把它垄断了我觉得它是一家软件公司它也是一家平台公司老板自己说的 NVIDIA 它是基础设施未来它就是它就是 monitor 的东西对这个对基础设施

所以感觉听起来就是至少未来的很长一段时间对吧如果打破不了英伟达的果断就失败他股票量子计算会是吗

量子计算我个人感受他需要他的条件太严苛了你得关在什么温度这什么东西得零下不是零下就是 near 对对而且他算的就那么那么一个一点点而且最主要的是量子计算它的吞吐量是不可能上去的对什么吞吐什么叫吞吐量就是你需要先把数据

变成他能认识的形态然后他给你算算完以后你再把数据拿出来你变和拿这两个过程就已经比较算了注意一下最近亨腾教授在外面所有演讲上面讲的仿生的计算就是不是下线的对 neuromorphic

Neurofix 有点难做就 IBM 的 TrueNorth 加上 Intel 的 Loyd Heer 一开始在大约是在 1718 年那个时候大家都觉得 Neurofix 是 promising 因为觉得 NPU 比如说举证惩罚举证惩罚有什么未来我们需要研究人的生物怎么样走怎么样走在那个时候很那个是很 promising 的

但是后来被大模型打的出力了他讲的可能还不是这个他讲的可能更接近于生物结构的在纳米级别上面让就像细胞一样组织成这种聚酸单元纯物理的以后我们就是 DNA 一盘他很难去

就是他很难去打破大模型带来的反应计算这是对我觉得这是另外一条道路我觉得现在我们的归基的计算 Silicon Bay 我拿巨量能量转化成巨大的算法就够了非常简单的公式它不像生物生物是要节能

这是 Digital computing 和 NLog computing 的区别 NLog computing 就是说用物理定律用生物定律去计算比如说我们最著名的 Memristor 一组器

意思是拿摩尔的拿不是摩尔定律叫欧姆定律去计算对不算乘法 A 乘以 B 我 A 个是电压然后 B 是电阻那么我想 A 乘以 BB 是电流电流乘以电阻电压就是说我把电压给上去然后电阻调上多少然后连上电流电流这计算结果对这是 analog computinganalog computing 是非常早的概念早到什么程度早到

100 年以前算导弹不一样现在再回来是说它是一个 potential 的高效节能的方式但是它并不能带来像数字计算机那样 significant 的性能提升

所以我更想要它是 low power 比如说坐在边端或者怎么样对它可能会在未来会是一种应用场景但不是但是我们现在已经看到了电子计算机这样的是不可能比不太可能比得上规矩的规矩是太强了尤其是你的数据就是你的数据是 digital 的

然后如果你的运算是 L 了你觉得先做一个相当于是我的误解就是完全一体的 L 完全一体的就没有意义的那没法 copy 的对不符合现在主流的这样一个东西对反正至少反正

反正至少如果是站在未来的方向来看的话要看两点对吧第一个就是更大更互联第二个就是更 efficiency 更节能对在这两件事情上要有数量级的突破才有机会说 OK 今天这个格局可能会有一些变化

但更大更互联是肯定是 first priority 对人类文明进步就是希望更极端的东西出现对更大更互联我前两天还在跟一个朋友开玩笑你说等将来 AI 再往前发展发展脑机接口再接一接我们脑机思想连网对吧思想上云到那一刻地球本身就是一个物种

我们就跟芯片一样以前我们是一块一块的 GPU 以后我们就是一个集群我们也只是集群里的一张卡阿希莫夫小说《银河帝国法》的七部曲里面最后一部基地的最后一部基地是其中一部分的最后一部就是讲这个概念就是 Gaia

就是人类有给世界上最后一个最出名的电脑然后这个电脑就把整个地球变成了这个星球变成了 GaiaGaia 就是一个整体的计算所有的生物连网的生物所有的生物连网 Gaia 然后电脑说其他的它跟银河系的人类银河系的只有人类因为银河系里只有人类这个生物自然生物跟人类说其他星系已经都连网了我们就要把整个银河系都连起来这是里面的宿命

让大家参与银河系星系之间的竞争全球化是叫什么不知道全对我们彻底实现了全球化对吧全球一体化对打破人与人间的边界和隔阂彻底的平等

科技随着科技的发展就是注定发生的事情要 embrace it 就不用不要去逃跑对有时候听听你们讲完这两个我都不知道这个你们俩到底是这个加速主义还是 doomer 加速主义嗯以及度吗是加速主义 30%是度吗哈哈哈

可能加速到最后成为 Doomer 会是一个必然结局但不管怎么样我还是用一个上纲上线化作为结尾生活在这个时代真的挺好的

就咱每天讨论的事情对吧都是将来能给人类社会带来前所未有的巨大变化的事情对我觉得我们真的很幸运我们生活在一个科技巨大转型的 100 年的很多科技路线都会合的一个十字路口一个交叉路我觉得我们这一代

真的很幸运我们会目睹未来很多奇迹发生很多化学反应我们没有办法想象是不是对就是这刚才我们想的这因为拿的哎绕回去了这 ai 又和 graphic 也结合又会变成什么样子对对对绕回去了对和他和他老本房也结合对这这我刚搞自己对我刚搞自己还想到一点就如果你用反垄断法去拆因为答都不知道怎么拆哈哈哈对怎么拆啊对

好吧,那我们今天就聊到这儿,很高兴你这个,谢谢,非常感谢,以后我们有机会再聊,谢谢大家,好的,我们可以明后年再看看那个,讲那个千万千亿美金,明年见,拜拜,拜拜,拜拜,

INDIGO TALK / 驱动 AI 的加速计算 - EP14 01:21:03 Share

INDIGO TALK

Deep Dive

Shownotes Transcript

INDIGO TALK / 驱动 AI 的加速计算 - EP14