大语言模型的兴起对 AI 硬件带来了怎样的变化十年前扬言要取代机械硬盘的闪存现在怎么样了本期节目我们来更新一下 AI 硬件和存储设备的现状这里是牛油果烤面包大家好,我是斯特亚特
这期节目我们又请到了我们的返场嘉宾弯曲大厂的 David 来到我们节目大家好 David 上次在我们节目里面谈了存储设备对 是的今天我们也会谈一些存储设备的最新进展在存储设备之外我们再谈一谈 AI 硬件的发展
对于 AI 硬件我不知道我的理解对不对现在的格局是 AI 硬件基本上都是围绕着大语言模型在做然后训练就是 NVIDIA 英伟达一统天下推理方面就是 inference 方面还是有很多的努力大家在做不同的平台不知道我的理解对不对
对的 现在是这么一个情况就是我们看 AI 就分几波最早的时候可能是以 Computer Vision 计算机视觉那对硬件的需求当然是有但是其实不像现在这一波对大语言模型要求的那么高具体表现在哪里呢就是说一个是模型大小的区别
以前可能设计机的视觉的模型比如说 ResNet 或者什么可能更早的 VGG 都是多少 million per meter 百万亩参数几百万个对可能千万也就这样但是到现在大语言模型你想 ChatterGPT 可能是 175 个 billion175 个 billion 就是 1751 个参数我们之前还说几百万现在 1700
50 亿是多少倍这是指数增长的那是相当于是 CHAT GPT-3 嘛 3.5 啊然后再到后面的话那就可能就更大了对吧现在就是往缺点上面再走这基本上是将近 100 万倍啊几十万倍了已经
就是这个三十字模型的大小那之前你说视觉模型那那些比如说那些互联网公司那些比如做广告推荐的搜索那些模型那些模型
有多大跟现在的大圆模型这也是一个很有意思的 point 就是说除了这个 computer vision 计算机图形视觉模型之外呢那很多像我相信在广告由于它对实时推荐性比较高它一般可能当然用了两个模型嘛一个可能是 MLP 就是多层感知机因为它可能算的比较快一些或者加上一些比较传统的机器学习的一些方法另外一个呢它可能就是
有一个很大的叫深度推荐模型深度推荐模型对因为所有的可能你的这些图片也好啊各种你买过的什么各种 history 或者你的用户的各种 profile 等等等等各种信息它都经过这一个 process 叫做 embedding 这个嵌入式模型它把它转成了一个呃
怎么说呢 dense vector 就是比较一个一个一个一个一个向量吧转成一个向量作为特征对吧扔到这个可能大模型不是大模型了就是一个传统的一个机器学习可能都已经是
深度神经网络了吧在那个时候对对对像这样是这些模型呢可能甚至像 MLP 这种模型的话甚至在 CPU 上跑都是可以的就是都比较小的虽然他们的这个数据量虽然估计比较大但是模型其实都不大是吧
对对对因为跟这个实时性有关然后另外一个呢它跟那个计算量有关系计算量没有像大语言模型这一波这么大大语言模型这一波为什么这么大呢根本原因在于它的模型本身是基于 TransformerTransformer 当时可能是 2017 年左右吧也许是那个时间附近左右可能谷歌的 Tension is all you need 用 paper 来的所以现在的所有大语言模型
各种各样的变种 DeepSeq 也好或者说你的这个现在的这个 Cloud 的 whateverProperty 的 model 也好都是基于这个 Transformer 的然后这个 Transformer 的呢它有很多很多层嵌在一起的所以说呢它对计算量是有比较大的需求的
所以现在对于 transformer 层越来越多了对由于这个要求呢那么它就现在就需要 GPU 以前的那一波呢 Computer Vision 计算机视觉呢也许 SPGA 啊甚至一些 DSP 啊 CPU 啊等等等等各种各样的意志的加速器都是可以用来加速的因为它本身图片也不大
相当于数据你也不大计算量也是不是那么大但是到了这一波呢参数那么大计算量也很大各种各样的你图像也可以扔进去视频也可以扔进去文本也可以扔进去那大语言模型把这些 input 全扔进去之后呢它的推理当然训练是更大了推理本身也是有一定的需求而
除了计算之外一个很大的区别是在于它对于 memory 这跟存储就有关了所以 memory 的带宽的需求是极大的内存也很大对所以以前呢你可能把它就是内存条就可以或者 SSD 你导来导去就是问题也不是那么大但是现在呢
它这些模型参数你想那个参数本身都是几百个 GB 甚至更大那你要怎么样放到这个加速器里面能够迅速地把这个模型参数包括一些训练中间的中间态的一些那些 information 相当于用来做计算
不你说的这个确实是就勾起了我的印象因为我的前雇主我的前雇主他当年也是一个互联网大厂当年说要做这些机器学习的芯片嘛说了很多很多年一开始是要做
训练的芯片做了很多年调研调研什么都没有做出来然后又突然又变成要做推理的芯片好像做来做去也没有总之太多还是用这个英伟达的东西反正就是感觉不是什么刚需做点推荐啊做点什么啊你用 CPU 也行贵一点但是好像也没有贵到就
不能承受的程度反正就成为这么一个意思啊但是就看着谷歌的 TPU 不行买点英伟达也没有买到那个程度是吧英伟达显卡一直是在深度神经网络出来以后就开始大卖了对吧 NVIDIA 其实很有意思的一个公司它可不只是在这 AI 做一波下早又火了一把它这运气非常好它最早呢是做 GPU 渲染吧
那个时候可能大家也不觉得它是那么一个 fancy 的公司 AMD 可能 Intel 什么都可以做个显卡然后它在 AI 这一波之前它的一个大量的需求是来自 web3 区块链当时挖矿好多的那些区块链公司买着它的 GPU 作为算力的根本来进行挖矿
然后呢中间的各种各地的 regulation 等等的影响呢导致它的其实那一波的需求就下去了其实它有一段时间是
快要下去了后来挖矿都变成那个叫什么 Acid 是但是它为什么仍然有需求呢是因为挖矿也可以分很多种里面的算法可能也是自己设计自己的各种各样的 proof 的算法等等等等 consensus 的 protocol 等等等等那么当时 GPU 做还是一个
有用的东西了而且个人他也会买一些 GPU 来简单的挖矿不是说在 Native Center 里面对然后呢本来他要下去那一波呢后来就被 AI 这一波接起来了但 AI 这波我记得它起来还是在 ChatGB 之前它就已经起来了那个需求是属于它是有
而且它有一个很强的护城河到今天仍然适用是因为它的 Kuda 就是讲的 Echo 它有一个语言所有的基本上是著名的训练平台都是得和 Kuda 对接对 因为好用然后用户的相当于上手成本比较低因为如果说同样的 Engineer 你要用 AMD 的或者说用其他厂商的 NPU 或者新设计出来的一些卡的话可能不那么好用那么在竞争这么激烈的
今天在才抢几个月的 Leading Time 的时候那你竞争优势呢因为的而且有很重要的一点呢为什么这一波跟上波图像不一样呢图像对内存带宽的需求没那么大或者说现有的 GPU 足够了或者人家别的一支的计算也可以但是大语言模型它里面要 HBM 就是 HBMHigh Bandwidth Mesh 高带宽存储
这个 memory 是一个很难翻译的词在中文没有没有这样机体高带宽气体你可以简单的说就是内存也是机体也是 memory 但是内存的它的那个接口它基于 DDR 嘛它那个速度就慢高带宽的那个它的那个它的那个 interface 就是那个 memory 它设计的时候那个芯片的那个那个 width 宽度它比较大它这是呃
来撇开技术 detail 吧它就是为了提供高带宽的然后呢以前这个高带宽呢用处可能比较少但是呢现在这一波大语言模型呢它对带宽是需求是刚需就是这个叫记忆的记忆体的带宽啊对而且很有意思的是都不光对训练哦黑力也是同样的
对你就这么思考一下比如说你有一个这个 175 别连的这个 model1751750 亿 1750 亿个参数的冒险对对对那么你就假设它是 350 个 GB 吧
450GB350GB 那么你在做大语言模型推理比如说你在打入一个文字 How are you 帮我翻译成中文对吧那么你输入输进去的时候它是要把整个模型过一遍
它才会输出来一个翻译应该翻译成你好吗对吧然后得出一个结果那么相当于推理不就是这么一个你扔进去一个东西出来一个东西吗那你跑这么一遍相当于你要把那个 350 至少 350GB 这个东西需要从内存里面全部算一遍全走一遍吧
那你从那个内存读到计算单元你光漏的一下 350 平米它的带宽你想都有到需求因为你是对输出有速度有要求嘛比如说你呃
一秒钟你要出多少个 token 多少个 token 跟那个词还不是一对一的可能大概 0.75 个词那么那你要比如说你要一秒钟出 20 个 token 就是 15 个单词的话你可以算一算可能大概里面的带宽序多少所以带宽是中期但这个和英伟达的显卡有关系吗
和他们的 GPU 有关系吗还是过去好像我们的传统印象认为 CPU 是对于内存带宽是有优势的显卡是对于内存带宽是有劣势的现在还是这样吗是这样的就是
CPU 那边呢首先当然 CPU 跟 GPU 那边可能是并行计算算力比较强一些 CPU 算力弱一些因为它相当于是通用核嘛它可以做很多调度啊 IO 啊等等其他的事情然后带宽而言呢主板上的这些 DDR 它全部加起来你可能是能提供的带宽是比较有限的
但是 HBM 呢它相当于你在比如说像 NVIDIA 的可能几十个可能现在
大概可能 80 个 GB 这样的 HBM 上你能提供的带宽可能是 TB 几的 TB 每秒所以它是做在 GPU 里面的吗它有一个 interposer 我也不知道怎么翻译相当于它是靠近计算的这个 HBM 呢它是里面把 DRAM 堆叠起来的一个封装好的一个 package 它就是 HBM 它是跟 GPU 是直接通信的它们合在一起封装起来变成一块 GPU 卡
所以说英文人的卡里面有一部分是计算单元有一部分就是这个高带宽的内存是的而且那个部分也是非常非常重要如果你看最新的就和那两天前 AMD 他们新的一款 GPU 的话我看很大的一个 differentiator 他们提供了很高容量的 HBM 容量就是带一 TB 这样对对对容量为什么容量有讲究呢
很简单比如说你要跑一个 70billion 的大语言模型 700 亿 700 亿那么你这么一个像 DeepSeek 或者任何的一些开源的这种大语言模型吧那你想 70 个 billion 就算你是用了量化比如说你是 8bit 量化的那就是一个 byte 一个 weight 那么你相当于你是需要 70 个 GB 对吧单纯存这个相当于
相当于全重当存模型就要 70GB 当然其实要跑起大圆模型是有很多倍的不只是全重还有很多计算的中间态优化的时候的一些 states 反正有很多 information 你可能需要更多倍也许是 4 倍我忘了一个怎么计算的好多倍的量那么你一个卡
比如说你只有 40 个 GB 的话你不把模型压缩到量化到很小的话你是根本就没法在一个单卡上跑起来的哦你就大了就可以省事了是吧就可以对对对相当于我作为一个比如说我们作为一个科技爱好者我想在自己的电脑上装一个卡跑一跑大预言模型那不好意思你买的这个卡你只能跑一个也许 3Billion 的也许 Lama7Billion 的也许是你的最多能跑的了
就是更好的卡可以买跑更大的模型这是推理是吧就算推理光推理都是这样的那如果你想跑一个相当于是完整版的 DeepSeek 比如说那它的参数可能是 600 多个比联然后那所谓完整版对吧一般的话你可能 DeepSeek 可能是 8 比特的那很多的模型是 16 比特的就是一个 wait 要两个 byte 那你想吧光推理它也是要多卡的
有多张卡能放在一起推理假设有 100 个 GB 的话如果你一张卡只有 60 个 GB 那么你至少需要两张卡才能把这个模型跑起来仅仅是跑起来那用写两张卡
那两张卡它怎么能够读互相的内存它有一些链接了 NVIDIA 的话其实除了它的 GPU 之外它还有一些高速互联了 8 卡 GPU 在一个 server 里面它有 NVLink 那个接口叫 NVLink 就是 GPU 跟 GPU 之间的通信非常快主要的 GPU 的大买家
应该都是这些互联网大厂和这些巨头 OpenAI,Anthropy,Microsoft,Meta 等等那么只有这些公司它才有这个 power 它可能还要去建数据中心或者用 Oracle 的数据中心它需要买大量的卡为什么呢因为它需要万卡 GPU 来训练
因为它那个模型你想吧它不光是我们跑一次实验就完事了它可能还得中间不断地迭代然后还要试错 Hasfinding 它要几个月也许三个月甚至六个月他们来训练出来一个新模型那么它 GPU 的资源是越多越好所以它可能是万卡 GPU 一起来训练的所以现在训练除了谷歌基本上都是用一台是吧应该是这样吧因为谷歌 TPU 它也不对外售卖了
当然国内情况就不大清楚了但是我觉得可能主要是还是 NVIDIA 为主吧当然可能有一些国内的其他友商的一些产品应该当然也是可以做训练了但是具体怎么样我也不大清楚那推理的这方面呢推理方面是个什么样的一个市场版图推理的话我觉得跟应用有关
比如说如果是大语言模型的话那么这些 service 谁来提供的还是互联网厂商比如说阿里巴巴 Google 或者 OpenAI 这些大公司那这些推理他们也是发生在云端的他也是优化过的就是支持 Martin Tenancy 的就是多租户的
然后呢那还有其他的推力市场就很大还有其他的比如说一些边缘的 Edge 的那这个玩家可也许是那就我不一定需要 NVIDIA 了对吧也许我找 MD 也可以啊 MD 很好啊然后你还有好多其他的一些 NPU 的 provider 厂商 NPU 就是 Neural Processing Unit 就是另外一种加速器了加速器就是他们跑的不一定是大模型
对对对他们就不一定能跑得起大模型比如说像一些 AIPC 所谓的 AIPC 可能你听过最近好多公司出的新的那个电脑它都 brand 成 AIPC 了那么 AIPC 第一次听到这个词 AI 的这个电脑我第一次听到这个词 AIPC 好多的
它里面可能就会有一个嵌入式的 GPU 可能会有一些 NPU 就是所谓斜处理器吧包括像苹果的叫什么 Neural Engine 是吧带来的对苹果 Neural Engine 在手机里面其实也是 NPU 对所以这种的就会比较多对现在如果在大厂云端这边他们还都是用除了谷歌以外都还是在用这个
因为答案的卡做推理吗还是说这些云厂都在自己研发它自己的因为推理好像没有那么严格的需要用酷打的吧
推理对推理的话推理一般来讲你的 user case 就比较成熟了其实为什么你就不一定需要你就是其他的各个厂商的机会比较多因为你可以做各种各样的优化你的相当于应用已经确定了你的负载也已经确定了然后我就可以做各种各样的优化所以这个领域还是英伟达的阵营还是说有更多的我也没有 detail 的数据但是我觉得在这个领域的话可能就百花齐放
对不一定说 NVIDIA 一家独大除了超别特别大的语言模型之外就是说很可能巨大的语言模型还是只有 NVIDIA 才可以稍微小一点语言模型可能有可能有当然像 AMD 的 GPU 它也可以做超大语言模型的推理但是仍然会有人家工程师愿不愿意用这个卡然后现在不是只要那个什么叫什么什么 HHVM 能跑都可以
不在意这人叫什么他还是有一些易用性各方面的问题了就还是英文卡最受青睐对所以他受青睐不光光是他硬件 spec 的问题很大的程度上就是因为 CUDACUDA 是本身这个 game community 帮他完善的他最早知道这个 GPU 很多人有玩游戏这个不能别人用吗他有专利吗还是有什么他是 Property 的不开源嘛
然后开源有啊开源有一些什么 Open 什么就是有一些开源版本的类似这种跟 GPU 做通信的但是那些好像不是特别好不能够把你硬件的这个潜力给全部展现出来哦所以它就是它的古城河那这个国内听说国内华为的推理芯片已经用在 DeepSync 上了这样这是有什么传闻吗
这个我也不大清楚但是按理来讲这个推理本身它是 memory intensiveUltra 就是一个内存对如果你有大量的 HBM 你提供足够的带宽你的计算部分相对来讲是没有相对来讲是你是不需要那么 powerful 的
所以推理的卡就是最重要关键是它能够有就这个访问内存的带宽就那个卡里那张 GPU 里面或者说那个 AI 推理的卡里面那个内存的带宽是最重要这个东西是高科技吗是高科技现在 leading 的是 SK Hynix
就是韩国人来 然后很有意思啊像我们可能五年前聊的时候 No.1 Storage 做存储的无论是 DRAM 还是 Flash 那是三星啊
但是突然之间一夜之间三星变老二了这是为什么呢因为 SK Hynix 他们相当于是大量的押注了 HBM 结果 AI 这一波 HBM 他们主导了真的就这一家韩国厂商就相当于弯道超车就专门就做高带宽的存储
然后他现在就已经是把三星都压下去了对啊因为三星没有 qualifyNVIDIA 相当于 NVIDIA 说你用 SK Hynix 合格三星你不合格然后我用你 SK Hynix 那 NVIDIA 现在是 number one 他说用谁就用谁了那最后 SK Hynix 就变成主导的了当然我们美国也是有厂商的美光也有一部分了 Micron
美光也有一部分高带宽内存所以它还并不是一个垄断的高科技那肯定不是垄断了垄断的话一般在美国的话会有问题的我们一般不会接受垄断的产品的
这很有意思的不知道你知不知道不知道比如说我做了一款芯片只有我有别人谁都没有然后我要卖给如果你是谷歌的话你谷歌可能会不大乐意因为你是垄断的我是希望至少有两家我才会这些大厂一边互联网如果是这种大量的采购的话基本上拒绝垄断它赔值它也得赔值另外一家出来
这是孙理光谁培训出来的没有这个 HBM 是一直都有只是这一波相当于他们那个 SK HENIX 相当于由于他们研发比较超前或者投资比较重他们在这一波领先了因为他也是跟 SSD 也一样他也有 generation by generation 也就是这个 generation 这个 node 他们是领先了他们优先 qualify 了那么这批量所有出的 GPU 里面装的全是
假设 100%的话那突然全是他们的那你三星零份额嘛那你这一波 AI 的红利就没吃到了所以这个技术也不是一个高不可攀的技术就是别人也可以做就是稍微慢一点这技术没有一样是完全可以做的因为它不是你是一天之内发明的嘛那这个国内你说到国内国内可能也不可能这个是吧
国内这个也不大行就这个会有禁运是吧具体我倒没有看那个美国政府的相关 regulation 了因为它现在的 regulation 因为 HBM 它也不是单独我不知道 HBM 它单不单独单独有限制但更多的是像在 GPU 这个 level 比如说 NVIDIA 不是让你卖或者说是我原来让你卖的时候你的贷款必须给我降成多少它是有要求的所以
在国内有人在做这个吗我没做过调研但肯定有很多芯片厂商或者说创业公司在做这些东西这一定会有这什么时候只是能追上那就不知道了
所以现在的版图在推理上说是这么一个还是也是英伟达领先但是别人其实也可以用但是关键是能不能搞到那块非常高带宽的内存成为了这个因为那是大语言模型但是推理来讲的话因为推理跟训练不一样训练其实现在 heavily 基本上主要的都是在大语言模型这儿
因为你现在图像处理图像你也不用怎么训练了就算要训练也用不了几块卡但是推理不一样啊推理的话它是百花齐放的那你比如说摄像头它里面也许也有啊比如说你手机里面它也有推理啊就是推理是各种各样的对吧它的负载也许是图像处理也许是有一些轻量级的自然语言处理也有一些可能就是更传统一点的机器学习的一些负载它也可以来做推理或者说一些呃
信号处理它也可以用来加速嘛对这所以说它这个的话就是可能覆盖面比较广那肯定就不是 NVIDIA 一家独大了对我们说 NVIDIA 现在有强烈优势的主要是在大圆模型这块那有别人在考虑抢大圆模型推了一块肉吗
肯定是啊但是这个难点就是在于人家是多方面的护城河对吧它的护城河有好多方面一个呢是 GPU 它本身 spec 相当不错对吧当然 AMD 它是很强的一个竞争对手但是人家有 CUDA 当你跟它 Hardware 相近的时候人家就有 CUDA 首先 CUDA 就跟苹果的 LS 操作系统一样你就很难去
跨过它的这个生态第二个呢那它还它除了做 GPU 之外它还有别的呀它还有这个互联呢它还有 Network 呀还有多卡多卡它也是这个技术领先的是吧对对对它就各种加速器 NVIDIA 也买了好几家了对所以它是在布局了而且现在他们也不光是做 GPU 如果你看 NVIDIA 的它的那些 service 它还它也它也自己也训练模型了呵呵
那这个云厂是有它的有可能会出自己新的我查了一下云厂好像都在都在这个推他自己的芯片比如说巨大模型可能他们做不出来轻量性的大元模型比如说 80 万 80 亿啊什么之类的 160 亿也可能他们
可以可以做一做这方面有什么他们有什么呃我觉得除了是对谷歌呢他他本身就有 CPU 了但其他厂商呢我觉得做肯定也是可以做 future 来做推理的话但他们值不值得他们做那就是另外一个 problem 对吧就跟阿年也这些公司他也可以做 SSD 嗯
嗯最后划不划算那是因为那是因为那些很便宜嘛那些公司没有什么利润嘛把价格加到比你低了但是你就伟大你利润很高 70%的利润那你稍微做一做就比它便宜了对对那现在可能也不光是这个 GPU 嘛他可能还要投资这些 Data Center 数据中心然后一些能源啊相关 Main 的都有嗯
所以不容易那我们说这个 AI 硬件说到这儿我们说说上期这个话题这个存储设备刚才您说了一部分我得到一些答案了这个存储设备我们上期我们上次说到是不是
五年前大家还在想英特尔的 3D crosspoint 后来叫 Optin 当时是行为热点 3D Xpoint 至少市场上现在已经没有了然后被淘汰了类似的没有人用这个事情我们谈了好几年这事就过去了大家就没人谈了然后现在就回归到原来的生态除了 AI 方面除了 HBM 现在是比较火热之外
那么存储本身呢相当于是比较 Hardware 方面相对来讲比较成熟当然它就是常规的嘛比如说
HDD 的话就是机械硬盘它就是容量在变大现在是已经到了超过 30TB 一个盘了都是 30TB 了我这前些年那时候那些技术什么 Hammer 这些都已经已经算成熟技术了吗 Hammer 倒也没有成熟 Hammer 是现在开始要起来现在就 30TB 都还没有 Hammer 上啊
哈马就在这个节点上了所以现在都是什么技术现在就是下一代就是哈马但是
就 hammer 就是把那个磁头加热是吧用 laser 激光它也还有一个就是 mammoth 反正有好多各种各样的技术但是现在下一个节点现在基本上业界的 consensus 就是 hammer 是 hammerhammer 就是说用激光就是机械硬盘就是你要同样一块硬盘你要越来越大就是那个
机械币能够读越来越小的一个区别这代技术家
对越来越小密度越来越高你才有容量继续往上走同样几块盘你的面密度你要能够提高那么你就需要新的写入和读取的技术这还不是用激光写入的对当然还有还有别的技术了我们还有硬盘还有未来还要走对未来未来 future100TB 这厉害所以狼来了喊了
20 年所以就还还是技术在层出不穷可以到事实上呢是至少从我们看到的可见的未来 HDD 是不会被替代掉就机械硬盘还是可以因为你在 HDD 在往下价格就是每 TB 在往下走闪存也在往下走但是至少我们没看到它们会交叉了所以硬盘这个东西我有几个疑问一个是说
之前狼来了说过他们最终有到量子漂移是这种每一样技术现在都有各种各样的困难
HDD 呢它有 HDD 的困难 Flash 闪存它也有困难因为你想吧我们当时在可能见面聊的时候可能那时候 MLC TLC 就是两比特三比特对吧那三比特的话就是八个状态嘛四个状态八个电类对对所以说信号处理这个方式也是遇到了困难为什么呢因为它的信号处理越来越难了
说到物理上的根本就是最终跟那个闪存 2D 的时候的 scaling 也是一样的问题那你最后你最少能区分的是一个电子一个电子不能再分为二了对所以说它最后它有一个极限而且呢本身你从
SLC 就是一个 Cell 是一个比特到一个 Cell 是两个比特你增加了 50%那是很多的那你逐渐变少了 30%多后来就是你就算你增加你也是越来越少了但是呢难度越来越大信号处理这是一个第二个呢现在的闪存都是 3D 的 3D 堆叠
就是理论上呢就听得非常好对吧你每多加层数那你除以这个层数相当于你的好像是你的成本降下去了但实际上的现状呢是你越堆越高呢你的成本也上去了最终导致的结果呢你除了一下可能并没有每个比特的成本你并没有下降
或者说你下降只下降了一点点但是呢当然你的容量是很高了就是密度你肯定是变大了对吧你最后你可能一张卡你可能轻松 100TB 甚至未来 PB 都有可能但是问题是你的成本没变那么你买那张卡你就是要那么贵跟你的 capacity 很相关
所以说闪存那边其实也是有同样的问题了所以那么你看这两个技术的话它们是平行的所以长远的未来现在基本上就是在于 HDD 依然是可能 80%的存储如果你只讲究性价比你要 TCO
就是说你的性价比高吧那你就是要走 HDD 如果说你对延时你对你的 IO 就是你一秒钟能写多少数据你对这个有强烈的需求的话那就是走 SSD 但这硬盘一直来想有带宽的这个挑战嘛对吧就是带宽不
不提高 100MB100MB 每秒的带宽 30TB 还是还是 100MB 吗是这样这样是有一个问题当然未来当然也有一些解决方案了就是说呃
根本的问题是在于很多存到这些 HDD 上面的都是一些温的或冷的数据软件方面软件专家设计好更好的文件系统以及 tearing 你去 make sure 你需要这些 IO 需要延时的是跑到那边去的你需要 capacity
低成本的跑到 HD 这个不可能啊我做过这个嘛做这个嘛这个不可能嘛因为因为你要付本嘛对吧你最终是需要你坏了之后最终是需要
读这么多数据来重构这个数据最终软件能够达到一个极限就是说你就算是最能做的数据你也需要足够的带宽就即便是维持这个就不读不写维持它你也需要这么大的带宽那肯定是有一个极限的吧这个怎么办呢
这个就是现在就是你肯定要未来要有新的技术你继续推进它的这个带宽了其实跟带宽而言可能 LPS 可能问题更大了 LPS 是什么呀就是每秒钟你能读的 IO 啊
那这个硬盘从来就很差的嘛那这里有什么带宽其实还 OK 了带宽其实不是说不能做其实前段时间是有一些新的技术出来的比如说里面增加了一些部件导致它比如说原来是 250 兆每秒的现在变成 500 兆每秒了是可以 500 兆很高了问题是在于
问题是在于我这边成本上来了我这边比如说问客户要价就因为我成本上来了我肯定得问客户要更高的价嘛那你问客户的时候客户说那这个性价比不好还是用原来的对吧最后不是说技术没有有
但是它就是很有一个 balance 它最终可能就是最后还是让 software 你那些 figure out way 吧你就想办法你这个用现在还是这么的带宽你用这个给你 500 兆的你不要买不起也好还没到用不了就完蛋的程度先用那个谷歌前些年这个推的那个什么多词头那个
多币的那个后来咋样了没人提那个就是能够提高带宽对就是那很简单那我增加一个那我变成带宽 double 那后来就你加了机械部件你是不是就变贵了后来就没人提这事了虽然我们都认为要解决这个问题我们给出解决方案对吧但是最后
它是多方面的行动其实就这么几个大厂的几个组的人他们他们总算一个账然后也不知道是对还是错就这么回事了是吧最终就是用户买单云厂时代就是这样就是你最终你跟用户说我就这么讲我就得提高他们就是垄断嘛对这个是跟成本它对成本还是很敏感的
因为它量很大对在最终来讲虽然是不同公司几个人但就那么几个人如果他们都都觉得应该怎么做那这事就是这样了我觉得这个垄断时代艺术方面是有很多方法的我可以给你我继续往上升都可以
真的吗所以说技术还有很长的路要走技术是有很多的对有很多的 pass 问题是很多地方它不光是一个技术问题像我们如果只是考虑技术的话那可能性好多了但是有一天会需要的吧我觉得最终有一天会需要的我们之前说的那个叫什么 SCM 这种叫什么 Storage Pass Memory 中文叫啥呀
不知道中文叫啥存储级内存我都不知道这么翻译是不是准确我们的中文都有问题那个就是比闪存快比内存慢的但是的那个玩意儿现在就没人提了吗其实有一些公司在做吧我现在国内其实还有一些厂商在做一些嵌入式的这种存储所以英特尔他是把他的厂英特尔是把他的厂卖给了美光是吧
没有这个东西是美光做的但后来他们 break 了反正最后就大家都不做了美光也不做了现在就是没有 3DXPoint 这么一回事了他们的 Fab 就都已经就不做这些东西了对然后然后
当然那个是业界存在的唯一一段的相当于真正的作为这个存储的这么一段期间吧现在就如果是做 storage 的话就当时我们说有很多种嘛你有 LUI RAM 一主器的有这个 phase change memoryPCM 的对吧你有 M3 就被认为是 PCM 的对吧
对对对对对但是现在就已经没有主要能用的这个所谓的 ACM 了然后当然这些介质呢本身还是存在存在呢就是两个一个呢作为一些嵌入式的就国内有一些 startup 也好一些公司也好他们反正拿这些东西做一些嵌入式的 memoryembedded memory
那他们这个量能量成什么那他们成本能做低吗做不低我是不知道他们是怎么
怎么赚钱是吧也有市场嘛也有市场就跟就跟这个 No FlashSLCNAND 很多的这些 Marketer 原来就是很小像主要的这些西方厂商基本是都不做了不是说他们不能做他们只是说这个 Marketer 太小他们主要做大 Marketer 对那小 Marketer 呢那有很多公司太愿意做就做嘛
对然后第二个呢就说那只是一个第二个呢就很偏研究了就是国内很火当然前就很久之前我们这边就湾区啊各个国家就研发的挺多的国内呢可能现在就做找一些应用吧就是呃
什么呢就是 AI 加速器相关的什么相关的 AI 加速器相关的对就是我为国内有一个词汇叫什么 In-memory computing 内计算可能叫中文内计算对很多的名词了对有很多的各种各样的名词其实概念是很简单的就有两个 motivation 第一个 motivation 呢你们的人的大脑这个 power 那么低你能做那么多 intelligent 的事情你现在 GPU
计算是混在一起的是吧人的大脑存储和计算是混在一起的对减少那个数据从计算和存储单元来回的所消耗掉的能量所以他们是做 DRAM 的吗各种各样的都有了所有都有 DRAM 的 DRAM 的 RARAM 的 PCM 的你只要能想到的就都有他都有计算就是所有的这些
就是这里面就比较 cheeky 这个可能我们如果真聊的话这个可以聊特别长他这个就是说有的呢就是存内计算有的呢是 near memory computing 可能 meta 其实有 paper 的 meta 以前发过一个 paper 就是说呃
就是 Near Memory Computing 就是拿 DRAM 做的就是在 DRAM 上面做一些 Logic 的 Processing 用来加速什么呢加速那个推荐模型哦就是在对为什么呢因为那个 Embedding Model 在那个 DRAM 里面是 Sparse 的它不像别的模型它不是个 Dance Model 对吧它可能读的时候你就去读离散的对对对所以它在里面做了一些 Processing
是真的真的有这样吗所以说这个事情讨论起来还是很热的就是叫什么近内近存储计算对这个呢是一个很多的 startup 在做这些 accelerator
当然我们我这个 situation 呢就比较多了各种各样的都有啊然后其实比较有一个比较还有一个比较好玩的还有一个公司是拿直接拿那个 Wafer 做的我忘了名字叫什么了可能叫 Cerebras 整个 Wafer 直接来做 computing
整个什么微粉微粉就是那个晶圆晶圆级计算哦很多很多好玩的这些东西了就是国内比较热希望在这方面国内热其实台湾也挺多的啊说白了呢都是一些非冯诺伊曼的架构啊非冯诺伊曼冯诺伊曼架构对对对就是有些呢是呃就很多就是基于模拟电路的嘛嗯
当然这里面就是可不可行什么的各方面的那就是另说了至少这个是一个很 active 的研究方向然后现在就是说还有很多一些新的这个存储的 technology 了不知道你听过没有就是说比如说像 DNA storage
这我听过就是要存那些非常非常冷的对还有一些是比如说基于那个陶瓷的陶瓷的我没有听说过就是有一些创业公司特别他主打的这个相当于一个呢他也有比较高的容量但主打的就是相当于我写进去一次可以读很多很多次然后
什么风吹雨淋日晒都无所谓的这还挺有意思但是这些都是你要跟这些主现在主流的这个闪存和那个那个那个比你要有竞争力是非常难的因为存储是一个对成本非常非常那个敏感的行业 OK 看来看来
这些年存储并没有发生很多事情啊就光方向光失败了成功都并没有太对就跟 CPU 啊各方面都是一样的任何一个 computer 你都得有这么几样嘛计算存储通信他们进展不可能那么快的所以真正目光的焦点还是 GPU 是吧 GPU 是真正时代的推动啊新的应用它才会屈身下面硬件的核心嘛
你当有这个 AI 了那它要对计算有新的需求了那我就需要新的架构了新的存储了等等等等如果没有新的应用的话那像我们现在这个 HardwareGood Enough
都挺好了你不需要再去进化你从 CPU 和你说从 10 个变成 1000 个对你这个 Nutbook 上面有什么区别呢除了多耗电的区别对但如果说我们有这个新的需求的话那我相信这些硬件的架构也会跟着去变革新如果说你要在本地机器上跑一个未来也许跑一个大预言模型那么逐渐逐渐的就有这些创业公司也好新的 Hardware Product 也好满足这些需求
好非常感谢 David 来到我们节目给我们五年以后更新一下这些知识存储和 AI 应用发展最新的趋势非常非常多东西喜欢我们节目请在各大泛用型播客平台订阅和收听那我们就后会有期了我们再见
嗯