好啊,最近,中国 AI 公司 DeepSec 的 R1 模型一经发布,又引起了全世界的广泛关注 DeepSec 宣称,他们使用的非常低廉的成本就做到了接近切尺 GPT 的水平而目前来看,事实也确实如此这件事引发了极大的震动,也似乎象征着中国正在突破过去几年来自美国的科技封锁但是与此同时,非法征流,言论审查,针对 DeepSec 的争议也越来越多
DeepSight 是如何做到这一切的?人工智能 AI 市场会就此起牌吗?意识形态审查对人工智能的未来发展意味着什么?今天我们邀请到了北美在读 PhD 曾经在多个顶尖高校进行访问和实习出国前有国内 Top 大模型公司经历的礼毕社区的技术大牛 Raw 来谈谈他的看法以及他对整个行业的见解
Rou,你好,很高兴你愿意接受我的采访首先先跟大家做一下自我介绍吧好的,也是比较荣幸因为我也是李老师的老粉丝然后首先就是做一个自我介绍然后我现在是在北美读 AI 相关的 PhD 应该算是一个圈内人吧
然后我本身就是教育背景上我可能也不便于去透露太多当然可能可以说是我有过比如说像 MIT 的 UC Berkeley 的教官或者实习的经历然后我之前在国内的时候也在应该算是现在来看比较 top 的大模型公司工作过对嗯
那最近的话呢 DeepSec 是引起了这个非常巨大的讨论啊那同时也伴随着很多的争议那包括对于美股也造成了一些很大的影响和震荡了那它不仅是以这个大幅少于这个 OpenAI 的这个资源构建了一个同样强大的一个模型而且还把这一个技术开源了那你可以为我们简单的先介绍一下 DeepSec 吗它为什么会引起这么大的这个轰动你们业内对它有什么看法它到底有多强呢
对我们一点点来说就是首先这个 Deep Seek 它是不是
相对于 OBIN 来讲它有一个很大的成本上面的节省这个是确实的但是我个人的观点是它应该没有像网上很多尤其是很多 JTA 所宣传的那样它的成本有节省到多少多少对这个我们等会可以就是去详细的聊一下因为对我因为我之前就是在采访开始之前我也给你发了一些资料我们等会来就这个资料去仔细谈
OK 这首先是两个方面啊就是第一个方面就是从我的一个从业者的角度上来看 deep seek 的话呃怎么说呢他确实是有一个很大的提升就是不吹不黑啊这个呃肯定不是说他是一点技术都没有然后通过什么什么样的只通过蒸馏对当当我们后面再解释这个蒸馏自己是什么就是他肯定不是只通过蒸馏就能得到一个现在这么好的模型
但它相对于就是说因为其实我们看网上有很多的说法嘛就说这个 deep state 已经远远什么超过 O4I 这个肯定是不是的就是在我看来的话可能像类似于说我打一个比方比如说 O4I 还有 Azurebit 这样的真正的大牛公司呢它可能在每次考试中它们的差不多是 90 分跟 80 分的水平
然后呢 同时几乎所有其他的 AI 企业都是不及格
DeepSick 现在可能是相当于一个能达到及格的事情吧但是其实从另一方面来讲的话其实外界对于不懂 AI 的人来讲 DeepSick 应该是一个 stun shock 吧但可能我觉得这方面有很强的 DeepSick 他比如说做营销或者说国内的媒体帮他做营销的这样一个结果
那现在的这些大模型如果让你排个序的话在效果上在这种不可替代性上在这种创新产品你觉得应该是一个怎么样的排序呢那肯定是说目前来看 OBI 的模型它有极强的领先优势并且这个优势是在我判断的话应该是在近几年它仍然是能保持的
就像是 OpenAI 的模型比如说它现在应该最先进的是 O3 然后我们能用到的是 O1 然后如果你能每个月给它上贡 200 刀你可以用到 O1 Pro 那等于这些模型它大家的仍然是现在最强的模型但这些模型往下目前从性能上来讲的话 Digitech 应该可以排到这个后面
但这些就是有一个对我大家对我们对这个模型啊我们可能需要做一些区分就是呃欧格约他其实开创了一条新的赛道就是让这个模型在自己先做一些推理然后再把答案给你就是可能他这些像过分的欧系列的模型和之前的 gpt 系列的模型他可能就是完全两个不同的种类
然后在推理模型上的话,也要排序点是 OpenAI 的 O3,O1,然后下来可能是 DeepSeq 之后可能都是一些小的,不管是来自于学术界的尝试还是一些业界的尝试的一些小的模型但它们的目的都是复现 OpenAI,O1
对然后在像普通的就是非推理的模型上然后我排序的话那可能现在 ESGV 第 4 欧是最强的然后下来可能会是 DeepSeq V3 和 Cloud 3.5 但我但就是从参数上来讲对不对就是从那个 evaluation 的结果上来讲的话
DeepSync V3 可能会比 Cloud 3.5 更强一些但我自己的使用体验上我觉得 Cloud 还是要优于 DeepSync 的明白那就是你自己对于 DeepSync 的一个使用上感受的话你觉得它和 Cherry GPT 还是有一定差距的是吗对是很明显的差距因为实际上对于很多不管是一些
国外的媒体也好还是中国的媒体也好它对 DeepSeek 它跟 Noblesse 很强的用 DeepSeek 自己的技术报告当中的一些 benchmark 来去衡量这些事但是实际上使用体验上来讲的话我觉得它是和 OpenAI 的模型是还是有一个很大的差距我自己绝大部分的场景其实也都是这种文字处理或者说帮我写程序的工作
但可能你从使用体验上来讲的话因为我用的软件它会同时帮我输出多个模型的回答然后这个时候呢其实在我的对比下我选择 DeepSeek 的回答作为我最终会使用的那个概率来讲是远远不如我的远远不如 OpenAI 或者 Cloud
如果说是比如说你在做文字处理工作的时候我觉得它对不论是英文还是中文是明显不如 Cloud 然后如果写程序的话在它出错的概率我觉得也是要远远高于 OpenAI 的模型关于我觉得日常使用上是几乎不最合这个就是非业内人士的用法有什么区别就你可能唯一说会有区别的地方
对就可能比如会有区别的地方像是怎么说就是学术界他可能会想用这些模型去做一些新功能比如说现在很普的一种 A 症的那可能在这些上面的话我觉得毕竟这个模型出来它不久所以可能是要更多的人去
产出更多的新的方法新的 paper 之后这个才好解在目前来看就是就所有人都会用到的方法来讲的话我觉得他肯定不迷我但是有一个点就是 deepsec 他会比 chipgpt 要便宜非常非常多那你觉得他的性价比怎么样呢
这便宜啊就是首先便宜我们得分两方面一是训练成本二是这个使用的价格嘛就你是希望我们先谈论哪个方面呢就是那我从消费者的角度的话我觉得就是我使用 DeepSeg 它肯定更便宜嘛
这个没有问题这个但我觉得这主要原因是这个呃先诺求索他这家公司还在上升期啊所以说他肯定是在 cravercraver 去卖他的 api 提供他的服务的所以这个现在对比他其实意义不大
然后同时可能也会有一些技术上的优势比如说他用了这个 moe 这 moe 他的意思是叫做 mix of experts 他大概说呢就是我们特殊易论来讲的话就是我们知道这个大模型它非常非常大但是 deep-seek 他用的这种技术可以让模型在推理或者说就是模型在输出的时候他只要用其中的一部分然后这样他可以大大节省
它在使用时候推理时候的成本其实我们都知道 AI 被美国是视为一个新的这种核心竞争力一直以来的话美国也是在动用非常多的这种措施来限制中国的人工智能技术的一个发展但是现在看来的话 DeepSight 好像是把这种
把这种封锁给打破了对特别是我们也都知道就是 AI 是非常的烧钱的那 OpenAI 在 2024 年的话它大概是亏损了 60 亿美金但是 DeepSec 它是声称他们只花了两个月的时间和 600 万美元然后用 2000 片的 H800 芯片然后就做出了现在的 R1 很多人都会觉得非常不可思议包括切记器
GPT 的这个工程师我看到他好像也在推特上去说一些话然后包括亚历山大王在接受采访的时候也说就是他们肯定是有五万块的这个 H100 芯片只是他们不能往外说然后马斯克也对于这个数据表示不相信那这个 2000 片的 H800 是一个什么样的规模
OK 那要不我们现在谈到这个训练要不就我就为了这个我给你发的那个材料然后我们来去去去多加分析一下
首先我在这张表上列了从 2020 OpenAI 的 GG3 一直到现在 OpenAI 的 O3 所有模型它的时间和模型的大小这个大小我不知道你和你的观众有没有一个很直观的概念基本上来讲的话
模型越大它的能力肯定越强,你越大你训练起来越难,花的成本也越多基本上是一个这样的状态然后包括它用了什么 GPU 和它花了多少钱但其实这个表当中这些蓝色的数据
一半是我根据我的经验的猜测那一半是一些小道消息他不他不一定是真的只有就黑色的这些都是呃他们的官方数据自己披露的对然后红色的是啊谁也不知道的只有他们自己知道了对然后呃首先我们看就是 deep seek 他宣称就是这个 v3 吗他宣称他是拿了这个 2000 片的也是 800
跑了两个月花了 5.6 million 的美元去完成的但实际上这个有一个很大的谬误就是他在论文当中给的这个数据是单次训练就是什么意思呢就是我一个模型从他啥也不知道然后把它训练成一个可以用的模型花了这么多钱
那实际上这里面完全没有含在他们在比如说呃试错的成本他们研发的成本结果就是这些都含在这些肯定不是这个量级这个要么他们宣传的时候是故意的要么就是有心自然推动的对这个数据才但不是这样的是这样论的对
所以就是你觉得其实不好意思就说也是你觉得就是他的这个说法他其实是有问题的就是他的这个花费他远远是不止仅仅只有 600 万美元
对就是你的花费远远超过这个但是这个单次能不能用这个成本达到我觉得是应该他们是能做到的这个数据是真的但是它被误解读了可以这样说然后其实我们在这张表上可以做到一个对比就是 OpenAI 的 GPT-3 它这个模型在 2020 年的时候出来的
然后它当时最大的那个版本是 175billion 的参数
那以对比这个 deepseed 的他是 671 就是基本上他们是在同一个数量级但 deepseed 可能是他的三倍左右对吧然后在当时是 OGA 是用的一个在我们现在看来啊一个非常落后的芯片的微电的微 100 然后可能这个芯片我估计现在去呃就是做大模型训练的这个人你给他这个芯片他用不起来因为他的这个
呃 显存太小啊你基本上现在的这些框架你没办法往上套还要做所以说其实国企当时在开发基地 13 他们肯定是有一个一套非常他们自己内部永远不跟公司开非常成熟的框架因为在在当时呢他顺便这个模型是发了对他也是在他论文上不 pose 的这个单次的这个成本是 4.6 米的那非常接近这个这个 5.6 米的
所以你看其实你说这个省钱的话好像也没省多少是吧你可以跟我们做一个比较吗就是这个 V100 芯片然后包括这个 H800 和 H100 然后这几个芯片就是如果说让你比喻一下的话你觉得它们之间是一个什么样的对比就它们是不同的等于是英伟达它发布设计上是 V100 然后后面有了 A100 然后中国特工版的 A800 然后后面再升级就是到 H100
然后再 H800 就是那个 H100 的中国特供版然后 H200 是 H100 的升级版对然后就大概呃对对有点有点抽象着啊呃我做一个很感性的估计啊就是可能 H100 这个芯片在能力上得数为 100 的百倍左右吧
如果你这样说那 UV100 在一楼 H100 在一百毛对那 H800 它大概在约等于 H100 这个我们都会谈到那个呃美国政府的时候给你给你细讲就是大概简单说一下就是呃 H800 是 H100 的阉割版但是我看它没阉割多少就是显然是因为他还守好美国政府
对,推特上我看,尤其是中退基本上是在拿这个 GPT4 据说当时花了 100M 和这个 DeepSeek V3
的单次训练 6M 就对比但首先这个 100M 我可以解释一下这个来源这个 OpenAI 自己是没有在官方的热载地方公布过的这个应该是来自于那个 Samultimate 是 OpenAI 的 CEO 在比如说什么采访之类的场合他透露的一个快待的数值然后其实 OpenAI 也解释了就是你不能说是说我们拿这个 GPG4 它
销售的这个总成本去和 Teamsick 它训练了一次的这个成本做对比这个显然是不合理然后同时我们也可以看就是 GP4 就是现在有一个猜测呢它大概是 1.7Gb 就是 17001.7G 的参数它大概就是 1700B 的参数它大概也是 Teamsick 这个三倍左右的一个量级那所以说它其实发这个钱
可能也比较合理然后就是 DIPS 因为机密接待本身它作为就是 OPI 它作为这个本身作为这个等于是领头羊嘛那它其实在原方案上面
普路的成本是远远要超过深超过 deep-seq 它有更多的试错因为基本上是 open-air 吧路探出来然后 deep-seq 它只是在做实现但是就是在外界有一些说法就是 deep-seq 它似乎走了一个这种算法突破的这种路子然后现在变成了中国创新美国在模仿这种说法是对了吗我认为是不对的
首先是这样,其实这个 OPA 在 GPT-3.5 之后就再也没有透露过他们认可的训练细节其实我个人建议他们感觉很近但这个 DeepSick 其实他 claim 他有这样几个主要的技术规线就是他们用了这个更小的一个精度的一个训练方法
然后还比如说我们之前说到这个 MOE 就是它确实说有很多上的工程上的 trick 就工程上的技巧去设定这个模型然后首先这些技术肯定不是 DeepSeq 发明的
只能说它基本上是在现有的进度上做改进大家都是修修补补,然后逐渐把这个冰球上面的这些技术这些技巧慢慢的提升这肯定不是说是这个尊国独立如何如何就这么多东西这些都是站在前沿的肩膀上去完成的这件事情对吧然后同时我们也得肯定 DVC 它肯定是有技术创新的
这个绝对不是一无是处的这个也是要就是都不是不非这个是肯定是有贡献但同时呢其实我个人一直以来一个猜测啊我觉得 Tipsy 的现在用的这些技术可能会早点用过挺不过他也不告诉大家他用了什么
这其实什么时候我不觉得是就在 AI 这条赛道上不是一个中美推卡我认为欧洲 AI 和科奥的跑得太前头了然后所有的美国企业也好中国企业也好学术界也好都在追他们
所以就是刚才这个你说的一点就是 DeepSec 它其实它的成本并没有我们想象中的那么低啊那但它的成本呃是不是其实相对于 CHEAD GPT 的话它其实还是蛮低的呢可以这样说肯定是成本上是有优势的这个我觉得肯定是有优势的
但其实像我主要还是我要再强调一下就是 OGA 它就在前面探路的那个人它的试错成本这个不远远要比 DeepSync 要多吗它的步行太好了 DeepSync 你只要重新走一遍就在试错成本上这些东西它都省下来现在的这种 AI 的高成本的支出它主要是在哪些方面呢两部分嘛一部分是训练另一部分就是日常的推理使用
对然后训练的话其实我们都知道这个大模型越做越大然后现在已经就是一个也是一个止不住的趋势嘛然后越大的模型它其实就是需要的算力也更多对这基本上可以这样理解吧然后像它这个正常使用上面的因为比如说欧格人在可能现在它的这个非常强大的美丽的国家用户
那它同时很多用户都在访问它的模型那它其实是有一个它有一个非常恐怖的集群去跑这些模型大家去访问然后这些支出成本也是很
就我们其实很难就是从外界去规划但这个成本它一定是非常非常大的而且其实我在我看来欧东人他现在的他现在肯定也不可能盈利而且也是在巨额亏损嗯那 OK 那那其实
可能很多人会困惑一点就是为什么就是 DeepSight 诞生在了中国那就是因为美国的人工智能其实它有更多的优势嘛那为什么就是美国的同行他们没有去想到使用 DeepSight 这样的这个方法去做到这种低成本的这种路线呢还是说就是他们其实也有这种类似的训练的方法
首先我觉得他们肯定是有类似训练的方法就我们把博比莱抛开其他的在美国的正在追赶博比莱的企业我觉得他们也都是有类似的训练方法但我不觉得说 Solentipsec 带生在中国很多跟中国的土壤有关系这个也不一定
我觉得更多的是我们对吧看作一个正常的企业然后这个企业他确实在大家都在追赶 opni 的道路上他取得了比别人多一些的进步对那你觉得这件事情对于业内的话它会造成什么样的影响呢就 deepsec 这样的这种低成本路线它会成为一种主流吗就是
未来的这种 AI 大模型的这种发展方向会因为 DeepSec 去受到影响首先其实这些技术我觉得也不是 DeepSec 的独创大家都会去尝试因为这个模型越来越大远远快过了芯片的更新速度大家越来越需要更多的工程上的技巧来去试炼越来越大的模型
嗯 OK 那就像你说的嘛就是其实 OpenAI 的话你很想给给他改名叫 ClosAI 对吧但是 DeepSec 的话就是他其实是宣称自己用了这个 600 万美元然后就轻松追上了那些花费了很多很多钱的公司那而且关键是他还把这个技术给开远了首先啊就我们先讲一下这个开远这件事
其实在我看来现在的 PI 企业都是 Open App Sites 而不是 Open SourceDeepSync 确诊我们可以把 600 多 Billion 的模型下载下来用
他怎么训练的这个影片能呲现出来吗他的这些真正的核心的技术都是一点都没有透露的他可能就是这这然后那我们来说就是他为什么把这些模型放在给大家用因为首先这个在学术界上是非常赚 reputation 的事情你放出来的模型用的人更多啊那包括这个学术界上面在模型上面做研究的人跟你的这个更亲密
主要是这样一个原因嘛就是能给你带来他更多生意上面的好处但是因为他的这个核心技术都是保密的这个别人也追不上来然后你至于说为什么别的国产企业他们不入太原存储他们太菜了啦你这个太原不是打自己脸吗
不是我不是说别的这个国产企业了就是我是说这个比如说比如说像 OpenAI 它为什么没有开源它的这个我应该它 OpenAI 它又花了这么多成本然后它这个再开源然后平时在它的模型上继续做研究这些从它的角度来讲这个亏大罢了哇
那所以还是一个成本的考量然后但其实也有就是 OVA 那个他们自己 claim 的就 OVA 自己成成本他们其实会处于安全上面的考虑因为我们知道这个 OVA 它的目标是 AGI 嘛就是 Officially General Intelligence 或者说 Officially Super Intelligence 就他们的目的是要呃搞复一个笔神
更牛逼或者起码跟人类似的这样一个智能体的那他们自己 claim 说出于这个安全考虑他觉得他把这些他的这些技术他的这些模型放出来等于说他也做太远的话那这个整个世界到底产生威胁了就能这样说
就是在特朗普的 AI 事务专员大卫赛克周二的时候表示他觉得有证据可以证明 DeepSight 是利用了 OpenAI 模型的输出来开发自己的技术然后他就提到了其中说 DeepSight 使用了蒸馏技术然后用一个 AI 模型去使用另一个 AI 模型的输出来进行训练你可以给我们解释一下什么是蒸馏技术吗
这个应该现在在大家的使用当中它已经变成一个更广义的叫法那可能在原本在学术界当中这个词它会是指单独的与人类技术这些技术可能它们包括一些什么老生模型学生模型这种概念那可能现在这个真理就是大家更基站于指让一个差一点的模型去学习一个少的模型这样的一种行为
那首先就是回答一个问题就是 DeepSeed 它有没有用 OpenAI 的数据啊这个已经不用质疑了吧而且就从我的这个一个曾经到国内业内人士的角度来讲没有任何一家国内的 AI 公司没有使用 OpenAI 的数据
然后在对国外来讲的话也基本上有百分之五起码百分之五十的公司是使用了 OpenAI 的数据这个事情应该是非常非常的普遍但这件事情它对不对啊就首先其实在 OpenAI 的呃我今天刚去查刚去看了一遍这个 OpenAI 它这个使用条款它其实明确提到就是
他在这段模型的输出里面用它做什么什么的事情嘛但是他明确限制了你不能用它模型的输出去训练模型然后逼着这个模型和 OPI 竞争这个是明确违反他们的使用条款这个事实显然是违反显然是应该在法律上被追责的
网友他们会去和 deepsec 去对话的时候会发现 deepsec 回答呃自己是这个 JetHPT4 啊之类的就是这这个是真实的吗还是还是说他是这个一个网友杜撰的
我自己没有试过啊但我觉得你是可以诱导他说出来的就他们数据没洗干净嘛这魔性他本身不知道自己叫什么而是我们在后圣殿的这一个步骤当中我们准备了很多的料比如说真的语料就包括我们问你是谁然后魔性回答
呃我是 OPI 的 XGBT 或者我是 GPT-3 它会包含这种语调然后把这个语调在这个后生液这一步训练出去然后模型它才有了对自身的认知它才知道自己是谁那显然呢如果说出现这种情况就是 GPT 的他们数据没洗干净就它数据是从那个就从不断的去询问 GPTOPI 的模型然后拿到的数据然后把这些数据他们
显然是没切洗干净中间还保留了这种鱼料那快把这个鱼料给洗进去那他自己的就会出现这种回答就很多人认为说这个 Type-C 它只是一个对于可能切止 GBT 的一个就是更换皮或者说是更高的一个一种模仿这种说法是成立了吗
半成立吧,成立的那一部分是说,你想 OpenAI 它的数据是咋来的它自己收集的对吧,它的模型自己产生的对吧,大概的意思就是比如说我们知道这个 OpenAI 这个 O 系列,O1 和 O3 这个模型它非常牛,它能做很强的推理甚至说它已经在某些地方比一个博士生,比我这样的人还要厉害
那他是怎么做呢 他其实他们 OVLF 会配合一大量的博士生去做集然后拿他们做完集的这些答案作为他们的训练数据对 那对于 Deep City 来讲他就不用做这一步了那 OVLF 那都有 你家就不断的访问无封 A 的模型然后要他生成答案对 就他的这一步上是节省了很大的成本然后
嗯那对这这一部分是说这个就是你刚才提到这个说法在成立的地方那不成立的地方就是在我看来这个 sig 它一定是有技术突破的它不管是规程上面的这些呃创新这些技巧也好还是说他在训练这个而一当中使用的强化学习就如一发生的 20 的这一套算法也好这个应该
是有很大一部分是他们通过自己的研发投入了散大的这个成本人力成本也好研发成本也好自己去搞出来那最近的话我们其实每天也会收到这种很多网友们去测试 DeepSight 的这个审核机制的投稿啊每天大概都有几十个这个样子嗯
DeepSeg 的这个审核机制你了解吗这种审核是基于这种模型本身的还是在生成答案之后就是再进行这种审核这个是都有就是我这样去就是最首先我先简单说一下这个模型它训练过程是什么样的就是首先我们知道这个模型它最开始我们可能是初始化的一个什么都不懂的东西对吧然后这时候我们拿非常大量的语料
包括如果非常大量的鱼鸟去训练它要这时候在这个过程叫做预训练然后在这个过程之后呢这个模型它大概会变成一个看起来还是没有什么智能但是它可能已经把这些知识都通过某种方式存在了它的参数里
对这是第一个过程这个叫预存链然后之后呢第二个步骤可能现在比较流行的说法叫 Post-Trending 叫速存链或者说上一个世代的叫法就叫做 VTL 然后这个过程呢可能就是大概利用一些 Sense 这些算法可能包括 SFG 就是 Supervised Funding 或者说 RNLHIFRor Reinforcement Learning from Humidified Feedback 或者说
像 OpenAI 现在它会用的这种就是让模型去做推理但它也是用 reinforcement learning 去做的就是反正就是在这一步吧大家都是等着八星过海特写神通有各种各样的算法然后这一步呢就是它会通过很多个步骤很多个算法让这个模型从一个看起来没什么智能的状态变成了从我们聊天有智能的这样一个状态对不对
那这个安全这一步就是审查这一步是在哪个阶段做的它可能会有这种三种但这三种大概都是同时用的第一种就是在我们说这个预设链的时候它有在这个闪亮的预料当中它首先就已经剔除了一些对它来说不太好的东西比如说对就是这个来讲那可能在这一步就已经把什么 64 什么的就已经都剔除了
但因为这个我们说的这个预计链接的这个预料度是非常非常庞大他不可能在这一步删干净
然后之后呢,他在第二步就是在这个速训链的时候,他会通过一些算法包括这个可能是数据信息,可能是一些很有意思的算法来在这一步来去给他做安排的,那然后这是第二个部分然后第三个部分呢,就是他在这个用户使用当中,他就直接做这个敏感词的检测,以及在
出现它不能接受的东西它就马上就停止进去输入然后追尽制作对话对然后我们再举一个形象的例子来解释我刚才说的这些东西就是如果说大家在使用 OpenAI 的时候应该会有这样的经历使用这个 XGPC 的时候可能会有这样的经历比如说如果我对这个模型说了一些比如说带有歧视性的
呃 问题吧那它可能会有两种导向形式在第一种就是说
他在他的回答当中告诉你我比如说他会说我是菜 CBG 然后吧啦吧啦然后我不能回答一直有问题那这种就是他的安全是在我们说的第二步起的效果在这个在这个速训练的时候起的效果那还有一种情况就是我们问了一个 C 上敏感的问题然后这个菜 CBG 他直接就不回答了因为在这个就是在第三步起的这个效果对
然后 DLSK 它肯定也都是用的这些技术但如果大家在使用 DLSK 的时候也基本上就是这两种在安全在这个审查上面的表现解释但是就是有很多的这个网友他们自发的测试了很多功能就是说可以绕开它的这种审核就是可以去讨论到一些可能中共它不想让我们讨论的东西那你觉得这是怎么去实现的呢
实际上就是做审核和破审核它是类似于这个传统计算机领域当中这种黑客对网络规防的概念有红队有蓝队
就其实网友呢就是通过某些方法比如说一些提前设定的这种奇奇怪怪的问题然后让他之前设好的这个防御一点用都没有那可能对于 DeepSick 来讲他收集到了这些东西然后他可能再去训练一把那后面你这些方案就又不能用了它其实是个不断跌生的过程你觉得这种言论自由或者说意识形态审查啊就是他对这个
会不会对于国产的 AI 形成一种限制呢就是它会限制 AI 的发展那很多人可能会觉得说我无所谓我不去碰这些内容就可以了就是我去做学术或者说我去跑程序或者怎么样就可以我只要不去问那些问题就行那你觉得这种说法是对的吗实际上怎么说呢首先就是这种审查它对国产模型的发展实际上并没有什么影响
因为审查等于说你就是它最后一道门嘛就你在这个门内你不突破它这个限制你仍然可以做什么事情嘛你这个模型仍然能表现出很强的震导很强的能力但这个审查呢肯定是百害而无一利的因为其实它是一个对于在我看啊是对一个的对整个世界的影响就具体我这样解释啊就是
其实大家也都知道现在在这个大模型发展之后网络上越来越多的语调都是 AI 生成的对吧那这些语调呢它又会被收集起来作为下一次 AI 训练的使用所以说这种就是 AI 生成的东西它的政治倾向是很重要的为什么呢
就等于说是什么样的 AI 决定了以后互联网上的语调是什么样的那还进而就影响未来的 AI 怎么样那其实我们现在都对 AI 有一个神流观的判断我们都认为它在比如说未来甚至比如说 2029 年它就会出现一个 AGI 那我想应该不会有任何一个人希望以后出现的这个 AGI 是一个支持独裁的 AGI 这个 AGI 是什么就是
一个比人才要强的 AI 那其实很多时候有什么中文的解释吗比如超级人工智能之类的可能中文里会说天用人工智能或者超级人工智能也有这样的说法都可以没有问题对
但主要我想讲的就是 AI 它已经融入在我们的生活并且 AI 的训练它已经有了这样一个数据飞轮就是我们搞出一个 AIAI 生产更多的东西然后用这些东西再去搞新的 AI 那这种东西这个东西里面它是会带有这个政治倾向的对吧所以其实
我们可以跳出这个 deep-seek 我们其实是讲两点第一点是说在国产的这些 AI 他们搞出来的这些东西肯定是说是一个带有很强的为中共支持独裁的政治倾向对吧我们不希望这样的 AI 在以后找法益存我们不希望以后 AI 生产的东西是支持独裁的这个
对吧然后呢同时其实跳出这个啊就我就刚才我做我举例子的时候我是用这个 GBT 的审查举的例子对我不光是 DMC 怎么那我个人来 GBT 他的他的模型也在做审查但比较少一点是说他这个审查基本上是基本上是基于一个呃这个整整体这个人类的这个普世价值观的一个审查他不希望你出现什么歧视不希望你出现这个
那这个审查可能说是另一种 AI 发展因为我们希望我们以后 AI 是一个从我们人类具有相同价值观的东西但同时在北美的这一套它也有问题就是在学术界 AI 的学术界 AI 的工业界左派是明显占有更加的发展权
这个训练出来的 AI 它显然是带有左派的这个政治倾向这个其实应该是整个西方社会的这个用戴需要注意到的一个问题
就是目前来说比如我在意大利嘛然后意大利政府是已经把 Dipsec 给禁止了因为讨论到它的这个安全问题然后包括这个好像美国海军也已经向这个相关的人员发出这个示警提醒他们不要去下载或者安装使用 Dipsec 的模型那从这个安全的这个角度来说你觉得这些政府的这些行为它是一个呃
这种顾虑是对的吗你觉得 DevSec 的话它有这些安全方面的问题吗
这个当然是有可能的首先第一点这个 GPC 的机器不要脸的就在他们这个试问条文里说了你访问我们这个跟我们模型的所有对话我们都会变成我们的数据对这个反观不更加无分原理他的做法实际上是分量不准你对于你使用他的 API 的时候他不会记录任何数据然后你访问他的模型的时候你是可以选择要不要把你的这个数据作为他以后训练的数据的对
然后像其实其实我在在我了解的话啊你很多政府机构包括美国的政府机构也会限制你使用差异 CDT 不是呃我看有时候这个 OBIA 给这个美国政府最近搞了一套那个政府专用版的差异 CDT 可能就这就是在数据安全上的考量
所以就是都有这个安全的问题但是 DeepSec 的话它其实是默认的选项就是你在上面输出的所有内容都会成为它预料的一部分对是的就算这个 DeepSec 说你这个浴库的输入输出我们都不会记录
这个大家懂得都懂了你作为一个中国公司早就没有这些信誉了这个大家当然是有安全问题那这种安全问题其实对于它不仅仅对于政府了对于个人来说的话你觉得它会成为这种审查的一部分吗好问题我觉得是有这个可能的对因为是其实
TIPSIC 在赴台一定是可以探讨嘛就什么人今天在那里留守注册 TIPSIC 等于都是手机号注册的对吧如果你使用了他们软件的话那这个就省不易会把你这个个人的身份随着这个每天想说的话给挂勾起来我们也都知道这个呃共产党在中国企业里这个 1%黄金股的事情那 TIPSIC 它以后越做越大在中国一天会被中共分支
那你这个用户的每天问的这些问题啊那以后可能都会成为一种危险那对于这种个人用户的话你会有什么建议吗
就是在使用 DeepSec 因为很多人可能他没有办法使用 ChadGPT 但是他可以用到 DeepSec 我觉得这可能也是一个比较难得的事情因为就是我个人使用 ChadGPT 比较多那我也知道很多人可能会把 ChadGPT 当成一个生活中的助手或者说聊天的朋友之类的对那可能未来 DeepSec 他也会往这个方向去发展可是就是说他又存在这样的这种审查你觉得这对于
未来的这个用户来说的话那我觉得作为用户自身的话你尽量不要把自己的个人隐私信息作为模型的输入然后也尽量不要问呃这些会被审查的内容呃我其实很好奇他为什么可以就是做成这一件事情呢因为你看就是他的团队都是国内的团队好像就是没有这个从国外比如说有
美国的人才或者说海归的这些人才好像都没有他是一个纯粹本土化的一个团队嘛就是为什么就是是 DeepSack 做成了这件事我觉得还是跟这个团队有很大关系吧就我刚才也提到嘛他里面基本上都是清北博士生这个其实清北在这个 AI 上面的实力在国际上是很领先的就虽然说他俩跟赛场是论文但
能死到这个地步也是一种很强的能力嘛而且其实从一个全球的 AI 的来讲的话我们其实可以看到的一个现象是在这种需要大量的 996 去投入或者说脑细胞的投入或者说这种比较
存在一些同次性的这些岗位上这个华人的生意生意是越来越多的但其实我可以但但肯定我也没有统计过多少是 ABC 多少是 H1B 或者 EBYA 但你毋庸置疑的是
华人在 AI 当中的话语权是越来越多的可能就可能其实像美国本土的这些人他更多的是在学术岗位或者官艺岗位上更多的发光发力了明白那你觉得就是随着这样的发展的话就像你说的华人在 AI 界的这个话语权越来越大的话那么
就说中国有一天他的 AI 会超过美国吗?哦,我的这个问题其实是除了 OpenAI 以外其他公司会有一天能超过 OpenAI 吗?就我觉得我还要强调一下我不太觉得中国和美国的 AI 在竞争我觉得是所有公司在和 OpenAI 和 Ancestry 的竞争然后做一个回答的话我对 OpenAI 有信仰我信仰加持了我可以告诉你我觉得大家超不过的
但是是这样子嘛就是因为就是就像我们刚才说的这个 Deep Tech 它是一个国内的团队然后就是它的所有的一切都是在国内进行而美国对于中国它又是有一个非常强硬的这种禁令的吧或者说是这种科技的封锁那但是在这样的这种情况之下就 Deep Tech 还是诞生了一个很厉害的一个模型了
那就是所以从这一点上来说的话它可能还是一个中国和美国的一种竞争你觉得呢我同意啊首先我们这样说吧我们可以先讨论一下这个美国在这种 AI 的经历对这种其实我们现在主要看到它是两种措施一是说这个关税上面尤其是这个停劳关税也好还是禁止出口某些产品也好
其实我们现在这两年的经验看下来这个用处不大而且其实你像这个 A100 和 H100 这是现在等于说是最常用的最新进的两个导弹模型需要的芯片那这个英伟达它都提供了中国特供版并且其实就我自己的什么体验上来讲啊我感觉感觉不出太大的区别就人面参数上来讲
他 D800 和这个 X800 对比 D100 和 X100 的区别可能主要在他的这个显卡之间的通信上面做了一些刀法这其实学不起来感受没那么强所以我一直有一个观点我觉得因为大家把美国周四爽了他这个心态经历是又没有一点用都没有
所以其实这就很多人怀疑这个 Deep Seek 是不是有很多的这个 H100 芯片我不该保证但我能说的是它的 H800 肯定是很充足的因为它这个 H100 芯片对于它这个 AI 研究来讲是够用的这个美国政府应该是要好好反思一下的然后其实
嗯对这个芯片净利啊我觉得我个人觉得美国肉费这个哦对我们应该是说他其中一个方面是这种芯片净利包括关税提升包括禁止出口对吧然后另一个方面其实是限制人才流动的尤其是我们都知道他那个美国那个名单那那那起的数字的那个名单就尤其是呃像国内这些什么汉工大这种学校你基本上就出不去了去不了北美
但我个人觉得其实这种禁令反而是在为中国输出对其实我觉得美国政府在更应该还是回到上个世纪这种意识形态的输出当中这个
其实我觉得对于遏制中国人没什么希望的所以就是其实你觉得就是目前来说的话这种禁令其实不会去影响到很大的影响到中国 AI 的一个发展
对 哎 这个 因为我觉得美国政府这些官员他其实对中国的现状也不了解这些禁令到头来还是中国的普通人在承担对中国的高端行业真的有影响吗?没的见得吧?这确实能突发突发他的这个进步的速度但你说这个真的能成功使他产生吗?这个我是有很强的疑问
讨论一个最后的问题那就是那从你的这种在美国和中国两地都有过接触这种业内的这个经验来说就是从你在行业内的这种感受来说你觉得中国的这种集权制度对于这个大模型的这种发展它起到了什么影响是正面的还是负面的我觉得有正面的地方也有负面的地方其实
尤其是你知道这种大模型 AI 行业一旦成为中国政府非常看好的行业那它的这种就是集中力量单单上的这种经济模式是确实是会产生一些作用其实对我来说它最大的其实我不觉得这些行业它成为这个中国政府喜欢的行业之后就中国的体制上其实很难阻止这些行业变得很强大
这但是在我的角度来讲的话我是不希望这些企业变得很强大因为像我刚才说的他们训练出来这个人工智能显然是对全世界的一种威胁他们训练出来的这种人工智能的价值观是有很大问题那它以后产生的一段也有很大的问题那这就是一个以后全世界的这种
AI 的发育权产品轮也会逐渐演变成一个意识形态的争斗