We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP84 从何同学的“翻车”,聊到AI的版权问题

EP84 从何同学的“翻车”,聊到AI的版权问题

2024/11/25
logo of podcast 硬地骇客

硬地骇客

AI Deep Dive AI Chapters Transcript
Topics
何同学因在视频中使用开源代码却声称原创而引发争议,核心问题在于诚信危机而非开源协议本身。他此前也曾因专业知识不足而引发争议,此次事件再次暴露出其专业能力与公众形象的不符,以及大V在流量与专业度之间的博弈。 大V的影响力巨大,需要对自身言行负责,即使是团队行为,最终也需要由大V本人承担责任。此次事件也反映出大V在流量与专业度之间的矛盾,以及流量带来的压力与束缚。 在AI时代,代码版权的界定越来越困难,AI生成的代码版权归属问题在不同国家法律规定也不同,存在争议。如何平衡AI技术发展与原创者权益保护是一个重要课题。 未来,开源协议可能需要针对AI进行更新,以适应新的环境。AI学习开源代码与云厂商利用开源软件盈利是两件不同的事情,两者商业模式不同,关系也不同。

Deep Dive

Chapters
何同学因在视频中使用开源代码却声称是原创而引发争议,涉及诚信问题。此事件被认为比以往人设崩塌问题更严重,引发了大规模的网络讨论。文章分析了何同学事件背后的原因,包括团队运作、商业利益以及个人形象维护等方面。
  • 何同学使用开源代码却声称原创,引发争议
  • 涉及诚信问题,比以往人设崩塌更严重
  • 团队运作、商业利益以及个人形象维护等方面均是原因

Shownotes Transcript

大家好,欢迎收听尼海克,我是赛头,我是依夏

我是龟龟本期节目由 Podwise 赞助播出 Podwise 是一款为播客听众制作的 AI 学习软件产品的 slogan 是 Read Before ListenPodwise 通过 AI 对播客内容进行转录提取总结分析等一系列操作帮你掰开了揉碎了硬核的播客内容同时与 Notion、Readwise 等平台的打通嵌入知识管理工作流协助您的其他包括新闻 Newsletter、Vlog 的内容帮你打造第二大岛

Podwise 也为本期听众准备了三个五折优惠码针对本期在小宇宙与我们互动的精选回复欢迎大家踊跃来玩好的,那开始我们本期的节目吧

最近小破站的 up 主们都不太顺啊这不何同学就因为发布了一条我用 36 万行备忘录做了个动画的视频使用了一个软件能够把预览动画里面的色块转换成字符但是他在里面强调说是我们专门写了一个软件来做这个事后续被网友给扒出来了实际上他们在使用的是 GitHub 上面的一个开源项目并不是他们的原创

而且这个视频本身还是一个商单所以这个事就引起了一个很大的风波毕竟是大 V 嘛不过何东学认错态度还是挺好的也很快就去作者的仓库下面道歉了我看了一下何东学使用的这个仓库就实际上是 MIT 协议的其实已经非常宽松了理论上不应该有这么大的问题那网友意见比较大是不是还是因为他背后是一个诚信问题我不知道你们怎么看这件事

这个瓜我没吃上新鲜的就是我跑去看视频的时候他这个原视频其实已经改过了我看着的时候他已经是这么讲的他说我们修改了开源的代码来做这个事当然其实何东学这个也不是第一次翻车了之前有一次也比较有名的闹得也比较大的就是

在华为实验室掰天线嘛对吧很多人应该都知道这个而且这个还是跟央视合作的一个视频那如果有不知道的同学我简单给大家解释一下就是何同学他那个视频里面呢说为了测试华为手机的最高网速然后呢他在那个华为那个实验室里面把那些基站的天线呢掰直了指向手机但其实这种棒状天线它这个顶端的信号其实是最弱的嘛就是这个跟那个天线垂直的那部分的信号是最强的

然后顶端的信号其实是最弱的所以这个操作其实是在弱化信号那和为了测最高网速的这个目的是不相符的

然后后来何同学还发了回应说为啥掰纸天线就被大家怼了他不懂之后他回应了说为啥掰纸天线他的说法是从客户也就是华为那边得到的回复是实验室的信号太强了就是需要掰纸天线来劣化信号来模拟这个真实情况对说平时他们华为也是这么测的

但这个解释吧其实还是一样暴露出了他本身是不懂天线信号这个事情的对不对因为如果他懂的话理论上来说他早就应该会跟那个客户那边沟通清楚不会说等到出了事之后才从客户那边问到这样一个答复然后最让人绷不住的是他本身是北邮通信专业毕业的

这个对吧你本身是通信专业毕业的你不懂这个暴露传计划天线的这个信号范围到底是怎么样的所以很多人就称这个何同学是赛博丁真就是说他的这个人设和他表现出来的这个对完全不符嘛他的人设立不住

然后一直都有很多人会觉得说赛博丁正同学根本不配掐这么多饭专业知识不行但是流量很大就是被流量砸到了我记得他最早开始火就是因为报道 5G 对吧测 5G 的那个事情对当然人设不符这个事情如果你把它当成整活 up 看其实就没啥问题而且实际上他的视频本身其实大部分也都是在整活如果从整活的角度看视频质量还是可以的

可这次的事呢感觉比之前这种人设立不住的问题还要更严重一些啊因为它涉及到像你说的诚信问题毕竟之前只是不懂这次是属于说谎

那这次出了更严重的事情那以前那些不乐意看他好的吃瓜群众肯定就更积极了对吧对当然做错事你就应该立正挨打光速滑柜其实就是最好的止损策略以前有些人就出了问题之后就各种在那狡辩其实都只会越描越黑实际上何同学现在也已经是公司化运作的所以他其实自己本身就只是个 IP 我

我相信完全有可能他本人在视频产出的时候都不知道这代码是怎么来的是团队里的人弄的然后文案可能也都不是他自己写的但文案这么写了他也就这么说了

但你这个也是成为 IP 的代价对吧你整个团队的问题其实都是要你的形象来买单的也有可能也有可能他是为了利人设知情且故意的毕竟他这个代码的这个截图对吧还特意删了头上的作者注释颇有一种掩耳盗铃的感觉所以起码他们团队里面有人是知情且故意的

但不论事实细节如何吧反正我觉得这一波反噬呢属于是活该我觉得很多人可能拿了别人的代码最后说这个东西是我做的一个东西的事大家的动作可能都会想到的是把别人的信息先给删掉嘛我觉得这肯定对于很多的那些初级的或者说刚从学校毕业的或者一些入门的开发者这都是一个常规的操作因为他可能也

大家都是抱着侥幸经历觉得这个东西删了应该也没什么关系没人会在意这个东西不会去盯着这个东西纠结对吧如果一个很大的一个名字写在那儿这个东西是别人写的代码但是我现在要来理一个标杆说这个是我们开发的一个软件这个肯定就说不过去吧但是他只是没有在这个侥幸上面没有逃过去而已因为像我们自己可能在早年的时候很早的时候

你从别人那儿不说去删别人的信息可能也复制过别人的代码我相信去 GitHub 上我相信大家也去复制过别人的我觉得这个应该对很多开发者来说可能是一个常规操作但是可能作为公众人物或者你要去做一个正经的商业软件的时候这件事情它就要是另外一个层面的话题了就需要谨慎地去对待了所以说我觉得这儿可能确实像鬼鬼说的背后可能

是一些团队的其他的同学与其他的一些人做的这样的一个事情就是现在没那么专业但何同学其实我自己吃他的瓜吃的不是很多但是这个人特别了解因为他流量毕竟很大嘛

我觉得现在整体给我的一个感受是个什么样的感受就是很多人可能都是觉得它的内容其实不够硬核就是它标榜把自己不断地标榜成硬核的科技博主这件事情和它的身份是不符合的就是这件事情的争议是比较大很多都觉得说它的视频更多的是一些很宣酷对吧可能就是在这上面的手法

其实是远远大于科技的硬核的知识内容的对这儿存在着很大的争议那

特别是有很多很多的一些科技圈的一些爱好者或者说一些硬核的领域的专业人可能大家都对他在这一方面有很大的看法当然可能更多的你的流量高了嘛那别人觉得说你好像在专业度上还不及我但是现在有这么高的流量这种就难免了对就是现在你出一点问题那你还不得被这些人往死里喷我觉得这也很正常对吧

对你讲到这个说他这个不够科技博主就我感觉是不是何同学眼里的自己是智慧君

然后大家其实也希望他是智慧军但其实他不是智慧军对吧因为如果你想做科技博主你做到够顶尖其实最终可能就是你去创业去做机器人去做类似相关的没错没错你看何同学像影视剧方像 Tim 就是他们其实现在已经做的比较大了嘛然后 Tim 最近也是因为离婚的事情各种上热搜嘛就是我就在想说这种创作者啊

尤其像这种技术相关的创作者他们在输出的时候是不是得特别小心了尤其要压抑自己内心的这种 ego 就说我们就讲何东学他本身我不知道反正是团队的还是他自己的硬要说这个事是自己写的这个事就是有点 ego 偏大了有点类似这样子

对我猜他嘛是不是也挺痛苦的就一方面他自己得接商单因为他们都是有团队的嘛而且团队都不小自己要去接商单要去养活团队然后另外一方面这么多人解释自己做事的时候可能很多主题不能做然后可能做很多具体核心内容的时候也束手束脚的我就想说你看要是我们在我们的节目里边吹说我们自己写了个软件做 ASCII 的图形转化

那评论区应该不会这么一边倒吧我就想想说大 V 是不是也不容易啊如果做成大 V 因为毕竟我们还是中常委的小 V 嘛其实我觉得还真可能不是啊就是如果我们干这种事啊

首先会不会被人发现都不一定对吧就说没几个人没什么人去盯着你然后如果真的被人发现了我估计可能会更一遍道毕竟我们这个体量吧没有什么死忠脑残粉是吧然后也不可能花钱去公关可能就全是爱骂的你就只能说从比例上对吧评论量肯定也不会有多少

然后实际上影视飓风的 team 他其实之前在他自己的一个视频里面其实就讲过因为他现在也是 IP 化但是他是很明确的他们现在很多视频都是他公司里面有团队出然后他只是去露个脸去讲一下他也会讲清楚说这个东西是我们公司我们团队怎么怎么做的谁怎么怎么做的他其实是还比较明确的而且他自己也有点苦恼而相比起来的话影视飓风还有别的正常的业务对吧因为他们是一个视频特效公司

都是可以去给人正经拍广告的所以对这个和何同学这边还不太一样何同学虽然他还真的就是公司化运作者了但是从他的视频里面其实是不透出的然后他的恰饭其实都来自于这些视频

对但是大 V 嘛你吃这个流量差这个钱你就是要为自己产出的内容负责那肯定就是要接受大家的审视的而且是无数双眼睛盯着你就盼着你出点事对吧然后像何同学这个吧因为他这个赛博盯着这个人设匹配不上的这个事也是由来已久了他其实在更早还有那个什么 PCB 画线画直角的那个

这个反正当时也吵就是说怎么你是个专业的你就不应该画出指甲来就这种事所以就大家都很乐意看到他翻车我就觉得说怎么说呢这个词得不配位就是你的能力其实匹配不上你赚到那么多钱那这个眼热的人就多了去了对吧都特别记住他而且 8 大 V 的问题 8 大 V 的瓜本身也是流量对吧那我肯定是要吃那个

大 V 的人选馒头的对你说其实得不配位这件事我觉得他主要还是因为他赚的钱是在赚一个公众流量的钱就如果他是一个人闷声发大财的其实也无所谓了对吧我相信闷声发大财的人里面我相信有非常多得不配位的人对也会有很多所以说关键他是一个公众人物吃流量对

我就是有一个观点我总觉得说作为一个网红作为一个大 V 一个 up 主其实说你做得很大其实这件事情它不应该是痛苦的根源其实最痛苦的根源还是说你随着流量越来越大赚的钱越来越多然后你最后可能就掉进流量的漩涡里面去了被流量所裹挟这件事情其实才是你痛苦的根源你想一下你当不管是何同学也好还是我们自己还是说其他的一些博主

他当初为什么出发去做这件事,他可能今天都已经忘记了。可能当初他出发的时候的想法可能很简单,并没有说我可能需要去追求很巨大的流量啊,或者之类的,可能当初还是有一点信仰的,觉得说我要输出一些什么什么东西,什么怎么样的,对,给别人去带去一些什么什么样的价值。

但是随着流量越来越大我们每个人可能都一样吃到了甜头过后胃口就越来越大他在这个过程里面不断去博眼球去追流量最终反正就掉进了被流量裹挟的这样的一个囧金里面去了所以说这我觉得是我们每一个人

最终可能会痛苦的一个很大的一个原因比如说还有就是我这儿我们聊的是大 V 这件事大的 up 主这件事情那比如说还有一个巨大的 up 主大家都知道像李子柒那李子柒在离开之前那她的视频确实做得很好人家也可以被堪称中国文化的输出对

对我觉得可能做的确实很好那在断根了这一两年过后那今天回来同样是巅峰那内容的质量还是那个调性还是给大家说还是呈现出来的还是很好的那种状态我觉得这可能是可能那些播主啊在自己在前进的路上不会去忘掉你当初的一个初心还在保持你自己的一些

一些观点或者说自己坚持的一些东西我觉得这件事情可能比流量更重要一点吧对你讲到李子柒确实回归之后做的视频流量又对吧又很高然后她自己成绩的这几年其实人家也是一直在去沉淀在去学习各种传统文化等等东西对也是为了让她视频做得越来越好

对然后其实刚刚龟龟也提到何同学在他的视频里面把代码的那个部分上面人家有带签名的部分给删掉了对然后大家也是因为这个视频里面的这个代码的这个截图的这个部分才发现说原来这个东西用的是一个什么样的一个代码对不过我也在想你看现在都 AI 时代了我在想说版权这件事会不会越来越难以界定因为何同学他是因为就是有相同的代码然后被发现了嘛那比如说现在

我们自己可能都会用 Cursor 会用 Windsurf 对吧然后他们的这些产品里面的演示项目就都是 2048 我用 Windsurf 用 Cursor 然后写一个 2048 它就直接能跑直接能玩就 2048 的一个游戏但实际上他们写出来的代码是没有任何版权信息的也就是说这个 2048 这个游戏写出来之后我可以打上我自己的版权我说这个东西是我自己写的

但是这里面可能就会产生一些冲突原因是什么呢因为像 Curse 像 WinServe 它们背后其实有 LIM 大语言模型它们会在背后可能会有缓存机制等等一系列的大家如果输入相同的提示词可能会直接去从缓存里面读出相同的结果那这样的话有没有可能会产生大家两个人写的两段代码在前后其实它们是相同的代码但是被打上了不同的版权这样的话就有可能会产生一个很诡异的现象就是

有可能双方在讨论侵权的问题大家是人在打官司但背后大家写的代码都是 AI 写的我想想这个事感觉有点玄幻但是我觉得这个事是极有可能发生的其实 AI 写的那段代码我说版权是自己的那如果不跟别人重复那确实也没有人知道

对但实际上这个 AI 生成内容它的版权归属问题吧在不同国家根据法律规定是不一样的你像在美国它其实要求版权作品是需要有人类参与的所以你直接拿 AI 生成的这个东西打上自己的版权其实是不成立的就是如果有两个人拿着一样的 AI 生成代码去打官司说这个东西是我的其实最后就是谁的都不是它是没版权的没版权的就是谁可以用

然后像欧盟也是类似啊他的规定是说版权作品需要有智力劳动的体现

那虽然 AI 叫人工智能但我认为它现在还是不被认可为具备智力的就是 AI 产出它不被认为是智力劳动所以其实在欧盟也是一样的 AI 产出的内容不管是代码也好还是图像啊音视频啊都没有版权就是不能给这个人版权但是呢在英国好像又有点不一样英国的法律的解释上有承认的可能性现在可能好像还没有判例吧但是它的法律上会说是说如果你作为创造过程的安排者

推动者他是可以享有版权的当然这个是在 AI 生成纯原创代码情况下更有可能是说 AI 生成这样的代码来自于某段开源代码

然后未经修改而你也不知道这段开源代码到底来自哪里是什么协议于是你几乎必然会违反协议对吧就算再宽松的就比如说 MIT 协议我也要求你保留我的原始版权信息嘛对但是我从 AI 这边得到了这个答案我甚至都不知道这个代码来自哪里用的是什么协议那我根本就何谈保留这个原始版权信息呢那你可能就不知道用了它你就算是侵权了

对吧这个我觉得是非常有可能发生的一件事情对所以说我自己也想了一个很奇幻的想了一个方案因为我们自己写代码嘛如果你写的是公司代码或者你写的是开源代码然后你怕侵权尤其是你可能写了一段代码那段代码跟 GPL 协议的某一段代码是一模一样的有可能是从 AI 从别的地方学过来的对那我们是不是可以让 AI

给自己生成的代码打上 AI 自己的 license 说这段代码是 AI 生成的你如果说你想告侵权的话请你去告 Cloud 跟 XGBT 这代码不是我写的而且我标注了说这个代码本身是由大语言模型帮我生成的

是不是这样也能解决问题因为其实这样不算是攻击性的说我要让别人侵权我的人要付出代价而是我自我防御性质的我不想让别人告我说我侵权了我在想说这样是不是也能解决问题我不知道这个问题感觉有点微妙就是 AI 打上 License 你看首先 AI 不能拥有版权但是你说 AI 打上 License 以后侵权是 AI 侵权吗这个也挺奇怪的那 AI 不能拥有版权为什么 AI 能侵权

同样的对吧同样的我们对用 AI 生成的代码不能拥有版权但我们可以因为 AI 生成的代码而侵权是不是也有点没道理就是它你的这个权利和你的义务不匹配对吧不对的对不对的如果这个锅能甩给 Cloud 或者 GBT 那我估计

Cloud 和 GPT 他们自己就 OpenAI 他们肯定是自己早就会想办法堵上这个漏洞对吧我怎么我给你用你还反过头来赖我有点东郭先生与狼的这个感觉对那说到这个如果我们开发一个服务功能就是对一段代码进行检测找出最可能匹配的这个开源代码的来源然后去帮助开发者审查说我这段代码到底能不能用对吧我觉得是开源协议是不是能够用

其实是不是也是一个独立开发的机会当然现在可能还不是这个是时机因为实际上也好像完全没有听说过说我用了 AI 生成的代码而被告侵权的 case 但是英式屏和图像倒是都有这种官司在打我觉得先不谈 AI 生成的代码今天可能所有的开发者自己人肉也会去复制很多代码这个是肯定的肯定的我相信

我相信所有人的代码仓库里面总有那么一些代码可能是到 GitHub 上去复制的你可能没有管那个 license 是啥这个肯定不是开玩笑这个我相信一定是真的只是因为大家都是避远的反正都是公司内部使用或者个人使用所以说这件事情它是一个没办法去追究的一件事对 提到开源的 license 因为开源 license 这件事情它其实已经

存在的历史其实已经都有几十年了都已经很久远了毕竟他刚开始去制定这些东西的时候肯定都是没有 AI 都是为人服务的就是觉得说为人的版权或者著作权去服务的所以说我觉得未来这些开源的 license 会不会在 AI 上继续有效我觉得这个确实是一个经过时间过后会有答案的一个问题也就是说这些 license 在 AI 时代它可能会不会被更新

会不会对 AI 有一些特殊的一些先知甚至说有一些专门明确的一些指示规则这些我觉得都是有可能的

但这个东西我觉得需要时间但是回归到当下的话就像刚才我们开玩笑说的那个我们相信所有的开发者或者说甚至是一些商业化的公司他们的代码库里面或多或少可能总有的某些代码是从别人的一些项目里面复制的我相信肯定会有这种情况所以说在当下我还是认为 AI 它可能真的只是程序员的一个辅助的工具你的这个项目的代码不管是你写的还是 AI 写的

那今天来说的话我还是更愿意相信这个责任是要在一个具体的人的身上或者说在法人的身上对就是你这家公司的责任或者怎么样而不是说把这个责任甩给 AI 可能我觉得在今天不会太成立吧但未来来说嗯

对我其实这个里面就想到一点啊为什么现在你看像 WindSurfCursor 他们现在能做得这么好我就想起来我们现在程序员界大家为什么能有这么多海量的训练资源其实也是因为说我们现在的这些开源运动就最早以前巴西开源运动的 Richard Stallman 嘛

然后他自己做了这个整个开源运动然后做了 GPL 协议然后等等的然后把整个 Linux 然后这个社区然后给它壮大起来这个其实海量的开源代码还有开源社区的这种趋势它其实造福了我们现在的软件行业不光是我们自己在最早以前没有 AI 的时候我们也能够乱七八糟去抄点代码对吗然后也能够让你搞得比较快对吧然后现在其实也是因为有了这些开源的代码 AI 也在这个之上然后去训练嘛

训练过后我们程序员然后也快速地享受到了这波 AI 的红利而且因为开源社区的这个 license 大家原本的这个 license 其实建设还是挺完善的包括什么 GPL 协议 Mozilla 协议 Apache 协议然后等等各种各样的协议其实哪些资源能训练能使用哪些资源不能训练不能使用如果它大圆模型是关注版权问题的话它其实可以很轻松很方便地把这个东西给它区分出来

然后这样的话 AI 公司它去训练代码它反而风险是低的但是比如说你像音视频你像图片对吧它其实本身默认背后是没有版权信息或者版权信息是很不完善的你很难追踪它的版权到底从哪里来的就会导致说其实像音视频像图片它其实还更容易产生这种侵权问题反而如果说你是合理合规的在使用代码的话反倒你的侵权风险还是比较低的呢

其实从实际来看反正代码这块就像刚刚讲的代码这块好像没有这大关系图片是打的最多的

像就有一个公司叫 Getty Images 它是卖图片的就有点像我们那个视觉中国视觉中国名声也不咋地它在这个美国和英国都告了那个 Stability AI 就是做那个 Stable Division 的公司说拿他们的版权图片去训练那这两个案子现在还在审理中还没结果但其实之前 OpenAI 针对这个问题提出过一个抗变的理论它的大概的核心意思就是说

AI 模型训练的过程以及产出的内容也就是训练结果和原始训练内容就是这些图片版权图片在目的和表达上都是非常不同的他提到一个词是说经过了变革性的加工我不知道这个在版权的这个说法里面是不是这样就算是不算清选反正

反正他是提出这么一个抗变原话我记得是说原始训练材料的使用目的是供人类消费而 AI 模型训练的过程和产出结果的目的是创造一个通用的造福人类的 AI 怎么说呢就是你把这个事拿到人类身上去举例比较对吧那我人我拿了一幅你的版权图片我直接原样的抄一下

然后那我肯定是侵权了对不对但是我就苦学比如说某个画家我就苦学某个艺术家的绘画风格然后疯狂的陵墓然后最后自己的作品风格和那个艺术家非常相似那你说他能侵权吗其实应该不能吧对吧我理解可能就是这个 open-eyed 抗辩也是大概是感觉这个意思而且包括你说比如说你像提到那个开源协议说我们是不是协议上能够说我不允许你

去训练但是你说从那个人的角度那我能不能出个协议说我的这个话不允许你临摹呢好像也不行对不对所以其实这样的话就又回到了那个问题上就是反正我们训练这个模型本身不存在侵权的问题但是如果有人因为用这个模型侵权了那是那个人的问题

所以你刚刚还想甩锅给 Cloud 人家还想甩锅给你呢现在你不管你用 ChatGP 你用 Cloud 也好如果产生的这个结果最终因为是我发布的然后责任在我其实我自己也会去想因为我其实没法判定这段代码到底亲不亲全因为是从你那里生成的如果每一段代码都去验证一下的话那我的成本也太高了

对吧所以说这块就挺难受的但是如果说我想让你背锅然后你又不背的话对吧那这不就两难了吗所以说如果我想发布一些版权相关的信息如果我想收版权费这个里面还真的得除非我自己是完全原创的对吧我没有用一点你然后我可能我才会百分百确认说这段东西其实我是可以去收版权的

这个确实是一个值得商讨的问题对然后其实我还想讲一个什么点你像开源运动我觉得跟现在的音视频还有图片这个里面有一个很大的区别就是为什么现在比如说 Cursor 像 Windsurf 他们可以做得比较好我觉得有一个很大的不一样就是因为我们做代码的这边有开源运动的这些结果然后导致说其实我们很多过程信息全部都保留了

它不像音视频像图片它其实只有结果所以说你看现在的音视频像图片它训练出来的结果它其实就是一张图片它不能训练出来图层或者说它的图层相对信息比较少然后图层它的过程其实这些信息都没有像我们自己的话其实我们是有很多的过程信息的我可以告诉你说这个方法怎么做我有大的我有小的都有但是其实现在的音视频跟图片它只有结果你只能从结果上面反推它生成的是另外一个结果而不是生成的这个过程

所以我觉得这个是代码是这一波里边我觉得做到最好的一个很根本的原因就是它的数据还是比较好但反过来之后也会产生一个问题就是你看现在其实我们透过开源运动帮助这些大模型公司帮他们做了比较好的 AI 的结果他可以帮我们去升上代码干嘛的其实收益也被他们赚走了他们每个月都要收我们 20 刀每个人收 20 刀其实赚的也挺多的像那个 Bot de Nuit

上线一个周还是两个周还是一个月我忘记了具体的时间然后说是赚了 400 万美金其实这个赚的钱还是蛮多的对但是像我们开源了这么多开源软件的人没有通过这个大模型训练的结果里面得到收益对

对就我在想说这些大冒险公司是不是也应该借此去回馈一下社区对吧给我们这些比如说做过开源项目的人然后给一点折扣啊等等之类的你像 GitHub Copilot 就给折扣吧对但是像现在 WindServe 啊像这些东西可能他们现在还没有给折扣对我为什么会想到这个问题啊你像最早以前我们在 Infra 的那个阶段里面像 MongoDB 像 Redis 他们自己都是做开源项目然后搞完之后被

AWS 被 Google 他们把钱给赚走了后来就导致项目方他们自己改了协议说你 Inferno 公司你 host 自己产品的时候对吧你不能 host 我的产品你可以 host 别人你不能 host 我结果就导致像 AWS 他们就做了一些兼容 Redis 的一些 KV 产品他们在 API 上兼容但是底下可能完全不是 Redis 等等这些东西

我觉得这个还是挺也是一个因为大公司吸血了这些开源项目然后导致其实他们更改了协议对吧就是我也在想说未来会不会有人去发起这种说我拒绝这些大模型公司用我的代码来训练自己我举个很极端的例子比如说像 Kubernetes 如果你想拿到 Kubernetes 相关的最核心的源码相关的逻辑的话你肯定要去训练 Kubernetes

K8S 的源嘛那有没有可能 K8S 某一天说你不能训练只有 Gemini 能训练 OpenAI 的东西不能训练 Cloud 也不能训练我不知道啊就是随便畅想一下有没有可能未来会有人去发起拒绝 AI 学习的这种开源协议不知道其实我在想如果你真的就是这么干感觉从那个取证上

也很难对吧因为你通过那个大语言模型加工之后你再产出的代码你怎么说我就是我这个东西一定就是从那个训练结果得来的呢对吧因为这个代码说实话各种各样的代码太多了相似代码也太多了很难对而且大家现在其实基本上用法还是说我去生成一个片段不会去生成一整个工程因为很难去判断这个相似性然后另外就是我有一个想法直觉上我觉得这个和音视频图片

不是一个事情然后和云厂商 hosting 开源产品赚钱呢也不完全是一个事情其实开源这个概念从被提出到今天成为整个信息世界的基石啊我觉得很大一个原因是因为它本身是一个正循环就是开源它大大提高了程序员们去建设信息世界的效率然后避免了大量的重复劳动

进而能让程序员们又写出更多的代码来完善这个开源世界所以它其实是一个正向的飞轮它是才能造成今天我们这么复杂的这个信息世界然后同样的就是提高 AI 写代码的能力和准确率其实也能非常大程度的去提高程序员的效率这应该是就也是一个正循环正向的反馈系统

它会产生更多的代码然后更多的代码让 AI 去训练又会提高 AI 的那个写代码能力加快这个信息世界的建设这个大家在用 Costal 之类的产品的话应该是深有体会对吧对自己的效率提升有多大所以我其实是蛮支持的当然你说这个怎么样去回馈社会吧这个其实是一个比较大的话题因为最开始的时候我就想到说像 T 这样的项目其实不就在干这种事吗因为 T 是从那个依赖

着手的说我到底这个作为第三方包背依赖有多少次我给你分润什么的但是从 LM 这个角度从大模型这个角度其实你本身就很难追根溯源说我到底这段代码来自于哪里对吧然后我这段代码生成从哪些开源产品的训练里面得到了

帮助然后这个代码生成了多少次给别人用其实这个感觉也没办法统计所以真的去回馈的话你可能最简单的做法还真的就是像你说的我去给开源做了打个折什么的

所以我觉得这个事吧就是反正我自己是觉得没啥必要就是它其实是能让这个世界变得更好的一件事情我自己首先我的态度也是一样的我自己不太介意这件事也就是说如果我自己开源了大量的代码和项目我也完全不介意

大模型来学习来学习我的项目我觉得这件事对我来说我自己也是完全不介意的但是呢针对这个问题其实我认为我的观念是我觉得完全有可能存在着这样的人或者公司他们最终会去修改协议会去和大模型公司做一些对抗这个我相信肯定会有的但是呢我又认为这件事情

确实和 MangoDB 和 HashCorp 那些公司他们改协议的行为是非常非常不同的一件事觉得是两件事情首先我就说表达一下有可能总有一些人会去改这种协议我觉得今天主要还是一个赚钱的问题总有人看不惯这些就像刚才说的

什么 bot.io 对吧一些产品他可能一个月都赚了很多很多的钱他可能也学习了我的代码接见了我的代码最终也用我的代码去赚了很多的钱这件事情总有很多人可能心里过不去这个坎对我觉得这个也很正常都是人的正常的情绪反应对

但是我总觉得说 AI 它除了学习了你的代码其实它还学习了很多别人的代码最终它肯定是一个极格价之长最终 AI 确实就像贵贵讲的它也在效率、质量的各个方面会反驳我们所有的人所以说对我自己来说其实我不介意这件事就是这个原因

我重点说一下在我的认知里面 AI 学习开源代码这件事开源项目要不要改协议和 MongoDB 要好去 cop 他们改协议这件事是完全不同的他们之间这完全不是一回事我觉得但是

首先像云厂商还特别像 HarshCorp 它去改协议它其实是面对了很多的竞争对手拿了它的像它的那些什么 platform 它那些软件去打包成其他的相似的一些竞品产品去收卖所以就是云厂商和他们的竞争对手其实是直接拿开源项目的成品去提供了服务去赚钱

要知道从开源软件把它演变成一项商业服务其实中间的路是非常短的不需要做特别太多的事情比如说像阿里云也好 AWS 也好他们要把 Redis 提供成一个云服务这是一件非常简单的事情对他们来说

对没有什么需要那么二次创新这样的东西在里面的几乎就是接近于直接使用那 AI 学习代码那完全不是这么回事那 AI 从学习里的代码到最终去生成代码这个中间的这条路是非常非常的长的还要耗费很多的 GPU 算力的资源在里面

他自己还要出很多的钱投很多的资在里面并且从你的代码学习到最终生成代码之间除了学习推理整个过程里面是非常多专业的事情并且这些专业的事情都是远远超出你的能力范畴的你根本搞不定的所以这完全就不是一回事了好 另外一个从商业的角度来看第三点

像 MongoDB 它这种和云厂商它一定是竞争关系对吧但是 MongoDB 和 Cosr 它并不是竞争关系所以它在商业关系是完全不一样的所以说我就说可能在未来这些开源项目不太会大规模的去针对

AI 厂商去修改开源协议因为他们之间的最终回归到商业层面的话他们的关系是完全不一样的大家其实还是各取所需还是相互有利益的我觉得对 你讲的这一点确实挺好的我就想到说你看 MongoDB 让 Cloud 让 ChatGPT 他们学习了之后有什么好处比如说 MongoDB 自己有一个插件体系对吧假如它有一个插件体系如果大模型把 MongoDB 已经学得非常好了其实那个插件可能非常容易写出来

对然后像 K8s 也是一样的对吧 K8s 有大量的 login 啊等等之类的一些对所以说如果你真的学习到位的话可以非常加速你生态的发展我觉得这个也是一个挺不错的一点对我就想到说其实现在为什么这么多人去用 next.js

为什么这么多人去用一些比较成熟的一些 framework 也好你可能不太用小众呢因为我觉得未来极有可能它会出现强者横抢就是比如说 next.js 因为大家写的太多了被 AI 学习的也太多了其实你可能啥都不用干你用 AI prompt 一下然后你可能该写的都已经写完了但是比如说你用一个非常小众的一个框架你搞了半天你可能都写不出来

或者说你可能更多的需要用手写因为 AI 没有学习到那么多内容对所以说我觉得这个也是一个确实 AI 如果学习的更多之后然后能帮你把你的效率等等之类的能够提升很多对而且确实 AI 不是跟芒果 DB 跟 Redis 跟 HashCop 他们是竞争关系甚至他们是一种共荣共生的关系对吧比如说他们让 AI 学习的更多他们可能甚至未来会主动喂给 AI 很多信息让 AI 把他们学的更好

对吧然后来繁荣他们的生态也是有可能的对我觉得这个是一个确实是一个挺大的不一样对那我就还想问一个问题啊你看现在我记得之前 Google 的那个皮拆然后他在吹说现在 Google 新代码里面有 40%的代码都是用 AI 写的当然后来被 Google 内部的人否认了说没有那么多但是他自己也在说反正这部分比例在持续走高嘛就是在提升嗯

具体肯定没有那么多了对我就在想说因为这是 Google 内部嘛扩展到我们整个 GitHub 里边的整个开源生态那这个开源协议在未来会不会有什么变化或者说你看现在因为 AI 生成的越来越多嘛那版权之间越来越模糊之后有没有什么好的办法会不会产生一些新的方式方法来保护这些原创者的利益

首先接着上一个问题的话就像说的我相信开源协议在未来可能不太会针对 AI 这一点进行大规模的变化其实感觉也没有必要进行大规模的变化就像我们刚才的分析的结论的话

当然你说有没有新的办法就是要保护大家不想被 AI 学习到这种原创的利益但其实今天可能我自己确实也想不到什么好的办法来保护因为对我自己来说我觉得没有必要去做这件事当然我们为什么不把这件事情想得更有格局一点呢大家在未来代码本身这件事情真的很重要吗还需要保护吗但今天可能是需要保护的

对今天大家所有的人都会盯着那几行代码但是在未来可能事情会发生一些变化就我们可以想象一下可以乱想一下就在未来的某一天 GitHub 它可能会成为人类代码的基础库那个程序代码它就像今天的数学原理那种基础数学基础物理它会变成人类的共同的财富

它属于一种在知识层面的一种共识我们大家都知道一加一等于二我们都知道热力学三大定律可以用来解决什么问题用来证明一些什么东西但是没有谁去管热力学三大定律它的版权的或者著作权的事情数学一样的数学上有很多的定理功力都是同样的这样的一个它们属于人类的知识层面的种族

这种共识吧对未来的代码库是不是也会演变成这个样子那我们去使用任何一段代码就像今天可以去用任何一条数学的定理啊公理去解决任何领域的一个问题对没有谁去关心它的所谓的版权这件事对这种我觉得它是属于一种人类的基础知识吧对代码我觉得在未来会不会成为这个样子我觉得是有可能的

就像我们今天人人都在使用交流链对吧但是我们没有谁会去给特斯拉交钱对吧当然特斯拉也已经不管这件事了从这个角度继续往下我想了一下的话那未来的代码就不会变成它可能不再是真的是人去写这么多的代码了可能真的就是交给 AI 可以去随便去生成了那可能 GitHub 上也有很多的代码真的就是 AI 生成的

AI 生成代码去完成所有的事情任何事情

你朝着这个角度那就是可能在未来的整个计算机会发生一个很大的变化就在今天的计算机的层面上或者说操作系统层面上其实它就可以向上去增加一个新的 AI 的抽象层因为今天其实我们的计算机其实是到操作系统操作系统在往上又增加了很多的应用的 app 或者之类的最后交给不同的人去交互其实如果我们在计算机上

操作系统上去叠加一个 AI 的抽象场的话那人类可能未来是直接和这个 AI 去交互了那这个 AI 又会将人类的这样的一些交互的语言把它转化成操作系统可直接运行的程序指令

这件事情就变成了写代码这件事真的就不重要了这可能就是真正的未来的 AI 的计算机确实现在的计算机可能真的就缺少这样的一个层你看现在已经有这种苗头了大家还是可以去关注一下比如像最近像 Cloud 是吧它要推出那种可以操作就像那是 RPA 的全自动化对吧

他把整个 RPA 集成到自己的模型层面去做这件事其实越往后一样的那些生成代码这件事情做得更好大家可能都在做操作计算机这件事我觉得这件事情是完全有可能达成的

对我觉得你这个想法特别有意思因为现在大家还在用 RPA 在用这些方式然后再去操作计算机那未来有没有可能就是没有这些应用软件了对吧大家就直接生成代码了我想要什么软件然后你直接给我一个什么软件然后你就可以直接跑可以直接完成你该要的该完成的所有动作对我觉得这个也是一个就未来就是版权这件事对吧就变成说其实大家就没有版权了

对吗然后我想要什么软件你帮我生成生成完之后如果我想保留我就保留如果我不想保留我就是急抛的对吧都可以的对我觉得这个还是一个特别有意思的一个畅想就是说对吧未来版权模糊了其实我们不需要新的 license

我们可能就完全不需要 Lessons 了这个也是一个特别有意思的因为最近在学习界也有一些人在提编程语言这件事情是不是终点了到今天接下来因为这波 AI 大模型的崛起会不会导致一种新的编程语言的出现这种新的编程语言完全是以 AI Burst 为基础的

比如说你的整个编程语言完全是 AI 驱动的你写的代码的逻辑可能不太像我们今天这样说我要去写一个循环去表达什么事情或者说怎么样的可能完全是你的代码指令里面可能完全是一个比如说可能是触发 AI 去做一件事情或者之类的最终会演变成这个样子如果演变成这个样子的话它可能完全极有可能最终会走向 AI 驱动的软件生成

对我觉得反正这种是有可能的对我觉得就是需要我们走一步看一步然后继续往下看说包括未来 GPT-5 然后做到什么样的程度更快速地帮我们达成所谓未来的去 AI 直接生成软件然后不需要我们自己写的软件对类似于这样子好的那不知道大家对于未来的这个版权问题有什么自己的看法然后也欢迎大家在评论区可以跟我们留言讨论

那么本期节目就先到这里吧然后最后最后广而告之一下 Podwise 现在正在黑五打折使用实地折扣码 BF2024 在现在年定本身六折的技术上然后可以再打六折就相当于说在原价三六折而且这个折扣是永久折扣错过的话就要再等一年了如果大家喜欢 Podwise 的话可以尽快下单了那我们本期节目先到这里吧我们下期再见拜拜拜拜

以上就是我们本期播客的全部内容感谢大家收听也欢迎大家踊跃留言如果你喜欢我们欢迎点赞并分享给感兴趣的朋友如果你在用苹果播客收听也希望你花几秒钟给我们一个好评这会让更多的人了解到我们要是能再点击一下订阅那就再好不过了我们下周见