葛如钧(宝博士):我观察到扎克伯格和Sam Altman在AI开源闭源问题上的转变,这很有趣。AI模型的开源与闭源是一个重要的议题,需要了解其含义和未来发展。我想先请Richard解释什么是开源和闭源。DeepSeek开源引发了广泛讨论,但可能存在误解。算力可以比作大脑的脑细胞数量,越多则处理速度越快。开源大模型的权重可以类比为大脑星图的公开,允许调整和微调。开源大模型类似免费软件,但可以进行后训练和对齐。开源大模型的后训练和对齐,可以类比为冷战时期情报机构吸收对方特工。Sam Altman公开认错并考虑开源,这让我感到惊讶。
Richard林旅强:软件的开源是指原始码可以被阅读、分享和共建。开源大模型与开源软件不同,它需要数据、算法和庞大的算力。坊间所谓的开源模型,其实是训练完成后的权重(参数)。权重是一个巨大的文件,类似于黑盒子,无法反编译。开源模型虽然是黑盒子,但可以基于它进行微调和再训练。Meta的Llama和DeepSeek的开源方式不同,开源的定义也存在差异。Llama和DeepSeek都公开了权重,但许可证不同,Llama的开源条件受到质疑。目前行业对开源大模型的定义尚未统一,开源的含义存在差异。DeepSeek不仅公开权重,还公开论文和算法,这使得其他人可以基于它进行再开发。开源大模型通常会公开论文,这是行业标准。ChatGPT的出现促使各大公司思考应对策略,有人预测开源模型将成为未来的竞争对手。我观察到Meta开源Llama,这可能是一种弯道超车策略。闭源模型只能通过API调用,而开源模型可以部署、后训练和定制。Meta开源是为了建立产业事实标准,成为产业领导者。开源决定了大模型的地板,闭源模型可能会被淘汰。开源是一种自损800,伤敌1000的策略,可以扩大市场或淘汰竞争对手。开源大模型无法像开源软件那样被其他工程师直接优化,但可以基于它进行二次开发。阿里巴巴的通义千问,是我认为中国开源大模型中做得比较好的。Apple选择通义千问作为简体中文版AI的底层模型,这说明千问在业界有一定的认可度。闭源模型的未来发展空间可能有限。越来越多的公司开始开源大模型,闭源的堡垒正在瓦解。Grok的最新版本已经开源,这表明闭源模型也在发生变化。AI时代,效率是关键,这将影响大国和小国、大语言和小语言的发展。小语种或资源匮乏的地区,可以通过后训练和对齐的方式,基于现有开源大模型进行本地化开发。资源匮乏的地区可以基于现有开源大模型进行二次开发,例如后训练和对齐。选择开源大模型需要考虑是否会被断供,以及模型的特性是否符合自身需求。选择开源大模型时,要确保其长期稳定性,避免被断供。选择开源大模型需要根据自身需求和模型特性进行评估。后训练和对齐技术与所选的基座模型无关。进行后训练和对齐需要资金和专业人员。后训练需要对数据进行标注,这需要专业人员。进行后训练需要懂大模型的人员和资源。如果对开源项目有贡献,则更有发言权。DeepSeek开源对投资圈产生了冲击,改变了商业模式。开源可以建立商业信任,并通过占领市场来实现变现。开源可以提高客户信任度,因为代码是公开透明的。开源可以建立用户基础和社区,从而实现商业变现。开源是一种占领市场的方式,变现方式需要另行考虑。DeepSeek的成功为开源大模型的商业模式提供了示范。开源硬件的成功案例,例如树莓派,证明了开源的商业模式的可行性。台湾的硬件厂商可以尝试探索开源的商业模式,跳脱供应链的限制。我愿意与台湾厂商合作,探索开源的可能性。建议关注台湾的COSCUP开源人年会和Gen AI Conference。建议关注开源社的微信公众号,了解开源资讯。公开原始码不等于开源,开源需要附带许可证。
Deep Dive