01.AI collaborated with Alibaba Cloud to establish the 'Industrial Large Model Joint Lab' to leverage Alibaba's resources for developing ultra-large models. This partnership allows 01.AI to focus on creating faster, cheaper, and smaller models for broader applications while relying on Alibaba's infrastructure for large-scale model training. The relationship between ultra-large models and smaller models is likened to 'teacher and student,' where the larger models enhance the performance of smaller ones through data annotation and synthetic data generation.
The 'teacher-student' model relationship refers to the use of ultra-large models (teacher models) to improve the performance of smaller, more efficient models (student models). The teacher model generates synthetic data and provides annotations, which help the student models achieve better results. This approach is cost-effective and aligns with the trend of focusing on smaller, faster, and cheaper models for practical applications.
01.AI faced challenges in scaling ultra-large models due to the high costs and diminishing returns of scaling laws. They decided to pivot towards smaller, faster, and cheaper models, as ultra-large models are more suited for tech giants with significant resources. By collaborating with Alibaba, 01.AI can now focus on practical applications while leveraging Alibaba's infrastructure for large-scale model training.
Synthetic data, generated by ultra-large models, helps improve smaller AI models by providing high-quality training data. This data can be tailored to specific needs, enhancing the performance of smaller models without requiring massive real-world datasets. It also allows for more efficient training cycles, reducing costs and time while maintaining model accuracy.
01.AI's shift towards commercialization is driven by the need to balance technical advancements with financial sustainability. They aim to create models that are not only advanced but also cost-effective and fast enough for real-world applications. By focusing on industries like gaming, energy, automotive, and finance, 01.AI seeks to generate significant revenue while maintaining a competitive edge in the AI market.
Pursuing ultra-large models poses significant risks for AI startups, including high costs, diminishing returns on scaling laws, and intense competition from tech giants. Startups may struggle to justify the massive investments required for ultra-large models, especially when smaller, more efficient models can achieve comparable results at a fraction of the cost. This makes ultra-large models a less viable option for startups compared to established tech companies.
AI-first applications in China are expected to grow significantly, with a focus on natural language interaction, universal reasoning, and understanding capabilities. These applications will redefine industries by integrating AI into core functionalities, creating new opportunities for startups and established companies alike. China's strengths in execution and commercialization are likely to drive the development of innovative AI-first solutions.
Li Kaifu emphasizes the importance of adaptability and foresight in leading an AI startup. He highlights the need to balance technical innovation with commercial viability, making strategic adjustments based on industry trends and company performance. His experience underscores the value of leveraging partnerships, such as the collaboration with Alibaba, to achieve long-term success in a competitive and rapidly evolving field.
上周初开始市场陆续出现了有关零一万物的新调整的传闻关键词包括放轻运训练资金链紧张被阿里收购在传闻出现的第二天我们在零一万物办公地中关村顶好大厦采访了李开复他解释了实际发生的变化
01 万物已经和阿里云成立了产业大模型联合实验室 01 万物的大部分训练和 AI Infra 团队会加入这个实验室成为阿里的员工而 01 自己接下来会聚焦做更快更便宜更小更能支持普惠应用的模型同时自己做应用在李开复的描述里超大模型和更快更便宜的模型的关系类似于老师和学生
超大模型可以通过标注结果和生成更多合成数据的方式帮更小的模型提升性能去年 5 月我们也访谈过一次李开复当时的话题是从中国最年长的 AI 大模型创业者开始的在 2023 年创立零一万物时李开复已经 62 岁前几年他才刚从一场大病中康复
和他行业地位还有人生阶段相似的人更多会选择支持一个公司而李开复这一次是自己当 CEO 自己跳入了这场大模型的混战
关于 01 的新选择有人认为是务实的调整有人认为是收缩乃至认输也有人给出复杂的评价比如一位创始人在朋友圈分享我们访谈里开复的文章时说颠覆性技术超大型基建和高效商业化很难兼得创业往往是从最开始什么都想做坍缩到专注商业化这是一种悲哀的正确
不管如何在最新变动出现之后李开复快速对外界说明事实和阐释想法的姿态展现了一个 CEO 的责任当公司出现调整 CEO 是那个需要对内对外说明情况的人这次我又问了去年问过李开复的一个问题在功成名就时再来创业会不会有心理包袱他的回答还是和上次相似
1983 年李开复开始在卡赖基梅隆大学攻读计算机博士学位当时他在研究计划里写人工智能是人类了解自身的最后一步我希望投身这门新的有前景的科学李开复认为这是他等了 40 多年终于等到的 AI 时代如果自己没有试一把才会是一个终身遗憾
我们房谈里开复的两篇文字报道我也贴在了 show notes 里的相关链接部分感兴趣的听友可以阅读本期的主播是曼琪下面我们就正式进入节目吧
你这几天会感觉特别累吗因为这几天有很多关于你们的传闻出来可能它是不准确的会让你感到疲惫吗不是疲惫吧就是让我觉得需要机会澄清所以感谢你这个采访的机会对我觉得您可以自己来描述一下就最近发生的变化被大家传闻成被大厂收编或者被阿里收购甚至是裁员还有资金紧张实际上到底发生了什么
就是我们认为一个商业公司需要一个非常快而便宜的模型在上面打造可以赚钱的应用来证明这个公司的商业化
那么如果说在技术推展上我们需要继续推进这个模型我们依然可以去做一个 V2 可是我们会用商业的眼光来看它值不值得我们也可以去依靠一个超大的模型作为一个老师模型来帮助提升它那么我们就和阿里成立了联合实验室
能够依赖大厂能够训练的更大的模型能够把我们较小的模型的能力有所提升所以总结来说就是你们和阿里合作阿里来做这个 teacher model 的部分就是这个超大的可以用做训练老师的这个模型然后你们是在这个 teacher model 的训练之下你们去做你觉得更快更便宜的模型
接下来是阿里会接收你们的绿训练的团队和 infra 的团队这个准确吗我们成立这个联合实验室确实是把我们零一万物对做超大机群的 infra 有能力有才华有梦想的这些人还有一些我们做超大模型有梦想有追寻有能力的人他们
他们觉得在这个联合实验室里跟阿里一起来做这个超大模型会是更符合他们的追寻那这个联合实验室的员工是阿里的员工所以确实是有一些 01 的人员入职了阿里这个是否意味着 01 要放弃育训练还是这不是一个概念我觉得以后的育训练会有一个分叉一个是做超大模型的育训练这个是一个
非常厉害能够做可能接近 AGI 的一个追寻但是它会很贵这个我们是放弃了其实我们很早就放弃了但是现在就可以更放心地放弃因为有合作伙伴可以来跟我们做超大模型运训练如果暂时不做了就是这一部分放弃了那没有放弃的事情是什么你们接下来的重点工作我理解的话是基于阿里的超大模型你们做一些精条然后重点来做应用吗
不是啊我们的模型还是需要预训练只是它是一个很快速的一个预训练而且可能也是不常做这样我们才能控制它的成本那我会衡量说 OK 我一年做一次预训练够不够了两次需要吗它带来的价值提升值得去做吗不值得我就用上一次的模型
我们现在是有一个 lightning 的 v2 的版本只是说你可以这么想我们是个大学不但在培养学生阿里是个师范学院他在培养老师等他的老师超级牛了我们的学生也很牛了超级牛老师教的超级学生就是可以去进入职场的一批人了
因为其实阿里的通义系列里面它也有不同尺寸的模型不光是阿里其实大家做这个模型的时候都是会有不同的尺寸的版本的就是它也会有一些尺寸它是去针对就是您说的更快更便宜的这个方向
如果你们已经和阿里有非常深度的合作之后这个方向你们还是要自己做的必要性是什么之前其实我也谈过就是说一个公司要不要做预训练我的答案当时的答案跟今天的答案是一样的就是当预训练出来的已经不如一个开源的时候那这个公司就要停止预训练了
那我们现在的 e-lightning 是超过就是在现在的这个成本和我们的控制可控之下的考虑到它的成本和表现是不能被开源代替的但是如果有一天能被代替的每一个公司都不应该执着说为了要做预训练而预训练所以就是当开源超过了你们自己的必源的时候我从合理的角度来说不做预训练这件事就会发生只是它今天还没有发生今天还没到
我们今天专注于用我们非常好的模型然后依然可以打造很好的应用我们会很务实地来看这件事情用最好的模型来做最好的事情我们的公司的存在不是因为要给 E-Lightning 找应用而是我们要给应用找最好的模型
那只要这个最好的模型是我们的模型好的定义可以是够小够快够便宜够厉害等等的那只要有一天它不是了那我们就会做一个务实的决策之前您说过 01 的一个优势就是你自己做 AI infra 做这个推理引擎所以你们能主动的大幅降低训练还有推理的成本那这件事在这个新的方向调整之后是不会变的什么可以讲讲
就接下来的这块的想法我们现在有一个较小的训练团队也有一个较小的 infra 团队而且一定程度我们的模型的变动不会那么大因此我们的 infra 的变动也不会那么大
所以我们之前 Infer 团队可能有更大的梦想就是要做一个 Scaling Law 万台集万张卡甚至更大那么今天既然不做了那他们就应该要去一个能够实现他们的这个能力的地方在现在和阿里合作的这个选项之外你们曾经还考虑过什么其他选项没有包括你们和大厂谈也就是只和阿里这一家谈是吗我觉得阿里愿意来跟我们这样成立一个联合实验室
然后让我们有这样的一个双赢的机会我们很开心这件事其实是阿里先提的什么还是你们双方就是刚好我还是我们的投资人所以经常沟通我觉得太多细节不太合适因为我之前也了解到你们还有一个计划你们也考虑把一些业务给 spin off 出去让它独立的融资这个也是在推进的是吗
这都是一个商业的考量如果你能把一个业务分拆出去让他的员工更有动力而我们又不失去对他的控制那就是一个双赢这种机会我们会任何一个公司都应该 open 的而且现在我们还没有分拆我们不用讨论太多你觉得被收购会是一个选项吗曾经考虑过这个吗我们没有去寻求被收购我觉得这不是我们想做的事情我们认为我们有独特的价值
但是我觉得任何一个创业公司因为我也在创新工厂投了很多公司任何一个创业公司他都要考虑到投资人的这个毕竟是为了投资人服务的那如果收购是最好的一个结局每一个创业公司都有责任去考虑这个选项
其实五月我们聊的那一次你有说过 01 要做的话就想做成一个万亿美元的公司整个设计是想要做成 AGI 时代的微软那现在这个调整我理解是非常务实的一个调整这个调整之后是不是意味着当时的那个设想其实是比较难实现了我觉得每一个人都要梦想万一实现了呢我们依然有很多梦想
那只能说我们现在可能是从应用来起步走这样的一个方向微软它的第一个产品也是一个 basic 的编译器也是个应用最终它还是走出了一个万亿市值的公司
就是说大家其实都有这个 AGN 的梦想每一个创业者应该都有一个成为非常聚职的公司的一个梦想那他需要多少时间来完成第一步应该是哪一步更重要的可能不是说仰望星空谁都可以仰望星空而是脚踏实地那你觉得这个梦想现在算是破灭了吗
当然没有了但是我不会去想它当时我觉得最有价值的公司是在做一个 AI 时代的微软出来今天还没有谁做出了 AI 时代的微软每家公司都还有机会我们不会认为自己没有机会但是我们走的道路跟五月是有一些调整其实我了解到就中国的大模型公司里面除了 01 之外有其他的公司也在考虑类似的调整你觉得这会是中国大模型创业的一个节点吗我不想评估别的公司了
但我觉得每个大模型创业公司都必须要考虑的几件事情一个就是在 scaling law 变慢的时候我们该怎么去处理第二个是只有大厂能做巨大模型的时候我们是采取什么样的一个措施和回应第三个是在商业化困难的时候我们怎么样去能找到一个成长之路
然后能接受灵魂拷问
第四个是我们在一个公司能拿到一个不错的财务报表的时候就是收入的时候我们怎么去也有一个可解释的成本不要让这个好不容易成长上来的这点收入就变成了一个我们的成本的小数点之后的数字我觉得这四个问题是每个全世界的大模型公司较小规模的都需要考虑的
那接下来我们可以完整聊一下这个过程哪些行业的变化以及您对这些变化和新形式的思考让你们有了现在的调整首先就是 scaling law 我觉得上次我们去年五月谈的时候我们做出了一个真的是往超大模型走的 E-large 它不是最大的模型但是它是一个相对大尺寸的模型这个模型做得表现很好世界打榜排名什么的但是这个模型并不快并不便宜
然后一个真的要落地的话还要更便宜更快所以当时我们面临的这样的一个选择就是说我们要相信 scaling law 去花更多的 GPU 更多的数据烧更大的模型还是我们要做一个更务实的一个商业公司可以落地可以赚钱的一个事情
当时还有几个考量一个就是说模型要变现需要应用那应用要落地要有好的用户体验好的用户体验需要快然后不能过度收费无论是 2C 或者 2B
所以面临这样的一个抉择我们也觉得说一个创业公司去跟大厂比烧谁更大的模型最终是不会成功的这个抉择是在去年五月的时候就发生了吗还是到后面什么时间又有一个更具体的事情让你非常严肃地在思考这个问题
我觉得就是 5 月的抉择当时我们发布的时候你可能记得我们还谈了一个叫做 EXL 的模型后来我们就放弃了就是在 5、6 月吧决定放弃了当然 MOE 模型呢我们其实一直在做其实在 EXL 的时候就已经在做 MOE 模型了然后之后应该是说 MOE 出了一些比较让人振奋的结果所以我们就把这个方向转到了 MOE 的模型
它达到的高峰就是我们在 10 月推出了 e-lightning 所以这也符合了我们每六个月要有一次更新然后要带来一些惊喜那么 e-lightning 其实跟 e-large 是完全不同架构的一个模型它是基于混合专家然后是非常高效它的表现比 e-large 要上了一个台阶
然后也达到了当时的全球第六名那 Elarge 已经可能跌到快 20 名了当时是 20 名左右而同时呢它的速度比 Elarge 要快好几倍它的价钱也是一个 GPD 4.0 的三十分之一虽然它的表现只略逊于当时最新的 GPD 4.0 但其实是超过了五月的 GPD 4.0
所以我觉得是一个超出大家预期的一个非常好的模型,也代表了我们走出一步,就是说我们也重新定义了,我们不是要烧世界上最大最贵表现第一名的模型,而是要做一个足够便宜足够快,就是因为我们认为 2025 年是应用爆发年,
那应用爆发年需要的是一个能够做普惠的应用而且能够速度很快满足用户的体验所以这是我们的方向那在这个前提之下能做到最好的一个表现然后又那么小那么快我们还是超过自己的期待所以这是当时走的一个方向那么谈到 scaling law 呢可能最近又有两个新的认知第一
第一个认知就是说 scaling law 已经明显地进入了一个 diminishing return 它不是说再用更多的算力跟数据做不出进步了是可以进步的但是它的进步是不符合投资回报的
比如说你一张卡加到十张卡可能可以得到 9.5 张卡的价值但是你十万张卡加到一百万张卡也许只能达到 13 万张卡的价值就您觉得这是个行业共识是吗这个现在是行业共识那就是把这个 scaling law 更多的放到推理时间它不算是对这个事的一个拓展吗是它是一个不同的 scaling law 我讲的是 training time 的 scaling law 我们先讲这个部分一会儿我可以讲 inference time 的 scaling law
或者 test time scaling law 这 training time scaling law 就是说谁还能烧更大的模型只有那些真的是真心想做 AGI 而且做出一个世界最大最棒最牛的模型的公司而且它的成本代价会非常的高绝对不是一个初创公司可以做的事情
那这件事情我们其实已经有这样的一个预判但是呢这是不是代表超大模型就彻底没用了其实也不是超大模型其实还有一个非常重要的用处就是它可以用来做老师模型也就是说我们要放到市场的一定是像 e-lightning 这样的模型或者你可以说其他的品牌
较小的千文或者是 DeepSeek 或者是 GPT-4 mini 等等的这类的模型会是主流因为他们的能力足够了可能不是最顶尖但是足够了但是呢他们还是可以受惠于有一个老师来教他
那么老师怎么教他老师可以标注数据或者生产 Synthetic Data 就是合成数据那合成数据跟生成有什么价值呢一个就是说我可以标注一些结果让你的后训练能够大大的提升第二个就是说我能合成更适合你去训练的数据那当然合成数据不会比真实数据更好如果你只是替代它
但是如果我们合成数据的目标是说我现在有一个比如说 E-Lightning 这样的模型它会在比如说 20T 的数据饱和我怎么能生成一个 20T 的更好的数据让它能够饱和在上一台机所以这一类的功能以后的主流就会是超大的老师模型去训练一个学生模型但是学生模型是
够快 够小 够便宜的这个趋势不是我发明的我们可以看到 Anthropic 它的 Opus 跟 Sonnet
OPUS 后来就不给人用了为什么因为它就是用来做老师模型了我们 AnzorTik 的朋友跟我们说的它 OPUS 训练得挺好的但是它太大太快太慢卖也卖不了多少而且最后卖给一些竞品去用它做老师模型何必呢还不如留着训练 Sonic 然后卖 Sonic 因为 OPUS 它发了没有意义再不然就卖不好卖得好也是卖给那些征流大的公司去用的
那同样的 GPT4.5 这个 5.0 可能最后被称为 4.5 这个还没有最后定论但是它已经做出来了但是在内部测试的效果也是觉得它有好但是不值得它带来的延迟和成本
他会不会卖我并不知道但是他绝对扮演的功能是去把所有的 GPT 小模型去重新提升一遍就是用老师来提升学生的能力然后用学生来做普及的工作那么这两个认知得到了之后我们就比较容易做我们的第二个部分的决定也就是说这个认知我们大概是在去年第三第四季度吧比如说九月十月的时候觉得说
一我们模型绝对不能再大了闪电模型就是我们的正确的尺寸是个甜点也许甚至有些情况还在做小一点但是他还没有充分发挥他的能力因为他需要一个老师
那谁来做我们的老师呢那就是大厂所以因此有这样的一个阿里的合作因为我们自己做不起老师模型嘛所以你要说是抱大腿也行但是就是说像你做一个很棒的手机应用你不会说去重做一个安卓吗或者你做一个很棒的 PC 应用你不会重去做一个 Windows 吗这些东西是靠大厂的嘛那以后这种超大模型的能力也肯定是靠大厂
那国内现在看得到的大厂比较确定的应该是阿里跟字节也许以后还会有一两家入局那我们作为一个初创公司应该勇敢地去做这样的一个抉择因为它是符合趋势的也是会给我们带来一些优势的
因为我们这样可以轻装上阵所以我讲了这个 scaling law 然后 teacher model 然后你提到的这个 inference time 这个事情呢我们确实大家都在分析和研究我们也比较振奋这样的一个慢思考的能力可能是下一个阶段的突破而且我觉得我们有一个非常快的推理是有很大的优势的因为如果你需要慢思考长思考
你每一个思考单元变快了你整个思考过程就变快了所以如果说平常我们的速度假设是 GPT-4O 的比如说 5 倍那么一边它出 token 的数字可能出的比它快一点然后之后呢我们已经超过人阅读的速度了那边的话可能大约匹配人阅读的速度所以虽然我们快 5 倍但是没有什么用户的 benefit
但如果说两边都用了慢思考都变慢了十倍那它那边就变成对很多应用不可忍受我们这边就还是可以接受所以我觉得用一个非常快的推理模型在一个 test timescaling law 的时代其实是更符合的
而且何况我们用一个非常快的 influence 的 engine 推理引擎是可以做更多的实验摸索出更多这方面的方向所以我觉得这是另外一个理由我们选择走快走便宜这个路径我们认为是正确的所以这是可能第一个我想讲的逻辑第二个逻辑呢就是在大模型时代一切都加快了如果我们回去看 AI 1.0 时代技术就是深度学习
然后应用可能是从视觉切入别的应用一个个慢慢来的然后从公司的发展可能是从谁的人最牛谁的论文最多谁的比赛成绩更高然后慢慢的进入了一些商业的里程碑谁能够拿下一个大单谁能多拿几个单子谁能商业的扩张
然后最终的灵魂拷问就是你能不能做一个不考虑你是个 AI 公司仍然有一个财务报表它可以上市因为最终这才是一个重要的里程碑让投资人能够有退出的机会然后让他能够作为一个上市公司有更多的信誉往前走它并不是一个终点但是一个重要的里程碑那么我觉得一切都加快了在 AI2.0 的时代
我们的技术迭代的速度加快了我们从信仰 scaling law 到怀疑 scaling law 只花了一年的时间
过去不是这样的,摩尔丁律支撑了多久。所以我们技术的速度是飞快的,这代表这个领域也是需要能够快速的动态调整。但是我们不只是这个变快了,我们的灵魂拷问也变快。也就是说我们因为那些要烧 scaling law 的创业公司会烧得更多烧得更快,我们这个行业的拷问也会来得更快。
所以如果你一年烧四五亿美金你就算融了十几亿美金这个拷问很快就会来了所以我觉得我们更应该做一个符合商业逻辑对投资人负责让自己能够确保活下来做一个有价值的商业的这个模式然后能够更快地面对刚才的最后的灵魂拷问
就是你到底能不能把技术转换成商业价值并且让投资人看到你可以有收入增加收入然后让你的亏损收窄最终单点形成盈利然后多点形成盈利
这样的一个过程是必须加快的在商汤矿石的时代似乎有六到八年的时间对因为他们成立的时候其实那会儿大众或者说创投层面 AI 还没有那么火 16 年的时候 AI 才变得特别火但他们都是矿石是 11 年成立的商汤大约是 13 年左右吧
从前面他有一段时间你可以说他是比较低调的在发展对那你扣除那段时间也是个四到五年大家才看他的财务报表那四小龙也好其他的 AI 公司也好
后来就都面临了这个考问那我觉得现在我们就加速了从四五年可能到两三年就要回答这个考题那么去回答这个考题我们可以把它拆分成几个题目第一个题目就是你到底懂不懂商业运作第二个是你到底能实现多少收入
第三是你能实现多少成长然后第四是你能不能控制成本我觉得六小虎对技术都各自有它的优势吧都可以讲它做得很不错等等的但是从商业运营来说我不去评价别人但从我的角度来说有几个重要的判断标准第一个就是说不打打不赢的仗
如果有一个行业你再不是没有达到 PMF 的验证再不是你一定程度达到了但是要教育市场或者是有一个很强的巨头垄断的碾压这个仗是不能达的这是第一个逻辑
第二个逻辑是不能去大量的做投入而看不到回报比如在 2C 的应用你去投放可能可以让你的用户量增加但是你停止投放了用户也不增加了所以你的用户增量可能都是买来的或者它有一定的自我增长但是它是需要不断的大量的输血才能维持一定的行业定位
那如果这样的一个应用跟场景是在一个还没有看到收入的可能的领域那对一个创业公司也是非常危险尤其是我们的这个编辑成本其实是很高的因为用户增长也好去得到一个免费用户的它的使用也好它常使用你就要烧 GPU 所以这个逻辑呢也是需要去自问的
那要做 to be 的话呢也非常危险的一件事情就是如果做 to be 我们做的是比较边缘化的东西那创造的价值不大付的钱不多我们也很难去把它做好做得不好用户不会满意我们也赚不到钱就变成了一个恶性循环
可能一个 2B 的领域如果你做的都是边边角角的花了很多钱去竞价可能连销售成本都没有办法摊回就不要考虑 GPU 成本等等其他的成本所以要做 2B 的话就要去找那些能够创造核心价值两种 2B 的单子一种是能够创造比较大的核心的价值就是帮他赚钱不是只是帮他省钱这是一种还有就是说
强强联合他有一些特别强的深度的狭窄领域的特别适合大模型的然后愿意去拥抱这个东西而且是要有一个非常有远见的 CEO 他敢做这个巨大的局面那这种单子肯定不多还有第三种可做的就是说你做第一个客户可能没有赚钱但是他是一个可复制的
可以重用的那可能你做这个行业或者再做五个十个二十个一百个用户是能够用到百分之六十七十八十你第一个客户用到那么第一单也许没赚钱之后可以赚钱所以这是我们认为非常重要的商业逻辑所以我们整个 to be 的做法是按照这个逻辑最后一点就是说我们可以看到 to be to see 国内国外都不容易做国内的 to see 是看
看来很难有收入而且巨头垄断的国内的 2B 大部分的案子是不能赚钱的案子是项目制的而且不见得能够很容易复制然后国外的 2B 我们根本不会做所以这看起来就是很难去解的一个局在这么难解的一个局的前提之下还有一个问题是如果你还要烧巨大的模型
还有 5000 张卡 1 万张卡 1 万 2000 张卡那它带来的每年的一两三亿美金的成本怎么去分摊到你的业务收入来
如果说我们的灵魂拷问要提早来到市场要说你今年花了多少钱赚了多少钱给我一个答案第一个是你要讲一个大的我收入很多已经不容易了然后如果还要说我的亏损是我的收入的五倍十倍二十倍那么这个故事就基本不会被人接受然后灵魂拷问就会失败所谓的商业模式的这个商业化的淘汰赛我在朋友圈里说的就是这么一回事情
所以我们必须进入一个状态作为一个 AI 创业公司我们必须要把我们用在 GPU 上面的钱当做一个 business expense 来花
也就是说我要不要雇这个人我要不要买这台电脑要不要去批准去国外出差要不要买 GPU 这个是一样的考量就是说我如果决定要做这件事情我要花多少钱然后我一年要花几次然后我可以从它得到多少回报这个是要能够回答的你去问任何一个公司的 CFO CEO 或采购部门他可以明确地告诉你说我买 PC 或不买 PC 对我公司的影响是这个
不买 PC 省了钱但是生产力会下降这可是创业公司的逻辑吗这听起来是大家对成熟公司才会这么去考量的对一个不需要面临灵魂拷问的创业公司初创期不用考虑这个我们去年没有考虑这个但是现在因为灵魂拷问的来临变得更快了就是说基本上有三个事情同时在发生一个是 scaling law 在变慢了第二个是只有大公司能做 scaling 然后
然后第三个行业的灵魂考问时刻到了您觉得如果长办够长的话可以帮助创业公司推迟这个考问到来的时间吗比如说我的模型做得特别惊艳或者我的产品增长数据做得特别好当然可以当然
当然可以产品增长数据就变成了一个商业逻辑了如果你产品在增长哪怕你还没有收入投资人会有耐心或者会愿意投资你的这是一个正常商业逻辑如果你长板特别长我觉得也是可以但是现在的话我觉得我们明显看到了所谓的中国打法就是说我们能把推理成本降低训练成本降低这是好几个公司的优势但是这个优势不代表你可以不面临联网考核
然后你的长板长在什么地方只是说我们变快那快怎么转换成钱还是要回答的那么我们训练一个模型要花多少钱我们训练的 e-lightning 是 300 万美元 DeepSeek 说它是 600 万美元都已经在行业非常低了
但是如果你真的要用商业逻辑来看这个问题好我们预训链是 300 万之后还花了什么之前花了多少科研假设加起来是 1000 万美元好那这个模型的寿命是多久现在一般模型寿命也就 6 个月那么你 6 个月花了公司 1000 万美元那你能在多少时间赚回这 1000 万美元或者赚回足够的数字让你看到你不断的迭代模型能带出来结果
而且你要对比的是说如果我不用 e-lightning 用 e-large 能不能得到同样的收入真的不可以吗就像你家里买一辆车你买这辆车给你带来的方便
不是说我没车有车的差别而是我上一辆车已经在了它还能开那我多开个半年还是我现在就要换新车那这个对我的家庭的经济值得不值得是要做一个考量的比如说 01 它有没有一种选择是我办我的常办就比如说我刚才说的这两点模型或者我的增长数据做得特别长我如果先不考虑收入和盈利的话
对这是一个平衡的选项那我们认为我们现在的我和我的管理团队做收入我们是有信心的做增长我们会试然后做模型有很长的长板坦诚地说中国今天还没有一个公司做出来过
你觉得最近非常火的 DeepSeek 也不算是吗?DeepSeek 做得非常好,它的优势跟我们很类似,它推理能力会变强一些,但是它的推理成本也会变大一些。所以比如说挑两个美国很强的模型来比吧,一个可能性价比更高,一个可能绝对的 performance 更高。对,我觉得 DeepSeek 做得非常好,我们非常尊重它,但是如果真的要说长板特别长的话,那可能还要观察吧。
那经过这一次调整我理解 01 接下来的一个很大的重点是商业化我看您昨天也发朋友圈提到你们 2024 年有超过一亿元的实际的收入 2025 年还会翻倍可以讲一下商业化的进展和接下来的计划吗就像我朋友圈所发的我们是 2023 年成立的应该是四家六小户还有两家更早 minimax 跟那个支扑
2023 年成立的四小湖里面我们应该是第一家做到一亿收入的那么一亿收入不代表什么离上市还远得很但是作为第一个运营年 2024 年有一亿收入其实是一个挺自豪而且挺独特的事情它表示我在刚才讲的这些商业逻辑上我们有落地我们的海外 2C 的产品基本已经打平然后下面是有机会能够得到盈利的
我们国内的几个落地的场景比如说我们努力在攻克的比如说游戏 能源 汽车 金融这些领域也是都有一些斩获大部分都有千万以上的单子所以是真的有创造了在今天这个场景里在 2024 年的场景里你去打单打不出一个千万级别的单子
而且这些是基本都是软件单子所以是真实的有创造给客户的用户价值那下一个阶段我们会再继续的放大这些领域我们还有几个我们很认可的领域然后我们也发现我们不见得适合自己去做我们会在一些垂内去跟其他的公司来做共创
共创的一个模式就是我们可以成立一个合资公司对方出行业的 know how 还有也许一些可分享的数据或者如果他控股的话基本数据都可以放进来然后我们出技术所以我们不用出钱技术入股能够做出更好的行业解决方案
我觉得其实整个行业很大的一个挑战就是客户跟技术提供商不是一个共创双赢的局面而是说我跟你压价然后你就随便给我做做然后我就不满意这反而是一个负面的循环而是说当我们在一起强强联合把你的行业 know how 跟数据和我的技术放在一起
这个合资公司做大了我们两边都有钱赚做得不好我们两边都有亏损这样的话就更能够创造价值当然我也不是说全部的模式都要这么做但是因为我们这边有一些优势我们有投资的经验我们有行业的人脉我有从上到下的打通的一些人脉和机会然后
然后我们也可以利用创新工厂以投的很多公司来做这一类的共创所以我觉得我们是有把握在二五年能够有数倍的成长就是从一亿做到数亿这样的一个收入我觉得站稳了这一点然后再回头去看
如果我们能够把 GPU 的训练压缩到一个它能分摊出来还是合理的 business expense 那这个公司它的财务报表就会是可以给一个科技行业但是非大模型领域的人一看说这个收入涨了这么多倍然后它的花的钱是控制在了一定的 level
也就是说他假如说一年只需要烧一次模型或者最多两次模型一次只要花多少钱然后有一个大 teacher model 来训练他让他的模型不会掉队甚至还能在第一梯队
而且能够去支撑很好的应用那么这样的账就可以算得下来所以这是整个考虑到商业逻辑考虑到 scaling law 考虑到我们已经得到的初步的商业化的验证综合做的一个判断
他是在去年 5 月开始萌芽然后在第三季度开始看到可能需要走这样的一个道路然后之后跟阿力的讨论也达成了这样的一个强强联合然后大概这一个月开始去做执行而且不是大家认为说突然就因为什么结果什么这是一个非常被动的事情而是一切都是经过一个策划
是有做一些转变一部分因为行业变了一部分因为认知变了一部分因为我们不断地去经过我们的实践学到了新的事情然后创业的成功很大程度来自于你有这个勇气跟有这个认知看到变化的时候要做调整那这个调整是一个过去几个月的调整
除了这一次的调整之外其实之前有段时间大家对 01 讨论比较多的问题还有你们团队的变化就是 2024 年其实我们能看到一些中高层离开包括黄文浩潘兴这些人您觉得实际上就是 01 团队发生的情况是什么我觉得整个大模型领域里面确实有不少的人改变赛道也有一些大厂他突然觉得要用天价来挖一些人这些事情是我们都可以看到的
每个大模型公司可能都有一些这种例子我只能说我们初创的时候我的简易基本都还在
然后我是靠这些人来去不断地去找很优秀的人那么每个人离职可能有不同的理由有些可能是想追求 AGI 训练超大模型的梦想有些可能是禁不住诱惑我听说黄文浩是张一鸣亲自来挖的我知道我可以不评价是吗我觉得这种情况可能创业公司挺难留人我就说一个大厂如果非常强力地去挖的话我觉得这个财务回报是一部分了
但是有些人就是想去训练 AGI 超大的模型那我们这里就没有办法提供这样的一个环境您觉得是不是在现在这个形式下来判断其实您刚才说的那个就是把模型做得巨大的这个方向它其实已经不是创业公司的机会了这终究还是一个巨头的战略毕竟 OpenAI 也是个创业公司 Anthropic 也是个创业公司
所以我们不能武断的说就一定不能做可能更多的是回到你刚才说的是一个创业公司真的能认为他打出一个超长的长板他绝对是可以做这件事情但是这个超长的长板是非常非常困难
那在中国可以有这个判断吗巨大的模型只是巨头之间的战争我觉得我不会去认为中国不可以出一个天才他发明什么特别的长板但是难度是很大的您觉得中国大模型创业公司全军覆没有多大概率没有任何的概率不会出现说就是没有创业公司跑出来的这种情形是吗您觉得不会我觉得每个公司都很聪明都有很多的资金
都会找到自己的方向但是我觉得找到方向以后这一定不是个大模型公司就像今天你说字节不会说它只是一个移动互联网公司或者说滴滴不会只是一个移动互联网公司而是它会在某一个行业做成成为一个巨头如果没有做成巨头成为一个可盈利可上市的公司当然也有可能做得不好
但是如果说做得不好不是说大模型公司就能成或者不能成我还是坚持我的预测三年以后没有一个公司会被认为是大模型公司除非它真的是成为了一个 open air 对 我说的这个全军覆没可能不是指这些公司消失或者说破产死掉可能是指他们没有成为被期待的新一代的非常大的这种公司就没有任何一个创业公司做到这一点
我不认为会发生但是这么一个长周期的一个预测没有办法精准地给一个答案如果我们设想一种极端情况就这个市场只剩大公司的话会是什么情形就是可能它最后的这一轮的技术成果绝大部分都是被现在已经在场的这些科技大巨头获得这会是什么情形我觉得这就代表了 AI first 的应用没有想象的那么颠覆所以我不认为它会发生因为 AI first 的代表每个应用都会被颠覆
那你颠覆的每个应用都是一个创业上市公司的机会那如果每个应用都只是微调那确实大厂可能就赢了如果只是一个抖音升级版一个百度升级版一个淘宝升级版那没有创造出一个 AI first 的应用从 2C 的角度
从 to be 的角度大家还是在做办公的工具数据库等等的如果这些每一个种类都没有因为 AI 被彻底颠覆那巨头就会继续成功但是如果他们被颠覆那就会有很大的改变所以比如说我们可以说从 PC 时代到移动互联网时代
搜索没有怎么被颠覆所以百度依然是比较强的公司但是如果我们看出行或者是视频支付本地生活它是确实被移动互联网颠覆因为 Mobile First App 就取代了传统的 PC App 或者是网站
那只要 AI App 是在颠覆过去那巨头就会有包袱因为它没有办法抛掉它过去得到的成功然后会有机会被一个新来者取代但是如果是都没有被颠覆也就是说你可以想象如果我们是用手机的时候还都是用的 H5 的版本那真的很可能我们还是在用 PC 时代的那些网站那这些新的移动互联网巨头就没有起来
但是移动我们可以看到了它是 mobile first 带来的就是我们是知道你的地理位置然后你随身携带它会重新定义一个应用的价值这件事只要在 AI 上成立那就会有非常多成功的创业公司所以我坚持这个是最终会发生的高概率的事件那当然很多大厂动作比较快的比较强势的然后很自然的延伸的
他们肯定会还是得到成功就像 PC 到 Mobile 时代有些公司延续了他们的成功有些就被颠覆掉那么我觉得 AI 比 Mobile 更是一个颠覆式的技术因为 Mobile 相比于互联网就你刚才说它有移动有定位这些特性那 AI first 的应用它的新的特性可能会是什么你已经看到的迹象是什么
它的特性会是首先是一个用更自然的语言的方式来做这个沟通然后可以延伸到它是可以有通用的推理跟理解的能力然后它是一个没有了大模型它的整个应用就不存在这样的一个存在所以如果说我只是把 Office 加上一个 Copilot
它不是颠覆性的不是 AI first
但是如果我是已经从一个人写作 AI 来帮帮我变成了一个 AI 做主要的写作然后我来调整它这个就是一个颠覆式或者一个搜索的话可能不是说我打几个关键词看到一堆网站而是我问一个问题就看到一个结果或者说我在社交里面我看到的不只是人生成的内容还有 AI 生成的内容我交的朋友不只是人可能还有一些 AI
而且没有 AI 的一个社交圈我就不习惯了那这就是 AI first 你会觉得现在总体来说中国大模型创业到了一个什么阶段我还是很自豪中国大模型的发展因为你想我们有的芯片的限制我们的估值是低于类似的美国公司的而且融资额要少融资额要少的
那我们就是发挥了我之前在我的一些演讲和写作里面说的就是发明新的技术可能美国是比中国厉害的但是做好有效的执行是中国的强项另外我还说过两句话我觉得是等 2025 年来验证的就是中国的公司比美国更会找到商业模式而且赚更多钱第二个是中国的应用是要比美国做得好很多
那这两件事情之前都还没有机会来验证因为大家都在比谁模型能做得更好现在的结论就是还是美国做得好些中国落后六个月但是中国做得更便宜更小这样的结果我觉得是一个 90 分的成绩单因为考虑到我们的限制
那下一个问题就是谁能够做出商业化第三个问题就是谁能做出最棒的应用那第一个问题中国是在一个劣势还拿出了一个 90 分的成绩美国就算是 98 分好了那第二第三个中国是有一定优势的因为中国的移动互联网时代也好 AI 1.0 时代都验证了在第二第三点中国是很有机会的
所以我之前也说过今年的 AI 应用会爆发在美国包括在中国给中国的创业者做国内和国外的应用 to see 和 to beat 虽然环境我也说了会有一些挑战但是前提的条件就是说现在的模型够好够便宜了够快了寻找 PMF 是中国创业者擅长的从移动互联网留下来的一个好的习惯和方法论
然后能够商业化从今天成功的很多移动互联网公司也可以看到所以我觉得今天是一个还蛮适合中国的公司站在一个 90 分然后开始去摸高一些这个适合中国创业公司做的事情
然后我们上一次聊的时候其实也讨论过一个话题就是以零的地位和成就以及人生阶段的话其实你不一定要自己创业了很多跟您处境相似的人他们是选择支持一个公司而您是选择自己来当名一万五的 CEO 你是自己主动地跳入了这个混战就是回头看你会后悔这个选择吗
不会啊我觉得我之所以决定做这件事情一个是看到这是特别适合我的背景就是它包括了技术产品投融资跟商业的运作那我觉得我有一些独特的背景而且我觉得我认识一些人他们跟我会是非常好的搭档
我们应该来做这样的一件事情那每个创业的过程中它都会有跌宕起伏和调整如果任何一个 CEO 他碰到了一点挑战就开始后悔了
那这样的一个人是一个没有资格做 CEO 的人功成名就的时候再来做一个新的公司就有的时候你会不会有那种如果我没有成功的话反而是在我之前已经很光鲜的履历上就添了一个不好的标记你会有这种包袱吗我没有我觉得反而是说如果在这样的我等了四十多年终于等到的 AI 时代我没有出来做我擅长做的事情然后去试一把
这会成为终身的遗憾您之前在创新工厂就投资过很多公司也深度孵化过科技创业公司那您自己创业这两年您的复盘学习或者说您觉得最重要的成长是什么了
我觉得一个创业公司它能否成功是要坚持那些必须坚持的事情但是要能够看到一些已经发生的事情来快速地做调整还有要能够对未来做一个比较清晰的一个预测
根据这个预测来去更勇敢地大胆地做一些调整让公司能够继续地良性地发展我觉得
我觉得这个是希望大家能看到我们今天所做的这些事情是看到了这个趋势主动地做了这些调整在您的预测里面 2025 年你觉得确定性比较高的事情可能会是什么在 AI 大模型领域对 我觉得第一个就是会有大量的应用爆发而且很多会来自中国的创业公司和大厂第二个我最确定的是会有更多的 surprise 给我们
因为我们看到它的变化真的是超级超级那很多过去被认为是真理的事情很快就被推翻了过去很多认为是不可能的事情都变成可能了所以我们要抱着非常期待的心去准备看到这些神奇的事情的发生第三个我认为我们会挖掘到
很多非共识的 to be 的细腻行业的一个真实需求是他必须要有大模型才能创造出巨大的价值必须要有大模型才能不止帮他省点钱还帮他赚到钱然后是一个可以潜在颠覆这个行业但这个行业一定不是一个什么金融可能也不是一个什么保险这些都太大了
会是在一个非常垂直的应用里面那所以去跟一些传统行业的龙头大公司还有细分领域的老大这些公司未必很大但是他们的营业额都可能因为有大模型能够翻倍或者他的人效能够翻倍我觉得是寻找这一类的 PMF 是下一个阶段的是 to be 的 PMF
其实您刚才讲往 2025 年的应用的时候就提了 agent 的一个方向就之前我们向您搜集就是什么是好的 AI 的看法的时候您说过您觉得工作是工业革命留下的魔咒您特别期待将来会出现一个 super agent 可以把人类从重复的繁荣的劳动里面给解放出来我想知道比如说如果你自己有了一个 super agent 你有了更多时间去做别的事你会做什么
对,我觉得人其实就是一个不断的需要去找那些机器不能做的事情那这些事情可能包括了一些超级有突破性的前所未有的创意可能有一些是综合性的一些这种结合和这个非靠数据能够去推演出预测的一些事情
也可能是一些有温度的事情人与人的信任接触感情温度也有可能是一些 AI 帮人创造出来的机会就是 AI 帮我们在找工作的机会就像汽车创造了司机这样的一个工作那说了这么多你也没说自己到底想做什么就如果时间被解放了
我的时间被解放了就会在我热爱的工作只要这个工作不是被 AI 能取代的我就会继续做它然后我会把更多的时间花在跟我爱的人在一起因为这样的人与人之间的温度感情跟关系真的是 AI 不能取代的如果可以送一句话给其他大模型创业者的话你想说什么我记得王慧文说过一句话每一位都是勇士我们应该彼此鼓励
第二句就是再过三年就没有大模型公司的一个说法你要成为一个比如说海外 2C 应用公司还是国内最大的 2B 公司还是一个依然去做中国最优秀的大模型公司这些都是一个选项就像今天我们可能已经不会太多的说谁是个移动互联网公司美团字节他们已经都是他们领域的巨头
所以我觉得我会祝福每一个大模型公司都能走出自己的路当他把大模型公司摘掉的那一天也就意味他找到了一个成功之路最后一个问题我想问一个轻松点的就 2025 年的新年愿望是什么两个女儿的职场顺利情场顺利还有零亿万物能证明我们做的这些抉择是给人类创造价值
而且是正确的确定