We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 百亿美金问题:大模型创业PMF难寻,是Transformer的锅吗?

百亿美金问题:大模型创业PMF难寻,是Transformer的锅吗?

2023/12/27
logo of podcast 先见未明

先见未明

AI Deep Dive AI Chapters Transcript
People
罗璇
Topics
罗璇:我认为Transformer架构在实际落地应用中面临着成本高昂和效率瓶颈的问题,这严重制约了国内AI的发展。国内AI领域长期依赖美国开源的Transformer技术,缺乏自主创新,这是一个亟待解决的问题。因此,我所在的元始智能致力于开发一种名为RWKV的新型大模型架构,它具有更高的计算效率和更低的资源占用,能够在云端和端侧实现更高效的部署。我们的目标是构建一个开放开源的AI底座,推动RWKV架构的广泛应用,并重构基于Transformer的基础设施和应用。此外,我认为创业公司应该重视数据安全,避免过度依赖OpenAI等云服务商的API,而应构建自己的数据飞轮。总的来说,我认为Transformer架构已经接近瓶颈,而RWKV等新型架构将为AI领域带来新的突破。

Deep Dive

Chapters
RWKV是一种新型大模型架构,其计算效率比Transformer高10到100倍,在云端和终端部署均具有优势,成本更低,且不依赖GPU。RWKV已应用于音乐生成、小说续写等领域,并与高通、MTK等厂商合作。
  • RWKV计算效率比Transformer高10-100倍
  • RWKV云端和终端部署均有优势,成本更低,不依赖GPU
  • RWKV已应用于音乐生成、小说续写等领域,并与高通、MTK等厂商合作

Shownotes Transcript

刚刚结束的极客公园年终大会上,美国工程院院士、智源研究院原理事长张宏江和谷歌DeepMind资深工程师卢一峰进行了一场对话。

谈及大模型幻觉问题的难解,张院士提出了一个被卢一峰称为“价值百亿美金(甚至更多)”的问题:Transformer是否当下唯一可靠的架构?大模型向未来发展的过程中,技术路径上还会不会有新的、根本上的变化?

在这场对谈发生前不久,卡内基梅隆大学(人称全球AI专业“天花板”)和普林斯顿大学的研究者发布了一种名为Mamba的新架构,解决Transformer核心注意力层无法扩展的致命bug,推理速度提升5倍。论文一出,国内媒体惊呼:难道Transformer架构垄断终于要被打破了?

无独有偶,半年多前,我们采访了一个正在研发非Transformer架构模型的国内团队,RWKV。团队坚持模型开源(RWKV已成为Linux基金会孵化项目,所有底层模型的知识产权将放在这家非营利机构),并成立了一家商业公司,做围绕该模型的微调量化及To C、To B商业化落地。

采访中,团队核心成员罗璇说,自己在与国内AI圈、投资圈朋友交流时,经常会争论几个“非共识”:Transformer是不是唯一选择?AIGC的未来就是云服务了吗?小公司能不能做大模型?

随着时间推移,罗璇曾经的某些“非共识”观点似乎正在成为共识。在大模型底层架构创新上,除了上文提到的Mamba,微软和清华团队也在7月推出了RetNet架构;端上大模型更是近期的话题高地。RWKV自身,则累积了近万的全球开发者,与高通、MKT、英伟达等大厂展开合作(据悉,阿里达摩院近期在开发基于RWKV架构的语音识别模型)。

**当然,RWKV要验证其可广泛应用性,还有更长的路要走。但正如我们节目名称想传达的,先见必然未明,生生不息的创新才是最为可贵。**于是,我们特别邀请罗璇年终返场,聊聊他对大模型创业的新体会。

【本期嘉宾】

罗璇 元始智能(RWKV)联创兼CPO | 前阿里机器人产品总监

【时间轴】

02:49 “所有基于Transformer的基础设施和应用都值得用RWKV重做一遍”?

04:13 全球顶尖团队都在探索大模型底层架构创新

05:27 Transformer有多贵、效率瓶颈有多大?谁用过谁知道

07:36 RWKV比Transformer,具体效率提升几何?

09:24 身后站着近万全球开发者的“小团队”,成为高通端侧模型合作方

10:58 曾经被质疑“一个中国小团队做的方向是不是靠谱?”现在全球前沿研究所都在关注

13:09 Transformer的专利在商业公司(谷歌)手上,对其生态上的模型和应用公司都是风险

15:21 AI世界需要一个类似Linux的底座,开源生态上要长出繁荣的商业化

16:55 为什么国内鲜有公开讨论“Transformer架构是否足够好”?

19:35 端侧大模型离实际应用还有多远?

23:14 国内的AI发展其实就卡在“Transformer+GPU”上

24:58 Transformer天花板临近?PMF难寻

26:38 过去半年,看着自己的非共识逐渐变成共识

27:53 AI世界里数据既业务,应用类创业公司要自建数据飞轮

【扩展阅读】

智源张宏江对话谷歌卢一峰:什么才是大模型「皇冠上的明珠」?)

五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈)

被Stability AI赞助算力,被Open AI招募,这个大模型小团队是?)

【很高兴认识你】

先见,必然未明。创新路上,我们一同求索。

当人们说“某人真有先见之明”时,它本身就已经是“后见之明”。任何创新,无论技术还是商业,都必须经过验证。验证的过程,往往是漫长、混乱、挣扎,充满失败的——甚至,验证的结果也可能是被证伪。

幸运的是,自人类在地球上扎根至今,创意不息,创新不止。这档播客希望发掘和记录生生不息的创新,探索创新背后的真价值,不人云亦云,不后见之明。

赛博认好友请搜微信ziyuanao。