cover of episode E256. OpenAI 预训练争议升温 | 杭州DeepSeek模型性价比高

E256. OpenAI 预训练争议升温 | 杭州DeepSeek模型性价比高

2025/1/2
logo of podcast 创新灯塔

创新灯塔

AI Deep Dive AI Insights AI Chapters Transcript
Topics
Ilya Sutskever (通过转述): 我认为OpenAI目前的预训练方法可能已经达到了瓶颈。我们内部在训练GPT-5模型时遇到了几个问题:首先,可用的预训练Token数量不足;其次,我们尝试加入合成的Token,但效果不佳;最后,这些措施带来的模型性能提升并不显著。总的来说,我认为文本领域的预训练可能已经到达了极限。 刘威 (通过转述): 虽然Ilya Sutskever提到了预训练模型的瓶颈,但我认为这对中国的大模型公司影响不大。因为就目前来看,中国大模型公司所拥有的Token数量并没有达到极限,我们还有很大的发展空间。 西娅 (节目内容总结): 最近杭州的DeepSeek公司发布了他们的开源模型DeepSeek V3,这个模型在基准测试中的表现可以与付费的GPT-4相媲美,但训练成本却只有GPT-4的几十分之一。这说明,大模型的智能程度并不完全取决于英伟达提供的算力,也降低了人们对大模型高昂成本的担忧。同时,中国工业产能的提升和快速工业化也带来了新的机遇与挑战。一方面,中国在全球制造业中的占比不断提升,自主创新能力显著增强;另一方面,快速发展也导致一些行业出现了产能过剩和内卷现象。中国需要在应用创新和原始创新之间取得平衡,市场化并购和企业出海投资都是重要的途径。 曾伟嘉 (通过转述): 明星数字公司最近完成了B轮融资,我们将加大在产业方面的投入,探索更多AI应用解决方案,为跨境电商平台和卖家提供一站式服务。

Deep Dive

Key Insights

Why did OpenAI's Ilya Sutskever claim that pre-training is coming to an end?

Ilya Sutskever suggested three reasons: insufficient pre-training tokens for GPT-5, poor performance of synthetic tokens, and limited diversity in synthetic data. These factors collectively indicate a potential technical bottleneck in pre-training large models.

How does DeepSeek's model compare to GPT-4 in terms of cost and performance?

DeepSeek's open-source model, DeepSick V3, performs comparably to GPT-4 in benchmark tests but costs only $5.576 million to train, significantly lower than GPT-4's estimated $100 million. This cost efficiency challenges the notion that model intelligence is solely dependent on high computational power.

What are the key challenges and achievements in China's industrial capacity development?

China has rapidly industrialized, achieving significant global manufacturing share but faces challenges like overcapacity and internal competition in emerging industries. Despite these, China has surpassed expectations in its 'Made in China 2025' plan, transitioning from application innovation to original innovation in advanced manufacturing.

What significant events occurred on January 3rd in history?

Key events include Thomas Hunt Morgan's 1912 genetics paper, Enrico Fermi's 1938 controlled nuclear chain reaction, Alaska becoming the 49th U.S. state in 1959, Apple's founding in 1977, and NASA's Mars rover Spirit landing in 2004. These milestones have profoundly impacted science, technology, and society.

What are the future trends in the AI industry as of 2024?

By 2024, AI models like GPT-4 will become common, with improved efficiency and lower costs. Multimodal LLMs will be widespread, enabling real-time voice and camera applications. However, the complexity of using LLMs and their environmental impact remain concerns.

Chapters
OpenAI首席科学家Ilya Sutskever宣布预训练的终结引发争议,讨论了其背后可能的原因。同时,中国AI创业公司DeepSeek以低成本挑战大模型市场格局,其开源模型DeepSeek V3在基准测试中与付费的GPT-4O大致打平,成本远低于后者。中国工业产能的快速提升和转型升级也成为讨论重点。
  • Ilya Sutskever 宣布预训练终结引发争议
  • DeepSeek V3 成本远低于 GPT-4O,性能大致持平
  • 中国工业产能提升和转型升级

Shownotes Transcript

Hello 你好呀 歡迎收聽創新燈塔這是一檔給你帶來每日全球科技資訊的節目我是西亞 每天都會為你解讀科技和商業動態今天是 2025 年 1 月 3 號 星期五 讓我們開始吧今天的節目將探討幾個引人注目的問題 OpenAI 科學家 Ilya Satskevich 宣布預訓練的終結是否真的標誌著技術的瓶頸

行中的创业公司 DeepSeek 如何用较低成本挑战大模型的市场格局以及中国在全球制造业中如何实现从应用创新到原始创新的转变接下来让我们来解锁这些商业科技动态吧

OpenAI 首席科学家 Ilya Satsgeven 宣称预训练要终结,引发争议腾讯杰出科学家刘威认为这可能是 OpenAI 内部遇到技术瓶颈 Ilya 说可能有三个原因一是 OpenAI 内部训练 GPT-5 模型时预训练的 Token 不够用加入合成的 Token 效果不佳二是 OE 可能在 GPT-5 的预训练中起到了不小的作用但合成数据多样性差

三是以上措施带来的模型性能提升不显著刘温认为文本领域的预训练确实到头了但这对中国大模型公司影响不大因为中国大模型公司的 Token 也没有到用尽的时候岁末年初杭州大模型创业公司深度求索 DeepSeek 不断放出大新闻

其公布的开源模型 DeepSick V3 在基准测试等方面能大致打平需付费的 GPT-4O 总训练成本仅$557.6 万美元远低于 GPT-4O 的约 1 亿美元该消息减少了人们对大模型的智能程度等于英伟达提供的算力的依赖还影响了英伟达股价

此前 DeepSeek 的福利加入小米这一消息获以营销加成加码营销了 DeepSeekDeepSeek 出圈前业界对其评价很高即使发现其训练数据集可能使用了 TrackGPT 输出结果也被认为无伤大雅中国工业产能在全球的占比不断提升中国的快速工业化也伴随着不同产业发展阶段上的产能过剩既有市场的原因也有体制的原因

中國的自主創新體制在規模和數量上展現出明顯的優勢中國以驚人的速度正在完成全面的追趕

在产业政策的支持下,中国基本完成了中国制造 2025 的规划,有些领域超出了预期。中国正在向全球先进制造跨越,但国内市场近年来一些行业出现了严重的内卷现象。特别是出现在一些新兴产业、先进制造业和高科技产业,中国从应用创新到原始创新的转变已经开始。

在新興、高科技和先進製造領域實現飛蛾與內卷的平衡除了必要的市場出清市場化併購是要素重組和產業整合的重要手段而企業出海投資尤其是用中國內卷出來的高性價比的技術幫助全球南方市場國家實現綠色和數字化的新型工業化也是中國產能的歷史使命從長遠來看還是需要持續的技術創新

近日明星數字完成近 2 億元 B 輪融資該公司為跨境電商平台和賣家推出一站式跨境 AI 服務系統「跨富」從報關退稅環節切入打通產業全鏈條數據資源提供多元化產品服務其創始人兼 CEO 曾偉嘉表示公司將加大產業投入探索更多產業及 AI 應用解決方案

此外,零星数字已服务数万家企业覆盖数十万家中小企业还荣获多项称号投资人对其前景表示看好

近日,创新灯塔播客节目报道了人工智能的相关内容,节目中指出理解神经科学机制对 AI 发展至关重要,连结主义学派将继续走深度仿生路线,此外,大模型的 scaling lock 能失效,未来大模型将降等增效,专注于开发基于目前能力的 PMF 产品。

同时国内大模型公司将转型做垂直行业产品不会有太多公司留在牌桌上再应用成美术工具音乐生成 AISS 生产控制的领域将迎来大爆发商业价值较高投资机会明显

2024 年 AI 行业技术突破行业走向成熟 GPT-4 级别的模型不再罕见运行效率提高成本下降多模态 LLM 普及语音和实时摄像头模式将科幻场景变为现实基于提示词的应用程序生成成为常态顶级大模型的训练成本大幅降低然而 LLM 的使用难度增加其环境影响也喜忧参半

美团将 AI 带到大众点评推出点载智能工具具有找店搭配菜品景点伴游等功能美团重视多渠道布局大众点评在用户评价方面有优势活跃用户消费意愿和能力强但用户规模下降美团选择先在大众点评测试点载还需应对消费场景多样性和用户评价等挑战

你知道歷史上的今天都發生過哪些事情嗎?在 1912 年 1 月 3 日美國化學家托馬斯·亨特摩根發表了他的遺傳學研究論文提出了基因位於染色體上的假說為現代遺傳學奠定了基礎他的工作揭示了遺傳信息是如何在生物體中傳遞的對後來的生物學研究產生了深遠影響

1938 年 1 月 3 日,美国物理学家恩里科·费米和他的团队在芝加哥大学进行了世界上第一次可控核链式反应的实验

这一实验的成功标志着人类掌握能利用核能的可能性为核能的和平利用和核武器的发展都开辟了道路 1959 年 1 月 3 日阿拉斯加州正式成为美国第 49 个州这一事件标志着美国领土的最后一次扩张阿拉斯加的加入也使得美国成为横跨北极圈的国家 1977 年 1 月 3 日苹果电脑公司正式注册成立

由史蒂夫·乔布斯和史蒂夫·沃茲尼亚克创立的这家公司后来成为了全球最具影响力的科技公司之一推动了个人电脑和智能手机的普及 2004 年 1 月 3 日美国宇航局的火星探测器勇气号成功登陆火星

這是人類歷史上第一次成功的將探測器安全著陸在火星表面為火星的探索和研究提供了寶貴的數據和經驗這些事件不僅在科技、財經、科學和航空航天領域具有重要意義也深刻地影響了人類社會的發展和進步

从基因学的研究到核能的利用从领土的扩张到电脑和智能手机的普及再到火星的探索每一个事件都是人类智慧和勇气的体现好了以上就是本期的所有内容感谢你的收听祝你今天过得愉快我们下期见