Patrick: 我认为DeepSeek使用了英伟达的芯片,如果它使用了华为芯片,那对英伟达来说将是巨大的打击。关于DeepSeek的训练成本,虽然很多人认为它很低廉,但我认为这可能是大盘下跌或其他因素导致的股票操纵,而非DeepSeek本身的低成本。DeepSeek的低廉训练成本源于其优化的训练方法,这使得其训练成本远低于其他模型,这使得小型投资人也能参与AI模型的训练。DeepSeek解决了Apple在中国AI发展方面的问题,并使其能够在本地运行AI模型。DeepSeek的兴起使得对NVIDIA GPU的需求增加,而非减少。DeepSeek是一个开放模型,其低廉的成本开创了新的机会,并非所有用户都使用其API。DeepSeek模型可以在个人电脑上运行,但速度较慢。使用蒸馏模型(distilled model)可以将大型语言模型压缩到个人设备上运行,但其能力会下降。DeepSeek的训练成本并非只有600万,还包含硬件和研发费用等。DeepSeek具有链式思维(chain of thought)能力,能够展现其推理过程。DeepSeek使用FP8来进行训练,这是一种节省内存和资源的优化技术。DeepSeek可以使用不干净的数据进行训练,这是一个重要的突破。DeepSeek开放模型的发布可能存在中国政府的战略考量。一些国家和地区已经或计划禁止DeepSeek应用。Elon Musk使用大量H100芯片,这与DeepSeek低训练成本形成对比,可能暗示DeepSeek的低成本并非完全由技术实现。DeepSeek的成功与其创始人的远见和中国政府的支持有关。DeepSeek的成功也与一位年轻的女性工程师有关,但其具体贡献和身份存在争议。DeepSeek使用OpenAI的API来改进其模型,但这可能违反了OpenAI的服务条款。DeepSeek使用OpenAI API的行为可能构成违规,但OpenAI目前尚未采取行动。
嘉嘉: 我同意Patrick的观点,DeepSeek使用华为芯片的说法是错误的,目前报道多称其使用英伟达芯片。虽然DeepSeek的具体芯片信息不确定,但目前公开信息显示其主要使用英伟达芯片,华为芯片的参与程度尚不明确。Apple能够在小型模型上本地运行,这与DeepSeek低训练成本导致的廉价AI芯片无关。DeepSeek的出现使得Apple AI的成功并非完全依赖于DeepSeek,其成功原因更复杂。
Ed: 我补充一点,关于DeepSeek的训练成本,我个人认为其低廉的成本主要源于其优化的训练方法,这使得其训练成本远低于其他模型。DeepSeek可以处理不干净的数据,这是一个重要的突破。DeepSeek的创始人梁文峰并非计算机背景出身,其公司并非DeepSeek的唯一公司。DeepSeek使用OpenAI的API来改进其模型,但这可能违反了OpenAI的服务条款。
Deep Dive