We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 2025-01-31 | DeepSeek 被美国质疑「偷窃」,遭 OpenAI 微软调查

2025-01-31 | DeepSeek 被美国质疑「偷窃」,遭 OpenAI 微软调查

2025/1/31
logo of podcast Hacker News

Hacker News

AI Deep Dive AI Chapters Transcript
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
主持人: OpenAI 怀疑 DeepSeek 未经授权使用其数据训练其 R1 模型,引发了关于 AI 数据使用和知识产权的广泛讨论。DeepSeek 数据库的安全漏洞暴露了包含聊天记录、密钥等敏感信息,凸显了 AI 服务快速发展与安全性的矛盾。DeepSeek 发布的新型推理系统 R1-Zero 和 R1 在性能上与 OpenAI 的模型相当,但其训练方法和开源策略也引发了关于 AI 模型开发商权力集中和数据质量的讨论。DeepSeek 选择开源是为了在西方市场获得信任,并应对芯片出口限制带来的挑战,其低成本模型训练方法也展现了 AI 模型商品化的趋势。 同时,一起商用飞机与黑鹰直升机相撞事故,以及关于肠道细菌与抑郁症之间潜在关联的研究,以及 AI 自动“美化”写作内容引发争议等新闻也值得关注。这些事件都反映了科技快速发展带来的挑战和机遇,以及人们对技术发展和应用的复杂态度。

Deep Dive

Chapters
OpenAI 指控 DeepSeek 未经授权使用其数据训练 AI 模型,引发业界广泛关注。这一事件的讽刺之处在于 OpenAI 也曾面临类似指控,且 DeepSeek 声称其模型训练成本极低。评论区观点分歧,有人认为是炒作,有人担忧知识产权问题。
  • OpenAI 指控 DeepSeek 未经授权使用其数据
  • DeepSeek 声称其模型训练成本极低
  • 业界对 AI 数据使用权和知识产权的担忧

Shownotes Transcript

大家好,欢迎来到黑客新闻中文日报在今天的节目中,我们准备了一系列引人入胜的科技新闻首先,我们将探讨 OpenAI 怀疑 DeepSeek 可能未经授权使用其数据的新闻这一事件在人工智能领域引发了广泛关注接下来我们会深入了解 DeepSeek 的新型推理系统 RE0 这一系统展现出了在 AI 技术中自我优化和学习的新趋势

此外,关于一个商用喷气式飞机与美国陆军黑鹰直升机的悲剧相撞事件,也是我们今天需要关注的重点。让我们一起跟随黑客新闻中文日报深入理解科技世界的最新动态。近日,OpenAI 对 DeepSeek 展开调查,怀疑后者可能未经授权地使用了 OpenAI 的数据训练其二一模型。

此事引发了广泛关注,尽管报道称 OpenAI 和微软以及新任白宫 AI 特使都在关注这一事件,但事实上,OpenAI 对此事的态度并没有外界所传的那么激动。有观点认为,DeepSeek 通过所谓的模型蒸馏技术获取了 OpenAI 模型的知识,即通过大量的问答来学习并模仿附模型的思考过程。这件事情的讽刺之处在于,OpenAI 自身过去也因采集大量数据而受到诸多争议。

这似乎在暗示着在 AI 领域今天的行为者可能成为明天的受害者

评论区的网友们对这种情况提出了批评和讽刺,有的称这篇报道为点击诱饵,认为没有证据表明 OpenAI 真的感到愤怒,也有人指出尽管 OpenAI 的模型是必源的,但通过 API 是否能有效进行征流仍有待验证。总的来说,这件事揭示了 AI 领域复杂的数据使用权和知识产权问题,同时也反映出公众对 AI 技术发展极其监管的深刻关注。

OpenAI 最近表示,他们有证据表明 DeepSeek 使用了他们的模型来训练竞争对手这个消息首发在金融时报,引起了科技领域广泛关注这一指控将会在 AI 领域掀起不小的播出许多人在评论区表达了他们的观点一些网友认为,DeepSeek 依据 OpenAI 的输出训练模型这一做法极其荒谬因为 OpenAI 自己最初也是通过从互联网上爬取别人的数据来训练自己的模型的

而另一部分人则担忧,如果 DeepSeek 真的使用了 OpenAI 输出的大量数据来训练他们自己的模型,那么这将对他们声称从零开始以极低成本复制 OE 级别性能的说法形成质疑。还有网友提到了关于知识产权保护的辩论,以及公司如何围绕着这些创新成果进行策略部署,值得关注的是,有评论者强调开源新技术一直是推动进步的关键力量,DeepSeek 通过 MIT 许可证发布他们的技术可能会吸引大批人才加入。

总的来看,社区内对于这次事件的看法分歧,但普遍关注点还是聚焦于 AI 领域内部的数据使用和创新速度问题。DeepSeek 数据库的安全漏洞暴露了包含聊天、历史在内的敏感信息。Wiz 研究团队最近发现,属于 DeepSeek 的一个公开可访问的 ClickHouse 数据库,使得外部控制数据库操作成为可能,包括访问内部数据。

这次暴露涉及超过 100 万行的日志流,包含了聊天历史、密钥、后端详情等高度敏感信息 Wiz 团队立即并负责任地向 DeepSeek 披露了这一问题 DeepSeek 也迅速采取措施,保护了数据暴露点评论区里,有网友对开发数据库架构和日志默认,使用英语表示好奇同时也有人称赞 Wiz 的负责任披露,并对于数据库完全开放无需认证这一发现表达了惊讶

还有人指出,这种情形说明了在迅猛发展的 AI 服务中,安全措施的跟进显得尤为重要,需要与时俱进地强化安全实践以保护敏感数据 DeepSeek 最近发布了他们的新型推理系统 RE0 和 RE,这些系统在 RKGIE 的评分上与 OpenAI 的 OE 系统相当,都在 15%至 20%左右而与此同时,GPT-4O 在统一评测中只有 5%的得分,这凸显了单纯扩展大语言模型 LLM 的局限性

R10 特别引人注目,因为它没有使用人类专家标记,而是完全依赖强化学习,这表明在有强教验的领域中,SFT 及人工微调不是必须的。而 R10 训练过程能够通过 RL 优化,在令牌空间中创造其内部的特定语言 DSL。这为今后的研究提供了新的方向,尤其是在减少人工参与和提高模型自我优化能力方面。

评论区有网友提出,这种方式将可能引发对 AI 系统开发商权利的集中,因为拥有最多付费客户的开发商将能够创造更多的高质量数据,从而改善模型性能吸引更多用户。还有评论对是否真的能够通过这种方式获取新颖,高质量数据表示怀疑。总的来说,尽管存在不同意见,大多数人对于这一新技术及其对 AI 界的潜在影响表示出了浓厚的兴趣。

DeepSeek 选择开源的原因是为了在西方市场获得信任并切入该市场,尤其是在处理客户数据时更为重要。作为一家中国公司,DeepSeek 面临的不仅是经济决策,更有政治决策的考量。他们必须找到更高效的模型训练方法,因为受到了对先进芯片如 NVIDIA H100S 和 GB10S 出口控制的影响。

在 OpenAI、Meta、Google 等拥有巨额资金和庞大计算资源的公司看来寻找更高效的训练模型的方法并非必须因为它们可以承担更昂贵的解决方案但如今情况发生了改变模型正变得越来越商品化 DeepSeek 的例子非常明显与 OpenAIO 一枚百万输出另排 60 美元的费用相比 DeepSeek R1 在 Together AI 上的费用仅为每百万输出另排 7 美元

评论区的一些网友认为,DeepSeek 的开源战略有助于吸引顶尖人才,因为团队的价值远大于单纯的产品。同时也有声音提出,即使不是所有内容都共享,共享研究的未来对于 LMS 来说是非常重要的,这将促进科技的进步和创新。一架商用喷气式飞机在里根机场附近与一架美国陆军黑鹰直升机相撞,导致至少 18 人丧生。

初步调查显示 涉及的飞机是一架为美国航空运营的 PSA Airlines Bombardier CRJ700 区域喷气式飞机随着搜寻和救援团队在波托马克河搜索幸存者 机场的航班已经暂停 CNN 报道 飞机上有 60 名乘客和 4 名机组人员 飞机至少部分没入水中而 Fox 新闻报道 直升机上有 3 名士兵

网友评论中有人提出,近年来美国多次发生险情,此类事件本应通过改进政策来避免,但有时似乎只有发生了此类事件,政策改革才会提上日程。同时,也有评论指出,根据飞机的航迹和情况,认为喷气式飞机不太可能是意外的责任方。这一事件凸显了飞行安全监管的重要性,以及在紧张的空域管理中保持高度警惕的必要性。

在最近的一项研究中,科学家们发现某些细菌及其代谢产物与抑郁症之间存在着潜在的关联。这项研究指出,当特定类型的细菌,如摩根氏菌,存在于人体肠道中时,它们产生的代谢物可能会引发或加剧抑郁症症状。

此外,科学家们也关注到某些常用化学物质,例如二乙醇胺,这种广泛用于清洁剂、化妆品等日常用品的化学成分,与这种情况有关。研究结果提示,我们的日常生活环境中一些看似普通的化学物质,实际上可能对我们的心理健康产生潜在的负面影响。

评论区里的网友们分享了各自对付抑郁症的独特方法,从实行长时间断食,转向生酮饮食到服用特定的补充剂,都是他们尝试并取得了一些积极效果的方法。通过这些个人经历,我们可以看出,科学家们对于细菌、代谢物以及环境化学物质与心理健康之间的复杂联系还有很多未解之谜需要探索。

在最近的一篇文章中,有人抱怨了 AI 美化 Polish 他们的电子邮件,让原本个性化的表达变得千篇一律,丧失了个性。文章中提到,当作者尝试发送电子邮件时,一个提示出现,建议美化邮件内容。但结果往往是,经过 AI 美化后的邮件,不仅失去了作者的个性,还有可能误解原本的意思。

更有评论者分享,他们对这种无处不在的 AI 介入感到无奈,它如同一个总想帮忙却总是添乱的小孩。还有人指出,虽然大语言模型 LLM 在保持内容风格迁移时应该有所擅长,但这种情况下却完全失去了原有的信息和意图。总的来看,大家普遍不喜欢这种被 AI 强加的美化,认为它剥夺了个人的独特性,并且很多时候效果适得其反。

这种对 AI 帮助的抗拒,反映了人们对技术过度介入日常生活的疑虑,同时也表达了对保持个性和人类独特性的坚持一个小行星可能在 2032 年与地球发生碰撞,其概率为 1%,并且预计释放能量高达 8MP 这个消息来源于近地天体监视系统,最新的观测数据表明,这颗名为 2024Y24 的小行星被列入了监视名单

尽管被赋予了 1%的撞击地球的几率但科学家们并不对此掉以轻心一个团队正在使用近地天体寻天望远镜 NEO Surveyor 进行仿真代码编写以预测可能被观测到的天体虽然初始观测没有发现它以前接近地球的记录但研究团队对它的轨道理解仍然有限

值得一提的是,这颗小行星更大的可能是在 Neo Surveyor 或者正在启动中的大型地面望远镜调查项目 LSST 中被观测到。讨论区的评论显示出公众对这一新闻的不同反应。有些人对潜在的撞击表示担忧,而另一些人则认为这不过是媒体的危机渲染。

一位用户更是通过置头子的方式幽默地表示我们是安全的此外还有讨论指出即使这颗小行星错过地球它也有可能撞击月球这些评论体现了人们对天文事件的好奇及其对潜在危险的不同态度和理解

Seagate 称其新硬盘时为使用过数万小时的旧硬盘据报道,一些德国的 Seagate 客户发现他们所购买的标榜为全新的硬盘实际上是使用过的重售硬盘,这些硬盘的使用时间长达数万小时 Seagate 对此表示,这些硬盘实际上是 OEM 型号,并不像零售版本那样享有通常的 5 年保修

这一系列事件起初是被 Hysa 的披露随后有超过 50 名读者回报遭遇相同的问题而这仅仅是冰山一角因为他们在不同的零售商那里购买了这些硬盘一些零售商甚至是 Seagate 官方购买地点列表上的

评论区有不少人分享了检测硬盘实际使用时间的方法,大家普遍对这一情况表示愤怒和失望,有网友建议在发现此类问题时应寻求退款,并公开此类不良行为,并有人谈到在现有市场环境下,如何避免遭受类似的欺诈行为。

感谢您收听今天的黑客新闻中文日报。我们希望通过分享的科技新闻能够激发您的思考并带给您新知。如果您对我们的节目感兴趣,请不要忘记订阅并与朋友分享。再次感谢您的收听,祝您生活愉快,明天再会。