We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 2025-01-28 | 阿里推出 Qwen2.5-1M 支持 100 万 Token 上下文的开源模型

2025-01-28 | 阿里推出 Qwen2.5-1M 支持 100 万 Token 上下文的开源模型

2025/1/27
logo of podcast Hacker News

Hacker News

AI Deep Dive AI Chapters Transcript
People
主播
以丰富的内容和互动方式帮助学习者提高中文能力的播客主播。
Topics
主播:本期播客涵盖多个科技新闻和社会事件,包括Marginalia搜索引擎的独特搜索方式,堪萨斯州自1950年代以来最大的结核病疫情,以及公共卫生官员的应对措施。此外,我们还探讨了个人被裁员后对工作看法的改变,以及DeepSeek服务利用AI分析用户浏览器信息的新奇体验。节目还包括对家庭照片意义的重新定义,Purelymail邮箱服务的性价比分析,以及特斯拉Roadster被误认为小行星的事件。最后,我们分析了Qwen2.5-1M模型的突破,巴西对虹膜扫描的禁令以及前科技公司CEO试图删除其被捕记录的法律纠纷。这些事件都反映了科技发展、社会变革以及个人隐私和新闻自由之间的复杂关系。 Marginalia搜索引擎专注于非商业内容,为用户提供了一种全新的互联网探索方式,它利用BM25算法对页面进行排名,并提供基于相似性排序的页面。虽然它并不与Google或Bing竞争,但它为用户探索小型网页提供了新路径,并获得了许多技术爱好者的赞赏。 堪萨斯州的结核病疫情是自1950年代以来美国最大的疫情,尽管活跃传染者感到不适并具传染性,但政府预计对公众的风险非常低。美国疾病控制与预防中心(CDC)正在协助控制疫情蔓延。 被裁员的经历会彻底改变一个人对工作的看法,文章讲述了作者在收到裁员通知后,如何一步步理解到,无论你对公司贡献多大,最终在决策者眼里,你可能只是Excel表格中的一行。这引发了人们对职场和自我的认知反思,以及对企业管理失误的讨论。 DeepSeek My User Agent服务允许用户通过AI分析其浏览器特征、功能和地理位置,这项服务免费在线使用,也提供API接入,成本低于OpenAI的类似服务。用户对AI的“评判”体验感到新奇有趣。 家庭照片项目的文章强调了记录日常生活的重要性,建议拍摄自然互动瞬间,而不是仅仅拍摄正式场合的照片。这引发了人们对家庭记忆保留的讨论。 PurelyMail是一个经济实惠的电子邮件服务,没有用户数量和邮件存储量的限制,价格低廉,但它也坦诚指出其缺点,例如偶尔被邮件服务器拦截、缺乏24/7客服支持等。 特斯拉Roadster被误认为小行星的事件反映出深空运行的国家和公司缺乏透明度的问题。 Qwen 2.5-1M模型支持高达100万个token的上下文长度,并提供优化的推理框架,在长文本和短文本任务中均有显著提升。 巴西数据保护局禁止Tools for Humanity公司在巴西支付虹膜扫描费用,影响了该公司的全球身份识别项目,引发了人们对科技公司数据收集动机和科技伦理的广泛讨论。 前科技公司CEO试图删除其被捕记录的事件激起了关于新闻自由和个人隐私的讨论,这其中涉及到法律、个人权利以及公众知情权之间的复杂关系。

Deep Dive

Chapters
Marginalia搜索引擎专注于非商业内容,使用BM25算法进行排名,为用户提供了一种独特的网上探索体验。虽然它并非与谷歌或必应竞争,但其在帮助用户发现有趣网站方面受到了好评。
  • Marginalia搜索引擎迁移到新域名MarginaliaSearch.com
  • 使用BM25算法对页面进行排名
  • 提供独特的网上探索体验,有别于主流搜索引擎

Shownotes Transcript

大家好,欢迎来到黑客新闻中文日报在今天的播客中,我们将带领您深入探讨一些非常吸引人的科技进展首先,让我们了解 Marginalia 搜索引擎的最新进展它提出了一个非商业性质的,基于相似性排序的独特搜索方式为探索小型网页提供了新路径其次,我们将一探堪萨斯州自 1950 年代以来最大的结核病爆发背后的故事以及公共卫生官员是如何应对这一危机的

最后我们将关注一个人被裁员后对工作看法的彻底改变以及这背后对我们意味着什么请跟随我们的步伐一起探索这些激动人心的技术领域和社会现象 Marginalia 一个优先考虑非商业内容的搜索引擎最近进行了一次重大更新将其网站从 Search Marginalia.com 迁移到了新的域名 MarginaliaSearch.com 并对其视觉效果进行了微调

这个由个人热情驱动的项目并不只在于 Google 或并等主流搜索引擎竞争,而是提供一个探索小型网页的新方式。Marginalia 利用 BM25 算法对页面进行排名,并为用户找到了一种基于相似性排序页面的新方法。这个项目的成长引起了很多人的兴趣,不少人在 Hacker News 上分享了自己对这个搜索引擎的看法,以及它如何帮助他们找到有趣的网站。

评论区的反响大多是积极的,有用户分享了 Marginalia,如何提供了一种独特的网上探索体验,有别于主流搜索引擎。也有人提到,虽然这个搜索引擎在某些情况下可能找不到预期的结果,但其随机探索网站的功能却带来了别具一格的乐趣,让人感受到互联网的人性化和温暖。

堪萨斯州的结核病爆发已成为自 1950 年代以来美国记录在案的最大一次据堪萨斯州卫生与环境部副秘书 Ashley Goss 在参议院公共卫生与福利委员会上透露截至 1 月 17 日 自 2024 年以来在堪萨斯城地区记录了 66 例活动性病例和 79 例潜伏感染大多数病例发生在怀安多特县 另有少数病例在约翰逊县

他们正在与美国疾病控制与预防中心 CDC 密切合作以控制此次爆发情况。与 2023 年的 51 例活动性病例相比,2024 年激增至 109 例,而 2025 年至今记录了 1 例。

公共卫生官员表示普通大众的感染风险非常低该州的官员和 CDC 正在努力控制这一情况目前已经趋于好转值得注意的是一些评论区的网友对此次爆发提出了自己的看法

有人提到了约翰·格林将发布一本关于结核病的书,鼓励对此主题感兴趣的人预定,另有评论质疑美国对待疫苗的态度,认为应更广泛地讨论和使用疫苗来预防结核病。也有评论指出称这是有史以来最大的爆发稍显夸张,历史上美国曾有更严重的结核病统计数据。这些评论反映出公众对结核病控制的关注,以及对历史和现状理解的多样性。

一个人被裁员的经历彻底改变了他对工作的看法,文章讲述了作者在收到裁员通知的那一刻开始,如何一步步理解到,无论你对公司贡献有多大,最终在决策者眼里,你可能只是 Excel 表格中的一行。

特别提到在德国工作虽然看似有保障但在面对裁员时这种保障几乎没有区别作者通过自己的故事分享了一些给未被裁员的人的建议如坚持合同规定的工作小时数不要过度投入工作以追求晋升保持不断面试的习惯等以此保护自己评论区中许多网友分享了自己被裁的经历表达了对公司管理层的不信任认为工作只是工作不应该过度投入或者期望公司能给予太多回报

一些网友提到,被裁之后,他们对于工作的态度变得更加务实,不再盲目为公司付出。最近,一项名为 DeepSeekMyUserAgent 的新服务引起了科技圈的关注。开发者 Jason Sorsness 在他的个人网站上发布了这项服务,用户通过简单点击 Judge Me 就能让模型分析评判他们的用户代理信息、浏览器能力和 IP 地址所在地。

这项服务目前可以免费在线使用,也提供了 API 接入,成本远低于 OpenAI 的类似服务。从评论区的反响来看,网友们对于自己被 AI 评判的体验感到新奇有趣,不少人分享了自己收到的评价,内容既幽默又带有针对性,比如有人被戏称为还在使用过时操作系统的加拿大 Safari 用户,也有人自嘲被 AI 考的体无完肤。

尽管这些评价大多都是打趣的语气,但也不乏精准地指出了用户的特定习惯或配置上的小特点,显示出 AI 模型在用户行为分析方面的强大潜力。在 2018 篇名为《打造值得珍藏的家庭照片》的课程的文章中,作者分享了他扫描数千张家庭幻灯片的亲身经历,并从中学到了如何捕捉家庭生活的重要瞬间。

这篇富有启发性的文章不仅涵盖了家庭照片档案项目的实践操作方法还提供了一些实用的建议帮助读者拍摄出家人久远年后仍然珍视的照片文章强调了记录日常生活的重要性并建议读者不仅仅要拍摄特殊场合例如不要只选择展示感恩节晚餐的高潮时刻如妈妈摆上火鸡那刻还应包括她匆忙化妆迎接爷爷到来的场景或者小孩在回家车程中疲惫入睡的瞬间

评论区的网友分享了各自与家庭照片相关的独特经历和深刻感悟比如有网友提到失去所有照片后如何意识到记录视频和照片的重要性另一位则讨论了家庭档案扫描过程中遇到的软件问题这些评论不仅展示了读者对家庭记忆保留的共鸣还补充了作者关于如何更好地保存这些珍贵回忆的观点 Purely Mail 作为一种便宜无繁琐的电子邮件服务让人眼前一亮

它的定位十分明确,提供最基础的电子邮件托管服务,支持 iMap 和 POP3,适配大多数邮件应用,用户也可以选择使用基于 RoundCube 的 Webmail。一个吸引人的点是,它对于用户数量和邮件存储量没有任何限制,带自己的域名也不会额外收费。更难能可贵的是,Purely Mail 的成本极低,比如一年只需要 10 美元,这相比于 Protein Mail 的 48 美元,Google Workspace 的 72 美元,以及其他服务要便宜得多。

当然,它也坦诚地指出了自己的缺点,比如偶尔会被一些不常见的邮件服务器拦截,没有 7 分之 24 客服支持,一些其他提供商有的功能如日历同步还未实现,界面可能稍显粗糙等。尽管如此,对于那些寻找性价比高的电子邮件服务的用户来说,Purely Mail 无疑是一个考虑的好选项。

评论区的用户反馈也多数积极 有的赞赏它的超低成本与自定义规则便利性 但也有声音提醒一旦用于更重要的业务沟通时 可能需要考虑服务的单点风险和技术支持等问题这种平衡了成本和功能的服务 对于个人用户和小企业来说确实是一个不错的选择 但使用中也应留意潜在的服务稳定性和安全性问题

天文学家最近将一颗被认为是小行星的天体从其记录中删除因为这实际上是一辆特斯拉 Roadster 汽车这辆由埃隆·马斯克所拥有并曾经驾驶的特斯拉作为测试载荷被装载在猎鹰重型火箭的上层级中并于 2018 年 2 月 6 日被发射进入围绕太阳的轨道这辆名为 Starman 的载荷引起了广泛关注因为这是第一辆被投入太空的生产汽车

天文学家在与业余天文爱好者的合作下,迅速解决了这一身份误认问题,但同时也反映出了一个日益严重的问题,在深空运行的国家和公司缺乏透明度。这种情况如果得不到解决,可能会妨碍保护地球免受潜在危险小行星撞击的努力,并可能导致观测资源的浪费。

评论区的网友发表了各种有趣的评论,例如关于科幻小说提出在 Roadster 的后备箱放置一个茶壶的想法,以及对于这次删除是否合理的讨论。有些人认为还是应该在数据库中保留这类人造物体的轨道数据,用特殊的标签或命名规范来区分,而另一些人则对深空中这种难以识别的天体提出了批评和担忧。

昆 2.5 EM 的发布使得开发者们能够在本地部署能够处理高达 100 万个 token 的模型这标志着我们首次将开源的昆模型升级以应对 EM token 上下文的挑战通过集成吸收注意力方法我们的推理框架能够比之前更高效的处理 EM token 输入速度提升了 3 到 7 倍

此外,这种模式对于长文本和短文本任务的处理能力均有显著提升,特别是在处理超过 64K 长度的序列方面,昆 2.5EM 系列模型表现优于 128K 版本并与 GPT-4O mini 相比,即使在短文本任务上也能保持相当的性能,同时支持更长的上下文长度。

在评论区内,用户们对于模型处理大量上下文时遇到的挑战表达了自己的见解特别是在编码实践中,过长的内容窗口并非总是有用每个模型在处理超过 25K、30K token 时似乎都会变得混乱此外,还有关于如何在 macOS 上使用 MLX 运行昆 2.5 EM 的技巧讨论以及对内存中心计算的最新状态,以及对未来 AI 模型内存价格降低的建议

巴西数据保护局下令,由 OpenAI 首席执行官 Sam Altman 联合创立的 Tools for Humanity 技术公司停止在该国支付红膜扫描的补偿。这项从周六生效的禁令,旨在确保个体的自由抑制不受影响,进而影响到该公司涉及加密货币激励的全球身份项目。Tools for Humanity 主导的这一项目,通过扫描人们的红膜,以换取加密货币和数字身份证,但巴西的新规定使这一计划受挫。

评论区的网友们对此事反应不一,有人感叹我们似乎正在经历一种文明的倒退,却嫌有人讨论,也有人困惑于奥特曼是否真的相信,这种令人担忧的做法会对人类整体有益。此外,一些人对于政府官员仕途因为什么不而干涉成年人之间之情,自愿的交易表示不满,认为这侵犯了个人的自由意志。

一位前科技公司 CEO 正在为了将其逮捕记录从互联网上删除而起诉 这起事件激起了广泛的讨论和关注就金山一位法官在 2021 年封存了这位前 CEO 因家暴被逮捕的记录 但这起事件的指控依旧通过一个独立记者的报道出现在了他的谷歌搜索结果中 现在这位前 CEO 正在对记者提起 2500 万美元的诉讼

这位记者首先通过警方验证了逮捕报告的真实性认为公开这些指控符合公众利益并在其通讯平台 substack 上传了这份报告根据加州法律发布经法院封存的逮捕报告是非法的这一规定遭到了第一修正案倡导者的反对他们认为这为反了言论自由保护权这位前 CEO 的诉讼强调该报道对他的职业生涯和声誉造成了不可逆转的财务和社会影响

评论区的网友对这个问题表达了广泛的看法有人提出即使一个人被逮捕但最终未被定罪或未被起诉媒体也会公开其全名这是一个严重的问题因为它可以永久性地损害某人的声誉而无需任何证明还有人认为尽管这种情况下可能会出现斯特赖山效应但有必要重新评估法律以应对互联网永不一忘的现状

另外,有评论支持透明度,认为这是区分好坏记者的标准,而另一些则担心这可能对言论自由和记者的工作产生巨大影响。感谢您收听今天的黑客新闻中文日报,希望这些深度剖析的科技与社会议题能激发您的思考,让您对技术和我们的生活有更加深刻的理解。如果您对我们的内容感到满意,请继续支持我们,并和朋友们分享。

期待您明天再次加入我们探索更多的科技新闻祝您今天过得愉快再见