We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 2024-12-26 | 阿里 Qwen 开源视觉推理模型 QVQ,更睿智地看世界!

2024-12-26 | 阿里 Qwen 开源视觉推理模型 QVQ,更睿智地看世界!

2024/12/25
logo of podcast Hacker News

Hacker News

AI Deep Dive AI Insights AI Chapters Transcript
People
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
主持人: 本期节目涵盖了多个科技新闻热点,包括阿里巴巴最新发布的视觉推理模型QvQ,其在图像理解和推理方面展现出令人印象深刻的能力,能够处理图片和文字提示,并进行富有创意的推理。 此外,节目还探讨了数学常数π的“邪恶双胞胎”ϖ,以及由此引发的关于数学常数、几何形状和无限可能性的讨论。许多网友参与其中,分享了他们有趣的发现和观点。 即将召开的第38届Chaos Communication Congress也备受关注,此次大会将探讨技术、社会和乌托邦等议题,并涵盖信息技术、生成式AI与生物研究的结合以及“从计算到意识”等多个主题。 Ruby 3.4.0版本的发布带来了许多令人兴奋的新功能和性能改进,包括新的默认解析器Prisma和对YJIT的性能提升。 英特尔公司股东对前CEO和CFO提起诉讼,要求返还三年薪酬,原因是公司高层涉嫌在报表中对铸造业务的财务表现进行误导。 最后,节目还回顾了埃及航空804航班神秘消失事件的调查结果,以及调查中发现的重要细节和不同调查报告背后的争议。

Deep Dive

Key Insights

什么是 QVQ 视觉推理模型,它有哪些独特之处?

QVQ 是阿里巴巴 Qwen 团队推出的视觉推理模型,专注于通过图片和文字提示进行推理。它的独特之处在于能够输出详细的推理过程,展示了 AI 在解决视觉问题时的创意和思维方式。例如,它可以通过想象康威的生命游戏规则来理解图像中的元素,展现了广泛的应用潜力。

为什么圆周率 π 有一个“邪恶双胞胎”?

π 的“邪恶双胞胎”是 ϖ,基于双纽线(一种∞形状的曲线)定义,被称为勒姆尼斯凯特常数。与 π 基于圆形定义不同,ϖ 展示了数学中常数的多样性。这一发现引发了关于其他基于不同几何形状的常数的讨论,体现了数学的丰富性和趣味性。

第 38 届混沌通信大会(38C3)有哪些亮点?

第 38 届混沌通信大会将于 2024 年 12 月 27 日至 30 日在汉堡举行,主题涵盖技术、社会和乌托邦。亮点包括生成式 AI 与生物研究的结合、从计算到意识的系列讲座,以及关于技术进步对社会影响的讨论。大会由志愿者组织,鼓励参与者通过线上直播或贡献创意项目参与。

Ruby 3.4.0 版本带来了哪些重要更新?

Ruby 3.4.0 引入了新的默认解析器 Prism,提升了 YJIT 性能,并支持 Happy Eyeballs v2 以提高网络效率。此外,新增了 `it` 作为块参数的引用方式,简化了代码书写。这些改进显著提升了 Ruby 的性能和开发体验。

英特尔股东为何起诉前 CEO 和 CFO?

英特尔股东起诉前 CEO 和 CFO,指控他们通过误导性公告和未能准确报告铸造业务的财务状况,违反了受托责任和合同义务。诉讼要求返还三年薪酬,理由是这些行为导致公司遭受重大损失和声誉损害。

埃及航空 804 航班的失事原因是什么?

埃及航空 804 航班的失事原因可能是副驾驶的氧气分配系统发生机械故障,导致无法扑灭的快速蔓延火灾。法国航空安全调查局(BEA)的报告提出了这一假设,并建议改进氧气系统的设计和培训程序,以避免类似事故。

为什么成年人交友比小时候更难?

成年人交友的挑战主要在于缺乏规律的相处时间和社交机会。与学校时期不同,成年人的生活更加分散,难以自然建立友谊。然而,通过参加体育活动、社区聚会或利用技术手段,成年人仍有机会结交志同道合的朋友。

什么是人工生命(Artificial Life),ASAL 算法有何创新?

人工生命是通过计算机模拟探索生命形式的领域。ASAL 算法利用视觉和语言基础模型,自动发现具有开放性和创造力的生命形式,例如在康威生命游戏中揭示新的细胞自动机规则。这一研究为人工生命和 AI 系统的进化提供了新的可能性。

谷歌搜索引擎为何出现衰败现象?

谷歌搜索引擎的衰败表现为优质内容被机器学习模型淘汰,搜索结果中充斥大量由 LLM 生成的垃圾信息。独立出版商因流量减少而关门,而谷歌工程师也无法解释某些优质内容为何无法显示。这一现象引发了用户对搜索服务质量下降的担忧。

Chapters
阿里巴巴发布了新的视觉推理模型 QvQ-72B,它能够接收图片和文字提示,并输出详细的推理过程。该模型在处理视觉问题时展现出独特的创意,例如通过想象康威的生命游戏规则来理解图像中的元素。虽然仍需改进,但 QvQ 为视觉推理领域带来了新的活力。
  • 阿里巴巴 Qwen 团队发布 QvQ-72B 视觉推理模型
  • QvQ 可接收图片和文字提示,输出详细推理过程
  • 模型展现出独特的创意推理能力
  • 在解决视觉问题时,展现了独特的思维方式,比如通过想象康威的生命游戏规则来理解图像中的元素。
  • 实际应用中仍需细微调整

Shownotes Transcript

大家好,欢迎来到黑客新闻中文日报。在今天的节目中,我们将深入探讨一些振奋人心的科技新闻。首先,我们将带您了解阿里巴巴 QN 团队推出的最新视觉推理模型 QVQ,它如何通过处理图片和文字提示来展示创意的推理过程。

接下来,探索圆周绿派的邪恶孪生兄弟,揭示数学世界中的新奇发现以及它背后的无限可能。最后,我们不可错过的是即将召开的第 38 届混沌通信大会,这一以技术、社会以及乌托邦为讨论中心的大会预计将带来怎样的世界与启示。让我们一同追踪科技前沿的脚步,揭开层层神秘面纱。

圣诞节总是唤起人们对温馨记忆的共鸣,在 Hacker News 上,各地网友分享了自己独特而又温暖的圣诞经历。一个用户回忆了 1999 年自己独自一人在 Emoryville 看电影的体验,因为放映延迟他差点错过后面的电影,但最终影院员工调整了时间表,让他和其他 50 位影迷顺利观看了所有电影,这成为了他难忘的一天。

而另一位在希腊雅典度过的 1981 年圣诞,那年他只有 15 岁,收到了当时全新的 Sinclair CX81 个人计算机,和家人一起在壁炉旁度过了充满编程乐趣的夜晚。还有从伊斯坦布尔到德国的转变,体验到了完全不同的圣诞节,以及在牛津留校过节,却意外收获与 Walden 及其妻子下午茶的温馨体验。

评论区充满了对这些独一无二记忆的温馨回忆和分享网友们通过这种方式传递着节日的温暖和喜悦这些故事不仅仅是关于节日的庆祝更体现了亲情、友情和陌生人之间的那份温暖和善意在最新的数学探索中圆周绿派被发现有一个所谓的邪恶孪生兄弟这个发现原子数学家 John Carlos Baez 在 Masterden 上的分享引发了广泛的讨论和兴趣

与π是基于圆形定义的不同π这一常数是基于博弩力双扭线一种无穷形状的曲线来定义的这个话题引起了很大的好奇心不少网友表示这是个发现新收藏地图的机会讨论中有人提出了一个吉祥物集对这个恶魔孪生兄弟的保护服还有观点讨论了如果存在基于距离三个点定义的形状其相应的常数是什么样的

一些网友带着幽默和好奇探讨了在不同数学及物理场景下其他著名常数的应用如欧拉·马斯克·若尼常数卡塔兰常数等展示了数学之美在于它无处不在形式多样的表达而有评论提出与π相比π可能不只是孪生兄弟这么简单它们可能只是无穷多兄弟姐妹中的两个此外也有人从科幻角度思考如果有一个文明更关注双纽线而不是圆形那将是怎样的一个世界

总的来说,这篇帖子不仅揭示了数学的一个有趣面貌,也激发了人们对数学美的再次认识,体现了在探索未知领域时的乐趣与好奇心。第 38 届混沌通信大会 38C3 将于 2024 年 12 月 27 日至 30 日在汉堡召开,作为每年一次的四天会议,此次大会由社区和志愿者组织旨在探讨技术、社会以及乌托邦。

大会提供关于信息技术以及对技术持批判性创造性态度的讲座和工作坊,还将讨论技术进步对社会的影响等多个话题。自 1984 年以来,大会一直由社区组织鼓励大家以志愿者的身份参与,通过设置和举办实践活动和自组织活动,或是与其他黑客分享你的项目。

评论区中,网友们最感兴趣的一题包括 Jiske Bach 继续她的从计算到意识系列讲座,以及一些与生物学相关的科学讲座,尤其是那些结合了生成性 AI 与生物学研究的,虽然也有人对此表示好奇但认知不足,难以判断这是否是真正的创新工作,还是仅仅是追逐 AI 热潮的尝试。

此外,还有人提及到今年的票务系统存在问题,认为不太公平,同时有人遗憾自己错过了提交演讲提案的机会。总之,评论区的互动显示了人们对于即将到来的大会话题的广泛兴趣,以及对于混沌通信大会持续不减的热情。今年冬季,黑客新闻上一个关于用 T 星号 3,T 公式来制作的装饰过的圣诞树的帖子重新吸引了人们的注意。

Sylvia Howe 修改版的圣诞树因其美丽而受到特别提及,让人们再次感受到了数学与艺术的完美结合。这种创意不仅展示了编程和数学的乐趣,也让这个节日增添了一份特别的氛围。评论区里,网友们纷纷展示自己的创意,从简单的命令行圣诞树到使用 The Mose 的复杂设计,再到通过 Twitter 实现的圣诞装饰,每一个作品都是对这个节日独特的庆祝。

更有网友提出,首次见到这样的作品,非常感谢这样一个可以分享和欣赏创造性内容的平台,真正体现了黑客新闻社区的独特魅力。Ruby 3.4.0 版本刚刚发布了,为这门受欢迎的编程语言引入了一系列值得期待的新特性和改进。

这个版本新增了 it 作为快参数引用,更换了默认解析器为 prison,增加了对 Happy Eyeballs v2 的支持来提升 Sackku 的效率,改进了 YJIT 性能,引入了模块化垃圾回收等等。特别的,it 的加入为没有变量名称的快参数提供了一个便利的引用方式,简化了代码的书写。

Prism 的应用作为默认解析器,标志着 Ruby 在处理解析任务上的一大步进,而且对于大家关心的性能而言,YJIT 的改进使得 Ruby 在多个基准测试中的表现有了显著提升。

评论区中的网友们对 Prism 解析器的改变表现出了极大的兴趣一些人提到这种转变虽大胆但看起来使用手写解析器比使用生成的解析器在长远来看更具挑战性和效果另外网友们对每年圣诞节期间的 Ruby 新版发布以形成期待同时也表示近年来 Ruby 在性能上的提升给开发带来了实质性的好处

近日,Simon Willison 在奇博课上分享了一次有关 QVQ,Quen 最新视觉推理模型的试用经历。QVQ 是阿里巴巴 Quen 团队近期推出的一个 Apache 2.0 许可的预览版模型,专注于提升视觉推理能力。不同于之前的模型,QVQ 能够接收图片和文字提示,然后输出一系列详细的推理过程。

威勒森通过多种测试发现,该模型在处理一些视觉问题时表现出了趣味和创意,例如要求模型数出图片中的醍醐数量,尽管有时结果并不完全准确,但其推理过程颇具启发性。模型的这种思考方式,让人们对 AI 视觉推理的未来憧憬充满期待。

评论区内,用户对 QVQ 的性能表达了不同看法,有的称赞其为趣味十足的新尝试,有的则通过比较不同测试,结果深入探讨了其潜在局限,但总体上,大家对于 QVQ 模型的探索和应用前景持开放态度。英特尔的股东向前 CEO 和 CFO 提出诉讼,要求他们返还三年的薪资。

诉讼指控这两位高管违反了对公司的受托责任和合同义务通过发布误导性的公告和未能准确报告公司铸造业务的财务状况欺骗了股东导致英特尔承受了巨大的损失和生育上的不可挽回的损害

这场诉讼强调 在前 CEO 帕特·盖辛格和 CFO 以及现任联合临时 CEO 大卫金斯纳的领导下英特尔误导股东将铸造业务描述为公司业务的重要推动力然而 英特尔今年早些时候提交给美国证券交易委员会的财务修正文件显示本应为公司节省成本的铸造业务实际上成为公司的主要成本中心之一

此外 评论区的网友们普遍对这场诉讼持怀疑态度 认为这只是律师见缝插针的行为 不会对高管产生实质性的影响同时也有声音提出 这类诉讼可能会对企业未来的 C 级高管招聘造成信任危机埃及航空 804 航班的失事调查历经艰难 前后共花费了八年半的时间才发布了两份截然不同的报告

其中 法国航空安全调查局 BA 的报告提出了一种可能性 急事故原因最有可能是副驾驶的氧气分配系统内部发生未知机械故障 导致了无法由机组人员扑灭的快速蔓延氧化火灾这起悲剧和之前的几起航空事故类似 都涉及到了机组人员氧气系统的故障问题 但是这一次事故发生在空中导致了葬身海底的恐怖结局

法国报告遵循了调查最佳实践,为假设提供了实验支持,提出了与证据一致的情景。BEA 还推荐了几项后续行动,包括分析氧气系统过压事件的可能后果以及其对 804 航班的相关性,这可能为未来避免类似事故提供了方向。此外,BEA 还建议 EASA 考虑开发旨在识别并应对氧气火灾的程序和培训。

尽管我们可能永远无法完全确认 804 航班最后时刻发生了什么,但 BA 的努力至少为这场悲剧的受害者家庭和整个航空业提供了一些慰藉,展示出对再也不发生此类事故的承诺。在 The Establish 上发布的一篇文章探讨了为何成年后结交朋友比以往更加困难,这篇文章引起了广泛的讨论。

文章指出,成年人的生活没有像学校时期那样,自然地把人们聚集在一起,这让建立新的友谊变得更加富有挑战。评论区里,有些人分享了他们的亲身经历和对策,比如参加体育活动,创建社区小组,或者利用技术手段来促进面对面的交流。

一个评论者说他 40 多岁时比任何时候都更容易交到朋友即便他自认为是个比较内向和不易相处的人另一个评论则强调了成年人交友与儿时交友的不同认为成年人交友并非更难只是方式不同还有人提到只需简单地提出想要结交朋友的请求就能打开交友的大门

评论区的普遍共识是,虽然成年人的生活忙碌,让人们难以有机会频繁相聚,但只要有意识地寻找和利用机会,还是能够结交到志同道合的朋友。Sakana AI 最近发布了一篇引人注目的论文,探索如何利用基础模型自动化寻找人工生命。这篇名为 Automated Search for Artificial Life 的论文展示了使用视觉,语言基础模型在不同的 alife,人工生命,仿真中发现新生命形式的能力。

研究者们发现,无论是在 Boy's Particle Life 还是 Game of Life 等仿真中,他们能够通过特定的提示,发现特定目标行为的生命形式,甚至揭示了比原版康威生命游戏更具开放性和表达力的新细胞自动机规则。通过量化以往定性的现象,基础模型的普世行为发现多样化的生命形式,提供了新路径,这不仅为人工生命研究揭开了新篇章,也挑战了人类智慧的界限。

与此同时,评论区的反馈显示,与人工智能、AI 相比,人工生命、A-Life 的讨论往往不那么激烈,有网友推荐了 The Self-Assembling Brain 一书,强调了跨学科研究对于达成更好的 AI 的重要性。另有评论提到,Sakana AI 的创始人是原始变压器论文的作者之一,这进一步证明了背后团队的深厚技术力量。

感谢您收听今天的黑客新闻中文日报希望今天的内容能够让您对科技世界的最新动态有更深的了解和思考如果您对我们的节目有任何想法或建议请不吝告知别忘了订阅我们的播客并与您的朋友分享这份知识的盛宴祝您今天愉快我们明天再见谷歌的衰败现象在互联网上引发了热烈的讨论

文章作者 Baldur Bjarnezen 透露许多独立出版商因为 Google 和 Facebook 的流量减少而关门大吉他们中的大多数即使运营结修也难以存活下来 Google 尝试通过使用机器学习对网站进行排名来修复搜索引擎结果但这似乎并未如预期般有效众所周知去年以来 Google 的搜索结果中允许了大量由 LLM 生成的垃圾信息通过而博客和小型网站几乎从大部分结果中消失

这些网站由于机器学习模型的作用实际上被淘汰,而没有人似乎确切知道原因。更有评论指出,谷歌对于自家搜索引擎算法的掌控已经变得模糊不清,甚至谷歌工程师也无法解释为什么某些优质内容无法显示在搜索结果中。

评论区网友提出了严峻的批评和几分忧虑有的人抱怨说谷歌优先考虑其内部不透明的 KPI 而非用户价值和内容创作者的价值有的人则通过分享自己转向 DuckDuckGo 或 CashEye 的经历来表达对谷歌搜索服质量下降的不满更有技术圈的朋友呼吁这种衰败为其他有志挑战谷歌地位的人提供了机会感谢您收听今天的黑客新闻中文日报

希望今天的内容能够引发您对 AI 和科技世界的更多思考如果您对我们的故事感兴趣请继续关注我们的播客并与朋友分享这些有趣的发现让我们一起保持好奇追踪科技的脚步祝您有一个美好的一天明天再见