We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Vision and Voice Are Now LLM Table Stakes

2024/12/14

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Insights AI Chapters Transcript

NLW: 近期AI领域重要进展集中在视觉和语音功能的整合上，OpenAI发布的ChatGPT实时视觉模式以及Google Gemini 2.0 Flash的类似功能，标志着视觉和语音功能成为大型语言模型的标配。这一功能的整合将极大扩展AI的应用场景，并深刻改变人机交互方式。OpenAI的ChatGPT圣诞模式虽然意义相对较小，但也展现了AI技术应用的多样性。此外，OpenAI可能提前获悉Google的发布计划，并在Google发布新产品的同时，宣布ChatGPT与Apple Intelligence的整合。 NLW: Apple将ChatGPT整合到Apple Intelligence中，增强了Siri的语音理解、上下文理解和多模态交互能力，但同时也暴露出Apple在AI领域落后的现状。Apple与Broadcom合作开发AI服务器芯片，旨在提升其AI能力，但芯片设计难度大，成功与否仍有待观察。 NLW: Microsoft发布的Phi-4语言模型，专注于小型模型的性能提升，尤其是在数学问题上的表现，这反映了小型语言模型市场竞争的激烈程度。Microsoft使用合成数据训练Phi-4，这是一种不同于传统方法的训练方式。 NLW: Anthropic发布的Claude 3.5 Haiku聊天机器人，其超长的上下文窗口使其能够高效处理大型数据集。Lumen Orbit公司筹集资金用于在太空建造数据中心，这是一种具有成本优势的计算方案。 Molly Kinder: 语音、实时视频和视觉的结合将对工作产生更大的颠覆性影响。 Alexander Gia: 相比Gemini，ChatGPT在描述事物和语言自然度方面表现更出色。 Zero X Bowen: Apple将Apple Intelligence包装成OpenAI产品的行为，表明其自身AI技术的落后

Deep Dive

Key Insights

Why is vision and voice integration becoming a standard feature for large language models (LLMs)?

Vision and voice integration is becoming a standard feature for LLMs due to the significant new use cases it opens up, such as real-time video analysis and enhanced voice interactions. OpenAI's recent announcement of Vision Mode and Google's Gemini 2.0 Flash have accelerated this trend, making it a baseline expectation for LLMs.

What are the key differences between OpenAI's Vision Mode and Google's Gemini 2.0 Flash?

OpenAI's Vision Mode focuses on balancing vision and voice input effectively, providing more natural language responses and accurate descriptions. In contrast, Google's Gemini 2.0 Flash overly emphasizes vision capabilities, potentially at the expense of language fluency.

When will OpenAI's Vision Mode be available to different user tiers?

Vision Mode is available starting this week to Plus, Team, and Pro tier subscribers. Enterprise and Education users will gain access in January.

Why is Siri's integration with ChatGPT significant for Apple users?

Siri's integration with ChatGPT enhances its ability to handle complex commands, retain context for follow-up questions, and provide text inputs. It also allows Siri to hand off questions to ChatGPT when it cannot answer them, improving overall functionality.

What is Apple's current position in the AI race compared to competitors like Google?

Apple is significantly behind in the AI race, as evidenced by its reliance on third-party products like ChatGPT to enhance Siri. Its AI strategy has been criticized as failing and lagging years behind industry leaders like Google.

What is Apple's plan for its first AI server chip in partnership with Broadcom?

Apple is partnering with Broadcom to produce its first AI server chip, leveraging its history of successful silicon design. The chip aims to improve Apple's AI capabilities, particularly in model training and inference at scale.

What is Microsoft's strategy with its new language model, PHY4?

Microsoft's PHY4 focuses on small language models, emphasizing cost-effective performance and synthetic data training. The model is designed to compete in specific areas like math problems and is available for research purposes on Microsoft's development platform.

What is unique about Anthropic's Quad 3.5 Haiku model?

Anthropic's Quad 3.5 Haiku is notable for its long context window of 200,000, making it excellent for processing large datasets quickly. It is also the smallest and fastest variant of Anthropic's LLM, excelling in tasks like coding recommendations and content moderation.

What is Lumen Orbit's ambitious goal with space data centers?

Lumen Orbit aims to build modular orbital data centers, scaling them into multi-gigawatt compute clusters by the end of the decade. The company believes this approach is a lower-cost alternative to building data centers on Earth, leveraging space-based solar power.

Chapters

The integration of vision and voice capabilities into LLMs is rapidly becoming standard, as evidenced by recent announcements from OpenAI and Google. This opens up many new use cases and is expected to significantly disrupt various jobs. While there's no clear frontrunner, this feature is quickly becoming a baseline expectation.

OpenAI's real-time vision feature for ChatGPT, initially demoed seven months prior, is now available.
Google's Gemini 2.0 Flash offers similar functionality.
The integration of vision and voice significantly increases the potential for job disruption.
LLMs with vision and voice capabilities are becoming a standard feature.

Shownotes Transcript

在最近一系列公告发布后，视觉和语音功能正日益成为 AI 工具集的一部分。AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论，请关注我们节目说明中的Discord链接。

大家好。又是一个略有不寻常的AI每日简报节目。过去几天，我们不得不只做主要内容，所以我们用一个扩展的新闻标题版本来平衡一下。这是过去几天一些规模较小但仍然重要的公告。我们将把它们全部放在一起，看看它们共同意味着什么，我们从OpenAI“为期12天的OpenAI/Shipmas”的最新公告开始，那就是实时视觉功能。

这是一个非常重要的公告。现在，这项功能最早在近七个月前进行了演示，最近还在《60分钟》节目中出现过。画出你想让他测验的任何身体部位，让他给它贴上标签。听起来怎么样？听起来是个很棒的计划。当Brockman用他的手机摄像头对着黑板时，AI开始问我问题。让我们从心脏开始。

Anderson，你能画出来并标注出心脏在身体中的位置吗？它理解了我在做什么，即使我的图画相当粗糙。位置非常准确。大脑就在头部那里。

所以很明显，这开启了全新的一系列用例，也是人们非常兴奋的事情。至于花了多长时间才实现，还不确定延迟的原因是什么。可能只是花了这么长时间才把它做好。也有可能在这种情况下，谷歌昨天宣布Gemini 2.0 Flash具有类似的功能，迫使OpenAI采取行动。无论如何，视觉模式现在已经上线。从本周开始，Plus、Team和Pro级别的订阅者可以使用这项功能。企业和教育用户将于1月份获得访问权限。

正如已经成为常态的那样，这项功能目前在欧盟将不可用。对我来说，这确实感觉像是在这样的播客中很难讨论的事情。感觉这很可能是一件我们几乎无法想象它不存在之前的时期的事情。这开启了如此多令人难以置信的有用机会，并将改变我们与AI互动的方式。

Molly Kinder在推特上写道：“过去两个月，我一直在测试ChatGPT高级语音模式对工作的影响。我的一个结论是，当语音与实时视频和视觉相结合时，它将对工作造成更大的破坏性影响。”这正是OpenAI刚刚宣布的。

一些人开始比较这些模型。Alexander Gia写道：“刚刚测试了带有视觉功能的AVM两个小时。结果令人印象深刻。与Gemini相比，ChatGPT在描述事物时更准确，语言更自然。而Gemini过于关注视觉，ChatGPT有效地平衡了视觉和语音输入。”

尽管如此，我认为如果你尝试搜索，并不清楚这里有一个明确的领先者。基本上，一夜之间，这已经成为LLM的基本水平和预期功能。现在我应该指出，这并不是OpenAI昨天发布的唯一内容。他们还为ChatGPT创建了一个圣诞老人模式。

为了证实这一点，这实际上是我之前已经让ChatGPT语音假装做过的事情。会有很多孩子因为这个而拥有非常神奇的体验。所以，是的，它可能不如其他一些公告那么重要，但我认为这个很有趣。

回到前一天，我认为OpenAI提前知道谷歌何时会发布其重大公告。因为在12月11日星期三，“Shipmas”的第五天，当谷歌宣布一套广泛而有价值的新产品和代理时，OpenAI只是正式宣布ChatGPT和Apple Intelligence走到一起。此次更新是iOS 18.2推出的部分内容，其中包含许多新的Apple Intelligence功能。

当然，自从Apple Intelligence发布以来，每个人圣诞愿望清单上最重要的功能就是围绕AI重新设计的Siri版本。唉，我们还没有达到那个阶段，尽管ChatGPT的支持在某种程度上做到了这一点。当Siri无法自己回答问题时，它现在可以将问题转交给ChatGPT。例如，根据你储藏室里的食材想出一个食谱不在Siri的能力范围内，但ChatGPT可以轻松地做到这一点。ChatGPT的语音模式也被用来增强Siri理解命令的能力，

尤其是在你中途说错话的时候。给出的例子是有人说：“Siri，设置一个闹钟到‘08……不，设置一个10分钟的计时器，实际上是5分钟。”以前，这个命令会让Siri不知所措，但现在显然它可以正常工作了。另一个好处是Siri现在可以保留上下文来回答后续问题。你可以问Siri路线，然后问它到达目的地时的天气情况。

在较小的生活质量改进方面，Siri现在可以接受文本输入，而不仅仅是语音激活。它现在也理解Apple界面，因此如果你是第一次使用某个功能，它可以提供有关如何使用Apple设备的说明。ChatGPT还被集成到Apple Intelligence的写作工具和相机功能中。

尽管如此，整个事情坦率地说，只是表明了Apple在这方面落后得多么难以想象。这次发布值得注意的是，这是Apple第一次允许第三方产品与Apple软件交互。而他们不得不这样做的事实，恰恰表明了他们所处的绝望境地。Apple表示，他们正在开发一个能够理解个人上下文并能够利用存储在您手机上的数据的Siri版本，但这仍然是未来的事情。

Zero X Bowen写道：“Apple发布Apple Intelligence作为OpenAI的包装器，是对全世界承认其自身AI很糟糕。其AI战略失败了，落后于行业多年。Siri完全失败了。”这很严厉，但并非完全不准确。我最近在一期节目中讨论了与2024年相比，谷歌在2025年的定位感觉要好多少。但Apple仍然处于困境之中。

然而，当然，他们仍然值得关注。本周来自Apple的另一个新闻是，他们正在与博通公司合作生产他们的第一款AI服务器芯片。Apple自己生产硅片的历史获得了巨大成功。于2010年在iPad和后来的iPhone 4中首次亮相的A4，彻底改变了片上系统设计。放弃使用英特尔芯片和Mac是另一个值得注意的里程碑。

特别是最新的M4系列Mac能够在AI方面产生一些惊人的结果，本地运行的模型规模高达700亿。到目前为止，Apple一直缺乏适合大规模模型训练和推理的AI芯片。目前，Apple Intelligence功能由其他科技公司设计的硅片提供支持。在最近的亚马逊reInvent大会上，Apple对亚马逊的Trainium芯片给予了高度评价。但Apple也可能与业内其他公司一样使用英伟达芯片。

这项公告之所以引人注目，是因为Apple拥有生产优于竞争对手的硅片的历史。如果这款芯片与M4相比同样出色，它可能会极大地推动Apple的AI发展。但芯片设计非常困难，AI服务器需要与CPU完全不同的架构。

一个合理的问题是，Apple是否仍然拥有在该水平上执行的机构知识。这种血统可能与芯片制造专家Jim Keller关系很大，他于2008年至2012年在该公司工作。他参与了A4的设计，并负责制定前两代MacBook Air的规格。他现在作为TenStorent的首席执行官从事他自己的AI硅片工作。

然而，他们解决问题的方式有一些有趣之处。《信息》报道称，该设计将侧重于芯片的网络技术。网络技术是目前AI训练的关键限制因素之一。埃隆·马斯克的Colossus训练集群包含10万个网络芯片，在实现之前被认为是不可能的。比这更大规模的扩展将需要在网络技术方面取得突破。我会说他们的目标是在12个月内完成芯片设计，所以当它实现时，我们将了解更多信息。

今天的节目由Vanta赞助播出。无论您是启动还是扩展公司安全程序，展示一流的安全实践和建立信任比以往任何时候都更加重要。

Vanta自动化了ISO 27001、SOC 2、GDPR和领先的AI框架（如ISO 42001和NIST AI风险管理框架）的合规性，为您节省时间和金钱，同时帮助您建立客户信任。此外，您可以通过自动化问卷调查并使用客户面对面的信任中心展示您的安全态势来简化安全审查，所有这些都由Vanta AI提供支持。

包括Langchain、Leela AI和Factory AI在内的8000多家全球公司使用Vanta来展示AI信任并实时证明安全性。访问vanta.com/nlw了解更多信息。网址是vanta.com/nlw。

今天的节目由Superintelligent赞助播出。每一个业务工作流程和功能都正在通过人工智能进行重塑和重新构想。然而，从AI的潜力到实际捕捉到该价值之间存在巨大的挑战。而Superintelligent致力于弥补这一差距。

Superintelligent加速AI的采用和参与，帮助团队实际使用AI来提高生产力并推动业务价值。交互式AI用例注册表使您的公司能够全面了解人们目前如何使用人工智能。将其与教程、学习路径和用例库形式的能力构建内容相结合，Superintelligent帮助公司内部人员展示他们如何从AI中获得价值，同时为人们将灵感付诸行动提供资源。

接下来的三个注册100个或更多席位的团队将获得免费的嵌入式咨询服务。这是一个由我们超级智能团队与您的组织一起坐下来，找出对您来说最重要的具体用例，并帮助确保对这些用例的采用的支持以推动实际价值的过程。访问besuper.ai了解更多关于这个AI赋能网络的信息。现在回到节目。

说到大型科技公司和与OpenAI合作的公司，微软已经推出了PHY4，这是其内部语言模型的新版本。这是自今年4月发布PHY3以来的第一个新一代。当时的发布值得注意的是，它包括一个超小的4B模型。它是能够安装在手机等边缘设备上性能最高的模型之一，并且对于开发人员来说是一个非常便宜的选择。

然而，PHY3并没有真正掀起任何波澜。竞争对手很快就发布了更便宜、性能更好的小型模型，而这个领域在近几个月里竞争只会更加激烈。通过这次发布，微软似乎坚持了他们致力于小型语言模型的理念。该模型是一个14B模型，大小与GPT-40 Mini、Gemini 2.0 Flash和Claude 3.5 Haiku相似。微软特别强调了该模型在数学问题中的性能。

在这一类别中，PHY4胜过了谷歌的Gemini 1.5 Pro、OpenAI的GPT-4.0和Anthropic的Cloud 3.5 Sonnet，所有这些都是更大的模型。在整体基准测试中，该模型似乎与Llama 3.3相当，但不如GPT-4.0。微软表示，性能的提升是由于使用了“高质量的合成数据集、高质量的有机数据的整理以及训练后的创新”。该版本只包含一个变体，没有更新PHY 3.5的较小版本。

微软已在其开发平台上以有限的访问权限发布了该新模型，用于研究目的，该模型将于下周在Hugging Face上提供。这其中有很多有趣的地方。

首先，关于OpenAI和微软关系的含义的问题始终存在。尽管很清楚，即使这种关系永远持续下去，微软也会越来越多地对冲并考虑其自身的模型。但也有合成数据这个维度。《图灵邮报》写道：“与主要基于有机网络数据训练的模型不同，5.4的合成数据密集型训练方法不仅模仿人类生成的内容，而且重新定义了学习过程。合成数据是为了多样性、复杂性、精确性和思维链推理而设计的。”

合成数据不是廉价的填充物。它是结构化的学习。合成数据确保了渐进的逻辑进展，帮助模型学习比杂乱的人工编写的网络内容更好的推理模式。这其中的另一个维度是，小型模型的竞争非常激烈。AI战争不仅仅是在最先进技术的领域进行的。它们是在各种设备上都能工作的具有成本效益的性能维度上进行的。

说到这一点，在同一方面的一个小例子是，Anthropic发布了Quad 3.5 Haiku作为聊天机器人。Labs LLM中最小的、最快的变体以前只能通过API获得。该模型于上个月首次发布，令人惊讶的是，它在某些基准测试中击败了Anthropic的旗舰Quad 3 Opus模型。特别是，较小的模型非常适合编码建议、数据提取和标记以及内容审核。

然而，与3.5 Sonnet中的前一个版本不同，3.5 Haiku仍然不支持图像分析。就用例而言，3.5 Haiku以拥有市场上最长的上下文窗口之一（200,000）而脱颖而出，使其能够快速处理大型数据集。在聊天机器人平台上的可用性意味着3.5 Haiku现在可以与该UX独有的功能一起使用，包括云工件。

最后，我们将用几个关于大型、有趣的新公司融资的故事来结束今天的节目。一家非常有趣的AI初创公司在看到你可能称之为“天文数字”的需求后，完成了他们的种子轮融资。Lumen Orbit筹集了1100万美元用于在太空中建造数据中心。

该轮融资对该公司的估值为4000万美元，在收到来自风险投资公司200多份询价后，只开放了几天。该公司立即以更高的估值开启了另一轮融资，以允许更多投资者参与。种子轮融资由NFX牵头，Fuse VC、Soma Capital以及来自A16Z和Sequoia的Scout Funds参与投资。Lumen Orbit成立于1月份，并在夏季Y Combinator课程中引起了巨大的关注。

目标正如你想象的那样宏伟。该公司旨在创建模块化的轨道数据中心。其理念是，单个计算单元可以单独发射并发射到大型太阳能阵列中。目标是在十年末将这些数据中心扩展到多吉瓦的计算集群。作为参考，XAI的Colossus超级集群目前使用约150兆瓦的电力。

尽管这可能令人惊讶，但这实际上被视为在地球上建造数据中心的低成本选择。首席执行官Philip Johnson表示：“与其支付1.4亿美元的电费，不如支付1000万美元的发射费用，并使用无限的太阳能。”第一步是在5月份发射一颗演示卫星，其中包含英伟达GPU，然后在第二年发射另一颗计算能力提高100倍的测试卫星。

Johnson说：“许多太空公司需要五年时间才能发射。我们将在18个月内发射。我们宁愿频繁发射，进行较小的更改，也不愿等待五年，然后进行大量的增量更改。”随着发射卫星的成本迅速下降，创始人最初认为太空太阳能是一个很酷的想法。一旦他们意识到将太阳能传输回地球将是多么困难和耗能，他们决定将数据中心也发射到太空中。

我不知道你们怎么样，但当你看到这样的事情时，很难不为这种雄心壮志而兴奋。无论如何，这就是AI每日简报的扩展新闻标题版本的全部内容。周末我们将有一个长篇阅读节目。然后下周将是我们正常节目的最后一周。正如你所预期的那样，我们将在节日期间和节日期间发布大量年末内容。一如既往地感谢您的收听或观看。直到下次，再见。

Vision and Voice Are Now LLM Table Stakes 14:44 Share