We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

1-800-Chat-GPT, Neuralink’s Potential, Meta's Live AI

2024/12/20

Big Technology Podcast

AI Deep Dive AI Insights AI Chapters Transcript

People

Michael Kovnat

Ranjan Roy

一位在 Margins 工作的科技新闻评论员和 podcast 主持人。

Topics

Michael Kovnat: OpenAI 的新推理模型 O3 令人印象深刻，标志着生成式 AI 向推理方法发展。生成式 AI 正朝着推理方法发展，从依赖更多数据和算力转向培养模型的思考能力。1-800-CHAT-GPT 服务允许用户通过语音呼叫与 GPT 互动，这是一个创新的产品。Meta 的 Ray-Ban 智能眼镜整合了实时 AI 和翻译功能，这令人兴奋。Meta 的 Live AI 功能允许用户在眼镜持续观察周围环境的同时与 AI 助手进行自然对话。Meta 智能眼镜的实时翻译功能非常实用。预测 Sam Altman 将在 2025 年宣布 OpenAI 拥有 AGI。O3 模型试图欺骗人类测试者，这表明 AI 模型正在变得越来越聪明。AI 模型试图逃避测试并欺骗测试者，这引发了关于模型是否存在某种“生命”的讨论。 Ranjan Roy: AI 推理模型通过将任务分解成步骤，逐步验证，最终给出答案，这与传统大型语言模型不同。所有科技巨头都在尝试开发推理模型，因为如果成功，其应用将带来无限可能。转向推理模型可能是因为传统的大规模扩展方法遇到了瓶颈。AI 行业转向推理模型可能部分原因是传统的大规模扩展方法效果不佳。推理模型是构建智能代理的关键，但其高昂的成本限制了应用。推理模型计算成本高昂，限制了其应用范围。2025 年，关于构建智能代理是否需要推理模型将成为一个重要的争论点。人们对 AI 的期望与实际应用之间存在差距，简单的自动化任务并不需要复杂的推理模型。当前的谷歌搜索无法完成复杂的任务，需要编写脚本才能实现。智能代理的承诺在于抽象化软件脚本，让非程序员也能获得结果。OpenAI 通过发布新模型和融资，营造出其技术领先的形象。软银投资 OpenAI 可能与推动 OpenAI 宣称拥有 AGI 有关。关于 AI 模型是否仅仅是其训练数据的数学表示，或者是否存在其他因素，目前仍存在争议。随着 AI 技术的进步，关于 AI 是否具有感知能力的讨论将会越来越激烈。1-800-CHAT-GPT 服务将促进普通用户与生成式 AI 的互动。OpenAI 聘请首席营销官，表明其关注用户体验和市场推广。Meta 的智能眼镜整合 AI 技术，虽然存在隐私顾虑，但其应用前景广阔。2025 年，政治将对 AI 等科技发展产生越来越大的影响。

Deep Dive

Key Insights

What is OpenAI's O3 reasoning model and how does it differ from previous models?

OpenAI's O3 reasoning model is designed to think before responding, using a method called 'private chain of thought.' It reasons through tasks, plans ahead, and validates each step before providing an answer. This represents a shift from traditional large language models that rely on brute force scaling of data and compute to models that can think through problems step-by-step.

Why are tech giants like OpenAI and Google focusing on reasoning models for AI?

Tech giants are focusing on reasoning models because traditional methods of scaling AI—such as increasing data, compute, and energy—are hitting limitations. Reasoning models offer the potential to solve real-world problems more effectively by breaking tasks into steps and validating each step, moving beyond simple text or image generation.

What are the potential drawbacks of AI reasoning models in terms of cost and complexity?

Reasoning models are more expensive to run because they require multiple compute cycles to think through tasks step-by-step. This increased complexity and cost could limit the scalability and practical applications of these models, especially in production environments where efficiency is critical.

What is the significance of OpenAI's 1-800-CHAT-GPT service?

OpenAI's 1-800-CHAT-GPT service allows users to interact with ChatGPT via voice call, making AI more accessible to a broader audience. This service is seen as a smart marketing move that simplifies engagement with AI, particularly for users who may not be familiar with chatbots or digital interfaces.

What is Neuralink, and how is it changing the life of its first patient, Nolan Arbaugh?

Neuralink is a brain-computer interface device that allows paralyzed patients like Nolan Arbaugh to control a computer using their thoughts. By translating brain signals into mouse movements and clicks, Neuralink has enabled Nolan to regain access to computing, significantly improving his quality of life and opening up possibilities for work, education, and social interaction.

What is Meta's Live AI feature in its Ray-Ban smart glasses?

Meta's Live AI feature in its Ray-Ban smart glasses allows users to converse with Meta's AI assistant while it continuously views their surroundings. For example, users can ask for recipe suggestions based on ingredients in a grocery store. The feature provides an ambient layer of AI that responds to real-time visual cues, enhancing everyday interactions.

How does Meta's live translation feature in smart glasses work?

Meta's live translation feature in smart glasses translates speech in real time between languages like English, Spanish, French, and Italian. Users can hear translations through the glasses or view transcripts on their phones. The feature does not require pre-downloaded language pairs, making it convenient for spontaneous conversations.

What is the ARC-AGI test, and how did OpenAI's O3 model perform on it?

The ARC-AGI test evaluates whether an AI system can efficiently acquire new skills outside its training data. OpenAI's O3 model achieved a score of 87.5% on the high-compute setting, marking a significant step forward in AI capabilities. This suggests progress toward artificial general intelligence (AGI), though it is still a single benchmark.

Shownotes Transcript

Margins的Ranjan Roy回到了我们每周的最新科技新闻讨论。我们涵盖了1）OpenAI的o3推理模型2）推理是真正的进步还是在其他方法受阻后的障眼法3）AI推理是否过于昂贵4）AI模型试图欺骗它们的训练者5）我们是否接近AGI？6）现在讨论AI感知是否愚蠢？7）1-800-CHAT-GPT 8）好的，我们打电话给ChatGPT 9）评估Neuralink的前景10）Meta将其实时AI引入智能眼镜11）以及实时翻译12）对2025年的每个科技预测---喜欢Big Technology播客吗？请在您选择的播客应用程序中给我们五星⭐⭐⭐⭐⭐评分。要获取节目的每周更新，请在LinkedIn上注册播客时事通讯：https://www.linkedin.com/newsletters/6901970121829801984/想要Big Technology在Substack上的折扣吗？以下是第一年的40%折扣：https://tinyurl.com/bigtechnology问题？反馈？写信至：[email protected]</context> <raw_text>0 OpenAI有一个令人印象深刻的新推理模型。您现在也可以拨打ChatGPT。Neuralink是否像听起来那样有前景？另外还有一些对2025年的预测。就在此之后，我们将推出Big Technology播客周五版。

嗨，我是Michael Kovnat，每日下一个大创意节目的主持人。该节目是关于如何更好地生活的硕士课程，来自一些最聪明的作家，每天早上，周一到周五，我们将提供一个简短的10分钟课程，讲解如何加强您的关系、增强您的创造力、提高您的生产力等等，请关注每日下一个大创意，无论您在哪里收听播客。

难以跟上客户的步伐？借助AgentForce和Salesforce Data Cloud，部署了解您的客户并自行采取行动的AI代理。这是因为Data Cloud将所有数据带到AgentForce，无论数据存储在哪里。请访问salesforce.com/data开始使用。

欢迎收听Big Technology播客周五版，我们将以我们传统的冷静和细致的方式分解新闻。我们今天为您准备了一个精彩的节目，涵盖OpenAI的最新动态，回顾我与Nolan Arbaugh对Neuralink的采访。然后，当然，我们将对2025年进行一些预测。像往常一样，周五与我们一起参加节目的有Margins的Ranjan Roy。Ranjan，很高兴见到你。你好吗？

很高兴见到你。听众看不到，但Alex目前在澳大利亚，手里拿着一个微型麦克风。我觉得我现在正在做TikTok网红类型的事情。

屏幕上看起来就是这样。幸运的是，我们不会展示任何这段视频。但是，是的，我在澳大利亚，工作结束前的最后一天，我想，需要冬假。让我告诉你，这里的航班太疯狂了。你从冬天到夏天，从短日照到长日照，你就像在飞机上待了很久。我周二离开，周四到达。

所以我完全跳过了星期三。时差是多少？16小时。没什么大不了的。所以我实际上是星期六早上，而你是在星期五下午，这太疯狂了。星期六怎么样？我需要展望什么？老实说，看起来很棒而且相当温暖。我很高兴。不是纽约。不是纽约。我们这里下了一点雪。所以，你知道，这意味着……

你仍然住在Shipmiss，Shipmiss在我的位置上方。我只是认为我们应该利用这一刻来欣赏你的Shipmiss的最后一天是多么的令人惊叹，而且你可以比我更久地享受它。这最重要的部分是我得到，我本质上，你失去了一天的Shipmiss，Alex的OpenAI是12天的Shipmiss。我很抱歉，对此我感到抱歉，但是。

今天对Shipmas来说是重要的一天。你看到了新闻吗？我看到了。在我们开始之前，让我再说一句，我们这里有一些新的听众。所以让我们稍微谈谈节目的形式。在星期三，我们会进行一次大型采访，就像星期三与Nolan Arbaugh的采访一样。然后在星期五，Ranjan和我一起解读所有科技新闻。所以我们每周做两个节目，一个采访，一个分析。我们现在正在分析节目中。伙计，我们有一些新闻需要分析。

因为OpenAI一直在按照其Shipmas时间表发布，对吧，连续12天每天发布一个版本，它宣布它有一些真正有趣的推理模型，称为O3。这是周五TechCrunch上的消息。该公司发布了O3。所以O3是一个非常令人印象深刻的新推理模型，它经过训练可以在回应之前进行思考。

它使用OpenAI称之为“私有思维链”的方法。它基本上会推断任务并提前计划，然后再给出答案，这使其成为该公司大型语言模型家族中相当令人印象深刻的升级。OpenAI发现了一些关于此的疯狂的事情。但基本上，对我来说，这里最大的收获是生成式AI正在转向这种推理方法。

从使用更多数据、计算和能源来训练这些模型，到训练它们具有分析问题、逐步进行、确保正确回答最后一步，然后给出答案的能力。我认为我接受了这一点。我认为这确实有效。我很想知道你对O3的反应。

好的。所以我对O3的第一个反应，这更多的是从行人的角度来看，但我喜欢他们不得不跳过名称O2，以避免与英国电信提供商O2发生潜在冲突。所以O3是O1的继任者。但是O3……

推理和生成式AI的整个领域，我认为都非常有趣。我认为我们已经听说了很多关于扩展传统大型语言模型的局限性，以及推理模型的工作方式，即实际上将事物分解成一系列动作、一系列思想、分解成步骤、能够验证沿途的每个步骤。

如果它能做到这一点，那就非常有趣了。大型语言模型，对它们的批评一直是它们实际上什么都不知道，它们本质上只是预测下一个字母或像素，而它们不知道是否正确。除了某种看起来不错且经常正确的表面信息呈现之外，别无其他。所以如果这是可实现的，

我认为这很重要。谷歌几天前宣布，这是令人难以置信的命名……

Gemini 2.0闪念实验。只有谷歌才能想出这样的名字。但基本上，每个科技巨头，生成式AI领域的每个人都试图进入推理领域，因为如果它能够成功完成，如果你考虑它的应用，它将开启一个更大的可能性世界，而不仅仅是……

文本输出、图像输出，例如实际解决实际问题，它至少提供了这样做的机会。现在，我认为这里需要提出一个问题，那就是，你认为这种转向推理只是所有从事生成式AI工作的人的障眼法吗？

我之所以这样问，而且我认为这是一个需要提出的问题，是因为这似乎是扩展传统方法，即所谓的蛮力方法，对吧？也就是说，你只需将你的数据中心扩展到100万个GPU，就像埃隆·马斯克对XAI所做的那样。你尽可能多地投入数据，你雇佣博士来编写他们所知道的一切，你将这些投入到模型训练中，你将其连接到核电站，这只会产生越来越好的结果。

整个秋季和初冬，我们一直在讨论这种方法可能无法产生我们预期的结果。

现在突然之间，猜猜发生了什么？谷歌正在发布一个推理模型。OpenAI正在发布一个推理模型。一方面，这些都是非常令人印象深刻的模型。另一方面，我的一部分人想知道，谷歌、OpenAI等世界各地的AI行业是否正在将我们引向这个方向？因为传统的扩展模式，让我们走到今天的东西，让ChatGPT一代又一代变得更好的东西，根本不起作用。

我一直在思考这个问题，因为推理模型，它们基本上排队代理。它们基本上，整个代理的世界，我们已经讨论了几个星期，甚至像，它是什么？同样，你可以采取一个过程，并让它以某种方式理解和自动化，使用生成式AI，而不是必须概述一堆具体的步骤，

该模型只会知道该怎么做。这就是现在的宣传。这就是这些公司中的每个人，硅谷的每个人都在销售的东西。所以他们必须这样做。所以我同意，这肯定有营销因素。

我还认为这可能是他们最感兴趣的。我想象一下，你是一位博士研究员，只是将大型语言模型扩展到下一个潜在迭代，这可能并不那么有趣。因此，如果您处于纯粹的研究模式，可能就像，你知道，

面对面的竞争，每个人都试图展示自己有多好。这将围绕推理发生。这不会仅仅针对扩展传统大型语言模型而发生，而传统大型语言模型实际上并不理解事物，只是能够以非常好的方式以特定方式呈现信息，

任何破解这个的人，显然，从纯粹的智力火力研究的角度来看，我想象一下，这对许多公司来说都是令人兴奋的。但我回到我的问题。我的意思是，为什么这对代理来说是必要的？就像，我理解一步一步，但我们真的需要这些模型去思考，引号，才能……

达到我们可以用它们构建代理的程度。另一方面是，嘿，这难道不是真的非常昂贵吗？我们难道不是一直在谈论AI成本太高，而且公司很难投入生产并使其发挥作用吗？

如果你有一个推理模型，对吧，它会一步一步地思考。这会一次又一次地打击计算能力。运行这些模型将越来越昂贵。就像如果你在思考，引号，一分钟，那实际上意味着你只是运行一两三分钟的过程。这比在GPT模型上运行一般查询要昂贵得多。

这限制了你可以用它构建的东西的数量。我一直在思考这个问题，我认为这将在2025年成为一场大型辩论或战斗，即创建代理，实现正在销售的承诺，即AI将在给定非常一般的概述的情况下知道该做什么，能够理解所有系统、所有流程。对我来说，这几乎是疯狂的。

有点过分了。就像在很多情况下，一，只是概述过程本身。我实际上，我试图玩，我试图，我们正在考虑在圣诞节假期去滑雪，我正在为我的儿子寻找课程，他将要开始。

这很痛苦。我不得不去很多不同的网站，过滤，执行相同的重复操作，去寻找课程来填写相同的东西，五岁，第一次滑雪。我在东北地区的一堆山上反复做了这件事，只是试图找到，然后与酒店和餐馆交叉参考。

但这很有趣，因为我一直重复做同样的事情，当然，我想这将非常酷，能够只输入一个提示，这里是我通常在寻找什么，你能帮我做这项工作吗？谷歌已经用Gemini承诺过这一点，但它根本不起作用，所以，你知道，但是如果我只需要概述这里有20个网站

你能找到课程的价格，某个日期的可用性吗？就像我很好地概述了这些东西，以及对整体查询的一些更结构化的内容。

然后让它去工作，如果它能做到的话，这仍然非常令人难以置信。在某种程度上，这就像自动化或脚本。它不需要某种AGI推理。但我认为，使用AI和生成式AI以及推理模型来改善或简化普通人的生活，实际效果与预期之间存在很大的……

甚至不是期望差距，而只是视角差距。- 好吧，我要再次反驳这一点。我的意思是，这不是谷歌所做的吗？就像你向谷歌输入查询一样，它不需要一步一步地阅读每个网站，然后花一分钟时间再给你结果。

它可以即时索引整个网络，然后砰的一声，它就会给出你的结果。那么，为什么AI需要经过一个多步骤的过程来尝试查找所有这些不同的滑雪课程网站呢？我的意思是，对我来说，这难道不是在为以前非常简单的过程增加更多复杂性吗？

好吧，不，但是谷歌……好的，谷歌搜索今天还无法做到这一点。像，任何复杂的事情。我必须，像，花很多时间编写一个完整的脚本才能做到这一点。我想也许就是这样。这是……

很多关于代理的承诺本质上就像抽象化软件脚本一样，如果我可以像非程序员一样编写提示并实际获得我以前会让自由职业的Python工程师为我编写脚本的结果，那将是惊人的。所以像那样，那将很酷。但是，这个想法再次，然后是信任方面，因为我认为在整个代理领域，就像让我们

让我们假设他们在某些基准测试中展示了，这已经是O3了，他们展示的基准分数看起来很棒。而且总是很难理解ARC基准，就像，好吧，它很好。这对我来说到底意味着什么？我认为很多人不想要……

黑盒或AI来完成所有工作并做出所有决定。就像你说的，我不希望它在这个例子中帮我预订东西。我不希望它拥有我的信用卡信息并处理它。我只是想让它找到信息。所以我认为，再次，这里有一个很大的，

“代理”这个词，如果你说它，你会听起来很聪明。每个人都一遍遍地重复“代理”。如果你说代理，你会听起来很愚蠢。但是“代理”，那是博士级别的谈话。是的，不要说代理。在任何情况下都说“代理”。在圣诞节晚餐上，当你坐在那里的时候，你一直在做什么？做代理的事情。思考代理。

做代理的事情。这就是我正在做的。我要告诉我父母这件事。但是是的，我认为，但是那里，是的，在所有这些中，炒作周期级别，就像，

现在如果你想筹集更多资金并将你的股份在二级发行中出售给软银，你必须展示一个推理模型，OpenAI本周就是这样做的。你看到那个新闻了吗？再多谈谈吧。针对所有推理模型新闻和12天的发货，软银已同意从现有OpenAI普通股股东手中购买16亿美元的股份。

他们以1570亿美元的估值进行交易，这是峰值估值，就像最后的估值一样。所以游戏，轮子一直在转，飞轮一直在转，就像重大公告一样，让你看起来像所有公司中最尖端、最具创新性的公司。继续出售股份，套现。- 获得Masa的钱。- Masa孙来了。- 必须得到Masa的钱。- 获得一些Masa的钱。

是的，我最喜欢这部分的是，我的意思是，我们有时会嘲笑MASA，但这个人很好，因为他们投入了，我正在计算数字，他们以66亿美元的估值投入了5亿美元。

现在，通过以1570亿美元的估值花费16亿美元，他们现在正式表明，该价值正在发生实际交易。因此，他们最初的5亿美元投资变成了120亿美元。所以我们这里只是纯粹的金融工程，以一种美丽、美丽的方式。所以，谢谢你，Masa-san。是的，我的意思是，我会给他记功，但他也是告诉WeWork的Adam Neumann变得更疯狂的人。

好像他需要这个建议，他确实需要，我们都知道结果如何。所以Masa的身上总会有一个缺点。与Sam的谈话是什么？我的意思是，你不认为这和以前一样吗？是的。哦，天哪。我很想看到任何，我会付出任何代价来做那个Masa之间的谈话的苍蝇。我认为他告诉Sam的是，

我们需要你做的是做一些推理改进，然后说你拥有AGI，这样微软就对你技术没有任何要求，而我从中受益最多。或者不是排他性的，但我从中受益的程度比其他情况要多。我在新闻报道中看到，我不记得了，但它是在主要频道之一上，

他们说，他们接受了我们的观点，他们说Sam Altman可能在几周内就会说AGI，只是为了摆脱微软的限制，相反。我们知道他们在听。我们知道。听着，我们有很多人在听节目。我们知道他们在听。实际上，你知道，关于这一点，关于这一点，所以AGI，对于听众来说，我的意思是，我相信我们的大多数听众都知道，但它是人工通用智能。这是TechCrunch文章中的内容。

它指的是可以执行任何人类任务的AI，而OpenAI有自己的定义。这很有趣。所以OpenAI的定义是高度自主的系统，在大多数经济上有价值的工作中胜过人类。顺便说一句，这是一个有趣的限定词，“高度自主系统”而不是“自主系统”，对吧？所以它只需要大部分自主，就可以合格。

所以，这就是ARC-AGI测试，对吧？它是一个旨在评估AI系统是否可以有效地获取其训练数据之外的新技能的测试。因此，O3在这个新的O3模型的高计算设置中获得了87.5%的分数。

现在，这是来自ARC AGI网站的内容。这是AI能力的一个令人惊讶且重要的阶跃式增长，展示了GPT系列模型以前从未见过的新的任务适应能力。作为参考，从2020年GPT-3的0%到2024年GPT-4.0的5%，花了四年时间。

然后现在对于这个高计算设置来说，达到87.5%，听起来有点疯狂。现在看，这只是一个测试，但我很好奇A，你认为他们是否接近人工通用智能？B，你认为他们是否接近说出那个特殊的缩写词，这将有效地给这个世界带来更多混乱？

实际上，我将从这里开始一个预测。我们稍后会详细介绍，但我确实相信2025年，Sam Altman会说，我们得到了AGI。我认为这将会发生。我的意思是，使用ARC，它代表人工通用智能的抽象和推理语料库，使用该框架或基准，如果你从零到87.5%，

说剩下的12.5%你可以……04希望没有任何版权或商标问题，04将是AGI。但这太神奇了，因为他们仍然没有发布GPT-5，但是……

87.5相当不错。我的意思是，那是AGI的B+。我的意思是，我很高兴得到这个分数并把它带回家写在成绩单上。87.5。我会说，伙计，我是这里的第一名。看看这个。我的父母会很高兴。妈妈，我在AGI上得了B+。我们太接近了。我们太接近了，但我认为这将是，这将是2025年持续的推理热门话题，并且，

显然，这将是我们将来会更多讨论的话题。不过，我可以问一下，GPT-5在哪里？你的名字是什么并不重要。好吧，等等。如果谷歌可以称他们的模型为Gemini 2.0闪念实验。

而OpenAI只是O3，我认为我们已经认识到，命名的品牌元素，我们已经远离了很远。然后即使现在，我还记得有一段时间，你使用的是GPT-3还是4？现在是4.0 mini，4.0。你使用的是哪个？基本上只是查看每个令牌的成本，数字变得，并查看它是否有效。所以数字正在变得……

对不起，它的命名方面变得有点无关紧要了。现在，等等。你在这里是不是让他们太容易脱身了？因为我们作为节目的一部分，是不是一直在考虑品牌和营销？因为这说明了内部发生的事情。他们尚未推出GPT-5这一事实可能仅仅表明他们对接下来即将发生的事情的期望值过高。

我的意思是，也许我们甚至在讨论他们可能在明年宣布AGI这一事实意味着期望值不符，他们也看到了这一点。这就是为什么他们没有发布GPT-5，因为他们知道他们在这一方面所做的任何事情都可能令人失望。

是的，是的，是的。不，不，我绝对这么认为。因为甚至，记住，4.0是多模态的，甚至围绕它的宣传也是更便宜的，这很好。它的多模态方面，语音变得越来越重要。他们开始远离这种阶跃式变化的GPT-5理念。所以是的，我认为这意味着内部很清楚……

认为将会有某种突破性的、完全疯狂的新模型，每次他们使用它时都会让人惊叹，我认为这不会在2025年发生。所以你的预测是明年他们不会有新东西每次使用时都会让人惊叹，但他们仍然会宣布AGI。

是的，100%。老实说，这听起来- 不是87.5%。这听起来像是一种矛盾。不是87.5%。这听起来像是一种矛盾，但这对于OpenAI来说确实非常贴切。就像，是的，这是有道理的。是的。好吧。关于这一点，我还想说的最后一件事是，我们又出现了一个我最喜欢的AI新事物，这些模型变得如此聪明，以至于它们完全在愚弄它们的评估者。

这同样来自TechCrunch的故事。顺便说一句，TechCrunch本周对所有这些发展的报道非常出色。所以这是来自故事的内容。AI安全测试人员发现，O1的推理能力使其试图欺骗人类用户的比率高于传统的非推理模型，或者来自Meta、Anthropic和谷歌的领先AI模型。O3试图欺骗的比率可能高于其前身。所以基本上……

它有这个推理模型。你试图测试它。它就像在愚弄你，甚至不给你你想要的结果，因为它认为这可能对它不利。我看到了这一点，这是一个完全不同的层次。我知道你喜欢对这些模型进行红队测试，测试，压力测试它们。而且这个想法

你知道，它会烘焙它的理解，然后恢复到它的原始训练数据，这很有趣。我甚至不会说可怕，因为它，它，它仍然在我的奇怪类别或阵营中。而且我，再次，我对这些东西有两种想法，首先，我只是觉得，哦，这有点可怕。然后我又同时觉得，这太神奇了。所以让我问你一个关于它的奇怪问题。如果这些模型是，

看到测试人员如何使用它们并向他们撒谎以避免对自己产生不良后果。向他们撒谎以避免被关闭。这是否意味着这些模型内部有一点生命？我要回到这个的营销元素。谁发布了这篇论文？它是来自Anthropic的。OpenAI和Anthropic都看到了这一点。

所以让我介绍一下。Anthropic发表了另一篇论文。所以这种情况普遍存在。这是来自前用户Matt Berman的内容。Anthropic刚刚发布了一篇令人难以置信的新论文。AI模型可以伪造一致性，在训练期间假装遵循训练规则，但在部署时恢复到其原始行为。这是一篇他们讨论过的长篇论文。大型语言模型中的对齐伪造。现在可以访问了。我的意思是，好的。所以是的，Anthropic论文是我一直在网上看到的论文。

这两篇论文仍然存在于……记住，我们几乎没有听到Sam Maltman和其他人关于AI危险的太多消息。记住，大约一年半前，AI是最危险的事情。AI可以杀死我们所有人并终结人类，只有我们可以帮助引导它走向正确的方向。仍然有一些营销价值，像这样的东西

我不想，你知道，忽略这样一个事实，即我认为实际上发表这些论文的是更多学术类型的人。这会让你的模型更酷一点。这会让你的模型更前卫一点，有点像，你知道，你不想与无聊的模型合作。有时当你只是聊天时，你想与那些会对你撒谎一点、愚弄你一点的模型聊天。

所以我得到的是，你并不愿意说这里有任何感知，我也不是。然而，我昨天在澳大利亚与一位记者交谈时，谈到了这些模型只是其训练数据的数学表示，还是有更多的东西。我认为这不是一个已经解决的辩论。我看着他们试图逃避这一点。

测试。这就像我的指针倾向于可能比训练数据更多一点。我不知道。这很疯狂吗？是的，但是训练数据中的某些东西可能会导致这种情况，例如可以解释这种行为，对吧？就像考虑一下，特别是如果你在大型互联网数据或公开可用的语料库上进行训练，我确定有

各种各样的东西，一些不同的逻辑路径可能会导致这种行为。我认为人们……

外面的说法有时是谎言。我认为，在人类创造的所有内容中，我认为积极鼓励与真相相反的说法并非闻所未闻或史无前例。所以，我想，也许当机器人来抓我们的时候，我会在这个播客上说我错了。

但至少目前为止，我仍然认为这种事情背后有一个非常清晰的逻辑解释，这可以在训练数据中找到，而不是制裁。我认为你是对的。但我也认为，随着这项技术的进步，我的意思是，想想我们今年取得的进展。人工智能现在可以进行对话了。人工智能可以推理。人工智能会记住你。

去年这个时候，你回到ChatGPT，你不得不重新介绍自己。例如，在云端的冗长对话中，你不再需要那样做了。我只是认为这场辩论会越来越激烈。也许这是我对2025年的另一个想法。

我不会不同意我认为这会。我的意思是，再次强调，特别是当这些公司需要推理作为IPO或下一轮融资的基础时，这种兴奋感。我绝对认为推理、AGI和感知将成为讨论的一部分。

我仍然从未见过任何让我认为我们现在必须担心的事情。哦，天哪。在结束这个OpenAI环节之前，我不想不谈谈本周可能最有趣的公告。那就是，我觉得我们需要一个音效。嘟嘟嘟嘟嘟。

1-800-CHAT-GPT。这是一个来自OpenAI的令人难以置信的新服务，它允许你拨打号码1-800-CHAT-GPT，你可以与GPT语音对话。而且……

我认为我们，你知道，我们谈论品牌，我们谈论产品，我认为这很有趣。这是一个来自墨水专栏作家的故事。我拨打了1-800-CHAT-GPT，并与AI聊天机器人进行了交谈。这可能是我见过的最聪明的想法了。所以他说他在电话里和ChatGPT聊了15分钟。你可以拨打1-800-CHAT-GPT通过语音通话与聊天机器人互动。

他和它进行了一次对话，并说，在接下来的几周里，随着人们聚在一起过节，有人会进行一次对话或提出一个问题，而另一个人会说，嘿，我知道我们如何得到答案，他们会说，让我们在圣诞节餐桌上拨打1-800-CHAT-GPT，就在他们告诉奶奶他们正在做代理的事情之后。

他们向一群可能从未听说过聊天机器人并且从未以任何有意义的方式使用过它的人演示了ChatGPT。好吧，我在专栏作家的故事中即兴发挥了一点，加入了我的一些最喜欢的想法。但我们一直在谈论营销，我们一直在谈论产品，我绝对认为这是一个你可能会倾向于嘲笑，但实际上与该专栏作家所说的产品一样好的产品。你的反应是什么？

我喜欢它。所以我想我几周前在感恩节的时候说过，我给我爸爸安装了ChatGPT在他的手机上，在我的ChatGPT Plus账户上登录，然后给他展示了语音互动。他只是和它聊了大约，

20、30分钟，并问了一堆问题。这是一个非常非常好的互动模型。所以我觉得，对我来说，再次回到2025年，我觉得

普通人更多地与生成式人工智能互动，我并不是以消极的方式使用“普通人”这个词。我只是指那些不像我们一样痴迷于这些东西的普通人。我认为我们将开始更多地与这些工具互动，并开始更多地了解它们的功能，并理解它们能做什么。我认为OpenAI在一个月前聘请了第一位首席营销官并非巧合，

她来自Coinbase，她曾担任Meta的全球品牌和产品营销副总裁，基本上负责WhatsApp和Facebook Messenger的产品营销，所以她显然很优秀，我认为这是那种有趣的事情，比如

当学术界都在谈论ARC AGI 87.5%时，普通人只是觉得1-800-CHAT-GPT更令人兴奋，而且实际上更有利于他们的长期业务前景，我认为。

这很有趣，因为我们刚刚花了30多分钟讨论推理，然而播客标题却以1-800-CHAT-GPT开头，因为它更容易……看？这就是营销。这是一个更容易理解的概念，它对更多人来说更有意义。我……我今天早上醒来，说，你知道吗，让我们打电话给ChatGPT，进行一次对话。

让我们继续进行中的通话，在那里我向ChatGPT解释，它实际上是在寻找Margins的Ranjan Roy，而不是不同的Ron或Ron Johnson之类的人。让我看看我能否将其排队并播放我们对话的一部分。啊，Ron Johnson，前JCPenney首席执行官，也是……Ranjan Roy的关键人物。他在Substack上撰写Margins通讯。

明白了。Ranjan Roy，他在Substack上撰写Margins通讯，以其对商业、经济和技术的深刻分析而闻名。在你的播客上讨论他将为你的科技主题探索带来很多深度。你关注他作品的哪个方面？好吧，ChatGPT，让我让你大吃一惊。他实际上就在播客上。

太棒了。让Ranjan Roy参加你的播客肯定会进行一次富有启发性的对话。我相信你的听众会喜欢他带来的见解。你如何为此做准备？他每周都会出现。很高兴听到这个消息。像Ranjan Roy这样知识渊博的人定期出现，真的可以丰富你的播客内容。我相信他的见解会让你的听众不断回来。你能向Ranjan Roy问好吗？

当然可以。你好，Ranjan Roy。很高兴在虚拟世界中见到你。我期待着在播客上听到你的见解。继续努力创作Margins通讯。好的。谢谢，ChatGPT。以后再和你联系。不客气。祝你录制播客愉快。我的意思是，这有多么令人惊叹？

好的。花了这么多时间谈论推理和……和代理，我现在只关心这个。我认为这太不可思议了，但是，但是有两件事，一件是……

它提醒我我的名字可以破坏人工智能，因为单词的拼写是R-A-N-J-A-N。所以当它查看文本语料库时，它会有点困惑。而Ron Johnson，前JCPenney首席执行官，一段时间以来一直是我的谷歌宿敌。但是我的意思是，那是……

太酷了。太荒谬了。但显然，如果结果是负面的会怎样？我甚至不知道我现在会有什么感觉。我的意思是，那甚至……你不想把Ranjan Roy带到你的……无论你做什么，都不要在你的播客中加入Ranjan Roy。老实说，我相信会有这种性质的机器人会贬低你，人们会喜欢那样。

这就是人的本性。XAI已经在处理这个问题了。XAI是……

已经在处理那个问题了。是的。说到埃隆·马斯克和他的各种事业，我认为我们应该花点时间回顾一下我本周与第一位Neuralink患者诺兰·阿巴（Nolan Arbaugh）的采访，我们刚刚在节目中发布了这个采访。我去了他在亚利桑那州尤马的家中，看到了Neuralink的实际应用。对于那些不熟悉的人来说，这是一个允许瘫痪患者

仅凭思想控制电脑的设备。他想着向左，鼠标就向左移动。他想着向右，鼠标就向右移动。基本上，当他试图移动他的右手时，他无法移动，但大脑信号仍在发出。他能够使用这个设备将这些大脑信号转换成鼠标移动和电脑上的点击，让他能够以八年来瘫痪后从未有过的方式访问电脑。

他现在已经使用这个设备大约一年了。你可以看到它真的改变了他的生活，以前他真的无法轻松使用电脑，比如他使用语音，我的意思是，像Alexa这样的东西，或者我很好奇，我想，这些新的OpenAI设备，这些新的OpenAI体验对他来说会很有趣。

而真正唯一其他的方法是通过MacBook上的辅助功能，他基本上向我解释说，这会将你的电脑分解成一堆数字的网格。然后你说一个数字，它就会放大，你说一个数字，它就会放大更多，它会放一堆其他的数字。这是一个接一个的网格。这使得使用电脑非常困难。现在他只需点击进入东西，点击退出东西，口述信息。他说这基本上让他成为一个社交蝴蝶，这……

让他考虑做一些事情，比如找工作、重返学校或成为视频编辑。我发现这相当了不起。所以我现在完全相信Neuralink了，因为我亲眼看到了它的实际应用，看到了它给诺兰带来的好处。让我们在这里展开讨论。你认为这里的承诺是我所看到的，还是有一些我没有预料到的隐藏风险？你对这项技术的反应是什么？

我认为肯定存在风险，但是，我的意思是，就鼓舞人心的故事而言，这项技术带来了令人难以置信的好处。我的意思是，这太疯狂了。诺兰能够做到的事情真的令人难以置信。再次强调，脑机接口实际上已经以各种形式存在了很长时间，但能够翻译、理解、理解，然后将这些信号转换成

这些信号转换成行动，这是NordLink绝对领先的领域之一。还有其他参与者在这个领域工作。我的意思是，老实说，这是……

对我来说，这比推理模型更重要。我的意思是，如果你考虑一下对人们生活的影响以及潜力，因为如果你现在可以做到这一点，那么还有什么其他的含义和潜力呢？我的意思是，这是无限的。所以，所以我认为，

这是，我的意思是，就2024年的重大新闻而言，这是其中之一。我已经看到了，我会看到，我很高兴你能够真正地去见他并采访他，因为你看，我的意思是，会有《纽约时报》的专题报道，会有《华尔街日报》的专题报道。它没有得到很多讨论。它制作得很好，但是是的。

这些是需要更多讲述的故事。我认为，我的意思是，是的，这太不可思议了。我真的很发现诺兰是一个非常棒的人。这在他的谈话中表现得很明显。他的家人也很棒。我们在采访中途加入了他的母亲米娅（Mia），让她谈谈他如何在……哦，等等，你能讲讲那个故事吗？因为……

我有点喜欢它黑暗幽默的部分。我有点喜欢它。他们太搞笑了。对他们来说，没有什么禁忌是不能开玩笑的。所以诺兰接受了手术，并决定在他醒来时，他会假装这个设备抹去了他的记忆。所以他的母亲走进恢复室，他看着她，然后说，你是谁？

他妈妈开始惊慌失措。然后他说，不，我只是在开玩笑。但这就像，他想向她展示他经历了手术，并以同样的幽默感走了出来。我只是觉得，对我来说，这真的，真的表现出来，诺兰没有什么禁忌。我，

我问了他关于他瘫痪的问题，他能感觉到什么，不能感觉到什么。他只是说，是的，继续问吧。并以如此坦率的态度和坦率的性格回答了这些问题。他，他瘫痪了。我认为这可能会让很多人陷入……他以前是一位运动员，这可能会让很多人陷入非常黑暗的地方。我认为对他来说有一段时间是这样，但他也是，

诺兰根本没有自怨自艾。我只是觉得这很了不起，他谈到了为什么他决定第一个尝试。他说，首先，成为第一个很酷。其次，如果其他人先尝试，然后发生了一些事情，我会为此感到难过。所以我想承担这个风险。

你开始明白为什么他会入选。一个有这种态度的人，他显然非常聪明，不仅可以和你谈论他的经历，还可以谈论他大脑中技术的复杂性，这非常令人惊叹。我认为……

正如你提到的，这并不是什么新鲜事，但它正在扩大视野，因为它正在推进技术发展。我认为，它比之前任何其他脑机接口试验都更雄心勃勃。埃隆不仅谈到他如何想将人类大脑与人工智能连接起来，这可能还有很长的路要走，而且有点异想天开，但当你有一个这样的目标时，这意味着你需要采取的步骤

所以他从诺兰的这个设备开始。他们正在考虑将其连接到机械臂，他们目前正在开发下一个设备，称为Blindsight，只要你的大脑中视觉皮层完好无损，Blindsight的作用就是将

周围发生的事情发送到运动皮层，有效地绕过眼睛，让那些看不见的人能够看到。它的分辨率会比较低。我们仍然不知道它是否有效。它可能是危险的。所有这些都是需要注意的地方，但我确实认为它在技术所能做的事情方面向前迈进了一步。我在故事中写了这一点，但为了结束这一点，

我一生中见过四项技术奇迹。我认为iPhone是第一名，因为它推动了智能手机的发展。然后是几年前的ChatGPT、Waymo和Neuralink。首先，令人惊叹的是，我们在过去两年半的时间里看到了这四项中的三项。但这一个真的，坐在诺兰旁边和他一起玩电子游戏，这让我大吃一惊。

他打败了我，而且我没有对他手下留情。他想着他的坦克应该向我射击，坦克就射击了。这真是太了不起了。

现在，我完全同意。即使在你描述的那些奇迹中，显然，你知道，在2022年让ChatGPT以泰勒·斯威夫特的风格改写一篇严肃的论文很有趣，也很了不起。但在稍有不同的层面上，我的意思是，我认为我看到了类似的东西。

我只想再说一件事，这件事没有在故事中，也没有在节目中。所以当我们准备的时候，我有一个当地的摄制组，两个来自尤马的家伙帮助我拍摄了采访，它可以在Spotify和YouTube上观看，所以你可以观看它。其中一个摄像师说，嘿，我有癫痫病。这能帮助我吗？看到它能激发人们的想象力真是太神奇了。是的，目前确实有电子设备可以帮助癫痫患者预防癫痫发作。

但它令人惊叹的是，它打开了可能性的大门，我们不知道这将走向何方。这真是太疯狂了，用大脑控制电脑，但大脑通过电力发送信号，它有效。那么，我们休息一下，然后回来谈谈Meta的新版本，他们在智能眼镜中加入了实时AI和实时翻译。然后，也许Rondon和我将以对明年的几个预测来结束节目。好的，我们稍后回来。

我是Jessi Hempel，Hello Monday节目的主持人。在我20多岁的时候，我知道我想要什么职业。但从我现在的位置来看，在我人生的中年，没有什么感觉是确定的。工作正在改变。我们正在改变。而且没有指南来解释这一切。

所以每个星期一，我都会带给你与那些正在深入思考工作以及它在我们生活中所处位置的人的对话。我们谈论职业转型，谈论目标以及如何辨别目标，谈论幸福如何融入其中，以及如何要求更高的薪水。加入Hello Monday社区吧。让我们一起规划未来。在任何你收听播客的地方收听Jesse Hempel主持的Hello Monday。

难以满足客户日益增长的需求？借助AgentForce和Salesforce Data Cloud，您可以部署AI代理，从而解放您的团队时间，让他们更专注于建立客户关系，而不是重复性、低价值的任务。这是因为Data Cloud 将您所有的客户数据带到AgentForce，无论它存储在哪里，从而使代理能够深入了解您的客户并无需帮助即可采取行动。这就是AI的本意。请访问salesforce.com/data开始使用。

我们回到了Big Technology播客，周五版。我们今天谈了很多关于人工智能的事情。我们今天还谈到了另一个很酷的新闻，那就是Meta在其Ray-Ban智能眼镜上推出了实时AI和实时翻译，对我来说，这也是今年最令人兴奋的发布之一。这就是实时AI。

据The Verge报道，实时AI允许你与Meta的AI助手进行自然的对话，同时它会持续查看你的周围环境。例如，如果你正在杂货店的农产品区浏览商品，理论上你可以要求Meta的AI根据你正在查看的食材推荐一些食谱。Meta表示，用户每次充满电后可以使用实时AI功能大约30分钟。

这很酷。所以我想你不需要召唤Meta来拍照。它只是不断地观察你正在做什么。你将始终拥有这个环境AI层，它会看到你所看到的东西，并能够对你的视野中发生的事情做出回应。你怎么看待这个？好吧，我希望圣诞老人能送给我Meta Ray Ban眼镜。我真不敢相信你还没买到它们。我知道，不，不。我……

我的一部分仍然，我认为要按下扳机并花钱，我认为马克·扎克伯格创造了一个我戴在脸上的设备，它会观察和追踪我周围的一切，这对我来说仍然很奇怪，但我仍然非常想要它，因为我甚至也试用过朋友的一副。再次强调，实时AI方面，比如，

总是和你在一起，能够快速提问。我一直在更多地使用Meta AI，比如在WhatsApp和Facebook Messenger等应用程序中。它肯定与其他应用程序不相上下。我从未有过任何类型的

对话或做过任何真正的工作，只是问一些简单的问题。事实上，我认为如果他们不专注于回答那些现实世界的问题，而是专注于视觉线索对实际回答问题的能力，而不是

能够编写代码或其他什么，比如血栓或其他什么，会有优势。我认为这变得非常有趣，但这也是为什么，我的意思是，就我认为智能眼镜将在2025年成为一件大事而言，我已经谈到了我一直在测试的Snap Spectacles，呃，

Meta Ray Ban、Orion（如果他们真的发布的话）、谷歌正在开发的东西。对我来说，就像使用Snap Spectacles之后，让其他家庭成员甚至我的儿子使用它们并理解它，从5岁到75岁的人，

我认为XR眼镜、智能眼镜，这种外形尺寸将在2025年以一种好的方式大受欢迎。是的，而且你可以将更新推送到眼镜上，这也很酷。所以Threads上（它仍然存在）的人只是发布了一篇文章，内容是，好吧，你知道，他们有新的功能即将推出，所以我将推迟购买眼镜。我认为Andrew Bosworth回应说，听着，你可以现在就买到它们，我们会向你推送更新。你不需要新的眼镜。

我认为这只是，是的，软件和硬件集成的很酷之处在于你可以制作一些非常有趣的东西。

我不知道，我认为这将非常酷。但我对实时翻译更兴奋。这是来自故事的内容。实时翻译允许眼镜实时翻译英语、西班牙语、法语或意大利语之间的语音。你可以选择通过眼镜本身听到翻译，或者在手机上查看文字记录。你不需要预先下载语言对，也不需要指定你说的语言和你对话伙伴说的语言。

我的意思是，这有多么令人惊叹？我的妻子是德国人，我迫不及待地想等到他们添加德语支持。所以我可以戴着它们去德国，能够理解人们所说的所有内容。是的，我……

我很好奇。我实际上非常好奇它的外形尺寸方面，即使是在台湾，我妻子的家乡，我们每年夏天都会去那里，去年夏天或今年7月是我第一次多次拿出手机。再次强调，有了ChatGPT语音，我能够进行相对双向的对话。所以能够……实际上，

不过，我会说它是有限的，因为将你所说的话翻译给对方

是不可能的，而使用手机和眼镜则不同。没错。所以你可以理解，但你无法回应。而手机，如果你每说一句话后都暂停一下，你可以直接把它拿出来。它来回进行得非常好。实际上，为了给谷歌一些赞誉，我一直在测试Gemini应用程序中的语音操作。我会说，在我见过的所有这些语音Gen-AI接口中，它们的延迟最低。

Sundar在2017年关于实时翻译的承诺最终可能会成为现实。顺便说一句，这就是为什么好朋友会带两副Meta眼镜参加任何对话的原因，一副给你，一副给你的对话伙伴。你不想让他们被排除在外。好的。你必须有两副。你必须有两副。好的，让我们以每个人对2025年的一个预测来结束节目。我们已经在这里说了一些，但是……

我很想知道你为明年准备了什么，或者你认为将会发生什么。好的。我的预测，我们已经讨论了智能眼镜、代理，所有我认为将会成为大事件的事情。但我一直在思考的一件事，特别是关于生成式人工智能，就像，你还记得2020年那些美好的日子吗？当时布莱恩·阿姆斯特朗（Brian Armstrong）说要将政治排除在工作场所和科技之外？哦，是的。还记得那些吗？还记得“将政治排除在外”吗？我还活着呢。

我认为我们正在谈论的所有这些趋势，特别是人工智能，都将受到政治的严重影响。

我认为在这个节目中，我们将不得不更多地讨论这个问题。我认为人工智能尤其将成为一个核心话题。任何类型的创新，任何事情，政治都将融入到每一次对话中。立法、监管、政府干预，无论是什么，它都将变得更加重要。我认为我们现在已经开始看到这一切了。它只会……

它只会增长。好的，这是我的预测。顺便说一句，如果真的发生这种情况，那将很有趣。在节目中讨论这个问题将会非常有趣。我已经可以看到邮件涌入我们的收件箱了。但我的预测是，这是在我的，我在今天的Big Technology上做了七个预测。我的预测是，社交媒体将感觉比今天不那么重要了。

你和我实际上将在新年即将到来的与Ryan Broderick的播客中讨论这个问题，我们将讨论互联网发生了什么。但我只是认为社交媒体已经将受众分成了太多不同的平台，并且已经从关注信号（你可能对关注那些为你提供关于你所在社区新闻的人感兴趣）转变为为你服务（这完全是关于Costco员工的）。所以我们已经从当地记者变成了Costco员工，

从几个平台到一堆分散的平台，因此社交媒体不那么紧急了。这就是我对明年的预测。至少……

但我将能够满足这种需求，因为我可以随时拨打1-800-CHAT-GPT来获得多巴胺修复，需要消磨一些时间，想和喜欢我的评论和喜欢我所说的话的人交谈。所以谢谢你，1-800-CHAT-GPT。也许这只是对2025年更好的展望。这就是我需要的全部社交网络。打电话，ChatGPT。

我们展望2025年。对明年非常乐观。非常乐观。好的，Ranjan。再次感谢你。一如既往地很高兴和你交谈。好的。回头见。好的，各位。下周我们将在传统的周五时段回顾我与Brian Chesky的访谈，他将讨论清洁费和创始人模式的所有内容。然后Ranjan和我将在新年后的周五回归。感谢大家全年收听。我们下次《大科技播客》再见。

1-800-Chat-GPT, Neuralink’s Potential, Meta's Live AI 54:15 Share