欢迎收听AI Unraveled带来的深度解读。本播客由Etienne Newman创作和制作。他是一位资深软件工程师,也是一位居住在加拿大的热衷足球的父亲。很高兴
很高兴来到这里。而且,如果您从这些深度解读中获得价值,并与我们一起关注AI,请花一点时间在Apple Podcasts上点赞和订阅。这真的对我们很有帮助。确实如此。今天是2025年4月18日星期五,我们将再次深入探讨。我们收集了一批AI新闻和研究公告。是的,今天的内容相当丰富。我们的使命,一如既往,是为您,我们的听众,提取最重要、也许是最令人惊讶的部分。
帮助您了解重要信息,而不会被信息淹没。而如今,潜在的淹没信息太多了。是的,节奏太快了。确实如此。我们已经筛选了很多信息。是的,创新的速度令人震惊。好的,让我们开始吧。听起来不错。感觉上,在多个方面同时取得了进展。基础模型、应用程序用户实际看到的,这一切都开始连接起来了。是的,没错。让我们从谷歌开始。他们推出了Gemini 2.5 Flash。
这引入了他们称之为“思考预算”的东西。听起来很有趣。你能解释一下吗?当然。“思考预算”。把它想象成对AI在特定任务中的处理能力设置限制。开发人员基本上可以决定模型应该进行多少思考。好的。所以更多的思考意味着更好的答案,有可能。有可能,是的。更大的预算允许更复杂的推理,也许是更高质量的结果,但是……
权衡是它可能需要更长时间,成本更高。而较小的预算。更快,更便宜。可能适合不需要超深度分析的简单请求。这完全是关于平衡质量、成本以及您需要答案的速度。对,根据工作进行调整。而这个2.5 flash在推理方面比2.0版本有所提升,我明白了。是的,报告显示……
与前代产品相比,推理能力有了相当大的提升。有趣的是,它在艰难的基准测试(推理、STEM、视觉方面)中表现良好,同时比一些竞争对手更便宜。令人印象深刻。他们提到了最大思考预算。
它。24,000个token。这在实践中意味着什么?好吧,24K个token,这为模型一次可以处理多少文本或代码以进行推理设定了上限。大约几千字。为开发人员提供了相当精细的控制。好的。人们现在已经可以使用了吗?是的。它可以通过Gemini API使用,该API通过Google AI Studio和Vertex AI提供。他们甚至在主要的Gemini应用程序本身中将其作为实验选项进行测试。
所以这里的大图景是谷歌通过允许开发人员调整AI的推理工作来提高效率和适应性。没错。更多控制。好的,让我们换个话题。网上出现了一种热潮,人们使用ChatGPT来确定照片的位置。
即使没有位置数据。啊,是的,这种趋势。真是非同寻常。人们正在使用OpenAI的较新模型,例如O3模型,来分析图片,寻找视觉线索,建筑物标志等等。即使照片的元数据(位置信息)被删除了。而AI是如何弄清楚的呢?它将这些视觉线索与网络搜索结合起来。所以它看到一个地标,搜索它,交叉引用,并且经常可以精确定位,不仅仅是区域,例如,
具体的餐馆或商店。有时非常准确。哇。这很聪明,但也让人有点不安。隐私警报响起。绝对的。是的,您关于隐私的观点在这里至关重要。事实上,AI可能从看似匿名的照片中找出你的位置,这引发了巨大的担忧。例如,人肉搜索的可能性。正是如此。
恶意使用是真实存在的风险。未经同意公开暴露某人的位置,这确实突出了认真讨论道德使用和保障措施的必要性。是的,技术发展如此之快,伦理讨论需要跟上步伐。好的,继续。有传言说Meta正在寻求亚马逊和微软对Llama的资金支持。是的,这就是报道。
这表明构建和运行这些大型AI模型(如他们计划中的Lama 4巨型模型)是多么昂贵。我们说的是巨大的计算能力,对吧?以及专业的工程师。绝对的。成本是天文数字。
所以Meta接近亚马逊和微软等竞争对手,这可能是为了分担财务负担的一种策略。特别是由于他们正在将Lama推向他们自己平台上的所有内容,Facebook、Instagram。没错。在所有地方集成它还会带来与安全调整相关的成本,确保它没有偏见,处理数据争议。所有这些加起来。因此,外部资金有助于管理这些资金,同时他们继续开发。这似乎是逻辑。
这让你想知道,为了负担尖端AI的开发,我们是否会看到更多的大型科技公司合作。随着这些模型变得越来越大,对资源的需求也越来越大,这似乎越来越有可能。是的,通过合作来分担负担可能会变得越来越普遍。有趣的时代。好的,让我们转向生物技术。ProFluent。
他们在AI蛋白质设计中发现了缩放定律。这是什么意思?对。蛋白质设计中的缩放定律。听起来很技术性,但核心思想与我们在AI其他领域看到的类似。意思是越大越好。基本上,是的。
Profluent发现,如果您使用更大的AI模型并用越来越多的蛋白质数据对其进行训练,那么在设计复杂的蛋白质(如抗体或基因编辑器)方面的结果会得到可预测的改善。他们已经建立了一个大型模型来证明这一点。一个非常大的模型。460亿个参数,在34亿个蛋白质序列上进行训练。该数据集非常庞大,远大于以前用于此目的的数据集。它有效吗?他们设计了有用的东西吗?显然,是的。
他们已经成功设计出与一些现有药物疗效相当的新型抗体。但至关重要的是,它们的结构差异足够大,可以避免专利问题。好的,这很重要。还有什么吗?他们还创造了比CRISPR-Cas9(著名的基因编辑技术)更小的基因编辑蛋白质。更小的尺寸可能意味着更容易将这些工具输送到细胞中进行治疗。哇,这对基因疗法来说可能意义重大。他们会将这项技术锁起来吗?实际上,不会。
他们非常开放。他们正在通过许可协议发布20种开放抗体,一些免版税,一些有预付款,针对影响数百万人的疾病。这是一个伟大的倡议。确实如此。其目标是更快地将这些潜在工具推广出去。因此,这里的要点是AI真的开始加速药物研发、合成生物学,这可能是具有变革意义的事情。绝对的。一场潜在的革命正在酝酿之中。好的,让我们回到对许多人来说可能更易于使用的东西。
谷歌表格中的AI。他们添加了一个AI公式。他们添加了。它位于“帮助我整理”横幅下,但核心是一个新函数,AI。您可以将其放在单元格中,然后给出提示。例如什么提示?任何提示都可以。总结这段文字,从这一列中提取电子邮件地址,根据客户反馈撰写感谢信。您还可以指向其他单元格以获取上下文。
所以AI,总结一下,A1.A10之类的东西。没错。它设计得很简单。您键入公式,给出说明,它就会在单元格中生成输出。您可以像拖动它来应用于多行吗?是的。就像普通的Sheets公式一样。拖动填充句柄,它会分批处理。
那里有巨大的省时潜力。不错。您可以将其与其他函数(如IF语句)结合使用吗?您可以。您可以将AI函数嵌入到标准Sheets函数中,例如连接您需要的任何内容以执行更复杂的任务。如果您的源数据发生变化,则还有一个刷新和插入选项。好的,这使得AI对于电子表格任务更实用。
节省时间,也许提高准确性。目标是使其成为日常工作流程的一部分。现在,让我们继续关注大型企业,Meta的研究部门FAIR一直在忙于感知AI。有什么新消息吗?MetaFAIR正在突破AI理解视觉世界的能力界限。他们的新型感知编码器显然正在创造新的记录,达到最先进的性能。在哪些类型的任务中?例如发现伪装的动物,这非常棘手。
或跟踪视频中复杂的运动,非常细致的视觉理解。令人印象深刻。他们也发布了模型,一个感知语言模型。是的,他们开源了Meta感知语言模型PLM,以及一个名为PLM VideoBench的基准,专门用于测试视频理解能力。以及一些关于3D理解的内容,Locate3D。对。它专注于三维空间中精确的对象理解。
他们还发布了一个大型数据集,其中包含13万个空间语言注释,对空间中物体位置的描述,
以帮助训练用于此目的的模型。所以真的深入研究如何让AI更好地理解空间和运动以及AI协作。正确。他们开发了一个名为协作推理器的框架。他们发现,让多个AI系统一起解决问题比一个AI单独工作产生的结果要好得多。有趣。就像AI团队合作。有点像,是的。所有这些都表明,更好的AI适用于机器人技术、增强现实等方面。
任何理解现实世界都是关键的地方。绝对为这些领域的更强大应用程序铺平了道路。好的,回到OpenAI。两个新模型,O3和o4 Mini。有什么区别?所以O3现在被定位为他们顶级推理模型。它旨在在给出答案之前进行更多思考,更复杂的分析。重量级到o4 Mini。那个更小、更快、更高效。它大约是平衡成本、速度和能力。
适合不需要绝对最大推理能力的更广泛的任务。而两者的一个关键特性是现在可以理解图像,例如草图。是的,这是一大步。O3和o4 Mini显然都可以接收视觉输入、草图、白板照片,
并将这些纳入它们的推理中,多模式理解。他们仍然可以访问网络浏览、编码等功能。是的。完整的ChatGPT工具套件可供他们使用,浏览、运行Python代码、生成图像。
使其非常通用。现在谁可以使用这些?它们正在向特定订阅层级推出,也可以通过开发者API使用。因此,对于最高性能需求,O3是一个更实用、更高效的选项。因此,OpenAI正在推动推理能力和这种多模式视觉能力。
好的,让我们谈谈手机上的AI。Perplexity AI正在采取行动。没错。Perplexity AI将自己定位为一种AI驱动的搜索引擎或答案引擎,它与摩托罗拉达成了协议。什么协议?将Perplexity AI助手预装在即将推出的摩托罗拉智能手机上。
据报道,他们还在与三星讨论类似的集成。预装,所以直接与Android手机上的谷歌Gemini竞争。这似乎是策略。将Perplexity定位为内置替代方案。
根据报道,摩托罗拉协议比三星谈判更接近最终确定。有趣。因此,我们很快可能在手机上拥有更多默认AI助手的选择。可能吧。移动AI领域竞争加剧,最终可能导致更好的用户选择。是的,竞争通常会推动创新。现在,说到竞争和重大举措,OpenAI可能收购Windsurf以
30亿美元。是的,这是一个巨大的报道数字。Windsurf(以前称为Codium)以其AI编码助手而闻名。对。
对,编码辅助工具。没错。WinServ的工具可在许多不同的编码环境中工作,并且他们非常重视企业数据隐私。显然,他们的年收入约为4000万美元。那么,为什么OpenAI想要他们呢?只是为了更多地进入编码辅助领域吗?这肯定会大大增强他们在该领域的 capabilities,当然。它为他们提供了一个成熟、受人尊敬的产品,以及在与微软的Copilot和谷歌的开发者产品竞争中更强大的立足点。
那么,这在面向开发人员的AI市场中是一场重大的战略性竞争吗?如果这笔交易达成,绝对是。好的。另一场平台之争。
Meta显然在其应用程序中阻止了Apple的智能功能。是的,这刚刚出现。Meta据报道正在禁用Apple的新AI功能,即写作工具、Genmoji创作,在iOS上的Facebook、Instagram、Threads、Messenger、WhatsApp中。因此,如果您在iPhone上使用Instagram,您将无法使用Apple内置的AI写作帮助。这就是理解。
这些特定的Apple智能工具在Meta的应用程序中将无法访问。有没有给出原因。Meta没有给出具体的公开理由。
推测指出,同时希望推广他们自己的Meta AI助手,并且可能还有Meta和Apple之间过去分歧造成的持续摩擦。对。竞争紧张局势正在上演,可能以牺牲iOS用户的便利性为代价?它确实突出了AI领域的这些紧张关系。好的,现在让我们转向微软。Copilot Studio有一个名为Computer Use的新功能。听起来很广泛。它能做什么?它非常广泛,而且可能功能强大。
此功能允许使用Copilot Studio构建的AI代理直接与网站和桌面应用程序交互。如何?例如控制鼠标和键盘?基本上,是的。模拟人类行为,单击按钮,选择菜单,将文本键入字段。最大的优势是自动化那些没有API供AI直接连接的系统上的任务。因此,您可以自动化旧版遗留软件上的内容。没错。那些没有现代集成点的东西。
而且它应该能够通过推理来处理界面上的微小变化,例如如果按钮移动。- 这很聪明。处理发生在哪里?隐私问题。- 微软表示,所有处理都在其基础设施上进行,至关重要的是,使用此功能的企业数据不用于训练其AI模型。
解决了企业的隐私和安全问题。好的,因此这可以真正帮助企业自动化数据输入、发票处理等任务,即使是在旧系统上。这就是想法,使自动化更容易实现,即使没有API。现在,一些不同的事情,在您自己的计算机上私下运行AI,我们听到更多关于这个的信息,人们为什么要这样做?主要原因是隐私和数据控制。当您在自己的机器上本地运行AI模型时,
您的提示和AI的响应通常不会离开您的计算机。没有数据发送到外部服务器。对。将所有内容都保留在内部。人们为此使用什么工具?
有一些流行的选择。GPT-4 All就是一个。All Llama是另一个广泛使用的工具,尤其适合命令行用户。LM Studio在All Llama等工具之上提供了一个不错的图形界面。这些适用于普通计算机,Mac、Windows、Linux。是的,它们是为标准操作系统设计的,通常在不错的消费级硬件上运行。您不一定需要超级计算机,尽管更好的硬件有助于使用更大的模型。开始有多难?它变得越来越容易了。
使用LAMA或LM Studio,通常是下载软件,下载AI模型文件。有很多开源模型可用。然后您可以开始与它聊天,无论是在终端还是通过LM Studio界面。主要的事情是将模型大小与计算机的性能相匹配。没错。较小的模型在较旧或较弱的机器上运行效果更好。
但这确实将强大的AI功能带到了人们的触手可及之处,同时保持了您的数据私密性。对于个人控制来说,这是一个重要的发展。好的,让我们来看看Anthropic的Claude,新的研究功能。是的,Claude在查找信息方面变得越来越聪明。这个新的研究功能允许它自主搜索公共网络和用户的内部公司文档或资源。自主地。所以你问一个问题,它就去寻找。差不多吧。
它的目标是提供全面的答案,重要的是,它会引用其来源,无论是网页还是内部文档。以及与工作工具的集成。这里的一个重点:与Google Workspace集成。
因此,Claude可以访问您的Gmail、Docs、Sheets、Calendar,上下文相关,而无需您手动上传内容。这使得它的帮助可能更相关。这听起来对工作非常有用。谁可以使用这个?主要研究功能目前在美国、日本和巴西的Mac、Team和Enterprise计划中处于测试阶段。
但Google Workspace集成正在向所有付费Claude用户推出。因此,Claude正在成为一个更积极主动、更了解上下文的信息助手。
提高生产力。这绝对是他们前进的方向。现在,说到信息来源,维基百科正在为AI开发者发布数据集。没错。他们已与数据科学平台Kaggle合作,发布了一个基于维基百科内容的精选数据集。他们为什么要这样做?为了阻止人们抓取他们的网站?这是其中一部分。他们希望提供一个高质量的、结构化的替代方案,以替代那些试图抓取数据的机器人,这些机器人正在猛烈攻击他们的服务器。
希望这能促进更道德的AI发展,并减少对其基础设施的压力。负责任的举动:为开发人员提供良好的数据,同时保护其资源。没错。双赢,希望如此。好的,现在是一个警示故事。一个AI支持代理编造了一个策略。是的,这涉及到一家名为Cursor的公司。他们制作AI编码工具。
他们的AI支持助手在与用户互动时显然编造了一个策略,只是凭空想象出来的。哎哟。这对客户信任不利。一点也不。该公司道歉,将此归咎于高负荷下的模型幻觉,但这确实强调了让AI无人监督地与客户互动的风险。对。
需要安全措施、人工监督,尤其是在处理策略等重要事项时。绝对的。这提醒我们,这些系统并非完美无缺,需要在面向客户的角色中进行谨慎管理。好的。对于学生来说,这是一个好消息,谷歌正在赠送AI高级版。是的。对学生来说,这是一个相当大的新闻。
谷歌正在为拥有经过验证的.edu电子邮件的大学生免费提供其AI高级版订阅,其中包括Gemini Advanced、1.5 Pro模型、Docs的Gmail集成以及所有AI工具。免费?直到什么时候?直到2026年春季。这通常每月要花费约20美元的订阅费用。哇,这很慷慨。谷歌的策略是什么?可能是在投资用户的未来方式。让学生尽早地在他们的教育和潜在职业生涯中熟悉并依赖他们先进的AI工具。
明智的长期战略。绝对会将他们的工具交到未来专业人士手中。
好的,还有一个研究项目。麻省理工学院正在研究如何让AI编写语法更好的代码。是的,麻省理工学院的研究人员有一种新技术。它主要是关于指导大型语言模型在生成代码时更可靠地遵循编程语言语法规则。是关于重新训练模型吗?不,这是有趣的部分。它不需要重新训练。它使用巧妙的提示策略,可以与不同的模型一起工作,与模型无关。
旨在提高代码生成的准确性以及正确格式化数据(如JSON)等方面。更少的错误AI生成的代码将对开发人员有很大帮助。绝对的。减少语法错误意味着更可靠的代码、更好的开发人员生产力,这可能是重大的改进。好的,哇。太多了。在我们结束之前,让我们快速回顾一下其他一些值得注意的事情。当然。因此,OpenAI的O3模型在Mensa智商测试中得分136分,高于Gemini 2.5 Pro的报道得分。
加州大学伯克利分校的聊天机器人竞技场分拆成自己的公司,Elmarina。对。我们提到了Perplexity的摩托罗拉协议和三星谈判。是的。以及XAI的Grok获得了内存和工作区功能。阿里巴巴发布了该开源模型WAN 2.1,用于根据两张图像制作视频。这听起来很酷。Deezer每天报告有20,000多首AI歌曲上传,并对其进行过滤。
而且OpenAI在Windsurf谈判之前显然考虑过收购Cursor的创建者AnyFear。伙计,它永不停歇。各方面的速度都令人难以置信。确实突出了当前AI领域的活力和广度。确实如此。而且,如果驾驭这一切感觉令人生畏,或者如果您想为这个AI驱动的世界提升技能,我确实想再次向Etienne的AI驱动的JamGift Tech应用程序致敬。很好的提醒。
是的,它旨在帮助任何人掌握并实际通过50多种热门认证,云计算、金融、网络安全、医疗保健、商业,等等。如果您认真考虑利用这些变化来提升您的职业生涯,请务必查看Jamgat Tech应用程序。链接在节目说明中。因此,从所有这些个体发展中退一步来看,我们看到的纯粹的集成。
电子表格中的AI、帮助设计药物的AI、手机上的AI。是的。它引发了一个更大的想法,不是吗?确实如此。也许这是我们今天听众的最终想法。随着AI更深入地融入我们的工具、设备,甚至可能通过蛋白质设计融入我们的生物学。
对隐私的长期影响是什么?当然。但对于人机协作、我们的工作方式、我们的生活方式也是如此。是的。社会如何适应和塑造它,以及它如何塑造我们?有很多值得思考的地方。绝对值得思考。好吧,再次感谢您加入我们,对AI的旋风世界进行深度解读。我们希望这有助于理解一些关键的变化。一直很荣幸。直到下次深度解读。