欢迎收听AI Unraveled的深度解读。本节目由Etienne Newman创作和制作。他是一位资深软件工程师,也是一位热情的加拿大足球爸爸。很高兴再次回归。嘿,如果您喜欢这些深度解读,如果您觉得它们很有价值,请花一点时间在Apple Podcasts上点赞和订阅。这真的对我们很有帮助。确实如此。而且,你知道,人工智能的步伐……
它并没有放慢,是吗?感觉每周都有源源不断的新闻突破。有时让人不知所措。是的。这正是我们这样做的原因。我们试图消除噪音。对。本周我们查看了大量来源。我的意思是,从超级节能模型,呃,
到机器人赛跑,甚至人工智能撰写新闻文章。是的,真是五花八门。因此,我们的使命一如既往的是提取最重要的部分,为您连接这些点,让您感觉自己了解了更大的图景,而不会淹没在细节中。没错,这是关于背景的。本周确实展现了创新的速度,但也出现了一些非常有趣的挑战。好的,让我们开始深入探讨吧。首先引起我注意的是Microsoft BitNet B1.58更新。
他们一直称它为单比特AI模型。这是什么意思?单比特在这里究竟意味着什么?它并非字面意义上的一个比特,但核心思想是激进的效率。通常这些大型AI模型需要大量的电力,对吧?专用硬件,GPU。
大量的能量。对,昂贵的东西。没错。这种单比特方法,每个参数只使用1.58比特,这非常小。它极大地简化了AI存储和处理信息的方式。好的。事实胜于雄辩。它可以在标准CPU上运行,甚至包括苹果M系列笔记本电脑中的CPU。这就是我们所说的效率。
哇。好的。他们提到什么?高达96%的节能?是的。令人震惊。是的。而且它也很小,对吧?0.4千兆字节。适合笔记本电脑。它仍然表现良好。它有大约20亿个参数,在4万亿个标记上进行训练。这些听起来仍然是天文数字。它们是重要的数字。它显示了模型设计的巧妙之处。研究人员正在寻找方法来获得类似的性能,但是,你知道,更精简,更环保。因此,这里的大图景影响是可及性。
民主化。我认为是这样。它确实有可能。想象一下,强大的AI运行在日常设备上,不需要巨大的数据中心或消耗大量的能量。这改变了一切。好的,但还有另一面。来自OpenAI关于其新的推理模型03和04 Mini的消息。它们应该更聪明,更擅长推理。是的,这是目标。但有一个问题。它们似乎犯了更多错误。
更多的幻觉,正如他们所说的那样。这是真正有趣,也许略微令人担忧的部分。OpenAI自己的测试显示,幻觉有了相当明显的增加。哇,有多少?好吧,在一个基准测试Person QA中,O3有33%的时间出现幻觉。这是之前模型O1的两倍。而4 mini更高,达到48%。哇。所以它们推理能力更好,但准确性更低。
这感觉是反过来的。确实感觉违反直觉,不是吗?你会认为更聪明意味着更可靠。是的。令人着迷或可能令人担忧的是,研究人员承认他们并不完全理解为什么会发生这种情况。我们对这些模型如何发展推理能力以及为什么它有时会与事实准确性权衡的理解
仍然不完整。也许就像它们越来越擅长连接点一样,它们有时会连接实际上不存在的点。这是一个合理的理论。它们可能越来越擅长推理,但也更容易偏离训练数据。那么,对我们的启示是什么?我们得到了更聪明的AI,但也许我们必须更频繁地仔细检查它。它确实突出了对一致性和安全措施的需求。随着AI变得越来越强大,确保它的真实性和可靠性就变得更加关键。
它表明进步并非总是线性的。你知道,突破一个界限可能会在其他地方造成挑战。好的,让我们换个话题。地缘政治和AI芯片。听起来美国芯片制造商对中国感到紧张。是的,确实存在担忧,特别是关于在中国的AI领域失去市场份额给华为。因为美国政府的新贸易限制。没错。美国限制了先进AI芯片的销售,特别是来自英伟达等公司的芯片到中国,是
而这,嗯,创造了一个机会。华为介入的机会。这就是担忧所在。华为在中国非常庞大,他们可能会填补美国公司留下的空白。我听说甚至还在调查这些出口规则是否被违反。
听起来很棘手。非常微妙。一些分析人士认为,这些限制实际上可能会促使华为更快地开发自己的先进芯片。从长远来看,它甚至可能刺激全球竞争。因此,全球政治正在直接塑造AI硬件市场。绝对如此。它正在重塑整个格局,可能会在这个非常关键的领域创造新的领导者。好了,现在让我们谈谈一些完全不同的事情。机器人。
人形机器人在中国跑半程马拉松。这听起来像是科幻小说。它确实抓住了人们的想象力。是的,21个类人机器人与人类一起在北京跑步。他们做到了吗?他们完成了比赛吗?其中一个完成了。天工Ultra完成了全部21公里,用了2小时40分钟,这相当令人印象深刻。这比我快多了。
但我猜并非所有都完成了。没错。其他一些机器人遇到了困难。这表明这项技术还处于早期阶段。你知道,在现实世界中导航这么长时间,对机器人来说很难。当然。但它甚至发生了,它确实展示了中国在机器人和人工智能方面的努力。他们不怕公开测试这些界限。好的,让我们转向商业方面。
强生公司查看了他们的AI项目,并发现了一些关于价值的有趣之处。是的,这很有见地。他们发现,只有大约15%的AI用例实际上带来了80%的总价值。经典的80-20规则,但适用于AI。
差不多。这表明,在最初的广泛实验阶段之后,公司正在变得更加战略化。强生公司在供应链优化、制造自动化和研发方面看到了最大的影响。所以他们正在重新聚焦。
把他们的资源放在他们能获得最大回报的地方。有道理。确实如此。它可能也预示着更广泛的趋势,对吧?从仅仅尝试使用AI转向真正针对可以看出明确投资回报率的特定领域进行部署。更少地散弹枪,更多地关注战略。说到尝试,一家意大利报纸采取了相当大胆的举动。他们让
人工智能成为整版报纸的编辑。是的,这是一个引人入胜的实验。整版报纸都是由人工智能撰写和策划的。结果如何?显然,人类编辑们印象深刻。他们说人工智能展现出令人惊讶的讽刺理解能力,甚至提供了细致的评论。鉴于我们关于幻觉的讨论,是否担心准确性?
虚假信息。绝对如此。赞扬的同时也提出了警告。它确实突出了这种张力,不是吗?人工智能的能力越来越强,甚至在写作和编辑等创造性角色中也是如此。是的。但它也把关于真实性、信任和人工智能传播虚假信息的风险的整个辩论重新带到了最前沿,尤其是在新闻领域。好的,让我们谈谈就业市场。似乎人工智能也在那里造成了麻烦,但方式不同。
虚假求职者。是的,招聘人员正在看到这种情况大幅增加。人们使用人工智能生成相当令人信服的简历和求职信。我敢打赌,是根据职位描述量身定制的。没错。而且它更进一步。用于面试的AI语音化身,虚假的职业历史,甚至是AI生成的投资组合。哇。
这使得招聘变得极其困难。你怎么分辨谁是真实的?它确实使审查候选人变得非常复杂。这意味着,嗯,雇主现在可能需要的不仅仅是简历和面试。例如,用于申请的AI检测工具。这很可能是其中的一部分。当人工智能可以如此轻松地伪造证书时,开发验证技能和经验的新方法变得至关重要。
这对人力资源部门来说是一个新的挑战。好的,在这里快速暂停一下。如果您觉得这个深度解读有用,也许您正在考虑提升自己在技术或商业方面的技能。说得对。那么,您应该查看由我们的制作人Etienne创建的JamGatek应用程序。它使用人工智能帮助您学习并通过50多种不同的专业认证考试。云计算、网络安全、金融、医疗保健,应有尽有。人工智能在学习中的实际应用。没错。如果您想了解更多信息,链接在节目说明中。
好的,回到新闻。谷歌的Gemini 2.5 Flash,它有一个叫做“思考预算”的东西。
听起来很有趣。这是一个巧妙的概念。基本上,它允许开发人员控制AI为特定任务投入多少计算工作。所以你可以调高或调低?正是如此。对于简单的任务,使用较小的预算,节省资源,获得更快的答案。对于复杂的问题,增加预算以进行更深入的思考。这是关于优化性能与成本和速度之间的关系。聪明。就像有效地分配脑力一样。
有点像,是的。而且显然,即使它是为效率而设计的,Gemini 2.5 Flash也显示出比之前的版本有了很大的推理改进。这种细粒度的控制可以使AI在整个领域变得更具适应性和成本效益。现在,下一个感觉有点令人毛骨悚然。人们使用ChatGPT来找出照片拍摄的地点,即使没有位置数据。是的,这种趋势确实让人担忧。用户上传照片,询问ChatGPT,这是哪里?人工智能会分析视觉线索。例如什么?建筑物?
没错。建筑、植被、路标、汽车。
它将这些线索拼凑在一起,搜索网络,并对位置做出令人惊讶的准确猜测。好的,技术上令人印象深刻,但是的,令人不安。那里有主要的隐私风险。巨大的风险。它确实显示了人工智能可以从看似无害的数据中推断出多少信息。它强调了对隐私保护措施和道德使用的认真讨论的需求,不是吗?让你对你在网上分享的照片三思而后行。绝对如此。
好的,让我们再次看看金钱方面。据报道,Meta正在向亚马逊和微软寻求帮助,为他们的大型语言模型Llama提供资金。是的,这个故事确实突显了开发这些尖端大型语言模型的成本是多么高昂。我的意思是,Meta非常庞大。
如果他们在寻求帮助。它告诉你一些事情,对吧?计算能力、海量数据集、专业工程师,所有这些加起来都是一笔巨大的成本。因此,Meta向竞争对手伸出援手表明,也许伙伴关系正在变得必要。这似乎很可能。我们可能会看到更多合作,甚至在竞争对手之间也是如此,只是为了分担保持AI研发前沿的财务负担。好的,转向科学。一家生物技术初创公司ProFluent发现了AI和蛋白质设计中的规模定律。
这对医学意味着什么?这对于药物发现和合成生物学来说可能非常重要。Proflint发现,就像语言模型一样,使蛋白质设计AI模型更大并在更多数据上进行训练会导致可预测的更好结果。所以更大对于设计蛋白质也更好。似乎是这样。他们最新的模型有460亿个参数,在34亿个蛋白质序列上进行训练,显然正在非常有效地设计抗体和基因编辑器等东西。
而且他们正在分享一些开放的抗体。是的,他们正在公开一些设计。这可能会极大地加快研究速度,使设计用于特定工作的蛋白质(新药、基因疗法,甚至新材料)更快、更便宜。它具有变革性的潜力。
哇。甚至电子表格也不受AI的影响。Google Sheets现在有一个AI公式。没错。AI公式和“帮我整理”功能。它基本上将AI智能直接带入您的电子表格。它能做什么?例如生成文本摘要、分析数据趋势、创建自定义输出,基本上是自动化任务并帮助您更轻松地管理数据。所以就像一个内置的数据分析师助手?
差不多。它的目标是节省在枯燥工作上的时间,提高准确性,并使更多人更容易地进行数据工作。好的。Meta的研究部门Fair也很忙。
AI感知方面的新东西,理解世界。是的,他们正在努力改进AI感知和理解其环境的方式。他们有一个新的感知编码器,在视觉任务上表现良好。而且他们发布了开源工具。对。Meta感知语言模型PLM和PLM VideoBench,以及用于更好地理解对象的工具,如Locate3D。这是基础工作,真的。更好的机器人、更好的增强现实AI所需的东西。
真正能够感知和与物理世界交互的AI。我们谈到了OpenAI的03和04 mini推理,但你提到它们现在也可以处理图像了。是的,这是一个关键的升级。它们不仅仅处理文本。它们可以查看图像、草图、图表并将这些视觉信息纳入它们的推理中。并使用ChatGPT工具。没错。它们可以浏览网络、运行代码、生成图像,所有这些都集成在一起。这使得它们成为更通用、更强大的多模态助手。
而且这些助手越来越多地出现在手机上。摩托罗拉上的Perplexity AI,也许三星很快也会出现。是的,这对Perplexity来说是一个重大的战略推进。预装在手机上,直接与谷歌Gemini竞争。因此,移动AI领域的竞争更加激烈。看起来是这样。为用户提供更多选择,这通常会推动创新。移动AI领域似乎正在升温。说到交易,OpenAI可能会收购Windsurf。
一家代码助手公司,价格为30亿美元。这是报道。如果发生这种情况,这将是OpenAI有史以来最大的一笔收购。它清楚地表明,AI编码正成为一个主要的关注和竞争领域。
但并非所有人都相处融洽。Meta在其iOS应用程序上阻止了一些Apple智能功能。是的,这是一个有趣的举动。在Facebook、Instagram和WhatsApp中禁用Apple的写作工具和Genmoji等功能。他们为什么要这么做?好吧,推测是他们想推广他们自己的Meta AI功能。此外,你知道,Meta和Apple之间一直存在竞争压力。但这确实会影响iPhone用户。微软的Copilot Studio有一个新的计算机使用功能,AI,它实际上可以……
使用你的电脑。有点像,是的。它允许AI代理通过模拟点击和键入来与网站和桌面应用程序交互,就像人类一样。即使在没有API的旧系统上也是如此。这是关键优势。自动化数据输入或发票处理等任务,这些任务在不容易连接的系统上进行。
微软强调处理是安全的,企业数据不用于培训。对于担心隐私的人来说,你提到了在本地运行AI。绝对如此。像GPT-4 All和Alama这样的工具允许您在自己的机器上离线运行AI聊天机器人。因此,您的数据完全保持私密。没错。您下载工具,下载模型,然后聊天,没有任何东西离开您的电脑。对于普通用户来说,这正变得越来越可行。Anthropic Cloud也变得更智能了。自主研究能力。
Google Workspace集成。是的,Claude的重大升级。一个新的研究功能允许它自行搜索网络和内部公司文档。并从您的Gmail、Docs和Sheets中提取信息。对。Google Workspace集成让它对您正在处理的内容有了更多的了解。它将Claude定位为一个非常强大的上下文感知助手,尤其是在企业中。
它现在正在为某些计划推出测试版。在道德方面,维基百科正在通过Kaggle向AI开发者提供一个合适的dataset,以停止抓取。这是一个明智的积极举动。维基媒体基金会提供了一个高质量的结构化数据集,而不是机器人猛击他们的服务器。有利于道德AI训练。有利于维基百科的资源。没错。鼓励负责任的开发并保护他们的基础设施。双赢。但AI仍然会出错。
关于光标支持代理发明虚假策略的故事?哎呀,是的。一个明显的例子是AI幻觉造成了实际问题。该公司不得不道歉。这是一个提醒,不是吗?你不能仅仅让这些东西无人监管地运行,尤其是在与客户交谈时。绝对不行。它突出了对安全措施和人工监督的需求,尤其是在关键角色中。我们还没有达到……
设置并忘记的阶段。谷歌正在为大学生免费提供其AI高级计划。是的,这是一个相当大的举动。拥有.edu邮箱的学生可以免费访问Gemini Advanced、Gemini 1.5 Pro、Workspace集成,基本上是顶级的东西。投资下一代用户,我猜。似乎是这样。让他们尽早使用谷歌的AI工具。这绝对可以帮助学生完成他们的工作。最后,麻省理工学院的研究人员找到了一种方法,可以使AI更好地编写代码。
无需重新训练。是的,一种新的技术,使用巧妙的提示来引导LLM更准确地遵循编程语法。因此,AI生成的代码中错误更少。这是目标,使AI编码助手更可靠,这将对开发人员有很大帮助。哇,我们涵盖了这么多的内容。而且那还不是全部,是吗?本周还有很多其他新闻。绝对无情,只是随便说几个。OpenAI的O3通过了智商测试,Lorena成为了一家独立的公司,我们提到的Perplexity手机交易。
XAI的Grok获得了内存和工作区,阿里巴巴新的开源视频模型。这些是过滤AI歌曲,OpenAI可能收购另一家公司,AnySphere可能正在构建一个社交网络。英伟达因中国的限制而遭受了55亿美元的损失,Anthropic传闻,VoiceAI,Grok Studio,用于视频图像生成的Kling AI 2.0,用于构建个人数据分析师的模板。AI扮演侦探,王牌律师,有点像。嗯。
特朗普AI计划可能推迟。人类不擅长发现深度伪造的声音。Hugging Face收购了一家机器人初创公司。ChatGPT获得了图像库。OpenAI推出了GPT 4.1。苹果分析用户数据私密性的计划。使用AI幻觉进行的斜坡蹲伏攻击。字节跳动的Seaweed7B视频模型。谷歌试图用AI与海豚交谈。谷歌AI工作室分支功能。
OpenAI关于安全和库的更新。XAI在工作室中推出Grok内存。Cohere发布了嵌入,谷歌发布了VO2。英伟达在美国的第一个AI制造工厂。OpenAI可能将O304 mini的目标定为科学理念。是的。Andy Jassy谈论GAI,Meta的欧盟数据培训计划。Hugging Face收购Pollen Robotics,Ricci2。LM Arena搜索排行榜。
Palantir的北约合同,SSI的大规模融资,AI在结核病诊断方面击败专家。XOpenAI员工的反击,AI领导外联工具,英伟达在美国建造超级计算机,更多关于谷歌的海豚AI。AI动作人物趋势,谷歌英伟达投资SSI,DeepSeek v3已弃用,
高中生用AI发现太空物体,Maverick排名靠前的Llama。DeepMind首席执行官关于组合模型的观点。Netflix可能正在使用OpenAI进行搜索。OpenAI的已验证组织状态。马斯克的XAI推出内存。太多了。
太多了。确实如此。因此,关键要点。AI效率正在大幅提高,例如BitNet。但像OpenAI的0304这样的推理进步带来了可靠性挑战,即幻觉。对。地缘政治正在严重打击芯片市场。AI正在融入一切。机器人、新闻、工作、电子表格,企业正在变得更聪明。关注AI的实际价值,即投资回报率。隐私和伦理是贯穿始终的关键线索。
没错。因此,对于所有收听的人来说,这些事情中哪一件感觉会对您的工作、您的生活产生最大的影响?有很多东西需要思考。也许最后留给你的一个想法。随着AI像这样不断加速,变得更加集成,我们作为个人、作为公司、作为社会,
我们如何最好地为未来做好准备?一个大问题。绝对如此。嘿,准备的一种方法是提升你自己的技能。别忘了查看Etienne的AI驱动的Jamgat Tech应用程序。它可以帮助您掌握云计算、金融、网络安全、医疗保健、商业等方面的认证。非常有用。链接在节目说明中。好的提醒。非常感谢您今天与我们一起深入探讨。继续探索这个迷人而快速发展的人工智能世界。下次再见。