今天,在《AI每日简报》中,我们将探讨OpenAI的性能测试,以及一款在AI研究领域表现优于OpenAI的AI模型。此外,ChatGPT在诊断医生方面也取得了显著进展。本简报是一个每日播客和视频节目,涵盖AI领域最重要的新闻和讨论。欲加入讨论,请查看节目说明中的链接。
回顾《AI每日简报》的头条新闻版,为您提供约五分钟的每日AI新闻摘要。今天,科学每日发布了一项非常有趣的调查研究。这项研究考察了AI是否能改进医生的诊断能力。这项研究来自U、B、A的医疗机构,对50名医生进行了测试,其中一半医生使用ChatGPT Plus进行诊断,另一半则采用传统方法,包括使用医学参考网站。
研究人员将结果相互比较,并与ChatGPT单独使用的情况进行比较。结果如何呢?使用ChatGPT Plus的医生在诊断准确率上略微优于采用传统方法的医生。
使用ChatGPT Plus的医生诊断准确率为76.3%,而采用传统方法的医生诊断准确率为73.7%。使用ChatGPT Plus的医生似乎也更快地做出诊断,平均快了45秒。然而,当ChatGPT Plus单独进行诊断时,其准确率超过92%。
这意味着ChatGPT优于人类医生,我们应该将所有事情都交给机器人医生吗?不一定。这是在受控环境下进行的测试。
研究人员提醒说,在现实生活中,临床推理还有许多其他方面需要考虑,尤其是在确定诊断和治疗决策的后续影响时。尽管如此,ChatGPT单独表现优于使用ChatGPT的医生,这表明医生需要更多关于如何使用这些工具的培训。研究人员安德鲁·帕森斯表示,我们的研究表明,AI本身可以成为一种有效且强大的诊断工具。
令我们惊讶的是,将人类医生加入混合使用ChatGPT的诊断中,实际上降低了诊断准确率,但提高了效率。这些结果可能意味着我们需要更多关于如何最好地使用AI的正规培训。接下来,我们来看看AI巨头英伟达。
最近,英伟达面临一些令人担忧的消息。据报道,英伟达已多次要求供应商更改服务器机架的设计,以解决过热问题。黑金GPU在连接在一起时会过热,而设计用于容纳多达72个芯片的服务器机架拒绝就是否已最终确定更新设计发表评论。然而,在生产流程的后期进行如此大的更改,时间非常紧迫。
据路透社报道,英伟达尚未向客户通报与重新设计相关的任何延迟。英伟达正在与主要的云服务提供商合作,作为其工程团队和流程不可或缺的一部分。工程迭代是正常的,出乎意料的,基本上是一种不作回应的否认。
不幸的是,这并非英伟达面临的唯一问题。8月份,该公司发现了一个影响制造和导致至少延迟一个季度发布的缺陷。首席执行官黄仁勋最近声称,黑金GPU单元将于第四季度开始发货,但英伟达可能需要付出巨大的努力才能达到这一目标。
ESPN正在测试一个由AI生成的播音员,名为“事实”,该播音员的虚拟形象旨在促进体育分析的教育和推广。据The Verge报道,我们尚未看到该虚拟形象的实际操作,但它听起来像是Stats和Cypher的改进版本。
ESPN此前已深入研究AI技术。早在9月份,他们就在网站上添加了由AI生成的加里·卡普斯。该技术旨在扩大对诸如女子足球等关注度较低的运动的报道。当时,评论主要集中在不足之处,包括未能识别球员退役比赛的特殊性以及评论的融合性,但这些问题在当时是可以预料的。
为了预测可能出现的负面反应,ESPN明确表示,该虚拟形象绝对不是为了取代记者,而是为了测试市场上的创新,并以一种引人入胜和令人愉悦的方式呈现给ESPN粉丝。
Toko提供了一种新颖的方法,利用AI生成诈骗电话。移动电话运营商O2推出了一款语音启用聊天机器人。他们称之为“PAI”,训练它模仿一位老年妇女,以浪费诈骗分子的时间。该聊天机器人参与了漫长的对话,尽可能地拖延时间。该聊天机器人可以向诈骗分子提供虚假的银行信息,以保持他们的兴趣,同时在关于装备、天气或其宠物等话题上进行冗长的讨论。
该聊天机器人并非供客户使用,而是直接部署在电话网络上,用于回复来自一串已知诈骗号码的来电,这些号码旨在标记国际资金转移。O2本周声称,该聊天机器人已让许多诈骗电话持续了40分钟。这是一个利用AI的最佳案例,而且可能并非空穴来风。
接下来是主要内容部分。今天的节目由Vanta赞助。无论您是刚开始还是正在扩展您的公司安全计划,展示一流的安全实践并建立信任比以往任何时候都更加重要。Vanta自动化了ISO 27001、SOC 2、GDPR以及领先的AI框架(如ISO 42001和NIST AI风险管理框架)的合规性,节省您的时间和金钱,同时帮助您建立客户信任。此外,您可以通过自动化问卷调查来简化安全审查,并通过面向客户的信任中心来展示您的安全态势。
Vanta为全球超过8000家公司提供AI支持,例如在工厂中使用AI的企业。Vanta可帮助您展示AI的信任度,并实时改进安全性。了解更多信息,请访问vanta.com/nlw。今天的节目,一如既往,由超级智能赞助。
您是否希望有一个完全专注于AI如何与您的公司相关的《AI每日简报》?您的公司是否在AI采用方面遇到困难,例如停滞不前、难以确定哪些用例能够创造价值,或者AI转型仅限于个别团队、部门和员工,而未能改变整个公司?超级智能开发了一个新的内部客户播客产品,通过分享公司内外最佳的AI用例来激励您的团队。
您可以将其视为《AI每日简报》,但仅针对您的公司和AI用例。如果您想了解更多信息,请访问super.intelligence/partner并填写信息请求表。我对这个产品非常兴奋,我会尽快与您联系。
这是super.intelligence/partner。欢迎回到《AI每日简报》。今天,我们将讨论最先进技术的现状和特征。我们将讨论谷歌Gemini在排行榜上超越其他模型的故事,并从Anthropic和OpenAI在AI研究比较中的故事开始。
但是,我想退一步,从个人和企业目前对AI的思考方式来进行背景说明。在过去的几周里,大部分讨论都集中在AI模型是否放缓、性能是否放缓,以及我们是否需要讨论一些替代的扩展方法和法律措施来应对这个问题。我认为,即使在平台达到稳定状态,模型之间的竞争也将会超越纯粹的最先进性能。这将涉及产品和用户体验。
这将涉及定制和特定任务的规范,以及访问特定企业工作流程中的特定数据和知识,从而使某些工具比其他工具更有效。我认为,我们即将看到我们思考生成式AI模型竞争方式的扩展。因此,在进入主题之前,让我们先了解一下背景。
头条新闻显示,Anthropic在测试AI模型的AI研究能力方面击败了OpenAI。这项研究来自模型评估和威胁研究(MTR)的独立研究人员,这是一个非营利组织。他们将在本周晚些时候发布对OpenAI和Anthropic模型在解决七个AI研究问题时的表现的评估。这不仅仅是一个简单的测试。
从瓦伦蒂尼时代开始,开发人员就一直被能够自我改进的强大AI的可能性所吸引。OpenAI已经开发出内部AI研究助手和工具,以帮助其研究人员更快地工作。这可能是开发能够自行开展AI研究的AI的第一步。
对于AI安全倡导者来说,自我改进的AI是完全不同的东西的指标。但关键是,人们非常有兴趣了解AI是否可以用来改进AI。在这项实验中进行的七项测试中,在五项测试中,Claude的表现优于OpenAI的模型。
他们还指出,在七项测试中的两项测试中,Claude的表现优于OpenAI的模型,而且差距很大。其中一项也是他们所说的决定性测试。对于那些试图衡量我们距离AGI(通用人工智能)还有多远的人来说,这很重要。
此外,该报告还指出,这两个模型都无法与参加相同测试的顶级人类研究人员相提并论,他们的得分是前者的两倍多。平均而言,这两个模型在七个问题中的两个问题上与普通研究人员的表现相当。
而另一个模型在另一个问题上与普通研究人员的表现相当。这些问题是什么类型?他们给出的例子是:其中一个问题涉及从头开始为语言模型编写代码,而无需使用通常用于该任务的除法或指数运算。
另一个问题涉及使用少量计算能力进行传统AI扩展定律的实验,就像OpenAI的员工可能会做的那样。该测试部分旨在为我们提供一个基准,以衡量AI发展到底进展到什么程度。
这些测试旨在让人类参与者处于不利地位。即使AI模型在这些测试中赶上了人类,这也仍然意味着这些模型的整体能力不如顶级人类研究人员。我们给AI公司时间来调整,以改进其安全性。
因此,对于那些在家中跟踪情况的人来说,AI仍然不如顶级AI研究人员,但在某些情况下,开始与普通研究人员的表现相当。现在,Anthropic在该主题上有一些小事。
Anthropic一直在努力摆脱提示工程的世界,并构建能够自动帮助人们改进提示的工具。上周末,他们宣布能够直接在Anthropic控制台中改进提示管理示例。他们表示,这些功能使利用提示工程最佳实践并构建更可靠的AI应用程序变得更容易。
提示改进功能允许开发人员获取现有提示并利用云技术,使用提示工程的先进技术自动改进它们。这对于适应最初为AI模型编写的提示以及优化手动编写的提示非常理想。因此,人们越来越要求AI帮助他们使用AI。
还有一则来自上周末的消息。谷歌DeepMind的最新模型Gemini Pro 1.14在基准测试中名列前茅。该模型已在各种基准测试中进行了测试,包括网站聊天机器人领域。
在过去的一周里,Gemini Pro 1.14的表现始终优于ChatGPT 4,在排行榜上跃升了40位,超越了之前的Gemini模型。它现在在技术和创造力方面都名列前茅,在数学和创意写作方面都领先。它还在视觉模式方面超越了ChatGPT 4,唯一没有超越的是编码,在编码方面排在GPT 4和OpenAI Reasoning模型之后。
值得注意的是,这是Gemini模型首次在基准测试中取得领先地位。该模型目前可在谷歌AI Studio网站上作为预览版使用。谷歌AI Studio的产品经理Logan Kilpatrick发布了关于新模型名称的市场调研。
谈到山姆·阿尔特曼迅速抢回聚光灯的习惯,科学家卡斯顿·汉森写道:“这是一个了解情况的好方法。OpenAI将在24小时内发布一个模型。”教授,这是莫洛克之路。
人们为什么对哪些模型最适合解决难题感到困惑?难道GPT-4、Gemini Pro 1.14和Claude Pro的名字不很明显吗?别再像我的硬盘上的文件一样命名AI模型了。
然而,关于模型本身,他写道,今天发布的新Gemini模型非常出色。我给它提交了一篇论文,要求它审查表格并评论方法。它比之前的Gemini模型做得更好,尽管之前的模型也不错。
Claude的表现接近,但没有那么出色。当然,更大的图景是,现在有多个模型在理解复杂的学术论文和潜在的定量方法方面表现出色。阅读像AP、HD这样的论文似乎对我们来说是一个非常容易理解的案例,当然,我也可以做到这一点。
顺便说一句,该分析中重要的一点是,包括在内的一些人建议过。性能看起来正在放缓的部分原因是,一旦达到九十多,我们的基准测试基本上已经饱和,几乎没有提升空间了。问题在于,我们是否仍然需要更好的基准测试?总的来说,很难不觉得我们正处于人工智能领域渐进改进的时期。
我建议,与其为此担忧,特别是如果您正在尝试将人工智能整合到您的业务中,不如利用这段时间好好思考如何利用现有的资源,这本身就足够具有变革意义了。我觉得我们不会在这个阶段停留太久,那种间断性平衡很快就会回归。不过,今天的每日简报就到这里,谢谢大家。