DeepSeek R1主导了本周的讨论,但它是否应该是你正在使用的模型?NLW阅读并讨论了Ethan Mollick一篇主观的文章,并补充了他自己对使用哪些模型的看法。 原文:https://www.oneusefulthing.org/p/which-ai-to-use-now-an-updated-opinionated 为您带来: KPMG – 请访问 www.kpmg.us/ai 了解更多关于KPMG如何帮助您利用我们的AI解决方案创造价值的信息。 Vanta - 简化合规性 - https://vanta.com/nlw Superintelligent提供的Agent Readiness Audit – 请访问https://besuper.ai/ 以请求您公司的代理准备情况评分。 AI每日简报帮助您了解AI领域最重要的新闻和讨论。 订阅AI每日简报的播客版本,无论您在哪里收听:https://pod.link/1680633614 订阅时事通讯:https://aidailybrief.beehiiv.com/ 加入我们的Discord:https://bit.ly/aibreakdown
<raw_text>0 今天的AI每日简报,关于你现在应该使用哪个AI。AI每日简报是一个关于AI领域最重要的新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。♪
大家好,欢迎回到AI每日简报的另一期深度阅读节目。本周的大主题当然是DeepSeek。有很多关于DeepSeek和美国竞争力的评论文章,但我实际上想在这个周日的深度阅读中采取 slightly different direction。我感觉我们中的一些人可能有点DeepSeek疲劳了。此外,这次谈话仍然大致一致,只是可能没有那么直接。
DeepSeek讨论的一个重要部分是R1模型与其竞争对手(特别是OpenAI的O1)相比如何。我们本周报道的大部分内容是公司如何转向使用R1。因此,我认为阅读Ethan Malek教授的《现在应该使用哪个AI?》这篇更新后的主观指南会很有趣。Ethan称这是他被问到最多的问题。你实际上应该使用哪个AI?不是五年后,也不是在某个假设的未来,而是在今天。
大约每六个月,他都会更新这份列表。所以这是最新的,包含DeepSeek版本的。所以我们要做的就是把它交给AI.me来阅读Ethan的文章。然后我会回来谈谈我对这个问题的看法以及如何使用不同的模型。关于AI.me的一点说明,我最近收到越来越多的反馈,说语音模型有一些问题。我实际上将进行另一轮训练我的语音的AI版本,看看是否能改进,因为我已经使用这个版本一年多了。
不过,至少在本期节目中,我们仍在使用旧模型,所以如果有什么奇怪的地方,我提前道歉。但是让我们来看Ethan的文章,然后我会回来讨论我对这个问题的答案。现在应该使用哪个AI?一篇更新后的主观指南。
虽然我的上一篇文章探讨了通用人工智能竞赛,这个话题最近因对构建新AI的阿波罗计划规模的资金承诺而成为头条新闻,但今天我要解决我被问到最多的一个问题。你实际上应该使用哪个AI?不是五年后。不是在某个假设的未来。今天。
大约每六个月,我都会为个人AI用户编写一份主观指南,而不是专门针对任何一种用途,而是作为一般性概述。撰写这篇文章越来越具有挑战性。AI模型的能力正在以越来越快的速度提高,新公司正在发布新模型,而且没有任何东西得到很好的记录或理解。事实上,在我撰写这篇草稿的几天里,由于新版本的发布,我不得不添加一个全新的模型并多次更新下面的图表。
因此,我可能会出错,或者你可能不同意我的答案,但这就是为什么我认为它是一份主观指南。但需要提醒的是,我没有从AI实验室获得任何资金,所以这是我的观点。
要为你选择一个AI模型,你需要知道它们能做什么。我决定在这里关注主要提供易于使用的应用程序(你可以在手机上运行)的主要AI公司,以及允许你访问其最新的AI模型的公司。现在,要持续访问具有良好应用程序的前沿模型,你至少需要每月支付约1.20美元,至少在美国是这样,但也有一些例外。是的,有免费层,但你通常需要付费访问才能获得这些模型最强大的版本。
我们将详细介绍这些内容,但对大多数人来说,现在有三个不错的选择。Anthropic的Claude、谷歌的Gemini和OpenAI的ChatGPT。还有一些模型可能对专业用户有意义。Elon Musk的X.AI的Grok是一个优秀的模型,如果你是一个大型X用户,它最有用。
微软的Copilot提供了许多ChatGPT的功能,并且用户可以通过Windows访问。以及新的DeepSeek,一个功能强大且免费的中国模型。最后我会谈谈一些注意事项和其他选择。对于大多数开始使用AI的人来说,最重要的目标是确保他们可以访问具有自己应用程序的前沿模型。
前沿模型是最先进的AI,由于规模定律(更大的模型会变得不成比例地更聪明),它们比旧版本强大得多。这意味着它们犯的错误更少,而且它们通常可以提供更有用的功能。问题是,如果你不付费访问,大多数AI公司都会将你推向它们较小的AI模型,有时即使你付费也是如此。
通常,较小的模型运行速度更快,能力略逊,而且AI公司的运营成本也低得多。例如,GPT-4 O-mini是GPT-4的较小版本,Gemini Flash是Gemini的较小版本。通常,你希望尽可能使用完整模型,但也有例外情况,即较小模型实际上更先进,而且所有模型的名称都很糟糕。现在,对于Claude,你应该使用Claude 3.5 Sonnet,
它始终优于其更大的兄弟Claude 3 Opus。对于Gemini,你应该使用Gemini 2.0 Flash,尽管完整的Gemini 2.0很快就会发布。对于ChatGPT,你应该使用GPT-4-0,除非处理需要O1的推理能力才能解决的复杂问题。虽然这可能会令人困惑,但这也是这些公司更新其AI及其功能速度过快的一个副作用。
想象一下,一个可以与你实时对话的AI,可以看到你看到的东西,听到你说的话,并自然地回应。这就是实时模式,尽管它有各种名称。这种交互式功能代表了一种强大的AI使用方式。为了演示,我使用ChatGPT的高级语音模式来讨论我的游戏收藏。整个互动(你可以打开声音收听)都在我的手机上进行。你实际上看到的是三种AI进步共同作用的结果。
首先,多模态语音允许AI原生处理语音,这与大多数使用单独系统在文本和语音之间转换的AI模型不同。这意味着它理论上可以生成任何声音,尽管OpenAI出于安全原因对其进行了限制。其次,多模态视觉允许AI查看和分析实时视频。第三,互联网连接提供了对当前信息的访问。该系统并不完美。当从互联网上提取棋盘游戏评分时,它正确地得到了一个,但将另一个与它的扩展包混淆了。
尽管如此,这些功能的无缝结合创造了一种非常自然的互动,就像与一个博学的朋友聊天一样,尽管并非总是100%准确,但可以看到你看到的东西。目前,只有ChatGPT为所有付费客户提供完整的多模态实时模式。它是提示栏最右边的小图标。ChatGPT充满了小图标。但谷歌已经为其Gemini模型展示了实时模式,我希望很快就会看到其他模型。
对于那些关注AI领域的人来说,过去几个月最重要的进展是推理模型的发展。正如我在关于O1的文章中解释的那样,事实证明,如果你让AI在回答之前思考问题,你会得到更好的结果。通常情况下,模型思考的时间越长,结果就越好。在幕后,它正在进行你从未见过的整个思考过程,只向你展示最终答案。有趣的是,当你窥探幕后时,你会发现这些AI的思考方式令人毛骨悚然地像人类。
那是DeepSeek v. 3.1.Real的思考过程,这是少数几个已向公众发布的推理模型之一。它在许多方面也是一个不同寻常的模型。它是一个来自中国的优秀模型。它是开源的,任何人都可以下载和修改它。而且它运行成本低廉,目前由其母公司DeepSeek免费提供。谷歌还提供其Gemini 2.0 Flash的推理版本。然而,目前最强大的推理模型是OpenAI的O1系列。
这些模型的命名令人困惑,但按能力排序,有O1 Mini、O1和O1 Pro。预计任何时候都会出现一个新的模型系列O3(OpenAI无法获得O2的命名权,这使得事情更加令人费解)。而O3 Mini很可能是一个非常好的模型。推理模型不是健谈的助手。它们更像是学者。你会问一个问题,等待他们思考,有时需要几分钟,然后得到答案。
你需要确保你给他们的问题非常清晰,并且包含他们需要的所有上下文。对于非常困难的问题,尤其是在学术研究、数学或计算机科学方面,你应该使用推理模型。否则,标准的聊天模型就可以了。
并非所有AI都可以访问网络并搜索以学习超出其原始训练的新信息。目前,Gemini、Grok、DeepSeek、Copilot和ChatGPT可以主动搜索网络,而Claude则不能。当您需要当前信息或事实核查时,此功能会产生巨大影响,但并非所有模型都能充分利用其互联网连接,因此您仍然需要进行事实核查。
大多数生成图像的大型语言模型实际上是通过使用单独的图像生成工具来实现的。它们无法直接控制该工具的功能,它们只是向其发送提示,然后向你显示生成的图片。随着多模态图像创建的发展,这种情况正在发生变化,多模态图像创建允许AI直接控制其生成的图像。
目前,Gemini的Imogen 3领先,但老实说,它们都能很好地处理你基本的“海獭拿着写着“this_is_a_test”的牌子,坐在粉红色的独角兽浮圈上,漂浮在游泳池中央”的图片。今天的节目由Vanta赞助。信任不仅仅是赢得的,更是被要求的。无论您是正在进行首次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。
企业使用Vanta通过自动化合规需求(涵盖35多个框架,如SOC 2和ISO 27001)来建立信任。集中的安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。Vanta可以通过将您与审计员和专家联系起来,帮助您启动或扩展您的安全计划,以便快速进行审计并建立您的安全计划。此外,由于平台中使用了自动化和AI,Vanta可以为您节省时间,让您可以专注于公司建设。
加入超过9000家全球公司,例如Atlassian、Quora和Factory,它们使用Vantage实时管理风险和改进安全性。
如果2025年关于AI有一点是明确的,那就是代理即将到来。垂直代理购买行业水平代理平台,ADC。
每个功能的代理。如果您正在运营一家大型企业,您明年将尝试使用代理。鉴于这还很新,我们所有人都会回到试点模式。
这就是Superintelligent在今年年初提供新产品的原因。这是一个代理准备和机会审计。在短短几周内,我们会深入研究您的团队,了解哪些类型的代理适合您进行测试,您需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,让您准备好弄清楚代理如何改变您的业务。
如果您对代理准备和机会审计感兴趣,请直接联系我,[email protected]。请在主题行中注明“agent”,以便我知道您在谈论什么。让我们成为AI市场最具活力部分的领导者。您好,AI每日简报的听众。快速休息一下,分享一些来自KPMG最新AI季度脉搏调查的非常有趣的发现。
您知道67%的商业领袖预计AI将在未来两年内从根本上改变他们的业务吗?然而,并非一切顺利。他们面临的最大挑战包括数据质量、风险管理和员工采用等问题。KPMG处于帮助组织克服这些障碍的最前沿。他们不仅仅是在谈论AI,他们正在通过切实可行的解决方案和实际应用来引领潮流。
例如,超过一半接受调查的组织正在探索使用AI代理来处理行政事务和呼叫中心运营等任务。因此,如果您希望在AI领域保持领先地位,请关注KPMG。他们不仅仅是对话的一部分,他们正在帮助塑造它。了解KPMG如何在kpmg.com/US上推动AI创新。
所有AI都非常擅长编写代码,但只有少数模型(主要是Claude和ChatGPT,以及在较小程度上还有Gemini)能够直接执行代码。这样做可以让你做很多令人兴奋的事情。例如,这是告诉O1使用Canvas功能(你需要通过键入/Canvas来打开)的结果。
创建一个交互式工具,直观地向我展示相关性是如何工作的,以及为什么相关性本身在许多情况下并不是对底层数据的很好描述。使其易于非数学人员理解,并且具有高度的交互性和趣味性。
此外,当模型可以编写和使用外部文件时,它们能够进行数据分析。想要分析数据集?ChatGPT的代码解释器在统计分析方面做得最好。Claude进行的统计分析较少,但在解释方面通常最好。Gemini倾向于专注于绘图。它们都不是很擅长处理包含公式和选项卡的Excel文件,但它们在处理结构化数据方面做得很好。让你的AI从外部世界获取数据非常有用。
几乎所有主要AI都包括处理图像的能力。这些模型通常可以从图片中推断出大量信息。很少有模型处理视频,视频实际上每秒或每两秒处理一次图像。目前,这只能由谷歌的Gemini完成,尽管ChatGPT可以在实时模式下查看视频。虽然所有AI模型都可以处理文档,但它们对所有格式的处理能力并不相同。Gemini、GPT-4-0(但不是O1)和Cloud可以处理包含图像和图表PDF,而DeepSeek只能读取文本。
没有哪个模型特别擅长处理Excel或PowerPoint,尽管正如你可能预期的那样,Microsoft Copilot在这方面做得更好一些,但这很快就会改变。不同的模型也有不同的内存量、上下文窗口,Gemini拥有迄今为止最强大的能力,一次可以容纳多达200万字。一年前,在选择AI模型时,隐私是一个主要问题。这些系统的早期版本会保存你的聊天记录并将其用于改进其模型。这种情况发生了巨大的变化。
除DeepSeek外,每个主要提供商现在都提供某种形式的注重隐私的模式。ChatGPT允许你选择退出训练,Claude表示它不会在你的数据上进行训练,Gemini也是如此。例外情况是,如果您正在处理真正敏感的数据(如医疗记录)。在这种情况下,您仍然需要研究这些工具的企业版本,这些版本提供额外的安全保证并满足监管要求。
每个平台都提供不同的方法来根据你的用例定制AI。ChatGPT允许你创建针对特定任务定制的GPT,并包含一个可选功能来记住先前对话中的事实。Gemini与你的Google Workspace集成,Claude具有自定义样式和项目。
正如你所看到的,有很多功能可供选择,最重要的是,还有氛围的问题。每个模型都有其自身的个性和工作方式,几乎就像一个人一样。如果你碰巧喜欢某个AI的个性,你可能愿意忍受较少的功能或较低的能力。你可以尝试多个AI的免费版本来了解这一点。也就是说,对于大多数人来说,你可能想在ChatGPT、Claude或Gemini的付费版本中进行选择。ChatGPT目前在其高级语音模式下拥有最佳的实时模式。
ChatGPT的另一个主要优势在于它可以做所有事情,尽管方式有时令人困惑。OpenAI拥有专门处理难题的AI模型(O1系列)和用于聊天的模型(GPT-4-0)。一些模型可以编写和运行复杂的软件程序,尽管很难知道哪些可以。有一些系统可以记住过去的互动和调度系统。电影制作工具和早期的软件代理。
它可能有很多,但这让你有机会尝试许多不同的AI功能。
还值得注意的是,ChatGPT提供了一个每月1200美元的层级,其主要优势是可以访问非常强大的推理模型。Gemini还没有那么好的实时模式,但这很快就会到来。目前,Gemini的优势在于其强大的模型系列(包括推理器)、非常好的搜索集成和非常易于使用的用户界面(正如你对谷歌的期望一样)。它还拥有顶级图像和视频生成能力。Deep Research也非常出色,我在上一篇文章中对此进行了详细的介绍。
在这三个系统中,Claude的功能最少,而且你真正关心的只有一个模型:Claude 3.5 Sonnet。但Sonnet非常好。它通常在其他模型无法做到的地方显得聪明和有见地。因此,很多人最终将Claude用作其主要模型,即使它没有那么丰富的功能。
虽然它非常新,但如果你想要一个非常好的全能模型,并且具有出色的推理能力,你也可以考虑DeepSeek。如果你订阅了X,你可以免费获得Grok。X.ai团队正在以惊人的速度扩展其能力,即将发布的新模型Grok 3有望成为有史以来训练过的最大模型。如果你有Copilot,你可以使用它,因为它包含了微软和OpenAI模型的混合,但我发现它在使用哪个模型时缺乏透明度,这有点令人困惑。
还有一些服务,如Poe,可以同时访问多个模型,如果你想尝试一下的话。在你阅读本指南的时间里,可能已经发布了一种新的AI功能,另外两种功能也得到了重大升级。但不要让这让你瘫痪。秘诀不是等待完美的AI。而是深入研究并发现这些工具实际上可以实现什么。跳进去,动手实践,找到适合你的工具。这将帮助你了解AI可以在哪些方面帮助你,在哪些方面不能帮助你,以及接下来会发生什么。
好的。和往常一样,Ethan有很多好的想法。正如他指出的那样,你的一些选择是由你决定的。如果你对高级语音模式提供的互动类型感兴趣,你现在就使用高级语音模式。这种情况不会永远持续下去,但现在大多如此。同样,某些产品在公司设定基调之外根本没有等效产品。
Notebook LM,特别是音频概述,对我来说是最大的例子。这并不是说没有人尝试。例如,Eleven Labs(一家我非常喜欢的公司)有一个功能,可以根据其他内容创建这种播客。但Notebook LM作为一个全包式的体验,确实与众不同。
但是日常工作呢?写作帮助、社交媒体写作帮助、头脑风暴、图像生成,这些都是目前你甚至不会再三考虑的标准Gen AI用途。首先,让我们谈谈R1。我已经尝试过DeepSeek应用程序,尽管只用于我不关心中国政府访问想法的用途。但是,对我来说,我认为我经常遇到DeepSeek模型的地方是当它们被转置并嵌入到我使用的其他工具中时,例如在Perplexity中。我
我还没有机会完全测试R1在Perplexity中的工作方式与其他模型相比如何,但鉴于我经常使用Perplexity,我相信我很快就会这样做。
在图像生成器方面,我仍然更喜欢Midjourney的美学风格。这并不奇怪。但在实际使用方面,Ideogram是我使用最多的工具。原因是我的特定用例。如今,我为工作的一部分生成的图像大多需要或至少强烈受益于文本。Ideogram处理得非常好,无论它们在风格保真度方面缺乏什么,音频都弥补了功能上的不足。
我还发现Ideogram非常擅长倾听你非常不优雅的绘图提示,并弄清楚你想要什么。Mid-Journey为你提供了极其细致的控制,如果你A,对想要什么有清晰的认识,或者B,只是想让它具有艺术性,它在这两种情况下都能很好地发挥作用。但是当我笨手笨脚地试图用两个穿着普通衣服的公司职员的卡通形象进行比较,然后在另一个面板中做一个机器人,以便我把它放在演示文稿中时,Ideogram对我来说做得更好。
那么核心内容呢?在实际写作任务方面,我仍然处于将提示同时输入Claude和ChatGPT并查看哪个更适合特定上下文的模式。我倾向于首先使用Claude,部分原因是我设置了许多我可以立即切换的语音角色,从而省去了提示过程。但对于任何给定的提示,我更喜欢哪个,这都差不多。
当然,在头脑风暴方面(这是我的主要用例),ChatGPT对我来说是最好的。我仍在弄清楚所有不同O系列模型的来龙去脉,但我确实倾向于发现,尽管ChatGPT 4.0有时比O模型写得更好,但在创意合作伙伴或头脑风暴合作伙伴方面,推理模型我认为表现更好。