We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode GenAI hot takes and bad use cases

GenAI hot takes and bad use cases

2025/2/24
logo of podcast Practical AI: Machine Learning, Data Science, LLM

Practical AI: Machine Learning, Data Science, LLM

AI Deep Dive AI Chapters Transcript
People
C
Chris Benson
D
Daniel Whitenack
Topics
Daniel Whitenack: 我认为目前不应构建完全自主的生成式AI代理。虽然在设想中,让AI代理处理销售流程的各个步骤(例如,寻找潜在客户、收集信息、建立联系、演示产品、达成交易)听起来很诱人,但实际上,由于这些系统存在诸多错误和脆弱性,因此效果不佳。目前,最好将AI用作辅助工具,帮助销售人员完成特定任务,而不是完全取代他们。 此外,我不建议使用生成式AI进行时间序列预测或任何形式的预测。这些模型缺乏对现实世界的理解,并且在处理数字方面表现不佳。虽然它们可能在简单的文本分类任务(例如垃圾邮件检测)中表现良好,但在更复杂的任务中,例如预测未来的股票价格,它们的表现往往令人失望。即使是使用视觉模型处理时间序列图表,也可能无法准确预测未来的趋势。 最后,我不建议使用生成式AI进行完整的代码重写或软件应用程序的开发。虽然一些工具(例如GitHub Copilot)可以作为代码辅助工具,但它们无法完全取代程序员。目前,生成式AI更适合处理小型任务,而不是构建大型复杂的应用程序。 Chris Benson: 我同意Daniel的观点。完全自主的代理在当前技术水平下存在风险,尤其是在涉及敏感信息或需要周全考虑的领域。Netflix的新剧《卡珊德拉》就展现了这种风险。 此外,我不建议将生成式AI用于高风险的金融交易或需要实时处理和关键结果的应用。虽然生成式AI可以作为辅助工具,但它不应完全依赖于此类应用。在制造业中,生成式AI可以用于分析质量评估数据,但它不应用于实时质量评估。 最后,生成式AI不适合用于世界主要语言之外的任何语言或具有文化多样性的内容。这些模型主要针对少数几种语言进行了训练,并且存在文化偏见。即使是简单的工具,例如支持从右到左书写的UI,也可能不支持所有语言。

Deep Dive

Chapters
This chapter explores the limitations of fully autonomous AI agents. The discussion highlights the current unreliability of these agents for complex tasks and the potential for errors, especially in sensitive areas. It emphasizes the need for human oversight and the benefits of using AI as a tool to assist human professionals rather than replacing them entirely.
  • Fully autonomous AI agents are unreliable for complex tasks.
  • AI should be used as a tool to assist humans, not replace them.
  • Current AI lacks the real-world understanding for high-stakes decision-making.

Shownotes Transcript

欢迎收听Practical AI播客,本播客旨在使人工智能变得实用、高效且人人可及。如果您喜欢本节目,您一定会喜欢The Change Log。周一发布新闻,周三进行深入的技术访谈,周五则是一档精彩的脱口秀节目,适合您周末欣赏。您可以在收听播客的任何地方搜索The Change Log找到我们。

欢迎收听Practical AI播客的另一期全连接节目。

在只有我和克里斯,没有客人的这些节目中,我们会努力让您了解人工智能领域发生的一些事情,讨论一些可能帮助您提升机器学习和人工智能水平的事情。克里斯,我很高兴今天能和你一起深入探讨。像往常一样,我的联合主持人克里斯·本森也加入了我们,他是洛克希德·马丁公司的一名首席人工智能研究工程师。我是丹尼尔·怀特纳克,PredictionGuard的首席执行官。克里斯,你好吗?我很好。

我很好。我很期待我们今天的谈话。佐治亚州今天下雪了,我们可以聊聊生成式人工智能,聊聊除非佐治亚州下雪,否则你不会想用它,诸如此类的事情。今天主题是寒冷,我所在的地方也很冷,让我们谈谈生成式人工智能的冷面,或者我们之前讨论过的一些想法是

生成式人工智能的坏用例,或者不应该使用生成式人工智能的地方。五个或更多坏用例。是的。有趣的是,这是一个我们经常随意讨论的话题。我们之前没有说过,让我们把它做成一期节目。但是,你知道,我们其中一个,我认为这不仅仅是我们,还有我在人工智能领域谈话的其他人的一个小小抱怨是

有很多,你知道,我们在生成式人工智能领域处于巨大的炒作之中,人们只想将它用于所有可能存在人工智能应用的地方。而且,你知道,有很多地方它不一定能为您带来最佳结果。我们一直都在随意地谈论这个话题。很高兴我们今天在节目中讨论这个话题。是的,我正在创建一些……

为我们的一位客户创建一些文档和一些培训材料。我有一个部分标注为“此处有龙”。所以是的,这里可能有一些激烈的观点。我很想听听你的看法。我的第一个,所以第一个,生成式人工智能的坏用途,或者至少目前你想避免的一个用途是

这可能是一个激烈的观点,但从我的角度来看,任何类型的完全自主代理目前,嗯,谁知道这种情况会持续多久,但目前以及一段时间内。

通常是人们在尝试创建它们时悲伤的根源。所以我所说的自主代理是指一个没有人工参与的代理或自动化,它只是在后台运行,你只是希望它

为你做一些事情。所以它可能在销售方面,对吧?哦,我将让一个代理为我完成整个销售流程。我只是想坐下来研究我的产品。代理将为我完成所有销售。或者它可能是某种

某种你正在自动化的内部管理流程,或者,你知道,甚至一直到工厂的自动化或,你知道,更多工业案例,无论你在想什么。我的第一个是,

自主代理。你怎么想,克里斯?我不仅认为这是对的,我还笑得很开心,因为我要从侧面补充一些东西来支持这一点。显然,Netflix上有一部新剧,我昨晚刚在新闻博客上读到。Netflix的人工智能对我来说很难。

而且,而且,而且它,这部剧叫做卡珊德拉,它就是关于这个的。它就像一个家用机器人助手,它能够完成许多任务,但它会,显然我还没有看过这部剧,因为我刚听说,但显然它变得非常非常黑暗。当我刚才谈到这一点时,你知道,在,在,

更现实的场景中,显然。它让我想起了这一点。所以,是的,我同意。在这个时代,一个完全自主的代理没有任何防护措施,你只是说,去吧,生成式人工智能,特别是如果它处理任何具有某种……

敏感性或需要一点思考的事情。是的,不去那里。是的。好吧,我认为即使超越了与安全隐私相关的事情,很多时候我只是看到人们试图这样做,但它并没有真正奏效。

早期,早期。是的,这是早期。所以就像你一样,对于那些可能听过或没听过之前节目的听众来说,当我们谈论代理时,我们的意思是,你知道,你给一个任务,

给某种系统,它有能力然后生成查询,可能是到其他系统,如API或数据库或数据存储或其他东西,以完成某个任务。它会在这个任务上循环,直到达到目标,对吧?在完全自主的情况下,

你会拥有,你知道,只使用销售示例,因为它很容易,你想让一个代理决定如何在LinkedIn上为你寻找潜在客户。然后你想收集,你知道,所有这些潜在客户的档案。

然后你想发起联系,然后你想进行某种演示或电话。然后你想,你知道,达成交易并进行合同安排。对。只是有点像决定如何完成这个过程的每个步骤基本上都与

用自主代理取代人类的代理有关。现在,我认为在这种情况下,我们可以说这其中某些部分可以用人工智能功能非常有趣地解决。所以做前景调查,生成档案,对吧?我认为这些都是,如果它们与

也许是决定如何以及何时做这些事情的销售专业人员联系在一起,那么我认为这些都是很好的用例。

在想象中,认为让它在后台运行,你一直都能获得销售额会很棒,但它实际上并没有很好地发挥作用。当有很多目标确定和确定如何与系统交互以及所有这些产生大量错误、大量脆弱性的东西时,这种类型的系统有很多脆弱性。至少目前来说,拥有一个可以帮助你的销售专业人员寻找潜在客户的工具,或者一个可以帮助他们创建这些,你知道,档案之类的工具,要高效得多。当然,将人工智能与之联系起来,但不是那种端到端的复杂性。

完全自主的自动化。我完全同意你的观点。顺便说一下,为了澄清我之前说过的话,我并不是想暗示代理通常会有一个机器人的身体。如果我让任何人感到困惑,我应该道歉。很多人都在探索这一点。确实有。确实有。你知道,需要注意的一点是,我们现在正处于代理的兴起阶段,这是目前最热门的事情。但是有

你知道,这很有趣。有很多防护机制存在。我知道在我工作的国防行业中,尤其是在诸如武器系统等方面,国防部对这些事情有防护措施。所以,如果你在听,并且不熟悉这一点,但有点担心这个世界,幸运的是,有人正在考虑这些问题。是的,而且,而且,

我认为目前有用的代理,只是不是那种完全自主的设置。所以人工智能系统可以连接到多个事物,并且可能由人类触发来做某些事情。在我看来,这些是最成功的。绝对的。我的第二个,克里斯。我们有自主代理。我的第二个是时间序列预测,或者任何类型的

预测机制。所以无论是预测未来的股价,还是对一系列数据进行推理,进行预测,这些模型在某种程度上都能做到相当好的预测,例如一般的文本分类,对吧?这是

这条消息是垃圾邮件还是不是垃圾邮件?你可以给出一些例子,你可以从这样的模型中得到一些合理的输出。这就是为什么我特别关注时间序列预测的原因,因为据我所知,我知道这方面有一些研究,使用transformer模型进行时间序列预测。但是当我想到生成式人工智能时,我想到了,我要登录chat GPT,或者我要使用deep seek或这些模型中的一个,然后

而且,你知道,如果你粘贴一堆时间序列数据,并试图只用生成式人工智能模型而不使用其他任何东西来创建预测,那么

那么我认为这最终会让你感到悲伤。它不会很好地工作。是的,我认为是这样。实际上,我的清单上也有这个,形式是高风险的金融交易。高风险的金融交易。你想把你的百万美元放在哪里?所以也许可以探索一些可能性,但我认为我不会把它交给今天的代理

自己进行预测或做出预测。是的,我认为人们已经基本上证明了这些模型肯定没有那种世界理解的现实基础来进行某些推理或采取某些步骤和推理来做出合理的预测,而且它们通常对数字非常糟糕。所以,嗯,

你也许能够,即使使用视觉模型,粘贴时间序列的图表,对吧?如果它是销售额图表,请问哪个月的销售额最高?对吧?视觉模型可以合理地将该值返回给你,对吧?但是如果你说,好吧,现在为接下来的四个季度建模我的销售额,或者诸如此类的事情,我认为通常情况下这不会很好地工作。我想你可以争辩说

一个模型可以生成可能使用包的代码,你知道,预测包实际上可以对某些数据进行合理的预测,那么,你知道,我的总体问题是,好吧,这可能对生成你的代码很有用。但实际上,这并不是生成式人工智能在做这件事。是Python中的stats模型或……就是这样。

或者,你知道,来自Meta的profit等等。是的,以防万一这会让任何人感到困惑,你知道,有生成式人工智能部分,你知道,它是在一般数据集上训练的。然后还有它可能生成的代码来访问的这些模型。

这些模型是专门为该功能设计的。所以这两者是不同的东西。是的,最终执行的代码基本上与生成式人工智能无关。对。

是的。也许在我们将要讨论的每一个案例中,克里斯,都值得强调一些有趣的东西。在自主代理的情况下,当然可以创建和执行工作流程和自动化。我们在节目中介绍了Prefect,这是一个工作流程协调器,可以监控和处理重试等等。如果你正在考虑工作流程和编排应用程序,这是一个很棒的东西。

时间序列预测,我的首选通常是Facebook或Meta的profit包,它使某些事情变得非常容易,但也有许多其他选择。所以,如果你对非生成式人工智能方面感兴趣,可以看看这些东西。

朋友们,人工智能正在改变我们做生意的方式,但我们需要的人工智能解决方案不仅要有雄心壮志,而且要实用且适应性强。这就是Domo的人工智能和数据产品平台发挥作用的地方。它是为当今人工智能领域的挑战而构建的。

使用Domo,你和你的团队可以将人工智能和数据转化为创新的用途,从而产生可衡量的影响。虽然许多公司专注于近端应用或单模型解决方案,但Domo的一体化平台更加强大,具有值得信赖的人工智能结果,而无需彻底改造您的整个数据基础设施,安全的人工智能代理可以连接、准备和自动化您的工作流程,以及

帮助你和你的团队轻松地获得见解、接收警报和采取行动,通过根据您的角色量身定制的引导式应用程序,以及灵活地选择您想要使用的AI模型。因此,Domo超越了生产力。它旨在改变您的流程,帮助您做出更明智、更快速的决策,从而推动真正的增长。这一切都由Domo的信任、

灵活性和多年来在数据和人工智能创新方面的专业知识提供支持。当然,最好的公司都依赖Domo来做出更明智的决策。了解Domo如何释放数据的全部潜力。了解更多信息,请访问ai.domo.com。网址是ai.domo.com。好了,克里斯,继续第三点。我的第三点是Domo。

不要使用生成式人工智能来进行完整的代码重写,或者,呃,或者完全开发您的应用程序,您的软件应用程序。想法?哦,我,我,我试过只是玩玩。呃,

而且我,我绝对不认为这已经准备好投入黄金时间了,尽管事实上,你知道,当我们坐在这里说这话的时候,过去一年左右已经有相当多的首席执行官名流一直在倡导这一点。而且我,我,当我坐下来尝试这样做时,呃,我得到的结果各不相同,呃,这很大程度上取决于语言的主流程度,例如。

取决于它的好坏,但我还没有得到任何我认为是生产级程序的东西,完全可以通过生成式人工智能来实现完全功能。只是玩具程序。是的,没有互动。对。是的。

是的,我知道这正在迅速发展。所以谁知道这个谈话在几个月后会过时到什么程度。但我想我们已经讨论过这个问题一段时间了。我们已经看到像Devin和Cursor这样的东西出现,这些东西非常令人惊叹,并且做了很多非常有趣的事情。

但通常不会提供那种完整的,就像我要提示并从中获得一个软件应用程序一样。还有更多的东西。所以我想有时人们可能有点幻想破灭

而且,你知道,更好的思考方式或者有一些令人惊叹的代理和工具出现,比如Devin cursor、all hands、when surf等等,这些可以极大地加速你的代码开发。我认为如果你把它们当作。

代码助手,而且,你知道,甚至是你与之配对的初级开发人员。对。所以我并不是说我现在完全不是一个非开发人员。对。我没有技术技能,我只是说我想要这个应用程序。

它是由我生成的,这正是我所说的“完整应用程序开发”的意思。所以,从我的角度来看,生成式人工智能目前还无法做到这一点,或者你目前不应该依赖它来做到这一点。可能会有

有趣的演示和案例展示某种形式的这种方式。但总的来说,我认为将这项技术集成到你的代码和编程中作为助手,甚至是你可以与之配对的高效代理,

是一个好模型,而不是那种,我想这是一个,也许是之前提到的自主代理的专业化。有点像。我认为,我认为你在这一点上说得很好,它不能只是扔过墙,然后说,这是一个指令,全部做完。

并生成一组复杂的程序和东西。我知道我已经非常成功地完成了小型任务,但它们所解决的范围是有限的。我认为我们在做这些事情方面已经做到了,并且正在做一些小事情。我经常

你知道,生成它,很多年前我会编写VBA代码,即Microsoft东西的Visual Basic for Applications。我现在不怎么做了。所以现在我会,如果我碰巧在办公室工作,我可以做这样的事情,你知道,把一些东西放在一起工作。但是当我真正编写一个大型项目时,我没有生病。我,拥有不同的工具非常有帮助,嗯,

但是我还没有找到一个能够成功地独自完成一项重要的编码工作的工具,只是把它扔过墙。所以我完全同意你的观点。看看一年后、两年后我们会是什么样子,这将是一件很有趣的事情。是的,绝对的。我会鼓励人们查看windsurf、Devin、all hands和cursor以及所有这些东西。超级酷。试试看。

但不要指望如果你不是程序员,或者至少有一些最低限度的技能,你就能创建一个庞大的应用程序或项目,包括它的所有复杂之处,并使其工作并很好地扩展。足够了。好了,克里斯,我们进行到哪一步了?我的清单上第四个……

不要用生成式人工智能做这件事,或者对我来说生成式人工智能的坏用例是任何极高吞吐量、低延迟的事情。当然,小型模型和非常高的吞吐量进步已经发生在生成式人工智能模型中,但仍然,你知道,如果你正在对来自

实际规模化生产线的产品进行质量评估,你必须在几分之一秒内对每个产品进行评估。实际上,你不想用生成式人工智能模型对这些数据进行推理。

并花费,你知道,10秒钟来生成你的产品质量评估。这只是,不可行。是的,我同意这一点。实际上,我还有一个子集要补充到这一点上,我认为这与之相符,呃,这将类似于具有关键结果的实时应用程序。是的。你知道,这是一个很好的说法。我认为这是,我认为这是,呃,呃,一个你可能会,

你可能会拥有生成式人工智能作为该组合中的一个组件,但你必须围绕它设置一些防护措施,并且你必须拥有一些专门的模型来保持事情的顺利进行,因为在一个实时应用程序中,事情在尾端很重要,你很擅长使用,但当它偏离轨道时,你不想完全依赖它,你需要某种方法来捕捉它。它不需要任何时间。是的。

我认为你提出了几个很好的观点。一部分是关于延迟的,我刚才提到了这一点。这些模型运行速度不够快,而且它们不一定在您需要它们为这些类型的用例运行的环境中运行,在许多情况下也可能是在边缘用例中。

但同样,这些模型执行或它们在大多数情况下都按照预期执行,对吧?但是,如果你训练一个计算机视觉模型来执行该制造任务,该模型可以在CPU上运行,具有极高的吞吐量,并且比任何其他

你知道,那里存在的通用视觉模型,甚至不需要GPU来运行。对。我同意这一点。是的,所以它,它只是,这两种情况之间的区别仍然非常非常大,就这些用例的融合而言。现在我,我认为在制造场景中,对。嗯,

有一个很好的,或者任何你可能想到的这种高吞吐量关键型场景。生成式人工智能非常有用,也许只是不适用于那种高吞吐量、低延迟的部分,但肯定适用于制造工厂的工作人员,他们想要查看和分析来自质量评估系统的數據,并询问有关,嘿,你知道,我看到了这个警报,以及

帮我提取这些数据来帮助我了解发生了什么。或者过去X时间内是否发生过任何此类事件?例如,通过自然语言进行的这种查询级别方面可以非常强大。还有许多其他事情你可以在这些场景中做,但是。

我会稍微扩展一下这一点。如你所知,我个人的热情在于自主平台,尤其是在大规模、集群等方面。当你谈到这一点时,我认为生成式人工智能发挥作用的一个领域正是你在制造业中所说的等价物。那就是让一个人参与循环或参与循环

能够进行交互。因此,你使用生成式人工智能实际上能够增强控制者或参与循环的人员之间的沟通,并且能够介入,但不是在其他领域,特别是考虑到当你有很多车辆时,这可以适用于许多不同的用例,包括商业领域和军事领域,

你有很多不同的平台或车辆进行通信,这需要高吞吐量。但是是的,我认为那里唯一的一个大空间是在那些参与安全的人员的交互中。是的,当然。

好吧,我还有一个,克里斯。生成式人工智能的最后一个有趣的坏用例。我列表上的一个是世界主要语言之外的任何东西。所以任何具有任何语言多样性或文化多样性的事情。基本上,

现代生成式人工智能时代的模型可能在世界前五到十种语言中运行良好,但世界上有7000种口语,这意味着它们基本上不适用于世界上的任何语言,除了少数几种。此外,模型的文化背景是由

主要从互联网或西方科技公司收集的东西驱动的,也许,你知道,中国科技公司,嗯,

但肯定存在对某些文化背景和语言的偏见。而且,你知道,即使你考虑视觉或视频模型,我相信也是如此,对吧?因为某些东西在那里没有被代表。所以现实情况是,如果你能,你知道,降落在世界上的任何地方,并且

你的chat GPT或任何东西都可以帮助你在非洲的X国或亚洲的Y国进行互动,并且可以很好地使用你可能遇到的任何语言。但我认为目前通常情况并非如此。我认为是这样。我认为,我知道你没有自己提到过,但多年来一直与我们在一起的老听众会说,

会知道,你过去在那个领域从事过职业生涯,呃,并且对,呃,你刚才提到的这个话题了解很多。所以是的,是的,它,我同意。它,它绝对,呃,我认为在过去几年中并没有发生实质性的变化,呃。是的,甚至与……关系不大的简单事情,我的意思是,它与生成式人工智能有关,但也与围绕它的工具有关,对。就

特别是阿拉伯语等其他脚本而言,你知道,例如,当然,这是一种主要的世界语言,在某种程度上,你知道,模型至少在某些模型中可以做得相当好。围绕生成式人工智能生态系统的工具,对吧?就像,哦,我想下载这个

聊天SDK,或者我可以插入自定义模型的UI。它可能不支持从右到左。潜在地,脚本和其他方面可能会出现一些问题。所以这只是突出存在这种差异的另一个例子。它确实存在,我认为值得强调,因为我们这里主要讨论的是语言模型,以及

实际上是支持地球上极少数语言的语言模型。但这就是我的想法。克里斯,在看完坏的清单后,有什么想法吗?我认为我确实有一些想法。我认为我注意到的一件事是

存在某种高风险和高风险,就像你有一些可能严重影响你的结果一样

以一种主要的方式。无论是金融、制造业还是我的国防行业,或者其他任何行业,你都不想让一个通用的生成式人工智能模型负责做那些没有防护措施的事情。我认为这是我在很多方面都注意到的一个问题。我可以提出其他几个我认为适用的领域,例如

高风险的法律建议。你在chat GPT和其他大型语言模型中是否有很好的法律建议工具?是的,但你真的想用这样的事情来冒险你的全部积蓄吗?

也许不会。至少今天不会。你会看到很多这样的情况。你会看到很多人工智能在医学诊断中很普遍。再一次,我认为这对于这些方面非常有用,但可能不是单独的,你知道,孤立地。所以任何这些领域都是。

在好坏结果方面存在重大风险的地方,你可能需要在许多不同的行业中设置防护措施。这就是,我认为这是我的收获。而且,你知道,我认为事情正在以非常非常快的速度不断改进。我们说过一些话,然后两个月后,世界在我们脚下发生了变化。这可能还会再次发生在这里,但

是的,我们正在学习这些东西,它们正在变得更好,但它们还没有完全到位。是的,我认为这是一个很好的总结,克里斯。感谢你和我一起讨论这些事情,我们期待很快与你继续进行对话。听起来不错。

似乎我们听到的都是 GenAI 的优秀用例,但是你究竟不应该在哪里使用这项技术呢?在本期节目中,Chris 和 Daniel 分享了他们的热门话题和不良用例。有些可能会让你大吃一惊! 加入讨论Changelog++ 会员在本期节目中节省了 3 分钟,因为他们去除了广告。立即加入!赞助商:Domo – AI 和数据产品平台。使用 Domo 的 AI 和数据产品增强您的整个数据旅程。

<raw_text>0 好了,这就是我们本周的节目。如果您还没有查看我们的 ChangeLog 时事通讯,请访问 changelog.com/news。在那里,您将找到 29 个理由,是的,29 个理由说明您应该订阅。