We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 867: LLMs and Agents Are Overhyped, with Dr. Andriy Burkov

867: LLMs and Agents Are Overhyped, with Dr. Andriy Burkov

2025/3/4
logo of podcast Super Data Science: ML & AI Podcast with Jon Krohn

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Chapters Transcript
People
A
Andriy Burkov
Topics
Andriy Burkov: 大型语言模型(LLM)在处理与训练数据相似的问题(in-distribution)方面表现出色,但在实际应用中,我们难以判断业务问题是否属于此类。因此,LLM在生产环境中可能出现无法预测的错误,导致用户不满和声誉受损。在将基于LLM的系统投入生产环境之前,必须谨慎评估其风险,因为这可能导致声誉受损和客户流失。多智能体系统,特别是基于LLM的系统,难以调试,因为各个智能体独立运行,难以同步调试。LLM作为黑盒,无法进行内部调试,因此基于LLM的多个智能体协同工作时,调试难度极高。要创建可靠的、可用于生产环境的多智能体系统,需要类似于人类水平的通用人工智能(AGI),但目前尚未实现。实现AGI的关键在于理解人类能够进行无限期规划的机制,这与其他动物不同。要实现通用人工智能(AGI),需要理解人类无限期规划能力背后的机制。实现通用人工智能(AGI)可能需要更复杂的模型架构,例如模拟人脑不同模块的功能,而不是简单地扩展单一架构。要避免聊天机器人产生幻觉,关键在于不使用大型语言模型生成输出,而是使用其他方法,例如检索增强生成(RAG)或预定义模板。DeepSeq通过降低训练成本、公开其方法、降低推理成本以及消除对人工专家在训练数据创建中的需求,彻底改变了大型语言模型领域。大型语言模型的“开放权重”并不等同于开源,因为要完全复现模型,不仅需要权重,还需要训练数据。大型语言模型在机器学习项目生命周期中起着双重作用:它们可以用于快速原型设计,但对于生产环境中的关键组件,仍然需要传统的机器学习开发流程。 Jon Krohn: (主要为引导问题和总结,此处不展开)

Deep Dive

Shownotes Transcript

The realities of Agentic AI, AGI, and chatbots that don’t hallucinate: Andriy Burkov talks to Jon Krohn about AI in 2025. Best known for his concise machine learning modelling books, author and AI influencer Andriy Burkov also talks about his latest publication in the series, The Hundred-Page Language Learning Models Book. 

Additional materials: www.superdatascience.com/867)

This episode is brought to you by the Dell AI Factory with NVIDIA). Interested in sponsoring a SuperDataScience Podcast episode? Email [email protected] for sponsorship information.