We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode [全英文] EP1: 為何評估、何為評估: 大模型驅動型產品 v.s. 基礎大模型 <Data Science x AI> Ep1: Why & What to Evaluate: LLM-powered Products v.s. LLMs

[全英文] EP1: 為何評估、何為評估: 大模型驅動型產品 v.s. 基礎大模型 Ep1: Why & What to Evaluate: LLM-powered Products v.s. LLMs

2025/6/24
logo of podcast 數據女孩的中年危機|数据女孩的中年危机

數據女孩的中年危機|数据女孩的中年危机

AI Deep Dive AI Chapters Transcript
People
S
Stella Liu
Topics
Stella Liu: 我认为,尽管已经有很多机构在分析大型语言模型(LLM)的表现,但LLM在实际应用中的表现与理想状态之间仍然存在差距。早期的LLM应用设计主要依赖于连接设计,限制了模型输出的灵活性。之后出现的“检索增强生成”(RAG)和“多RAG”系统旨在提升知识识别的准确性和实用性。现在,焦点转移到工作流程的优化上,系统需要将用户目标分解为多步骤计划,并自主使用工具和API。然而,即使模型在各个领域都表现出色,也不能保证最终产品一定有用、安全或符合要求。特别是对于Agentic工作流,它涉及到多个语言模型以及与外部工具的交互,这增加了复杂性,也需要超越传统评估标准。因此,我们需要关注LLM在特定用途、企业需求和用户期望下的表现,确保其可靠性和适用性。我将分享我在实际工作中积累的经验和教训,并探讨用户或项目特定的测试方法。

Deep Dive

Shownotes Transcript

這週恰逢Amy和Stella這週都在外旅行,給大家分享一期不一樣的內容。 本期podcast來自Stella最近新開的Substack Newsletter - Data Science x AI。因為是英文Newsletter,所以這一期的podcast也是全英內容。LLM/GenAI evaluation是很新的一個領域,希望和大家一起討論! Hey there! This is the first post in my series on evaluating LLM-powered products), part of my ongoing effort to rediscover what data science means in the AI era. If you're interested in this topic, subscribe to get updates! 留言告訴我你對這一集的想法: https://open.firstory.me/user/cls5sglrw05pc01tr4h0v4ufn/comments) Podcast 任意門:https://linktr.ee/stellaxamy The Cocoons 英文電子報:https://thecocoons.substack.com/ 喜歡我們請訂閱分享喔! 找我們商業諮詢、加入會員:https://buymeacoffee.com/stellaxamy 聯絡我們: [email protected] Powered by Firstory Hosting)