We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode [全英文] EP1: 為何評估、何為評估: 大模型驅動型產品 v.s. 基礎大模型 <Data Science x AI> Ep1: Why & What to Evaluate: LLM-powered Products v.s. LLMs

[全英文] EP1: 為何評估、何為評估: 大模型驅動型產品 v.s. 基礎大模型 Ep1: Why & What to Evaluate: LLM-powered Products v.s. LLMs

2025/6/24
logo of podcast 數據女孩的中年危機|数据女孩的中年危机

數據女孩的中年危機|数据女孩的中年危机

AI Deep Dive AI Chapters Transcript
People
S
Stella Liu
Topics
Stella Liu: 我认为,尽管已经有很多机构在分析大型语言模型(LLM)的表现,但LLM在实际应用中的表现与理想状态之间仍然存在差距。早期的LLM应用设计主要依赖于连接设计,限制了模型输出的灵活性。之后出现的“检索增强生成”(RAG)和“多RAG”系统旨在提升知识识别的准确性和实用性。现在,焦点转移到工作流程的优化上,系统需要将用户目标分解为多步骤计划,并自主使用工具和API。然而,即使模型在各个领域都表现出色,也不能保证最终产品一定有用、安全或符合要求。特别是对于Agentic工作流,它涉及到多个语言模型以及与外部工具的交互,这增加了复杂性,也需要超越传统评估标准。因此,我们需要关注LLM在特定用途、企业需求和用户期望下的表现,确保其可靠性和适用性。我将分享我在实际工作中积累的经验和教训,并探讨用户或项目特定的测试方法。

Deep Dive

Shownotes Transcript

Hey everyone, I'm Stella Liu. I recently started a Substack newsletter called Data Science by AI, where I share thoughts on how data science is changing in the age of AI and how we as data scientists can evolve and grow with it.

The first series is all about evaluatingLLM-powered products.And since I also host a podcast,I figured why not just record it and share it on my podcast too?So here it is, the first post in the series,Why and What to Evaluate,LLM-powered products versus LLMs.Hope you enjoy it,and please leave a comment or reach out if you are also working on AI evaluation.

你可能觉得这太明显了当然我们需要考虑 LLMs 我们需要知道模型在认识、数学、人工智能、研发、复制、和质量、安全等方面的表现如何成功的有关于价值、幅度、和安全而是的已经有很多公司和研发组织有精心发布模型表现分析所以为什么我依然担心呢因为这里有一个区域

经常是大型的,在于一个大语言模式在阻挡中的表现和一个真实世界中的 LLM 设计的表现。第一次 LLM 设计的应用大多数基于连接设计,无法改变模式的出口,

然后,在早期 2023 年,我们看到了"Retrieval Augmented Generation"的增长,或 RAC,并后来是"Multi-RAC"系统,这些方法使用选择在短时间内,以提升关键性和实际性的识别知识。

更最近,在 2023 年和 2024 年之间,焦点转移到了一种原理的工作流程:系统将用户的目标分成多步计划,并自行使用工具和 APIs。如果迫切设计计划不够不可预测,以除他们在建立的模型外的应用,RAC 肯定会引起更多的不确定。

想象客户支持的聊天 BOT,被最强大的 LLM 连接到一个不明显的知识基础。我们的 AIBOT 面对学生,连接到一个偏差和错误的数据。在两个情况下,内部模式可能会在每个领域中输出高分,但这并不保证这个产品是有用、安全或甚至符合。

一个能力的 LLM 并不一定能自动保证一个能力的 AI 产品。而 Agentic Workflows?我的天!这种活动经常涉及多个语言模式,大小的,与细节的设备和指示联系,并且与外部工具联系。就像是在一个人体中,与各种经验层的成员团队,每个人都有自己的角色。

你需要在他们的进步、组织、和工作的效率上检查,你也需要与业务员做一样的工作。除了增加科技组织的发展和更多的复杂性,还有另一个原因是要超越领域的预算。这些标准是用于开放式的用途数据上的,但你的用途可能非常具体。

如果您在学生资金上工作,例如,您需要确保聊天宝不举出正确的学习额,不举出人人的评测和评测。这是一个律动,可能会引起法律和传统问题。如果您在电商中,您需要确保您的聊天宝能够可靠上述上市和股市的充足。模型层的表现并不保证您的课程层的可靠性。

现在,我们来谈谈如何去测试。首先,我会分享的就是我没有意见的一堆测试的数据。正确的数据可以依照你的用途、企业、甚至是用户期望来分辨。那说来,我想分享我亲身工作的数据和我过程中学习的一些课程。

我当时进入这个业务时,我发现了一份 Stanford 的 Helm 的 Holistic Evaluation of Language Models Framework。他们在 2020 年 11 月份发布的基础文件中,提出了一个多层次的观察观察。而不是只关注准确性,Helm 重复了七个类型的重要性。

正确、调整、坚定、公平、偏差、毒性和效率这些档案帮助设定了一种语言模式的表现不仅是出口的质量,也有信心和影响虽然 HELM 档案是用来测试语言模式它们仍然是一个值得提供的提示点在想要用 LLM 的产品测试

那说到,LLM 能源的设计计划可以和应该的设计计划不同。当你从设计计划到应用时,你不再只是在计算生产品质和毒性。你现在在计算用途、可靠性和合适性与具体的用户目标。在下几个节目中,我将深入研究设计计划,尤其是在现实世界的设计中。

和分享我所学到的一切我还会谈谈在用户特别或项目特别的测试方式中的经常遇到的重要题目