We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

2025/5/5

42章经

AI Deep Dive Transcript

People

丁

丁丁

丁维平是美国资深的企业国际形象策划及商业人脉整合专家，硅谷创新频道 – 丁丁电视的创办人和总裁。

Topics

丁丁: 我认为模型评估的核心在于分析和评估模型性能的好坏，而基准测试则是用于评估模型性能的一系列标准测试。AI的下半场更注重定义问题，而不是单纯追求在现有基准测试上的分数提升，因为现有基准测试可能与实际应用场景存在差距。模型在基准测试中表现出色，但在实际应用场景中可能表现不佳，这与基准测试的设计和实际应用场景的差异有关。评估模型时，除了基准测试，还需考虑业务场景和用户实际使用情况，因为基准测试与实际应用场景存在偏差。单一指标追求DAU是一种偷懒的行为，因为缺乏客观指标来评价模型的优劣。DAU很重要，但一味追求DAU对模型能力提升没有帮助，需要结合高质量的用户数据和与模型能力提升相关的Benchmark。用户数据很重要，但高质量的用户数据和模型能力提升之间需要保持一致性，需要选择合适的Benchmark。模型最终表现取决于多方面因素，包括预训练、微调、强化学习等环节。在模型公司工作最大的收获是对模型评估和基准测试的认知，因为模型能力在动态迭代，需要不断定义不同维度的基准测试。模型评估至关重要，通过基准测试来评估和实现，基准测试是第三方或内部产品设计的一套题目。不同业务场景的评估标准和关注点不同，例如深度搜索和情感陪伴类产品。抽象出评估维度和优先级，并结合真实用户场景进行评估。未来可能会有多种模型，每种模型都有自己的个性；未来基准测试可能针对不同人群进行分类。模型应具备足够强的能力，才能满足不同用户的个性化需求，即使这些需求与模型本身的目标相悖。不同公司对Benchmark的理解和设计不同，导致模型迭代方向不同。好的Benchmark需要真实反映用户需求，有一定的难度和区分度，并随着模型迭代而调整。Benchmark与最终用户指标强相关，如果Benchmark改进后用户指标没有改善，则需要调整Benchmark。自动评估和人工评估都需要不断校验，以确保与真实用户体验一致。创业公司和大厂在Benchmark的理解和实践上存在差异，创业公司迭代速度更快。Benchmark更新频率取决于模型迭代速度和用户需求变化。创业公司初期Benchmark数量可控制在400题左右，根据用户使用情况动态调整。不好的Benchmark可能过于简单，或者只关注单一维度和难度。模型能力提升类似于提升技能点，可以专注于长板，也可以平均提升。AI陪聊产品难点在于评估标准难以定义，因为它没有标准答案。未来可能出现更多小众猎奇的产品，因为Benchmark难以覆盖所有用户。评估标准往往是人类价值观的映射，但这种映射是否准确值得探讨。寻找优秀的AI产品经理应关注其实践经验、动手能力和对模型的理解。曲凯: 引导话题，并就丁丁的观点进行补充和提问。 supporting_evidences 丁丁: 'Then look at its performance, the second half of the article is very widely circulated, and it puts forward a very important point, that is, at this stage, defining the problem may be more important than the original to brush the points of some existing benchmarks, in fact, these benchmarks may still have a gap with the real scene of the business or the actual needs of users.' 丁丁: 'I remember there's a point in this article that I think is quite right, that is, the current various, looking at the results of its points brushing, many AI have reached the level of graduate students and doctoral students, but in fact, when landing, it may not even be considered as an intern's level, the reason behind this is the problem of benchmark setting, because in fact, in our real business scenarios, at least what I feel,' 丁丁: 'In addition to benchmark tests, we actually also pay attention to many business-related and user-related benchmarks, because the benchmark tests we mentioned above still have a relatively large deviation between the real world model products and the inputs of different businesses.' 丁丁: 'So you are acknowledging the statement of AI's second half, right? I fully agree.' 丁丁: 'First of all, in the first half, everyone is still working hard to improve the ability of the base model, or is still working hard to explore the potential of print train. For Kimi, it also realized the importance of IL very early, but the effect of IL must ultimately be based on a good basic model or a good print train link.' 丁丁: 'I think that blindly or single-indicator pursuit of DAU is, to some extent, a kind of inertial experience or a little lazy behavior.' 丁丁: 'I don't think DAU is not important, and in fact, you must have users to get feedback and real user input, it's just that blindly pursuing DAU may not help, for example, the improvement of model capabilities. Here, I think we can also introduce the source of benchmark to understand this matter, for example, the benchmark we mentioned has several sources, one is some benchmark common benchmark, and another may be the real feedback from online users.' 丁丁: 'User data is still important, but the high-quality user data and the model capabilities we want to improve must be aligned, that is, you must choose the right benchmark to help improve your model intelligence.' 丁丁: 'So from the perspective of your model product, if you are Liang Wenfeng half a year ago, would you accept those DAUs and data? If I have sufficient resources, I would definitely like to accept them. Of course, the premise is that the resources are sufficient, right? But it's just not enough, right? It's still about wanting to accept it. Is this a common problem for classical product managers? You will, right? You have so many users coming, you still have this idea. I think, but in the end, they seem to let it be, they didn't particularly want to accept this thing.' 丁丁: 'I think it's still about model evaluation and the understanding of the benchmark, because I used to do search products, search may also have some evaluation work is a bit similar, but it's just that in the past doing search, your evaluation data and the speed of change may not be so fast.' 丁丁: 'I can simply understand that evaluation is certainly the most important for the performance of the model and the final performance of the product, and evaluation is to evaluate and implement through benchmark, and benchmark is, for example, a set of questions designed by a third party or the product itself.' 丁丁: 'But in different businesses, the evaluation standards or points of concern are very different. For example, as we just mentioned, if you are doing deep search, you will hope that the model's output is what, I think it is highly likely that you will hope that it can give a relatively real and comprehensive requirement based on all the data sources you have guided, but if you are, for example, a CAA, it may be an emotional companionship type,' 丁丁: 'So in this process, you abstract not only the elements and classifications, but also their importance, and there is a very interesting example here, that is, when DeepSeek became popular, a large reason was that everyone felt that DeepSeek's style was very interesting, because it seemed very philosophical and elegant.' 丁丁: 'For the first point, I think so, in fact, there are already some preferences, for example, when you are programming, you will definitely choose Cloud as the first priority, but for example, you may do some deep search, you may use O3 today, and for the second question, I think it can be converted, you still need to abstract this personalization into a certain kind of model ability or product ability, for example, I can give a simple example, can I solve your personalized preference through Memory?' 丁丁: 'I think it's possible, and OpenAI itself is also working on it, so it may not need to be as finely divided as you said, but it must be able to achieve your ultimate goal through some kind of model internalized ability. I want to think of an extreme meaning, for example, assuming it is still a CAI product.' 丁丁: 'First of all, the difficulty of the benchmark in the same field may be different, and this difficulty is reflected in how you understand the business, for example, at the beginning, when you may do search, you will use some very simple questions.' 丁丁: 'There may be several principles, for example, it must first be real, able to reflect the needs of online users, and also have a certain degree of difficulty and distinction, it is not all difficulties are the same, secondly, it may be that this benchmark is with your entire model iteration life cycle.' 丁丁: 'Is it a strong correlation between benchmark and final user indicators? That is, we will look at, for example, the benchmark I designed today, and if it gets better, theoretically, these user indicators should also get better, right? Yes, if it doesn't get better, it means you need to change your benchmark, at least to make them continuously align, otherwise your evaluation will be meaningless. It should be a positive correlation.' 丁丁: 'Including, for example, when we do evaluation, we will involve auto eval and human eval, the task completion effect of using a large model to evaluate your own model, and the end-to-end effect of using a person to evaluate your final evaluation, and I understand that these two kinds of eval actually also need to be constantly verified, otherwise there will be a model to automatically score, and then find out that there is actually a gap between the real user experience.' 丁丁: 'First of all, startups and large factories may have some differences, large factories I see is that different teams are still like the previous way of circulation, for example, your high-quality data annotation, including this evaluation set, it is completely done by the data team.' 丁丁: 'How often is it reasonable to change the benchmark? I think there is no standard answer, the faster the better, or look at the data, etc. Yes, yes, the faster it means that your model ability iteration is very fast, but for many startups, if they don't move the model, in fact, what they iterate should be some of their, for example, pre-prepared prompts and their engineering testing capabilities, right? And affect its results.' 丁丁: 'I might give myself, for example, 400 questions, will this question be more or less? I don't think it is, it's just that you can measure the performance of your model, and that's OK. Then can I say that I will launch the product first, and then the users will use it, and then I will sort all the user prompts.' 丁丁: 'I think I've done so many good benchmarks, and no one has ever asked me what a bad benchmark looks like, for example, it's particularly simple, or it's benchmark is simply a certain dimension, and a certain difficulty, which is a very bad benchmark.' 丁丁: 'So there is a possibility that I just put all the points on one item to make the long board long enough, and the user's perception of the long board of my product is obvious enough, and I can stand out, or should I average the points is the best choice? This question may have to be divided into two layers, one is the ability of the base model, we will see that the stronger the ability of the base model.' 丁丁: 'Let's take an example, I think everyone may have used it in daily life, which is similar to CAI, this kind of chat product, so assuming that you are now doing an AI companion chat product, what do you think the difficulties might be, and how to do this?' 丁丁: 'Because as you said, your benchmark definition can only take care of 80% of users, maybe with personalization and mobile models strong enough ability can also solve.' 丁丁: 'I'm actually thinking about a more abstract question, that is, when we are setting many evaluation standards or values, you will find that we are generally a mapping of human values, but is this right? This is really abstract, this is too abstract, it's nothing more than you think that in the whole human world, there must be a relatively good answer to a certain problem, so you go to do this mapping, but is this mapping really right? I don't know.' 丁丁: 'I think there are some product principles, one is to do product structure first, then functional details, for example, we will find that there are many functions in WeChat, if it is used, for example, different tabs to express, do not do hierarchical decomposition, then today will be very redundant, and will be very complex, but until today, WeChat is still relatively simple, and there are only four tabs.' 丁丁: 'Then another point is that I think your hands-on ability should be very strong, and you don't need to be like the products in the past, you have a very strong module circulation awareness, but you need to completely throw away this awareness, that is, you just treat yourself as a product manager, a designer, and at the same time, a front-end, and now you may not be able to fully implement the back-end, but you can also try, and you go to complete the full process of this closed loop, then I think it will be more helpful for you to understand the model.' 丁丁: 'First of all, if it's from some background, I think I might really prefer the initial model products or smaller companies, that is, to complete this from zero to one or end-to-end students, that is, more full-stack themselves have done some things from beginning to end, right?'

Deep Dive

Shownotes Transcript

有些東西在那裡啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦啦

我们今天很开心请到丁丁因为丁丁之前从 24 年初开始加入 Kimi 对然后那个时候是 Kimi 的 App 刚上线对相当于是去了以后上线了 Kimi 的 App 然后就是一直做 Kimi 的 App 然后做了大概一年多的时间也算是 Kimi 的早期的产品同学之一然后最近是刚出来对然后我们可以从最近比较火的一篇文章先切入进来正好通过那篇文章聊一下模型的上下班场的问题

就是前两天 openAI 的那个人就把他写了一篇文章然后标题大概就是 AI 的下半场然后我看他里面讲的核心的点是说大家对于当下模型的能力的开发其实已经到一定阶段然后之前的很多 evaluation 用的一些 benchmark 可能没有那么有效了应该需要一些新的更偏向于实际落地的一些 evaluation 的 benchmark 我不知道你是怎么看这个问题的

在聊这个问题之前可能我们也是要有一个最基础的概念一个是关于 evaluation 什么是 evaluation 其实就是你对模型的性能的好坏进行分析和评估的一个过程而 benchmark 其实就是一系列的基准的测试你也可以理解为给模型出的一套套题

然后来看它表现怎么样然后下半场那篇文章传播非常广它其中最重要的提出了一个观点就是在这个阶段可能定义问题会比原来的去把现有的一些 benchmark 刷分更重要其实这些 benchmark 可能跟业务的真实的场景或者用户实际的需求之间还是有 gap 的

所以我记得这个文章里面有个观点说就是鼓励研究者是需要成品经理的这个思维去关注实际的成品体验和效用的问题不然就会出现可能所谓的智能的水平越来越高但是实际解决问题的效用并没有被提升的状况对它里面提了一个点我觉得其实挺对的就是现在的各种

看它那个刷分的结果来讲可能很多 AI 已经达到研究生博士生的水平了但实际上在落地的时候可能最多连个实习生的水平都还算不上这个背后的原因到底是什么就是班尺码和设定的问题因为实际上在我们真实的业务场景至少我感受到的

除了基准测试之外我们其实还会关注很多结合业务以及结合用户真实使用的这个 benchmark 因为上述的我们刚刚提到的这些基准测试它和真实世界中模型产品不同业务的输入之间的偏差还是会

比较大的比如说你是一个端到端的模型产品你要去评估的除了机座模型本身的能力之外你可能还会有在整个流程当中的 system prompt 包括搜索 API 可能你还会有知识库然后接口等等一系列的流程最终共同构成用户的体验

然后另外就是你在不同业务或者不同领域内实际上你的出入可能跟我们看到的那些基准测试的所谓的题目是完全不一样的基于这个前提也会表现出来说 benchmark 的分数很高但是如果你完全拿来机用的话可能你在真实的业务场景当中的表现并不会特别的好所以你是认可 AI 下半场整个这个说法的吗

我完全认可所以回顾上半场至少国内的人士来讲应该是从 23 年初开始直到可能 24 年底或 25 年初这两年的时间然后在你从 Kimi 的这些经验里面包括你看到国内这些大模型公司的发展来讲你的上半场我们能总结哪几个阶段然后大家

核心提炼的哪些认知跟一些答案首先是上半场大家还是在努力地提升机座模型的能力或者说是还在努力地挖掘 print train 的潜力对 Kimi 来讲其实也很早就意识到了 IL 的重要性但是 IL 的效果最终是必须 base 在一个很好的基础模型或者在很好的 print train 环节上的

其实从 DeepSeek 成功的经验也验证了这一点然后另外是我觉得大家在过去的一年当中都在积极的尝试用现有的机座模型的能力去包装出一些好的生产力的产品但是我们也会同时看到比如说在过去机座模型能力不足够 OK 的情况下或者训练范式没有调整的情况下提示词工程会被提到一个非常重要的一个维度甚至可能我记得应该是在去年的上半年

还在说你一定要去成为一个提示词工程师或者这可能是一种新的职业那今天不是说提示词不重要那它可能相比过去非常复杂的这个提示词由于机座模型的能力的提升它可能会只需要你更加简单清晰明确地描述你想要的这个结果就能输出跟以前一样甚至超越之前的一些结果的能力吧我记得之前 Sam Altman 说过好像提示词工程未来是不存在的

我觉得他说那个不存在的意思是指比如说专门的提示词工程这个职业不存在但是我觉得提示词本身是一定会存在明白我的感知是好像从 23 年开始呢几家模型商大家开始追求 pre-training 的程度然后追求 AGI

但过去的一年多的时间吧大家其实各自都落在了像应该讲一些产品上面比如说 Kimi 是落在他的 APP 上字节落在兜包上 minimax 可能最后选的是 talking 星也这些方向上然后大家开始去卷说谁的 DAO 更高然后 deepseek 出来以后呢反而好像一个类似警钟还是什么样一个东西吧就大家又发现说原来智能更高以后前面这些东西可能都没有那么重要

所以现在我的感觉是大家又回到去追求 AGI 的路线从你的视角来讲是不是首先我觉得一味的或者单一指标去追求 DAU 某种程度上是一种经验的惯性或者有点偷懒的行为吧

因为过去在移动端互联网时代你说大家用什么去衡量你的产品是否成功用户规模可能就是一个非常直接的指标我觉得这个其实正好可能跟 benchmark 也是相关的就是大家没有一个客观的指标能够评价说你这个东西到底做怎么样你很难讲说我的模型做了一年就比别人强多少

就 Banchmark 因为大家都知道其实它是可以刷可以怎么样的所以大家要去评判这个东西不管是要内部定 OKR KPI 还是外部去面向资本市场也好面向用户也好那能评价的可能就是 DAU 了所以我觉得这个也是一个必然的结果

我觉得 DAU 并不是不重要而且其实你必须要有用户你才能获得反馈获得真实的用户输入只是说一味的去追求 DAU 其实对比如说模型能力的提升它可能是没有帮助的这里面我觉得也可以去引入 benchmark 来源来理解这件事情比如说我们所说的 benchmark 有哪几种来源一种是刚刚说的一些基准通用的 benchmark 然后还有一种可能就是用户线上真实的反馈

可能是关联比如说 DAU 或者用户使用的然后还有一种是人工构造的 Benchmark 然后包括合成数据的 Benchmark 但是刚刚我们说的这个 DAU 它

它会积累用户的 benchmark 且你有一定的 DAU 规模一定是能够帮助你获得独家数据但是问题就是用户的输入很多时候的噪音太大了比如说一个快手来的用户和一个真正的生产力工具聊比如说 50 轮上下文最终输出一个调研报告的用户它的数据可能完全不一样也就是说

用户的数据仍然重要但是高质量的用户数据和我们想要提升的模型能力之间它必须是 align 就是你必须得挑选准确的 benchmark 才对你的模型智能的提升是有帮助的嗯

那我们一直在讲说数据是对于模型来讲特别重要的可能长期在讲数据也是壁垒然后大家也在讲说这个 ChinaGPT 早发了然后这么多用户用所以有很多数据所以它的模型效果会更好但同时呢过去几个月的时间很多人在讨论说 DeepSeq 到底要不要接这些用户这些数据到底对 DeepSeq 有没有用所以你觉得这些数据到底对于模型进展对于智能水平提升的作用有多大

当然是重要的因为当你没有用户数据的时候其实公司的人或者产品经理本身也是局限的他也不是一个每个行业的专家他也没有自己去尝试模型所有的用法他也没有尝试各种模态的混合的输入而我觉得用户的数据或者高质量的数据恰恰是去提供了这些行业的这个视角如果你能结合一些比如说专家的这种不管是访谈也好调样也好

那我觉得就能帮助每一家机座模型公司更好的理解用户以及定义出更好的 benchmark 出来对但你看 openAI 的数据肯定是远高于其他家的嗯和 Dropik 一样追上了就这个的原因是什么是不是数据在里面肯定是有用但是用处还没有那么大还是

因为最终的表现它其实有非常多的环节对吧你 print train 的这个机模训的好不好那后训练的过程当中你做的好不好对吧你用 SFT 激活的好不好然后你当时有没有在用 RL 还是大家都在用这个 SFT 因为 RL 也依赖一个高效的 infra 的基建然后包括对这个范式的绝对的笃定嘛所以这个里面就是层层成绩出来然后最终构成了它是不是一个好的体验

所以以你的模型产品的视角如果你是半年前的梁文峰你要不要接那些 DAU 跟数据我如果资源充足我一定想接当然你前提是资源充足嘛对吧但恰恰就是不够充足嘛嗯

还是想接这是不是古典产品经理的通病你会吧对吧你这么多用户来还是有这个想法的我觉得但从最后结果来讲他们好像就顺其自然他也没有特意的要去接这个东西是然后我们讲回到你在模型公司里面做的那段时间就最终你总结下来你觉得你最大的几个收获跟经验是什么

我觉得还是对模型评估然后包括对整个 benchmark 的认知因为我之前是做过搜索的产品的搜索可能之前也会有一些评测这个工作还是有点类似的但只是说在过去做搜索的时候你的评测的数据及变化的速度可能没有那么快

你可能能用相对比较通用的一套测试集然后用很长一段时间但是你在模型公司因为模型的能力它其实也是在动态的迭代的当模型某一个维度上的能力通过一个 benchmark 已经解决了

那这个 benchmark 的生命周期可能就结束了那你可能就需要定义很多不同维度不同梯度的 benchmark 来一步步的推进模型的进步最终这个模型智能的体现就是 benchmark 的难度无非就是说你出什么样的题对吧然后你得到一个什么样的结果而最终让各家模型产品拉开差距或表现出各自特点的

恰恰是可能他们对 benchmark 在出题上这件事的不同的定义对我能不能简单理解说就是 evaluation 肯定是最重要的对于模型的表现和产品最终表现来讲然后 evaluation 就是通过 benchmark 来去评估跟实现然后 benchmark 就是

可能比如说第三方或者内部的产品自己出了一套题所以你能不能举些例子这个题大概到底是什么样子的一些题比如说一个典型的深度搜索的题可能就会有一道题是你能帮我把腾讯过去 10 年的财报都找出来并且预测一下今年它的净利润会上升多少这个时候模型可能会有一个输出

那就会有另外一个比如说 reward 来评价这个模型的输出到底好不好那刚刚我们看到的那样一个输入输出然后以及评价它可能就构成了一个 benchmark 基础的一个最小颗粒度单位但是实际上在不同的业务当中评测的标准或者在意的点

是非常不一样的可以举一个例子比如说刚刚我们讲到的如果你是做深度搜索那你会希望模型的输出是什么我觉得大概率你会希望它能够基于你所引导的所有的数据源给出一个尽量真实的并且全面的这样子的一个要求但如果你是一个比如说 CAA 吧它可能是一个情感陪伴类的

那刚刚那个标准就变得不重要了你不希望他在情感陪伴的时候说出根据你的心情状态我对你有以下几个建议一什么二什么但也许这个结构化的输出在比如说言报啊等等很多场景下又是非常适用的所以这又 call back 了刚刚我们讲的其实在不同的业务场景这种评估的标准的好坏是有非常大的一个区分度的

对所以我听起来这个问题其实就是用户可能真实场景中会给的一段 prompt 把它是作为一个问题然后你去评估的时候它可能不是一个这个东西对错或者好坏它可能会分好几个维度可能甚至于一个很复杂的表格来去评价这段话我觉得你最终一定能够抽象出来几个维度然后你去让模型学习你这种对好的判断但这几个好也是会分优先级吗我在想有的场景里面比如说他给用户的是不是

口语化足够然后长度是不是适中之类的对吧它可能是好几个标准那这几个标准有可能有时候是相悖的对吧有可能这个是 A 好那个是 B 好那最后怎么定义好呢还是会回到那个真实的用户场景比如说 CII 的那个场景那那个时候其实事实性和完整性或者真实性就不那么重要在产品侧的业务视角已经做了一层判断就是说比如说对用户意图的理解和口语化可能就会比其他的指标更重要

所以在这个过程当中你抽象不止抽象的是元素和分类你同时还会抽象它的重要性然后这里面有一个非常有意思的例子就是当时 DeepSeek 出圈的时候很大的原因是大家觉得 DeepSeek 的文风特别的有意思因为显得非常的有哲思和优雅

但是其实它背后反映的是他们团队对于什么是好这件事情一定有这一条隐含的标准就是模型这样回答是好的因为在那之前没有任何一家公司哪怕比如说我们把时间倒回去在 DeepSeek 没出来之前我们在内部说这个文分是重要的大家一定会觉得它是一个好的指标吗我觉得也未必所以其实模型评估本身就是特别难的一件事情因为我觉得所有人都有共识的且百分之 100

正确性的评价标准其实是不太好制定的我听起来这个世界上好像就没有百分百它还是一个比较偏人类喜好的一个结果看你是哪些领域数学题肯定有对吧代码题肯定有这种有 ground truth 的我觉得就比较好做然后我觉得今天也是大家会非常偏好采用的因为它就是有个标准答案

但是比如说对于一些不好量化的层面比如说刚刚我们提到的语言风格包括表达等等我觉得这些其实是不太好制定甚至是没有共识的所以从这个角度我才想两个问题一个问题是如果是这样的话那会不会未来就是应该多模型就每个模型有自己的性格

有的人就喜欢这个人就喜欢那个这是第一个问题然后另外我觉得还有一种可能性是未来 benchmark 会不会系到说他会给不同的人群做分类就是我有一千个用户但我甚至于极端我会有一千个 benchmark 给不同的用户然后每个人得到的结果是不一样的对于

第一点我觉得是的其实现在就已经有一些偏好了比如说当你编程的时候你肯定第一优先级就选择 Cloud 但是比如说你可能做一些深度搜索的时候你可能今天就会去用 O3 然后对于第二个问题我觉得它可以转换一下最终还是要把这种个性化抽象到某一种模型能力或者产品能力上比如说我举个最简单的例子我能不能通过 Memory 来解决你刚刚的个性化的这个偏好

我觉得是有这个可能性的其实 OpenAI 本身也自己在努力所以可能不一定需要像你说的那么细分的 benchmark 但它一定是通过某种模型内化的能力能够帮你去达成你最终的目标我又想一个极端的意思比如说假设还是一个 CIA 产品

然后 CAI 这个公司本身应该是说希望这个产品的情商越来越高智商越来越高那如果这时候有个用户说我就喜欢蠢的那他相对说他自己去通过各种对话去调教这个 bot 他希望这个 bot 变得越来越蠢但同时这个公司的底模就是想把这个变得越来越聪明那是不是一个矛盾的事情呢我觉得不是因为他希望它是纯本质上是一种指令遵循的能力也是模型的基础能力所以就是要让他足够聪明以至于他可以扮蠢

对最顶尖的我觉得人也是可以做到这样大智若愚对面对不同的人完全可以去迎合你的喜好 OK 明白 benchmark 我听起来我觉得好像大家能想到的应该差不太多所以没有一两个例子就是你觉得这个 benchmark 真的是很巧妙别人想不太到

然后但定出来以后对产品提升模型提升特别有帮助的这种因为你刚才这种我觉得就是比如大家坐在那儿就印象总归能写出来各种包括你去看用户的比如他互动的一些数据提问的数据去做个排序之类的也大概能分传一些最终 A 和 B 两个公司他通过 benchmark 定义的不同带来结果不同

那这个 benchmark 不同的体现在哪首先在同一领域 benchmark 的难度可能就会不一样而这个难度通过什么体现呢就通过你怎么理解这个业务比如说一开始你可能做搜索的时候你会用一些特别简单的题目

但你当时可能会觉得这就是用户的输入但是再过一段时间你会发现你看到有一些比如说金融领域的人他可能通过上下不到时轮的对话然后你发现其实完全可以通过一个比较复杂的 prompt 的提问然后也能让模型直接一步到位输出那个结果那这个时候可能你就会有一个更难的一个 benchmark

那对于这个 benchmark 你觉得什么是好这个标准各家公司其实也一定会有差异的而这个差异会直接引领着这个模型迭代的方向然后另外一个呢是我觉得就过去可能模型确实会出现比如说你训好了 A 你可能就丢到了 B 但我们最希望出现的场景是在前一代模型的这个基础上你新的能力又不断的增长那你这个时候你更看重哪个方向的能力其实我觉得也是一种取舍吧

那 benchmark 的好坏是不是还是一个相对偏主观的一个事情就有哪些客观的指标能够衡量一个比较好的一个 benchmark 可能有几个原则比如说它首先一定是真实的能够反映线上用户的需求然后也有一定的难度和区分度它不是所有的难度都是一样的再其次可能就是这个 benchmark 是随着你整个模型迭代的生命周期

去进行流转的就刚刚说的你可能会抛弃这个 benchmark 你也可能会加一些新的体你看古典产品经理可能他看的指标就用户的一些使用频次使用时长对吧放到 AI 里面可能就是对话轮次然后包括一些典型的像流存这种数据 benchmark 和这些数据是挂钩的关系吗

它一定是有个关联关系因为 Benchmark 本质上反映的是模型某一方面能力到底好不好用嘛那好不好用本质上又会被转化成用户指标只不过今天的这个用户指标可能就像我们刚刚说的你模型好

并不一定代表你的 DAU 好然后你在不同的业务下关联的用户指标可能就会变化然后以及它的最佳用户指标是什么会不会是一种我们没有想到过的但是更好的指标我前两天还在想一个事情就是 Manas 火出圈了那 Manas 的核心的用户指标有可能会是什么比如说我能想到的是最少步骤但是结果被用户下载

或者引用的这个比率所以 benchmark 跟最终用户指标是一个强关联关系吗就你们会看比如说我今天出的 benchmark 然后如果他变得更好理论来说这些用户指标应该变更好才对是的对如果没有变更好就是你要去改你的 benchmark 至少要让他们去不断的 align 不然你的评估就没有意义是它应该是个正关联

对对然后包括比如说可能我们在做 evaluation 的时候会涉及到 auto eval 和 human eval 你这个用大模型去评价自己模型的任务完成的效果和你用人最终去评价你端到端的这个效果然后我理解这两种的这个 eval 其实它也是需要被不断校验的不然就会存在着模型去自动打分然后打出来发现跟真实的用户体验之间它其实有 gap

这个过程本身也是动态的就你现在跟 AI 公司产品经理交流下来看你觉得大家对于 Benchmark 这个事的理解跟实践是都已经在一个差不多的水平还是会有哪些差异化的东西首先

创业公司和大厂可能会有一些分化,大厂我看到的是不同团队还在像以前那种方式流转,比如说你的高质量的这个数据标注,然后包括这个评测集,它完全是由数据团队去做的。

然后一个评测或者策略产品拿到这个结果然后再去跟比如说功能测的或者端测的产品再去做沟通那我觉得它的这个断点其实是比较多的但是我觉得对创业公司来讲因为团队足够小或者组织方式的不一样吧其实我觉得大家认知迭代的是比较快的

多久 benchmark 变一次是比较合理的我觉得没有标准答案越快越好还是看数据什么的对对对越快说明你模型能力迭代的很快但对于很多创业公司来讲他如果不去动模型的话其实他迭代的应该是他的一些比如预制的 prompt 和他的工程测的能力对吧然后影响他的结果对我有一个补充的点是你在一开始用户基数比较少的时候你的评价维度可能会相对来讲单一一点

因为你的用户分化也不严重然后当用户变得更广之后用户需求分布也会越来越不一样在那个不一样的情况下你仍然要去适合不同用户的一个最好的效果那你的标准可能也会进行补充然后调整对我有想到几个问题一个是你觉得市场里面尤其是这些创业公司来讲它的 benchmark 大概在多少

量级是相对你觉得比较合理的就比如说你今天自己要做一个创业公司你大概会一开始出多少道题来去测这个产品我可能会给自己比如说 400 道题这个题会越多也好会越少也好吗我觉得不是就是你能够去衡量你的模型的表现就 OK 了那我能不能说我先产品上线然后用户使用起来然后我把用户所有的 prompt 排序

或者做一个什么类似模糊搜索这些东西最后我就排出来前面 400 个然后我就说这个就是我的 benchmark 你说的这个特别有意思因为这个就是以前搜索的 benchmark 之一高频 query 的效果但是还是那个问题你可能要过滤一些噪音或者是没有那么有效的用户数据然后另外一个是就跟搜索一样你很多的需求你可能非常的常委你只解决

头部的 400 嘛那剩下的比如说你假设整个 QV 量是 100 万然后头部 400 可能占了比如说中间的 20 万那剩下的 80 万你要不要解决肯定要解决所以就是又回到我们刚刚说的原则你还是要尽量的去符合线上用户的这个分布而不是说单一的说有一个 top 的但是我们确实会更关注比如说大家都会去看点彩

就这种很强烈的负反馈的信号这种可能更能帮助你去判断一些底线的问题如果现在比如给你一家公司它的 benchmark 比如说是比如说 400 道题了比如 40 道题或 100 道题你能很快的分辨出来这个 benchmark 的好坏吗

大概会是什么样的我觉得首先要看它是不是一个我所了解的领域假设是我觉得当然能因为你能知道它比如说这些 benchmark 它是不是有剔度的然后是不是符合你对产品理解的比如说用户需求或者你一些真实的分布的你举一个典型的坏的 benchmark 的例子

我觉得搞了这么多好的 benchmark 从来没让别人问我说一个坏的 benchmark 长啥样比如说它特别简单或者说它 benchmark 里面单一的都是类似的某一个维度的然后某一个困难程度的就是一个非常糟糕的一个 benchmark 然后我另外一个问题就是我听到这我感觉去给模型的表现做 benchmark 有点像给你一堆点数你去点不同的技能数的感觉

所以有没有一种可能是我就是把所有点数点在某一项上让长板足够长然后用户对我这个产品的长板感知就足够明显然后我反而能脱颖而出还是说我要去平均去点这个点数才是最好的选择这个问题可能得分为两层看一个是机座模型的能力我们会看到的是机座模型能力的越强

他会在一些垂类里面表现的确实也越好就是泛化能力对对对你就什么都不做你就天然一个博士生就是比一个小学同学更聪明然后这是一个视角但另外一个视角我觉得确实也有在这个之上的一些垂直产品或者模型或者 agent 的这种机会吧

但那个是不是完全只基于模型能力而是加入很多其他的比如说工程能力等等包括一些独家的数据包括加入对业务本身的理解比如说可能有一个业务它就是做销售那它可能对销售这件事情的这种交互也好或者这种抽象的正反馈的信号也好

它就是比其他任何一家公司或者任何一个人了解的更多那它可能就能设计出更好的一个机遇模型的产品然后它也能告诉模型到底应该去奖励什么明白那我们举一个例子吧我觉得大家日常可能都用过的就是类似 CAI 这种聊天类产品

所以假设现在你就是做一个 AI 陪聊的成品觉得难点可能会在哪要怎么做这件事情感聊天或者陪伴的这个场景因为它是没有一个 ground truth 或者标准答案的所以这个时候它的评估标准到底怎么定才是完全准确的这件事情还挺难衡量的

比如说你现在在跟一个陪伴型的这个产品聊天你说我今天失恋了我和我的对象分手了那你的预期模型会怎么回复你比如说如果没有做过一些口语化或者是情绪识别回复的这个模型他可能就会说听到这个很难过我给你推荐一下几种方式去放松你的心情一下楼跑一跑二去见见朋友非常有画面感

好多模型确实是这样的对对对但是你觉得肯定比较好的你会希望他首先他就像一个真人一样可能会问你说啊怎么了如果他具有 memory 的能力他可能甚至会问你说不是上个星期你跟我讲你们俩之间还好好的吗然后那有的模型就会关心说具体是出了什么问题但可能有的模型的回复就是说抱抱你我一直都在这里陪你如果你有什么不开心的可以仍然跟我分享对吧

那一个真实的人他在这种情况下他到底预期获得一个什么样的回复这件事情我们是没有一个非常细的百分百正确的一个答案的我们只能尽量的去说在这个情况下我们希望模型首先关注到用户的情绪的变化其次从 memory 的角度我们希望他能够去知道这个用户的比如说情感的状态要不要进行一些 callback

那比如说再从一些心理咨询师的所谓的专家的角度我们会讲说我们不先急于给解决方案我们是关心说这个背后到底发生了什么事情让用户先把自己的情感的状态和具体的故事倾诉出来对我听起来就觉得这个事确实非常难定义因为有的人可能就是喜欢

解决问题吗对有人喜欢解决问题有的人喜欢别人可能就是怼他一下说你失恋了又咋样对吧你就别他当个事什么的有的人就喜欢有个像闺蜜一样去安慰他对几乎无法来定一个好的 benchmark 嘛所以从这个角度来讲我觉得未来一定会出现一些小众猎奇的产品吧

因为你像你刚才讲你的 benchmark 定义的它只能可能照顾到 80%的用户也许加上个性化和机动模型足够强的能力也能解决

但是我其实也在想一个更抽象的问题就是我们刚刚在定很多评价的标准或者价值观的时候你会发现我们整体上是一个人类价值观的一个映射但这件事情对吗这个确实很抽象这个太抽象了无非就是你觉得整个人类世界当中一定有在某个问题上有一个相对好的一个答案所以你再去做这个映射但这种映射真的是对的吗我不知道

嗯我来想确实就是答案我觉得分两种对吧一种是说社会约定俗成的一种答案另一种是可能有一个更高级版本的答案就是好像你在讨论一个问题的时候可能你身边的朋友都会给你一个答案但这时候可能会有一个类似教授角色的人他会给你另外一个答案你会觉得这个可能是一个比较体股观点的一个答案嗯

嗯我觉得比如说就是在做题啊然后在生产力的很多场景这个现在还是 work 的但是比如说刚刚我们讲的一些场景有的时候就会想说啊这样就是完全准确的吗不好说对所以从这个角度来讲确实做生产力类的一些产品确定性更强或者说它的标准相对来讲我觉得应该是更好找吧对就更好做就这个 benchmark 肯定是更好定的对嗯所以未来就以前不是会有公司说偷竞对公司的代码嗯

未来会不会说我投 benchmark 这个话题特别有意思我觉得 benchmark 确实是一个核心资产如果是我的话我可能就会维护一个只有自己知道的一个 benchmark 这个 benchmark 甚至我觉得算法团队的同学也不应该知道因为如果知道了他们可能在训练的过程当中会不由自主地让模型去

打出这个问题或者会不会被 hack 我不确定那我就会每次可能上前之前过来测一下但是我不会公布这个 benchmark 具体是什么所以确实 benchmark 是一个特别特别重要的东西是的所以你觉得你做了因为你之前其实最早在微信做搜索类产品对吧然后后来又在美团做过策略产品然后你又在 Kimi 做了模型产品所以你回过头来看你觉得 AI 的产品经历和

和古典的商品经历来讲大家相同跟不同的地方在哪我觉得相同的地方是懂用户然后相同的能力点叫做翻译能力这个翻译能力可能仍然是发现问题并把用户和业务的场景去做抽象比如说可能过去的抽象是抽象在了交互的设计和整个结构的设计

可能今天在模型你就是把业务的整个的流程抽象出一种好的评估的标准观测的指标对所以我觉得这个抽象能力然后以及这种对用户场景需求的这种翻译能力仍然是重要的然后另外一个是我觉得原来古典产品经历非常多的还是说对交互体验这种敏锐的感知能力到底什么是美的什么是丑的什么是符合直觉的设计什么又不是这种能力我觉得仍然是需要的而且我觉得

是稀缺的因为现在大家说了很多关于模型的但今天一个不同的产品基于模型能力的最好的交互其实还没有诞生而在一些锤类的产品里面可能交互会更加的重要这个交互甚至直接反映了你能不能为模型的迭代或者产品的迭代设计出一种合适的反馈的节点或者反馈的信号

那我觉得不同就在于对数据的重视程度会发生非常非常大的变化就是现在会比以往更重视数据的质量

然后还有一个就是对于模型能力边界的理解这个过程我觉得还是需要很多时间去积累的这块我觉得可以展开讲讲我觉得这块应该是最难也是最重要的一部分就现在模型的进展其实还是很快的有的人就担心说是不是我现在做的东西半年后就被模型颠覆掉了就没有用了或者说我做的整个产品是不是就在模型的发展路线上

就是怎么样去就像你讲的能更理解模型的边界以及能够预判模型的边界首先我先说方法层面因为这个问题可能也会有很多之前的产品也会跟我去做讨论我觉得就你还是要多用然后你去用不同的最好的模型然后以及他们的 API 然后你会理解不同模型在不同领域或者不同能力上的表现

你也会更加熟悉模型每隔比如说一个月两个月因为它一定会有新的版本的能力的提升嘛这是第一点然后第二点是我觉得之前内部的同学也会在分享说把所有你觉得你想做的事情先用 AI 做一遍比如说以前 C 端我们除了 PRD 之外可能我们先要花一个交互对吧

那你可以试着把你想要的这个交互逻辑清楚地说出来然后让 Cloud 可能帮你去制作一个交互因为在这个过程当中你就会去摸到这个模型能力的边界以及帮你能够实现什么然后在这个动态的跟模型一起迭代并使用的过程当中你可能会发现它某个方向的能力它会比你想象的变得越来越强然后这个例子其实也可以去 call back 前阵子非常火的思欧的延出法随的图像生成嘛

你在没体验到它的模型之前就会觉得说你要可能生成一个指令遵循的特别是上下文多轮修改的图是非常难的但是你今天其实你会发现说原来 SERV 完全能做到它可能就是一个伴随着模型能力边界的迭代而产生的在这个基础上你可能又能快速的去做出一些新的产品

然后另外一个是我觉得你的动手能力要很强然后你不需要像过去的产品一样有非常强的模块流转的这个意识而是你要完全丢掉这个意识就你就把自己当一个产品经理当一个设计师同时再当一个前端现在可能当后端不能完全实现但也可以试一试然后你去完成全流程的这个闭环那我觉得对你理解模型这件事情也是会更有帮助的所以未来

你是不是也觉得每个人真的就是会变成拳战我觉得是你自己也会看论文吗因为之前 HighCloud 在我们做的一期播客那期其实也很多人听我是那期的正式用户对所以张涛其实他讲了很多点就是说他自己会日常去看那些论文我不知道你觉得这个是 AI 产品经理的必备的一个

我觉得是因为我觉得这个习惯是非常非常重要的因为我觉得你去理解那个原理然后以及你在理解原理的基础上去做验证它本来就是一体的我没有见过说哪个人去用但哪个人完全不关心原理的实现你肯定会知道说他为什么会这样他某些能力做的比较强啊

但是我觉得可能不一样的是你理解论文的那个深度跟算法同学理解论文的深度可能是完全不一样的然后论文也分很多种类嘛比如说你如果完全是在讲算法的我觉得可能我努力看也不一定看得懂但是在讲一些比如说比较前沿的一些判断的论文其实你也可以搭配着去看一些对嗯所以从你做过模型产品的这个视角来讲你觉得创业公司或者说在做 AI 产品的人他们

做哪些事情是不会被模型为来碾压掉的能给一些大概的判断标准首先我觉得他可能是有一个很深的领域内的 know how 然后他同时又具有对模型的理解那他可能会在这个阶段成为最快的把这两者结合在一起然后形成一定的产品壁垒或者说行业认知然后积累用户的这个公司嗯

然后我们最后还是讲回到你微信那段经历里面我们稍微回顾一下你在微信那段经历里面你觉得有哪些印象很深刻的东西吗因为我们前面讲了很多 AI 产品的东西那段经历反而是大家会认可的说古典产品经历可能很经典的一段经历了我觉得有一些产品原则一个是先做产品结构

然后才是功能细节比如说我们会发现微信里面有很多的功能如果把它都用比如说不同的 tab 来表现不做层级的拆分那可能今天会非常的冗余然后也会非常复杂但是直到今天可能微信还是比较简单的然后也只有四个 tab 这个真的是张晓龙一上来就已经想好的说我要这几个 tab 然后我要怎么做朋友圈做公众号再怎么

对我觉得底层的结构它是从一开始就想得非常清楚的然后包括它也抽象了像扫码就是一个新的一个入口扫码提供的背后就是一个服务的一个能力这些都是甚至是在小程序诞生的两年之前龙哥就已经想好了然后另外一个就是功能模块之间是有机联系的

比如说当时很多用户都说要不是只有一个微信头像你有多个头像可以左滑右滑的那种感觉对对对但实际上你会发现用户的背后的需求叫做他想要有更多的头像的照片展示给别人看所以本质上他的需求应该去被朋友圈去承载

而不是说我要在这个单点上去做设计所以这个就是刚刚说的功能模块之间是有机联系的然后另外一个是我们不会主动强教育用户去一定要用哪个功能而是可能用户在用这个功能又往下再下转一层的时候他发现可能有一些新的体验然后他才会去触发到这个能力不必要的嗯

所以你后面在其他公司包括模型产品公司做过以后你觉得这些东西仍然是适用的吗我觉得是适用的就是它底层原理其实还是一样的对底层原理是一样的嗯

我觉得微信出来的产品它有一个被培训过的点是大家都会基于一个更全局的视角去真正的想什么是好的体验但是今天可能在一些公司因为验证一些能力和功能的设计太简单了然后上 AB 实验是非常方便的你可以跑 8 个实验甚至 20 个实验你只要选那个最终把指标做正的就可以了那你在做这个方案的时候特别是年轻的同学吧

你就不会去真的想说用户需不需要这个然后跟全局的联系然后到底这么做是不是好的因为我可能只要跑时间就好了对你看其实我们刚才讲过好几次古典产品经理但其实这个概念最早提出来我理解就是说古典产品经理是靠很多他个人的经验和感觉靠用户感知来做事情然后他应该最早对应的是更多的 AVTest 和实验型的数据取用的产品嘛

这里面比较典型的像美国那边很多大厂其实他是做很多 AVTest 的字节也是以这个出名的对吧他也做各种 AVTest 的然后最终他应该是结果看数据数据如果好的话哪怕你解释不清楚这个事情为什么是这样他也是好的我不知道你最后会同意这个说法吗谈这个问题之前我觉得可能得要往上说一层就是我觉得每个产品首先它是有自己的个性

或者它是有自己的感觉的比如说微信给人的感觉就是它比较内敛然后它又极致的简单然后可能 Instagram 它给人的感觉就是它很时髦它也很漂亮它是一个很 fancy 的感觉所以我觉得这个调性肯定是不能通过 A/B 实验去得到的这个还是很古典产品的视角我这个产品打开就是很乱但是它留存就是比原来高了所以这是一种价值观的取向

就是你是不是就为了比如说追求指标我就是能容忍家那么多但是就比如说微信的取向就是绝对不可以然后第二个是关于指标你选的到底对不对这件事情因为一旦公司大了以后你每个部门的指标和每个业务的指标它其实还是会存在被 hack 的空间的因为它

他关注的不是一个统一的一个大指标他不会去遵循某一个所谓的这个调性或者价值观的体现他可能只要坐镇我这个业务的指标就可以了即使他可能非常违反直觉和到最后对大指标来讲他可能甚至是负的明白

好我们最后一个问题现在如果一个创业公司他想要找一个好的 AI 产品经理因为现在其实挺难找的对吧没有一个画像是典型的说这个人就是可以做 AI 产品经理的你觉得到底大家要怎么找这个人或者怎么培养这个人

首先如果从一些背景上来讲我觉得可能我确实会更偏好初创的模型产品或者更小公司里面就是完成这个从零到一或者端到端的这个同学就是更全站对自己从头到尾做过一些东西对对然后第二个是因为我也看到过有些同学他会用自己的业余的时间他会去做一些小的 demo 或者小的产品出来然后我觉得这是一个非常好的信号

因为如果你是一个好的 AI 产品经理你本身就像你说的它可能是个全站你这个产品可能不用特别突出但是你肯定自己一定跑过一些东西验证过一些东西然后第三是我觉得确实你可以直接问他就是说你最喜欢的模型是哪个你平时用的最多的模型是什么你一般在什么场景下用然后为什么你用那些即使可能他前面那两条没有满足的话其实从第三点你也可以看出他对整个行业的理解包括热情包括整个的专注度好

感谢丁丁谢谢曲老师

AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁 41:12 Share

42章经

Deep Dive

Shownotes Transcript

AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁