We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode  第 19 期:假作真时真亦假:从统计学角度理解数据

第 19 期:假作真时真亦假:从统计学角度理解数据

2020/12/30
logo of podcast  折尔根播客

折尔根播客

AI Deep Dive AI Chapters Transcript
People
J
Jessica
专注于卡拉OK设置和技巧的专家
周敏
我爱你
折耳根
Topics
我爱你:随着技术发展,数据爆炸式增长,需要统计学方法来分析和挖掘数据中的有价值信息。 Jessica:统计学是多学科交叉的工具性学科,在科研和工业生产中都有广泛应用,可以帮助我们更好地理解疫情新闻中的数据。 周敏:概率论与统计学都以概率为基础,但概率论更侧重理论研究,统计学更侧重于从样本数据推断总体情况。在实际应用中,统计学需要处理数据中的噪音等问题。 折耳根:通过播客形式讨论统计学,可以向大众科普统计学知识,并吸引更多年轻人关注统计学。 Jessica:在医学检验中,需要区分真阳性、假阳性、真阴性、假阴性等概念,并理解敏感性和特异性。多次检测结果不一致时,需要根据试剂盒的敏感性和特异性来判断是假阳性还是假阴性。 周敏:多次核酸检测结果中出现多次阴性后最终确诊阳性的情况,可能与试剂盒的准确度或检测手法有关。核酸检测结果会受到多种因素的影响,不一定是试剂本身的问题。 Jessica:在使用试剂盒进行检测时,需要确定阴性和阳性的阈值,并平衡假阴性和假阳性率。试剂盒的质量会影响平衡结果。 折耳根:医学上的漏诊率和误诊率分别对应统计学上的假阴性率和假阳性率。 Jessica:理解统计数据(如假阴性率和假阳性率)需要结合贝叶斯定理,考虑人群中真实阳性比例。 周敏:人群中真实患病率的数据获取方式,以及其作为估计值而非精确值的性质。 Jessica:AI在医学诊断中的应用是一个热点话题,但AI的应用需要考虑数据代表性等问题。 折耳根:大数据和数据科学的火热,与其在互联网应用上的商业利益密切相关。 Jessica:统计学、数据科学和AI的关系:统计学是基础,数据科学是方法论,AI是应用。统计推断在数据量不足时非常重要,而AI在大数据时代则更侧重于计算和预测。 周敏:数据科学融合了多个学科,其核心在于使用科学方法分析数据,并解决大数据计算的挑战。 折耳根:当前AI主要依赖于数据科学和大数据,但它缺乏对人类情感和美感的理解。 Jessica:机器学习的发展历程,以及概率论在机器学习中的作用。深度学习在一定程度上又回到了确定性算法的层面。 折耳根:统计学思想在日常生活中进行判断的重要性,避免以偏概全。

Deep Dive

Chapters
本期节目探讨了统计学、数据科学和AI之间的关系,以及它们在数据分析中的应用。嘉宾们解释了统计推断的原理,并讨论了大数据时代下如何利用AI进行数据分析,同时指出了AI的局限性。
  • 统计学、数据科学和AI是相互关联但又有所不同的领域。
  • 统计推断的核心是利用样本数据推断总体特征。
  • AI在数据分析中的应用越来越广泛,但它也存在局限性,例如缺乏对数据的理解和解释能力。
  • 大数据时代下,如何利用AI进行数据分析,以及如何保证数据分析的公平性和准确性,是重要的研究方向。

Shownotes Transcript

我愛你

随着技术的发展我们的数据的产生还有存储都达到了前所未有的高度那么有那么多数据我们如何从中去挖掘出有意思的发现这个就需要统计学因和阳从我们古人的角度来说因和阳加起来就是一个太极图吗就是说统计学和数据科学和 AI 它们是一种什么样的关系

非常担心 11 月份又出现跟 16 年一样的结果

各位听众朋友们大家好欢迎来到这儿跟播客我们这一期节目是一个新的系列也就是前面给大家预告过的统计学专题今天我们的节目里请来了两位重量级嘉宾他们都是在统计学这个领域有非常深的造诣的大学教授第一位是前面十四期的时候跟我上过一期节目的 JessicaJessica 来给大家打个招呼

大家好,我是 Josica,今天很高兴能跟大家聊一个新的话题。好,另一位嘉宾是一个新面孔,也以前没有来过我们节目的今天的新朋友,是另一位教授周敏,教授给大家打个招呼。大家好,我是周敏,很高兴参加这个节目和大家一起聊一下新的话题。

OK 好 两位老师还是介绍一下简单介绍一下自己吧就是说自己和统计学的关系比如说现在是从事哪一方面的工作然后也可以讲一讲就是说为什么选择了统计学给我们大家说一下李老师先开始那我先来吧嗯

就是我其实是在统计系当老师然后呢我为什么会选择统计这个方向呢是因为我在读本科的时候就意识到以后的数据分析会是一个很重要的问题因为随着技术的发展

我们的数据的产生还有存储都达到了前所未有的高度那么有那么多数据我们如何从中去挖掘出有意思的发现这个就需要统计学所以从我的角度来说我觉得统计学是一个跟方方面面的社会方方面面不管是科研还是工业生产都有很大关系的一个工具学科

今天我们要讲的这个话题也正好是当下的一个热点问题,然后我们也可以从统计学的角度来看看,它能够如何帮我们更好的在这种当前的疫情下去理解我们看到的新闻中的数据。

很好李老师已经帮我们带入了今天的一部分话题了我们等会儿将要也是结合一下当下已经非常怎么说可以说是目前这个世界唯一的一个重要话题的新冠疫情的话题那么周老师你来谈一下你跟统计学的关系其实我和统计的缘分来自于我自己的工作因为一开始我本科是学的

纯数学然后我的研究生读的专业是概率数据统计所以还是偏向于概率的但是对于我来说比较感触比较感触比较深的是一点就是当我硕士毕业的时候有我自己朋友拿一个汽车的数据让我去分析

然後我突然發現我不會芥末什麼都不會那這個時候對我的感觸是比較大的後來在研究生畢業之後去工作的時候接觸了統計學家方開泰教授然後從此就慢慢和統計掛上鉤了後來也就去了香港進回大學讀了博士以統計為專業

周老师刚才在介绍自己的时候提到就是说您说您原来是偏概率方面的对吧而不是这个地方我有一个我相信很多听众如果不是从事像我们统计学专业的听众的话他应该也会和我有同样的疑惑就是像我们普通人在平时了解到这些概念的时候

基本上都是说这个概率统计概率统计吧这两个概念一般都是这样相伴出现的那么在像这种专业领域里面的话这个是有一个细微的应该是有一些这种区别对吧能不能跟我们讲一下就是说这两个概念有一些什么区别呢

我的理解是这两个专业的话它都是会以概率为基础但是后期发展的话因为我的专业的话概率的话它是后期的话是做一些以

就是我的理解我不知道对不对就是我的理解是在没关系我们这还有另外一位教授他可以等会可以给我们补充就是我的理解就是在概率的时候相当于是我们就是知道总体的情况然后去做一些

理论的研究之类的但是从统计的角度来说可能我们是更多的是拿到的数据是样本然后去推断推断一些已经存在事实或者是之类的东西对我的理解有什么想补充的吗就是说可能简单的从大众的角度讲一下就是概率它更多的是在一种自我的想象中的研究它不需要拿到实在的数据它是在大脑里面做数学题

然后统计的话更偏理论一些对对对统计的话你是从数据出发就是你有一个实在的数据集对它进行分析那么就是说它可能会有很多你不想要的数据的噪音啊就是有这些东西嗯嗯就可能说你可以说一个是理想一个是现实然后统计学会去借用概率论里面的数学工具来帮助统计学分析数据嗯嗯啊

李老师说的对李老师总经理非常好对李老师非常好 OK 好那我们下面就进入正式进入今天的那个节目内容首先我想请问一下两位老师就是说为什么想要以播客这样的形式来讨论统计学呢我觉得可能一个很大的动机是

至少我觉得在大众当中统计学到底是做什么的其实很多人并不是很清楚他们可能会以为觉得统计是跟会计还比较像或者他们的理解来自于经常听到的什么国家统计局发表一些人口的数据收入的数据这个可能是大众的理解那么我希望就是可以借助你的这个平台

我们可以对大众进行一些科普从一方面来说我觉得对大众是有价值的因为如果你知道一些统计学或者说是它相关的概率论的一些原理的话你会更好的去理解这个世界发生的事情你可能就不太会被新闻媒体中的一些数据所误导

然后从另外一方面从我们自己的角度来说从学科的角度来说也希望能够吸引到更多的年轻的人才对统计学感兴趣所以希望可以达到这两个目的

这个李老师有非常远大的理想非常崇高的理想想着为我们祖国培育人才周老师您的想法呢李老师已经总结的很好了但是我补充一点就是为什么以播客的形式去讲这个话题呢其实我个人觉得如果我们用文字的形式写出来的话那可能就是

大家要仔細去看可能花很長時間那麼如果我們以播客的形式呢可能就可以在隨便在走路的時候或者是在躺著休息的時候在躺在床上休息的時候任何時間都可以通過這種形式去了解統計的知識這樣更方便大眾去理解這句話題

对我觉得就是这方面的话因为我自己是做播客所以我的体会是它作为一个科普或者是说一些不一定需要那么深入的对一个科目的了解我觉得播客是一个非常合适的情况因为就像赵老师刚才您说的它可以作为一个我们做其他事情的时候一个背景对

一边做比如说一边开车一边健身一边做其他事情的时候可以一边听播客然后有一些这样感性的了解我并不需要做这种深入的研究对吧因为我不是从事这个方面的我并不一定要做非常深入的研究但是呢通过这样的听播客这样的形式我可以对他有一些感性的认识然后就像李老师刚才说的对吧

可能在我生活中遇到相关的概念相关的一些可能会比较模棱两可或者是不是很清楚的时候我通过听播客节目了解的这些知识可能会对我去判别这些真真假假的信息会有一些帮助我觉得这是一个非常有意义的事情是的

好那为什么会想到来找来两位这个老师来做这个话题呢其实是因为两位老师有一个公众号他们在公众号里呢也发布一些这种统计学基础

科普类的这个文章然后我当时在这个公众号里就看到了这样一篇文章是跟这个当下的新冠疫情有关的一篇新闻当然现在已经是其实已经是旧门了因为这个是二月份的一篇新闻

但仍然我觉得当下这个时机这个疫情仍然还没有过去国内现在已经得到了非常好的控制但是我跟两位老师现在都是在美国这边我们美国这边这个现在不是太好说是吧大家都明白的这个现在这个情况非常的严重

所以我觉得这个新闻还是一个非常有关联的新闻它是说什么呢它是说在二月份的时候全国各地出现了非常多的这个核酸检测甲阴性的这样一个情况具体这个什么叫做甲阴性以及和它相关的这个统计学中的所谓真阴性真阳性甲阴性和甲阳性这几个比较容易混淆的概念两位老师能不能跟我们聊聊

理清楚一下对我觉得这个实际上是我们的第一篇文章想澄清的几个概念因为这个难点在于就是它有不同的说法

来代表相同的东西就是说首先呢我们管什么叫阳性什么叫阴性这个是需要先弄明白的我们通常认为这个阳性和阴性代表的是一个事实就是说一个人得了病就是阳性没有得病是阴性但是这个事实呢我们是希望通过一个检测来去推断你得没得病就是我们不是直接能拿到这个事实的

我们是要通过检测的数据那么所以我们拿到检测的数据之后医生就会对在数据上取一个预值那么就是说在这个预值的一边就叫做检测的阳性阴原一边是检测的阴性所以说这个真和假实际上就是把医生的检查的结果去和那个真实的结果来进行对比所以说

你可以这么去想就是这个假阴性和假阳性实际上是我们不能直接看到的因为你需要有其他的手段来帮助你判断这个人到底得没得病这样你才知道这个检验结果准不准所以说你看通常他们说假阴性是什么意思呢是说如果这个人第一次检测是阴性然后后面又

过了一次变成阳性嗯如果两次相隔很近那他可能医生就会认为说他如果相信说他这个试剂的那个就是在检测阳性方面是比较靠谱的话他可能就会倾向于说 ok 第二次是阳性那么第一次的那个阴性是个假阴性就是这样来的嗯对对

既然是这样的话这是我的理解有可能不准确就是像梁师刚才说的这个情况是由于两次时间上非常接近的检测它的结果产生了冲突对吧第一次是阴性第二次是阳性你就肯定有一次错有一次对你去这么认为的对那为什么我们把它称作为假阴性而不是假阳性

假阳性对为什么是前一次是错的而不是说后面一次是错的这个其实就取决于发展做试剂的公司和使用的医生他们是认为这个试剂在哪一边比较准他们需要有这么一个知识

就是这个实际上我们有后面那个文章里面其实有提到就是说我们管这个一个叫敏感性一个叫特异性其实是涉及到这两个概念敏感性和特异性是什么意思呢敏感性其实叫做 sensitivity 它指的其实就是说如果你这个病人真的得了病你把它检验为阳性的概率

你就是等于一减去加阴性的概率就是说它是一个阳性那么 given 这个阳性的这个事实这个试剂盒可以告诉我它是阳性的概率是多大这个就叫敏感性然后特异性呢是指的是反面就是说如果我没有得病那这个试剂给我阴性结果的概率就是一个理想的试剂我们是希望它的

敏感性和特异性都可以达到 100%但事实上我们知道不可能那么其实像刚才那个结果如果是两个结果两次做的是矛盾的话那其实你就看要根据你之前因为这个试剂盒在上市之前肯定要经过大量的检验嘛对吧就是说对那么你要看根据你之前的数据是它是敏感性好的还是特异性好就是说如果敏感性好的话

那就说明什么呢就说明说这个人如果得了病是有病的时候他被检验出来的概率是比较大的但是特异性不好的话就说明这个人没有得病那我还是会给一个阳性的结果那么就说明这个试结核会倾向于更加倾向于给出假阳性假阳性对 虽然回到之前那个两个试图一致的时候你可能就会更相信那个阴性结果

就是说可能是这么一个逻辑所以就是说我来判定它究竟是

就是在这个前面我们说到的这个两次结果产生了冲突的情况下我们来判定它究竟是假阳性还是假阴性的这样一个依据是我所使用的试剂本身的一些这种特质对特质对吧所以对我们这段文章其实就是在讨论这个特质就是说如何去理解

一则新闻南方周末里面的新闻他说杭州某医院一个病人经过七次核酸检测才确诊就是这么一个事情就是他做了七次只有最后一次才是阳性前面六次都是阴性那么这个代表着什么就是我们如何去理解这个数据周敏要不你来说

好周老师来讲这个就是李老师刚才说的那么前面七次的话是阴性最后一次就是阳性那么就很有可能和我们的试剂的试剂那个准确度有关系那么七次阴性最后一次阳性的话如果我们认为是这个试剂核组合准确的话那么也就是说那有可能就是

最后一次的阳性结果的话我应该说反了这个试剂盒的那个准确性如果有可能就是说明这个试剂盒的试剂盒的检测能力有可能不是很好那也就是说有可能就是说前面七次都是阴性后面是阳性那有可能本来这个人呢

有兩種可能性一種呢也有可能這個人本來就是陰性如果這個人實施是陰性的話那最後一次測出是陽性那這個的話是假陽性假陽性對那也就是最有可能就是我們的試劑盒的檢測能力有問題那麼第二個的話如果我們的試劑檢測盒沒有問題的話那麼也就換一種角度來說那這個人就可能是真的是陽性對

那么前面七次七次为什么没有测出来有可能会这个的话检测的话我们在下一篇文章中会提到就是说其实事实上的检测它会受很多因素影响对

也就是说并不一定是试剂本身会有什么问题就检测的手法也会对这个阴性和阳性的结果造成影响对的就是它实际上是两个不同的概念因为它的试剂盒会给你一个就是一个范围内的一个值那么在医生做判断的时候你实际上是要把一个范围内的值来找一个预值

所以说你实际上是要把一个本身事情和给你的一个连续的一个

一个测量结果给它给二元化因为在那个加了那个阈值之后你就只会告诉这个冰原你是阴性或者是阳性了那你的阈值在哪里选这个就是你在使用试剂盒的时候需要做的事情对嗯哦所以这个其实其实就是相当于我们在这个一个相当于像一个连续的光谱一样的对普直这样一个呃

中间去找一个点这个点以下

我们就认为它是阴性这个点以上我们认为它是阴性对的对的像梁师刚才你说的就是说那具体怎么来定这个点你说是在使用的使用试剂去测试的时候才定吗不是说这个试剂本身就相对于是一个指标一样的吗我觉得可能应该是说试剂和公司在使用的时候它会定就是它会定这个标准但是这个标准就是说我这个试剂对吧我这个试剂测出来比如说百分之多少的时候

是音性对的对的但是就是说我们下一条文章想讨论的是那个标准的合理程度以及说这个标准它意味着你的假音性就是如何你如何在假音性和假阳性之间取一个平衡因为你想这两个事情其实是一个悄悄板的事情如果你把

所有的人都预测为阳性那你的那个假阴性率肯定是零但假阳性率就提高对另外一方面如果你所有的人都预测为阴性那你的假阳性率肯定是零但是假阴性就提高对虽然说就是在中间取个平衡但是呢如果这个设计和本身比较好

那你在取了平衡之后你能够同时保证假阴性和假阳性率都比较低但是如果这个设计和质量很差的话那你就只能取一边对吧一边好的时候另外一边就很差了所以说像我说的这个在你取了那个平衡之后假阴性率和假阳性率还有多少这个其实就是取决于设计和本身的质量了就不光是一个取阴值的问题了

OK 好这个李老师刚才已经给我们相当于是剧透了一下我们下一期节目我们要把这个保留在下一期不能一下把我们的好东西都抖完了是吧那我们现在回到我们这个统计学上的内容来现在就是说刚才李老师给我们提到了试剂盒的特异性和敏感性的问题那在那文章里面还提

提到了另外两个医学上的概念叫做漏诊率和误诊率那两位老师能不能跟我们讲一下这四个概念的具体情况

其实那个落诊率和误诊率其实主要是医学上的概念当时也是我们在写这篇文章当中的时候后来周敏去问了就是下面查询那些医学方面的知识然后我们才会把这两个值和我们在统计学上说的假阳性和假阴性率给对上来了

对所以说就是说我们要不可以看看就是根据那个例子来走我觉得这样可能会对对对我觉得呃

对对用一个实例来讲一下这个概念会比较清楚会比较生动一些对就是说我们现在的例子是说一个医院有一千个群众来进行核酸检测其中真实患上新冠肺炎的为 200 人没有患病的为 800 人这个就是我们说的真相但是核酸检测的结果呢是 180 人患上肺炎在这个其中呢

这个 180 个人当中有 150 个人是真实患病 30 个人是没有患病就是我们是拿到这么一个数据那么就是这个像是一个简单的数学题了那拿到这个数据我们的甲阳性率和甲阴性率怎么去定义呢这个其实就要取决于我们的我们就需要用到那个真实的有肺炎和没有肺炎的 200 人和 800 人那么我们就可以看到

在这 200 人当中我们其实有 50 人是没有被检测为阳性的对那么他们就是说是这些人就是假阴性率所以我的假阴性率就应该用假阴性的人数除以真实的患病的人数也就是真阳性的人数那就是 50050 除以 200 就拿到 25%20 对然后呢

这个就是甲阴性率然后甲阴性率呢和它相关的有个概念叫做真阳性率它们相加为一也就是说甲阴性率和真阳性率的那个分母都是真正的阳性的总人数

就是分子不同分子的话假阴性率的分子是说这真实阳性人数里面有多少人被检测为被判断错了对然后有多少人是阳性所以他们相加是 1 那么就在我们这个问题当中刚才已经算了假阴性率是 25%但真阳性率就是 1-25%就 75%对就这边我们就说完了那么

另外两个量呢他们会用到的分布是真正的阴性的人数也就是这儿的 800 人那么这 800 人呢我们也把它分为两类一类是说他的检测结果也是阴性的这样的话有 770 个人然后另外一类呢是他的检测结果是阳性的是 30 个人

OK 那现在我们就用这个 770 除以这个 800 它就叫真阴性率然后用那个剩下的 30 除以 800 呢就叫假阳性率所以真阴性率和假阳性率相加也为 1 就我们现在已经拿到了四个度量这两个值是互补的对我们拿到了四个度量分为两组一组的叫做假阳性率和真阴性率

对吧就是刚才说的最后最后面这一组他们的分母都是真阴性的总人数就是说真实情况下的阴性人数就跟检测无关然后另外一组呢叫做假阴性率和真阳性率他们的分母呢都是真实情况下的患病的人数对也是跟检测无关的

好然后呢那现在就回来说就是说这个误诊率是什么呢误诊率其实医学上的误诊率就是我们说的假阴性率也就是说在真正有病的人里面被误判为阴性的比例

OK 对这个就是漏诊率那么误诊率实际上是他们说的是假阳性率就是说在真正没有病的人里面被检测为阳性的那个比例对所以说就是说

换而言之就是再总结一下就是说漏诊率和误诊率这两个都是不好的东西它们分别对应我们之前说的假阴性率和假阳性率就漏诊就是假阴性误诊就是假阳性所以就是说实际上这是呃

相当于是说统计学上的这四个概念就是这个假阴假阳真阴真阳这是统计学上的概念它对应于这个医学上的四个概念分别是特异性敏感性漏诊率和误诊率对吧对的对的我觉得大家如果这个可能概念很多时候我们的一些学生都会弄混我觉得比较简单的一个理解方式是你看到比如说假阴性怎么去理解

假阴性他的意思是说检测结果是阴性但是这个假呢就代表着真实是他的相反的那么就是说真实结果是阳性那你就知道了真实是阳性检测是阴性

那么就是真实就去分母然后检测去分子你就知道怎么算了那与此同时真因性率怎么理解就是说检测结果是因性真实的情况和检测结果一致那真实结果也是因性那你就算就是说分子是真实的因性分母是检测的因性就是说你这么一算的话就可以了但是就需要说清楚的是说这个分子它都只能是说检测的那个

人和真实的那部分的交集也就是说比如说我说假阴性域的时候我说的指的是什么呢我指的是真实的阳性的那个分母里面的人有多少被检测为阴性我没有考虑其他的那些阴性对我就这个需要澄清一下对比如说我限定好的真实的阴性 800 个人这 800 个人里面我还分成两类检测为阴性检测为阳性

然后真实的 200 个阳性检测为阳性检测为阳性对所以这样才能够保证就是说它的同一个分母的两个概率相加为一我们中国人可能会被这个就是中国的文字会影响因为假阴和阳在从我们古人的角度来说阴和阳加起来就是一个太极图所以有可能很多人就认为

就是可能假音和真音加起来就是一样但其实不是这样的啊 OK 所以阴和阳实际上是一个翻译的问题对吧它其实代表的是两种不同的概念并不一定数字上有什么关联对吧对我觉得如果你要关联你要从真实的角度去关联就是说我说的不要从测量的角度去关联

对对对 OK 从测量的角度我们其实还有一些其他的值但是可能在这就不用说了因为就是比如说我们这样对我们就不用讲对就还有一个做法是说你把测量的阳性当做分母然后你看在测量为阳性的里面有多少是真实的阳性还可以有这样的测量值所以说其实就是我觉得归根结底就是在谈这个概念的时候从我们的角度一定要把它具体的定义的公式给出来这样才是完全准确的

否则从文字的角度很容易产生歧义尤其是中文因为中文很多时候它本来是个比较模糊的语言对本来就是一个这种非常讲究所谓的这个字面以下意思的这个语言是吧有很多不说出来的话是吧但是这段我的想法是

我觉得两位老师的这个说法非常正确就是我们在谈到这些数据还有这些描述的时候应该是以数字为准以精确的公式为准但是我觉得对我们普通大众来说的话要让我们去理解这些数字理解这些公式的话还是有一些难度的那

我是觉得就像比如说我们现在有了这么多数据对吧 75%15%96.25%3.75%我们有了这些数据但是这些数据意味着什么呢就是说比如说它的这一趟的这个核酸检测里面出现了这样一个 25%的甲阴性率出现了一个 3.75%的甲阳性率它代表什么意思呢就是说

我是知道了这个 25 和 3.75 我要如何来理解这个数字而不是仅仅知道这个数字就是它这个数字描述了这个核酸检测或者说这个试剂的一些什么特性就是它是好是坏就是我们应不应该继续用它或者是有没有一些这样感性上的这样一种认识

其实肯定感情上就是说假阴性率和假阳性率都要越低越好对吧这肯定是感情上的认识那比如说我看到一个假阴性率有 25%我就会觉得说这个世纪的假阴性率太高了

然后其实你刚才说的那个问题是一个非常好的问题就是说这四个数字它都是一个群体上的数字它是说在大人群当中经过多次反复的使用我们对于这个试剂盒的一个整体表现的描述

但是呢其实具体到个人比如说我去做了一个检测我拿到一个阴性的结果我应该怎么去理解这个结果这个可能对个人是更重要的对对对吧所以说这个其实你就引出来以后我们可以聊的

那个话就是贝叶斯就是贝叶斯概率因为其实这个贝叶斯概率就是在回答这个问题就是他会把那个条件概率的条件和事件给反过来就是说我们现在说的假阴性率比如说它实际上是一个条件概率在概率学上条件概率的意思就是它的条件是说真实为阳性

事件呢事件的话是说检测为阴性因为我们为什么说这个概率呢是因为检测这个事情它是具有随机性的也就是说这个检测试剂盒它是不准的对吧它可能有一定的概率会把一个阳性的人

检测的阴性然后以另外的一半剩下的概率把它检测为阳性它是个随机事件就检测为阴性是随机事件但是你的条件那部分说这个人是阳性他是一个非随机的所以说在我们这个计算里面假阴性那是一个条件概率就是说

基于这个人是阳性检测试集合把它汇报为阴性的条件概率好那么如果说我们同时还有另外的两个数字其实一个数字就够了就是说人群中真实的阳性的人的比例这个概率那么真实的阴性的就是一减这个概率对吧我们拿到这个概率之后呢有一个叫做贝叶斯定理他给

他给了一个公式就那个公式我们就可以很神奇的把之前我说的假阴性率那个条件概率的条件和事件给反过来我可以拿到一个什么呢我可以拿到一个基于我的检测结果是阴性这个条件那么我事实上是患病的阳性的概率那么这个概率对我来说就是更加相关的

因为它就代表说是我拿到了这个检测结果我如何去理解如何去看到我到底得没得病对

计算这个数字就需要我们刚才提到的四个数字假阳性假阴性真阳性真阴性以及我说的另外那个数字就是说关于人群中的真阳性真正的患病的比例我们才能做这个计算我觉得其实不仅是对我们个人对比如说国家的一些统计和他的这种信息整理方面的来说的话

你刚才说的那一个在整个人群中有多大的几率比如说我一千万人或者是一个城市的人比如说三千万人的一个城市里面有多大的阳性的这个几率我觉得这个才应该是一个更重要的这样一个数字对不对对的相比于我们前面说的那几个没错因为刚才我们说那四个数字是跟检测试剂核有关的而我说的人群中的真实患病的比例这个跟检测试剂核是无关的

无关的它就是一个事实那这样我问一个题外话那这个数据的话一般来说用什么方式能得到呢像比如说我们前面的这几个数据就是说是以比如说你检测了多少人然后检测的结果是多少对吧这个我们可以在医院去拿到的这样可以算出来这个数据

那我们前面说的这个人群中他的这个几率的话又应该如何得到呢这个是个非常好的问题其实我们刚才讲的这个都是理想场景就是说假设我们开了上帝视角知道人群中

我们已经提前预知了对对对事实上这些结果是都是都是估计的就所谓的估计可能你可以从医院的数据根据就是说你的经验实际上其实它没有一个完全准确的数据没有一个完全准确的数据 OK 取决于医生他要根据他的检测结果然后基于他对检测试剂和的信任他的

他來估計這個人群中大概現在患有這個新冠肺炎或曾經被感染的人數之前我們不是看到有新聞報導說某個地方懷疑已經有 60%以上的人已經感染了嗎就我們帶著這個數據來判斷我們離群體免疫還有多遠啊 ok

对但是其实那个问题就是我觉得他们在算的时候肯定都是对于比如说这个试剂盒的错误率啊就是甲阳性率甲阳阴性率有个事先的估计所以他需要经过很多的自己的带入他相信的一些值来进行一个比较复杂的计算最后拿到一个估计但是就是说就是从我们统计学的角度这些都是估计值都不是真实的那个上帝视角的那个值啊嗯

对对对我觉得像这种真实生活中应用到科学上应用到医学上的这些所谓的这种统计统计的模型啊还有这些数据肯定都不像不可能是像我们刚才我们在这里讲的那个例子那样一千人里面有八百人两百人那么精确对对对那么我们是一个非常非常简化的这样一个例子目的只是为了给听众们讲一

演示一下我们这个数据是怎么得来的对 理解这些概念对 那我们前面把这四个基础的统计学上的概念和我们现在的新冠疫情有关联的这四个概念讨论了一下并且联系了一下它在医学上的应用那

我觉得就是这样一个简单的项目刚才说的那样一个简单例子在那样一个简单例子里面的这样一个计算都已经让我有点晕了可能是我觉得我觉得是因为我们口头说的问题我觉得如果看到那个文字和那个数字会好很多其实其实只需要高中数学知识就可以完全去理解这个东西我觉得

给我的理解是说他的就是同学学里面的这一些计算他不是他的难度非常低但是感觉是这个特别容易就是说特别容易搅对概念特别容易搅对而且特别麻烦这个减那个减那个这个和他相关然后另外一个又和他相关这样子的那我觉得我们去

可以在这个地方就是呃我们就可以联系到我们下面要谈的一个点就是说既然这个计算这么复杂这么麻烦那么现在这个 AI 的应用嗯对吧当下的一个一个一个非常大的热热点众所周知这个 AI 和或者是说呃

更广泛一点来说的话计算机它的这个一大长处就是代替我们进行计算对吧把我们刚才说的这种用我们人脑觉得非常非常非常复杂麻烦的这些计算让它来帮我们做那 AI 和计算机在医学诊断上的应用呢是现在的一个非常大的热点

不知道两位老师在这方面有没有什么需要跟我们讨论一下的这个很有意思这个话题其实我觉得算是我们现在学科发展当中也就是业内人士其实很多都在

讨论或者争论的一个问题就是说统计学和数据科学和 AI 它们是一种什么样的关系这个话题非常好我不知道我不知道就是从你平时看新闻的角度你会经常听到大数据或者数据科学的时候你的理解是什么样你觉得数据科学是在做什么或者要做什么嗯

周老师你的看法是怎么样的我觉得吧我觉得大家都在搞数据吧但是可能所涉及到的领域所用到的知识点呢有不太不太一样也有可能嗯比如说可能如果是专门有和统计有关的东西吧可能我们更偏向于统计的一些东西嗯但是大数据数据科学从字面上理解的话

好像都是和数据有关系的包括我现在我也不太其实我也不太理解就是比如说现在国内现在有些学校为了我不知道是不是为了招生还是什么现在就是有数据科学这个专业它同样也有统计学这样专业这两者的区域分的话是什么在我看来的话

是什么我现在的话我从我的理解来说可能数据科学他那边的话可能学的知识的话可能更多一点可能会有计算机那篇计算机的知识然后再加上统计的一些知识两个结合可能但是具体他们设计的就是他们的教学大纲和设计的课程我现在还没有看到也许以后我看到了就能知道他们具体是什么

周老师刚才提供了一个学科内的观点我是觉得统计的话可能会据我了解现在就是我不知道这边的统计学但是我知道国内的统计学专业他可能还是

偏向于一些传统统治就比较传统一些对对对还是上了课之类的还是相对偏向于传统统治可能就是对我们这个播客的观众来说可能他们也不是很清楚什么是传统统治所以可能请周老师再解释一下对传统统治的话可能对我的理解传统统治的话他们可能偏向于一些

统计里面的统计里面的那个统计推断统计的一些就是更偏向于说理论的一些东西就是统计虽然说可能大家认为相对于研究统计这一个把它作为一个科学研究这个统计这一门科学本身的

对没错类似于比如说我们说计算机科学对吧去学计算理论算法而不是把它拿来把统计拿来做一些像比如刚才我们谈到的把它应用在医学上应用在其他的一些方面的一些应用对吧我觉得应该是我觉得可能是周老师想表达的是这个意思对对对就是一种类似于一个理论研究

一样的学科对就是说其实比如刚才周老师提到的统计推断这个问题它一开始其实确实是从应用出发的大概在 100 年前那个时候他们的统计推断就是说我拿到了一些数据他们管这个叫样本但是这个样本里面的数据点的个数其实并不太多那我想知道的是第一

我这个样本我如何去判断群体里面的我感兴趣的某个参数的大小我举个最简单的例子就是说人群的身高我很感兴趣比如说我们国家男性的平均身高是多少但是我没有所有男性的数据我只有可能 100 个男性的数据那拿到这 100 个男性的数据我能做什么呢我最直接就是算个平均值那么这个 100 个人的平均值能告诉我多少关于

所有男性的平均身高的信息这个就是统计推断想回答的问题简而言之就是这样 OK 他一开始是这么发展起来的但是当前人就是统计学的奠基者们他把这个推断的框架搭好之后后续的很多研究理论研究他实际上是在研究这个框架本身了 OK 是的对

在这一个相对在这一个方向上再去深入对对对而数据科学的话我觉得就是它数据是核心吧就是说你是从数据出发的就数据科学应该不会给你太多的

空间说你想的这个东西在真实数据上是没有应用的话我觉得这个可能大家通常不会把它归为数据科学里面但是从另外一方面来说我个人清掉一个我比较认同的对于数据科学的定义就是说它相当于是一个各个现有学科的一个大融合也就是说

对它的本质是它要分析数据然后它所谓的科学是说它希望用更科学的方法去分析数据也就是说我知道我去从数据中挖掘某个信息

我可以有很多种算法那么这些算法它的优劣我希望有个理解就我不是盲目的去试我可以先就是说从我在方法学的层面我知道这些算法它各自的适用范围去了解这一点它其实就是人的数据科学里面的一个核心我认为然后另外还有一个核心就是说

如何让这些算法能够在大数据上用有限的时间就大家可以接受的时间算完有限的时间有限的计算资源因为这个随着数据变大是一个越来越大的负担因为你的嗯

对所以我觉得这些就是数据科学的内容但是你可以想象回答这些问题他需要的能力好像就不是一个单一学科他可能用统计的工具有可能用数学的工具有可能会用计算机的工具然后甚至于就是你最后判断这个算法

是不是因为这套数据你还需要就是那一套数据所属领域的本身的专业知识专业知识比如说是社会科学的数据生物科学的数据因为否则你没有专业知识你都不能理解那个数据是什么意思无法判断对无法判断所以那就是说数据科学其实

我看来的话那就更偏向于一种实际上是一种研究方法论的这样一种科学就是说我如何去在这些方法里面去研究如何更快更好的完成数据分析这回事没错没错没错对吧对吧我这个理解对吧那就是说

我觉得刚才两位老师从一个非常就说从学科上和从一个非常学术的定义上去给我们大家介绍了这两个概念我觉得以一个我一个门外汉的角度来回答一下李老师刚才问我的那个问题就是我怎么来理解这个大数据和数据科学我觉得很一个很通俗的理解就是什么是大数据呢那就是我在手机上

查了一个比如说查了一个什么消息查了一个新款的电脑然后下一秒钟我上上网的时候淘宝就给我推荐了这同样的电脑这就是大数据对其实你说的大数据很重要的一个意味着推荐系统对

为什么我觉得现在大数据和所谓的数据科学这么火就是因为它在互联网应用上的相对于是可以为商家带来非常大的利益所以才会有这么多人才会这么火爆才会有这么多人去开发这个大数据和它相关的这种研究前和它相关的这个数据科学这是我一个普通人一个商业有巨大的商业利益没错有巨大商业利益的这样一个追求对

对然后就刚刚提到 AI 其实 AI 和数据科学还有一点点不同就是说如果我们去追溯一下 AI 的历史它可能其实这个概念是在上个世纪二战时期就四五十年代那个时候就已经开始有了但是

AI 的终极目标它实际上是希望机器能像人一样思考所以它叫人工智能智能是我们人特有的作为一个物种它希望机器能像人一样思考那怎么能让机器像人一样思考其实有很多条路我说曾经的 AI 的想法是教给机器人的逻辑就是把我们人的逻辑判断作为一些信息告诉机器去教它

但是这条路其实后来到 80 年代大家就已经觉得有点走到平静了而后来现在这一波的 AI 的这个风潮实际上是靠数据科学推动的它本质上是用大数据来训练机器也就是你说的其实机器它不需要懂逻辑它只是用数据作为它的一个知识库

然后拿一个新东西他去跟已有的数据做对比他做的实际上是这么一个事情也就是说现在有一些批评者说现在的 AI 是优务学舌就是这个意思他只是见多了他就会说的像但是他没有真的理解他不是人的智能对我对 AI 的一些想法其实也是这样的就是我就觉得怎么说呢

像很多方面像比如说以前前段时间那么火的那个 AlphaGo 对吧就是夏威奇的那个人工智能它的那个相当于是起力对吧我们当时说的它这个起力其实已经超过了

我们现在所有的人类棋手了他已经击败了我们人类里面最优秀的棋手那么就是说单纯从棋力上来判断的话他已经超过了我们可以说已经超过人类了但是我就在网上看到有人提出这样一个说法就是说围棋作为一个从古代中国起源的这样一个非常有非常悠久历史的这样一个一种运动他的

所蕴含的这个内涵并不仅仅是一个并不仅仅是一项体育运动并不是说一个单纯的比赛我跟你竞争然后我把你赢了就好了还有很多这种比如说一个棋局的这样一个整体的美感还有比如说你下了这一步棋就像我们经常有时候比如说看那个围棋比赛有什么所谓的神之一手对吧就是说这个这一步走得非常的精妙非常的就是如果你是一个旁观者

你去看这样的或者说你对围棋有一定的研究有一定的了解你去看这样一个棋局你会从中得到这种美感你会得到一些输赢之外的这样一些愉悦的体验对对

但是如果是 AI 来做这个事情的话就是 AlphaGo 它我觉得至少在至少在目前我们的理解里面它是没有办法体会到这些东西的它只是它只是去运算就是说我在当下这个时刻走这样一步棋我的胜率那个百分比的数字会是最高的它体会不到任何其他的东西不会是说什么我这一步走得非常好看或者说我这一个这一步这个

下出去非常这个形式非常精妙不会有这种东西对吧对是这样一个情况他的目标就是赢对的对是这样一个情况这个你说的很对这个也是就是现在 AI 的靠数据科学来驱动的 AI 就是说他实际上是用一个

固定好的目标然后他把这个去达到这个目标呢把它变换就是所谓的这种专用的 AI 对吧对对对然后把它变换为一个数学里面的优化的问题就它变换变成一个数据的函数然后去找那个函数的最小值啊

所以他是这么在做实际上都是这么在做但是就像你说的那样其实真正的智能他可能不一定有那么明确的一个目标对所以我就是在网上我也看到就是说相当于是两派嘛最主要的对于 AI 的观点一个是两派嘛一个就是说

AI 现在已经非常强大了对吧有可能所以我们大家要非常警惕对对对要非常警惕它是不是要推翻我们人类这个称王称霸了是吧然后另外一方面用来反驳这样的观点最主要的就是刚才李老师提到的就是说现在的 AI 它虽然它

很强大但是呢它是就是说在一个专用的它是一个专用 AI 在一个提前定义好的非常精确的定义的这个目标的范围内它完成的非常好是的但是

到目前为止还没有一个所谓的通用 AI 就是说在像我们人类一样就是说像人类的智能一样在一个不需要那么定义的定义的那么精确的然后一个非常模糊的范围内都能有一个一定水平的这样一个所谓的智商的这个定义情感对对对这样的一种智能还不存在这样一种智能所以人类不用担心

对我觉得出回跟统计的关系的话其实我觉得就是对我们扯得有点远啊我们这个话题扯得远我们现在把这个我们现在把这个话题扯回来我们还是继续来说一下就是 AI 和统计科学的这样一个对

我们其实一开始就是周敏在介绍他之前的研究就是概率和统计的区别的时候其实我们大概的涉及到了什么是统计学就统计学传统的统计学就是我说的他们一开始是想从样本去推断群体这个是统计学最核心的一个想法

就是说我认为我的样本只是群体的一小部分非常小的一部分但是我希望我从样本中下的结论可以在群体上以一定的概率成立或者说如果说我的样本太小

我知道我其实没有办法去说太多关于群体的事情的时候我也希望知道这个程度统计学可以告诉你一个程度你在多大的概率上你可以相信你从样本中得到的结论

那么统计学的这个性质其实它在数据量不够的时候就是样本比较少的时候是非常关键的比如说像现在的临床实验对吧临床诊的新冠这个药物我们能招募来的临床实验的病人就只有那么多但是你希望从那么多的病人判断这个药有没有效那这个就需要统计学

那么对 AI 当中 AI 有什么用于统计学呢恰好你可以觉得 AI 是大数据对那如果有了大数据貌似我好像就是计算就完了我不需要做什么推断这也是很多计算机的人认为的想法但是从另外一方面来说呢其实它还是需要的就是说因为这个大数据它虽然大但是它不一定是一个

一个具有代表性代表群体的一个样本他可能是偏靠某一类人就比如说像现在很火的一个关于这个公平性就是机器学习公平性的问题就提到说因为很多训练级都是白人的数据那么你这个结论对于黑人其实就不太适用

或者像之前的 2016 年大选那个时候我们虽然说民调的人数其实很多但是最后的民调都错误的判断了结果原因也是因为它的那个样本其实不具有代表性然后像这些概念其实都是统计学里面的概念了然后这也让我非常担心现在的结果也告诉我们这个

非常担心 11 月份又出现跟 16 年一样的结果因为有的时候其实你知道人的数据是最难的因为你没有办法去保证你受访的人群就被你采访的人他会告诉你真实的想法没错我觉得这个也是从我个人的角度来说我觉得其实做社科类的研究比自然科学其实要难很多我一直这么认为

嗯对因为因为你无法保证就像你说的你无法保证你拿到的东西是真的就像比如说你你你你做数学对吧一就是对你但是你你对但是你说你说比如说我上门去采访你你要给了我一个是的答案但是你怎么知道这个人心里想的就是是呢是他有可能他就就就就不说实话呢对吧对我也觉得调查这个问题

我真的要传言存在这个是的就存在这个问题就很复杂了但是还有另外一方面的就是说 AI 会用到的或者机器学习这个学的因为现在机器学习其实成为了现在这种基因数据做 AI 的一个核心嘛就机器学习做预测对基本上是眼下唯一的这种研发 AI 的方法对然后就

就是精细学习其实他也经历了一个就是发展的过程就是说他们曾经跟统计学也没有什么关系他更多是一个确定性的算法就是说你给我一个数据我就给你一个算法那么你给我一个新的数据点我的算法就可以给你一个预测基本上就是一个确定性的关系输入输出但是

后来他们在八九十年代他们从统计学里面学了一个最重要的东西就是概率论的工具也就是周明以前研究的他用概率论的好处是他的决定决策过程可以是基于概率的而不是一个确定性的就比如说他可以告诉你说你有 70%的概率得病 30%没得病而不是减少得病不得病对对对那么用户就可以

自己再去判断一下这个概率对吧我把平均 70 得命我要怎么做他实际上给了更多的信息所以就基于概率论算公式的机器学习算法其实在深度学习出现之前是个主流但是呢就是说现在深度学习呢他其实又有点回到了之前的那个算法的层面就是说他没有概率论的基本上没有概率论的想法了

它更是一个完全能优化的问题就是说我就直接把数据因为你现在数据集足够大了对吧因为你现在数据集足够大了对以前是由于我的数据集没有那么大我需要一些这种统计学借用统计学上的一些方法来来相当于是从我的这个有限的数据集里面推断出一些适用到更大的数据集这样的一些结论对但是现在我已经有了这样一个人生的这样一个大

非常大量的数据了那我就直接在上面做就好了对的对的但是从路脉方面来说呢还是有一些现在的小的分支会涉及到我刚才说的抽样啊或者小样本的问题就比如说当你实在是算不动的时候数据太大你如果要进行抽样你抽一部分来算那你如何进行更合理的抽样你抽多少嗯

你把数据分成几批就这些是现在比较火的分布式计算的问题但是里面其实也涉及到一些统计学的问题就是说其实统计学那种思考方式就是说考虑到数据的随机性然后考虑到随机性之后用一个样本来推断群体这个思考方式其实我觉得在我们的生活中是非常常见的不仅是学术界包括

就是我们平时做判断我觉得我们人类其实很容易做一个以偏概全的事情我觉得在我们小时候我们多多少少都做过就是基于自己周围的几个例子就下了一个确定性的判断但是如果你从统计学的思考那你的判断其实就没有那么可惜

我觉得这也是统计学和就是说就像我觉得这个地方也呼应了我们前面一开始的说的就是说我们为什么要做这个统计学专题播客这样一个目的就是说我们也希望把这种统计学的思想普及给我们的听众朋友们

也就是说在遇到一些可能不是那么清楚明了的信息的时候是否可以借助一些统计学上的这样一些想法去做一些自己的判断有一些独立思考不要被媒体牵着鼻子走是吧也不要不要这个一看听风就是雨看到 15%的假印性就觉得这个不行了是吧对对对没错没错没错没错

OK 好我们今天也聊了很多了两位老师还有什么想说的吗我觉得我们可以等到下一期再说不要一起把大家的耐心都用光了

好没问题我们这个还是要有所保留是吧是的一次就把佳典都交光了 OK 好那我们今天的主要内容就是这样我们今天的内容在像我前面说的是基于两位老师的公众号的第一篇文章所以

如果各位听众想要了解更详细的内容和一些和这种如果你想要更深入的了解我们今天讨论的内容呢可以去两位老师的公众号里面阅读相关的文章两位老师的公众号你再给你说一下嘛叫统计之家统计之家对统计就是中文的四个字统计之家对然后英文的中文你可以再说一下

英文名字公众号是 homeofstatistics 就是中文的翻译中文是中文的翻译但是 OK 好那我这里再给各位听众复述一下两位老师的公众号是中文的四个字统计之家搜索中文的统计之家就可以找到或者英文的 homeofstatics

周老师你要不给大家拼写一下好拼写一下 h o m e o f s t a t i s t i c s 好这个标题

这是一个比较长的名字大家不要拼错了 OK 好那如果各位听众在看了文章以后有一些或者听了我们的节目之后有一些更进一步的想法想要和两位老师讨论的话不知道两位老师有没有什么可以公开的联系方式呢我们在文章上面有联系方式就是在公众号里面是有的然后我觉得可能通过你联系也挺好的

没问题我就让他们来找我或者也可以点击文章再看来个评论这还要打个广告是吗好等会我专门给周老师一段时间打广告可以了各位听众如果在看完文章之后想要和

两位老师进行进一步的讨论的话也可以根据文章里的电子邮件地址联系到两位老师下面是周老师的广告时间周老师来吧

广告真要广告大家可以点击文章再看然后增加频率可以在下面留言然后如果我看到留言的话我会及时回复如果大家有一些关于这个文章的一些问题或者想法都可以在里面留言

好 谢谢大家感谢朱老师的广告如果大家对于这个公众号的题目有什么建议比如说有什么感兴趣的问题也可以在里面留言我们也可以再考虑一些相关的文章对 如果各位听众还有什么对这个统计学方面有什么感兴趣的话题或者是主题的话也可以留言或者是来信告诉我们我们会让两位老师再为大家做解答

对对如果有其他的主题都可以好那今天的节目就到这里感谢大家的收听也感谢两位老师来到我们的这儿跟播客各位听众朋友我们下期再见好大家再见再见下次再见

本节目由哲尔根播客为您呈现这是一档较为走心的陪伴型播客耳是偶尔的耳不是耳朵的耳我们不传道不授业不解惑不限主题没有重点一切皆可聊我们的愿望是成为你生活的背景音欢迎在微博和推特关注我们留言提出意见建议和反馈微博和推特的用户名都是哲尔根播客也可以直接给我们发送电子邮件我们的邮件地址是 hi at 哲尔根 dot club

也就是 [email protected] 我们的节目目前已经在 Apple PodcastSpotify 同步上线欢迎大家订阅收听推荐使用通用播客客户端订阅我们的节目

这是最快接收到我们节目更新的方式如果大家喜欢我们的节目不妨在以上的各大音频平台上为我们打分留下几句简短的评论并分享给你们的朋友们让我们也成为他们生活的背景音这里是哲尔根播客哲尔根播客我们下期再见