萨尔曼·可汗是可汗学院的创始人兼首席执行官,可汗学院是世界上最具影响力的教育平台之一。他们为190个国家的1.5亿多名学习者提供服务。他们还在人工智能领域做了一些非常有趣的事情,比如他们的AI驱动的辅导系统KhanMega。它已经部署到140多万名学生和教师手中。我和萨尔曼进行了一次非常有趣的谈话,内容围绕着人工智能如何改变学生、教师和学校系统的教育。我们讨论了这些模型有效的地方、无效的地方,以及构建真正能够在课堂上发挥作用的人工智能需要什么。
我最喜欢的部分包括:为什么主动式人工智能是辅导的下一个发展阶段;学生和教师使用人工智能的一些令人惊讶的方式;将幻觉和数学错误减少到接近零需要什么;以及人工智能如何重塑参与度和评估。对于一个在现实世界中进行大规模部署人工智能,并为一项非常好的事业服务的人来说,这是一次很棒的谈话。在我们开始这一集之前,我想对上周在Spotify和Apple上对节目进行评分的所有人表示衷心的感谢。
如果您在这两个平台上欣赏这个节目,并且还没有留下评分,请考虑这样做。现在是萨尔曼·可汗。非常感谢您来到播客节目。非常感谢。感谢您的邀请。是的,这将是一次有趣的谈话。我想我会从我能想到的最宽泛的问题开始,我相信我们的听众对此很感兴趣。鉴于这些模型的快速发展,以及您一直在其之上构建的内容,您目前对20年后的课堂是什么样子有什么想法?
是的,这是一个好问题。你知道,如果我们在五年前进行这次谈话,我会认为这是一个无聊的问题。而现在我认为这太遥远了,因为事情变化太快了。在人工智能世界中,总是很难找到正确的时间段。我会告诉你,我希望20年后,甚至5年后的课堂是什么样子。但让我们先谈谈你说的20年后吧。是的。
我希望更多的课堂实际上会像现在优秀的课堂一样。今天的优秀课堂并不是学生被动地听讲座。他们很投入,他们彼此互动,他们实际上在做事情,无论是解决问题、小组合作还是做演示。在今天的优秀课堂上,老师会安静地走动
与学生一起工作,让他们做一些有趣的事情。现在,我认为人工智能可能在那里发挥作用的原因是,现在这些优秀的老师……
他们必须花费大量时间制定优秀的教学计划,并为此付出极大的创造力。这些优秀的老师能够做到这一点,即使他们仍然有数小时的批改作业、制定教学计划和撰写进度报告的时间。这些优秀的老师能够真正观察课堂,并几乎凭直觉理解学生可能需要什么。这些都是超能力。我认为有一个世界,人工智能可以给予更多老师,所有老师,
一些时间回到他们的计划方面,给他们更好的见解,关于他们如何更好地管理他们的课堂,更好地了解学生在任何时间的学习情况,更好地与学生互动。所以,你知道,当这些学生都在进行分组讨论时,我可以想象在20年后肯定不会在你的笔记本电脑上进行。嗯,
我认为生成式人工智能发展的一个强大之处在于,它没有理由不能是环境式的。它只是观察课堂上发生的事情。所以我认为你会拥有,现在人们试图思考非常二元化的问题。好的,技术就是你只是盯着屏幕看。非技术就是你在现实世界中四处奔走。我认为在20年后,这并不一定是一种权衡。我认为在20年后,你还会拥有另一个方面,听起来像是科幻小说,
但我认为那是一个虚拟现实、增强现实将变得非常主流的时刻。并且有了生成式人工智能和当时的超级智能,谁知道呢,你将能够沉浸式地进入模拟,成为虚拟世界的一部分,回到古罗马并试图
阻止或也许加速凯撒大帝的暗杀。无论是什么,但你知道,这就像是一次神奇的校车之旅。是的。不,我的意思是,有很多真正引人入胜的线索可以从中提取。我的意思是,特别是当你谈到赋予教师超能力,并增强最优秀教师已经能够做到的事情时,这可能是一个很好的过渡,让我们来谈谈您在Conmigo以及可汗学院在构建人工智能产品方面所做的事情,
你能否为我们的听众提供一些背景信息,关于你们迄今为止所构建的内容,以及你们是如何思考这个问题的?是的,这很有趣,因为我认为在这个快速变化的时代,拥有以下内容始终很重要:我们为什么要这样做?我们的目标是什么?可汗学院的目标,我一直这样表达。
更清晰地表达,实际上,自从生成式人工智能成为一件事以来。但是,如果你回顾可汗学院的早期,它只是一个爱好,我当时正在辅导家人。然后我开始编写软件。我开始制作视频。显然,可汗学院已经不仅仅是我了。但我们在过去近20年里所做的一切都是……
试图近似或复制一位优秀的辅导老师会做的一些个性化工作。你知道,不仅要提供高质量的材料,还要让它能够,你知道,
对学生来说。他们可以进行练习。老师是其中重要的一部分。一位老师如何在课堂上有30个孩子的情况下更个性化地进行教学?所以我们一直在做这件事。即使在可汗学院的早期,我也曾经引用过尼尔·斯蒂文森的书《钻石时代》中的《年轻女士插图入门》。我说,我们总有一天会构建它。这就是我们正在构建的东西。只是我们将逐步进行,因为技术会越来越好。所以当我们看到最新一代技术所能实现的功能时
特别是GPT-4,OpenAI在ChatGPT出现之前几个月就让我们可以使用它。它有一些问题,但我们说,好吧,这将能够近似于辅导。它将能够近似于助教和其他我们之前可能没有概念化的东西。这就是我们推出Conmigo的方式,它是我们的AI助手
作为一名辅导老师和助教,设置了防护措施,以便老师可以看到学生在做什么。它不会作弊,你知道,安全、隐私等等。它更像苏格拉底式的。所以我们真的试图坚持,让我们把它做得真正好的教学法。让我们确保它是安全的。但让我们也,让我们也让它有用。我认为我们,我们在发布时取得了很多成功,我认为到2025年,我们可能有10万人使用它作为试点,并且
现在已经有大约130万到140万名教师和学生在使用它。这些都是,你知道,我们的使命是为任何地方的任何人提供免费的世界一流教育。但由于计算成本、支持和培训,我们不得不向这些地区收费。我们每年向他们收取大约15美元的费用。所以这是,你知道,有130万到140万个地区关闭。
在一年半内付费,并且兴趣持续非常非常强烈。所以我们现在正在做的一件事是意识到,下一阶段是让AI更主动。即使我走进任何数学课堂或任何课堂,我说,嘿,我是一个很棒的辅导老师。我在这里的教室后面。如果你有任何问题,来找我。
可能会有大约10%或15%的孩子会这样做。我们正在用AI看到这一点。所以你会看到可汗学院的下一个版本,我们将在返校时开始试用它。我们称之为可汗学院课堂。但从学生的角度来看,这是一个更主动的AI,每次你进入可汗学院时,它都会说,哦,欢迎回来,雅各布。
嘿,已经有一段时间了。嘿,这是你的老师想让你做的事情。嘿,我在这里如何帮助你?从老师的角度来看,也是一样,更像是一个服务员,而不是仅仅是被询问的对象。
是的,这太有趣了,因为我觉得,在人工智能产品中,存在着这种空白屏幕问题,你到达一个可以提示任何东西的地方,但是,你如何才能真正弄清楚正确的提示是什么?你如何思考,你知道,只是开始教学生和老师,当你开始推广时?我认为纽瓦克是你进行大规模推广的地方之一。你从人工智能中学到了什么,我想,
你知道,教人们如何开始使用这些产品,以及,你知道,从冷启动开始。是的,这是一件非常真实的事情。而且,你知道,我们已经做了,我们认为是像小的动态动作气泡,我们建议人们可能接下来想尝试的事情。显然,有一些培训,诸如此类的事情。但我认为核心是让AI更主动,并且
关于事情。我要说的另一件事,因为它现在很重要,可能有500个人声称以某种方式、某种形式制作某种版本的AI辅导老师。我认为AI还没有准备好
独自一人为大多数人驱动学习。我认为,如果你是一个好奇的人,你可以去ChatGPT。如果你每天晚上花半个小时与ChatGPT相处,并且你非常擅长提示它并提出问题,你可以学到很多东西。但对于大多数人来说,那不是大多数学生。因此,并且AI还不擅长创建
高质量的问题,这些问题不会出现错误,可以给你,它们每天都在变得更好,但它们还没有达到它们需要达到的水平。所以,你知道,我们在纽瓦克等地看到很多东西是有效性。我们确实看到了一些来自那里的惊人的有效性数据。它确实来自于在可汗学院进行传统的练习。而那里的AI是一种支持。它可以帮助提高参与度。并且
教育和教育科技领域的许多人总是考虑,哦,我能想出一个更有效的干预措施吗?这显然很重要。但事实证明,如果你以任何合理的方式参与任何看起来合理健康的事情,它可能都是有效的。困难的部分是参与度。这就是我们现在所处的位置,你知道,我们正在尝试查看该管道的所有维度,从如何更快地让老师参与进来?AI在哪里?如何让学区的管理人员参与进来?
以礼貌的方式,让课堂负责,比如,好吧,你们真的参与了我们正在使用的这个工具。学生们真的在使用AI。然后当然,学区领导和老师如何让学生负责?这些类型的人类系统以及AI如何帮助人类让其他人负责
实际上是让你参与的方式。是的,这是一个非常有趣的观点,即参与度实际上是你需要解决的问题。你知道,在学生方面,我很想知道,显然,你现在已经向大量使用它的人发布了它。在它的使用方法方面有什么惊喜吗?我认为,我的意思是,我听说你在另一个播客节目中谈到过,你知道,显然,这些模型有一些缺点,它们并不总是正确的。你发现学生们正在向模型解释他们的推理,然后模型正在对该推理进行迭代。这实际上是一种非常有趣的方式,
比如学生学习,以及模型实际上用它们正在犯的错误来纠正自己。你注意到人们使用它的方式中还有其他任何让你感到惊讶的事情吗?肯定有一些案例。这些并不是主流,但我说了,如果你是一个非常有动力的人,并且你正确地使用这些模型,那么就会发生一些令人惊奇的神奇的事情。我举了一个例子。这是两年前的一次TED演讲。我举了一个例子,但这仍然是一个有趣的故事,这个年轻女子在可汗世界学校,这是一个在线特许学校。
我们拥有的学校,她当时在印度,她正在阅读《了不起的盖茨比》,我们有一个活动,你可以与文学人物的AI模拟进行交谈,她与AI盖茨比进行了长时间的交谈,关于每一个,你知道我们的模拟,他们不仅仅试图回答问题,他们实际上试图引导对话,你认为你在生活中有什么事情是你想要,并且……
我记得她告诉我关于那次互动的经历,并认为,好吧,这太美妙了。这就是我们希望看到更多的事情。我和我的儿子谈了很多,我的大儿子,他刚刚满16岁。而且,你知道,他,他,
他现在正在学习一些相当高级的数学。他可能已经达到我的水平,或者甚至比我略微领先。他实际上一直在使用它来探索想法。我说,它总是100%正确吗?他说,不,你也不是。然后他……
而且,你知道,我们正在投入大量资源的一件事,我认为很多人没有这样做,那就是真正试图不仅提高AI的准确性,而且衡量它的好坏程度。据我们目前所知,Conmigo……
当它锚定在可汗学院的内容上时,你的错误率大约为2%。2%的错误率大约平均分配为:1%的时间是数学错误,1%的时间是评估错误。所以答案可能是三分之一,你输入0.33,它说,做得很好。它应该说,嗯,接近。你确定,你知道,三个数字会一直持续下去,还是你可以把它表示为分数?并且
我们,我们显然希望将其错误率降至0%,但我实际上认为我儿子是对的。实际上,当我辅导我自己的孩子时,每10或15次中可能有一次,我会说,等等,这不是我得到的答案。等等,让我们再做一次。我说,哦,是的,你是对的。你是对的。你是对的。你知道吗?所以,嗯,
我实际上认为错误率实际上已经比许多人类辅导老师都要好。教师方面呢?比如,你知道,你如何看待最优秀的教师利用这些工具?对进入课堂的一些事情的总体反应是什么?我的意思是,显然,我想,在某种意义上,通过ChatGPT的广泛发布,无论是否通过Conmigo,它们都已经进入了课堂。那么你在那里注意到什么情况呢?是的,理想的情况是,这可能并不那么吸引人。我的意思是,教师也有一些吸引人的用例。
但理想的情况是他们定期使用它。他们围绕它养成一种习惯,他们使用AI,帮助调整他们的教学计划,使其更具娱乐性,适合课堂规模,然后在课堂上进行讲解。我们与Bluekit合作,为那些,你知道,为学生提供服务。
Bluekit我相信和Kahoot一样受欢迎,或者更受欢迎。它是一种基于问题集的课堂游戏。所以我们与Bluekit的合作是Conmigo将为教师生成Bluekit问题。所以以前可能需要教师花费半个小时、一个小时来编写50%。
15个、20个或更多问题,他们现在可以用大约两分钟的时间来完成。我们在那儿看到很多很棒的事情。所以我们看到了规划、课堂内的讲解,然后从中获得见解。然后那是另一波规划。我们正在为今年构建很多东西,这将使它更加精简和集成。
但是一个养成这种习惯的老师,一直都是这样,他使用可汗学院来布置作业,让学生负责,查看数据,然后继续这样做。他们似乎会取得非常非常好的结果。再次强调,这完全是关于参与度。就……
更吸引人的用例而言。我们确实看到老师们在谈论AI模拟。他们肯定会在课堂上打开并说,好吧,大家,我们将与哈丽特·塔布曼或乔治·华盛顿的AI模拟进行交谈。问你最难的问题,这真的很吸引人。我们还有另一个工具叫做写作教练,这是我们对作弊等担忧的回应,教师们
教师使用AI创建作业,通过AI分配作业。学生使用AI完成作业,但AI实际上充当道德写作教练。然后当学生提交时,教师不仅会得到最终的输出。他们会得到过程,他们可以与AI讨论发生了什么。如果
如果我从ChatGPT复制粘贴一些内容,AI会说,我不知道这来自哪里。所以它实际上不仅破坏了AI作弊。我们相信所有形式的作弊,但教师们开始相当定期地将其用于写作作业。所以我对这个很兴奋。我喜欢这种方法,因为它不像,你知道,说,嘿,我们将完全禁止这些工具。这既不现实,也不是人们实际上将在世界上互动的方式。就像,
让我们找到一种方法来教人们以仍然发展他们自己思维的方式使用它们。我认为这真的很聪明。你是否想象这在其他科目中也是如此?或者,显然,在写作中,这是有道理的,你知道,鉴于在职场上,人们将来会使用这些工具。你认为大部分学校教育都应该在某种程度上利用它们吗?还是仍然有一些地方应该,你知道,你应该能够完全不用它们来进行数学和写作?我认为两者都必须有。我绝对认为
如果你要管理AI来完成你的一些工作,你需要能够自己写好。所以我认为,特别是如果我们是高中以前,甚至是高中的早期阶段,是的,你应该在课堂上做更多的写作,老师在那里。它可以是一些简短的写作,等等,或者你可以在多个课堂时间内完成它。我认为这是健康的。与此同时,特别是当你进入高中和大学时,是的,你应该有更多
机会使用这些工具来提高效率。你知道,我必须在几个月后发表几次毕业典礼演讲。并且
我说,哦,我最好写这个。我当时在机场,我所做的只是记录我的想法,我的生活建议,你知道,就像,然后我让AI将其转录,然后将其转换成初稿。那个初稿,我的意思是,它同时说明了两件事。
这为我节省了大量时间,否则我本来会花掉这些时间。但是,如果我不知道如何写作,如果我只是使用了从我的随机想法中产生的初稿,那将是一篇糟糕的演讲。但它包含了我的一些想法的本质。我昨晚才看到它,我说,哇,这种表达方式实际上相当优美。我将稍微调整一下,因为它听起来并不完全像我。但是从零到一,
而且,它确实从……它从0.3变成了0.7。对。因为我给了它。这些是我的想法。但是这些东西是巨大的加速器,人们应该学习如何如何做到这一点。是的,只是说出来。我可以想象,当我和你在上学的时候,论文,他们说你有两周的时间。如果一个老师说,你知道,你对这件事的看法。但在课堂结束时,我想看到一些输出。
学区层面呢?我觉得在其他类别中,我们显然看到了来自董事会、首席执行官的巨大压力,比如,让我们尽快采用AI。显然,学校系统本身就是一个独特的宇宙。感觉是否有同样的采用或发展势头压力?或者你对政策和学区层面有什么观察?我认为总的来说,这非常非常非常非常非常非常非常非常,
这是学校可能成为最早看到AI在生产力和学习以及日常工作中得到主流应用的地方之一的案例,这实际上是试图帮助孩子们学习。
正如你已经提到的,老师们已经倾向于这样做,因为老师们做的很多事情都可以用AI简化,尤其是在规划方面和评分方面。随着模型变得更好,并且能够更好地支持学生并变得更主动,我认为每个人都能看到这一点。并且
是的,存在计算成本等等,但这比以前出现的任何东西都要便宜得多。疫情之后,花费了860亿美元用于ESSER,这些资金用于帮助孩子们进行补习。这大约是每位美国学生2000多美元。并且
许多学区将其投入到相当昂贵的付费辅导中,例如现场辅导。有一些例外,但总的来说,没有什么可以证明这一点。你知道,所以与其花费每小时25美元、50美元的东西,你现在看到的是每年花费10美元、15美元的东西。如果你愿意,你会得到更多的剂量。所以,是的,我认为……
我实际上在学区中看到的比我在可汗学院领导者那里看到的更多。而且,你知道,我一直都在推动可汗学院的团队。我说,你知道,我们什么时候才能让,你知道,自动化我们的一些簿记工作?或者我们什么时候可以这样做?或者我们什么时候可以做,你知道,我一直都在推动工程师们,你们在编码方面效率提高了多少?我听说X公司是,你知道,
100%。为什么我们不能达到100%?但是是的,我认为学校是……我们谈到的学区是……
他们说这每周至少为他们的老师节省了五个小时的时间,甚至更多。他们将其用作招聘工具、留住人才的工具。是的,这真的很强大。我的意思是,从社会的角度来看,我很高兴学校成为快速采用者之一,如果有任何地方会这样做的话。你知道,我想在构建Conmigo的过程中,我的意思是,你谈到了显然你必须添加防护措施。听起来你已经将模型与你已经在可汗学院上拥有的内容联系起来了。无论如何,
你还需要在OpenAI模型之上构建什么才能使其在课堂环境中发挥作用?哦,是的。好吧,我的意思是,我可以列出清单。这令人惊讶。在一个层面上,许多这些AI应用程序,不幸的是,我认为其中许多只是在模型之上添加了薄弱的提示层。但是是的,你想做安全工作。你想做审核工作。坦率地说,审核工作是我们可能一开始就过于保守的事情。
鉴于你的受众。鉴于我们的受众,但是,你知道,有很多误报。所以我认为我们现在已经掌握了这一点。特别是数学精度,这是有很多工作要做的地方。我的意思是,只是为了降低错误率。再次强调,最难的错误不是这东西
能否计算出5的8次方是多少。最难的错误是与学生进行评估错误,特别是当某些学生只是反复尝试,试图得到答案,并且他们不断切换上下文等等时。那么你如何处理所有这些呢?大量的工作,只是让用户界面感觉更自然。显然,正如我前面提到的,我们正在对可汗学院的前端进行重新设计,以想象一个更主动的AI优先方法
方法。我认为当人们看到这一点时,他们会看到,好吧,这不仅仅是一个聊天机器人。这是AI集成到写作教练所做的一切工作中的每一个方面,你知道,那就是再次强调,它不仅仅是一个聊天机器人。它是,它是,
关于你的论点陈述的集思广益。有一个大纲工具,AI可以看到并具有上下文。然后当你起草时,它真的就像你在Google Doc上一样,它会根据维度突出显示部分内容。所以是的,还有很多工作要做,这远远超出了仅仅是一个薄弱的提示层。有很多,你知道,我认为现在世界不想要20个不同的
关于AI工具的应用程序。他们想要一个足够智能的应用程序,能够在幕后进行一些提示链的处理,并交换提示。所以这里有很多工作要做,以确保其强大的记忆力。我可以继续说下去。是的。哪些对您来说有意义的功能仍在发展中?例如,您知道的突破,我想,是在核心LLM或一些多模式功能中,这些功能将会改变您在产品中能够做的事情。
我的意思是,记忆是一个很大的问题。我知道现在你可以去ChatGPT询问,你知道,它显然记得你所做的一切。但是,对我们这样的人来说,能够访问它,以便我们可以为模型提供更多的上下文信息。它拥有所有的记忆,但同时,也许有一些方法可以重置记忆的某些方面。知道它在记住或推断关于你的什么。但我认为记忆是一个很大的问题。
先进的语音功能已经存在,你可以在ChatGPT、Gemini等等中使用它。我认为将其与我们的平台集成将会非常酷。我们正在为一个世界而构建,随着时间的推移,
人类,可汗学院的书面内容可能会变得越来越不相关。你知道,这让我这个制作了7000个视频的人心碎,但这只是一个现实。所以,你知道,它们都被用来训练模型了,对吧?我相信它们仍然存在,它们仍然有用。是的。但是模型创建更高质量问题的的能力,我认为是很重要的。
你知道,我认为模型有一些非常酷的功能,比如制作视频和某些类型的图像等等。这些很有趣。我认为世界还没有为它们找到真正好的教学用例。我的意思是,可能有一些有趣的基于项目的学习,诸如此类的事情。但是,教学方面还没有……好吧,关于图像,我们希望,这可能还需要一年半的时间,那就是
让学生能够,特别是如果他们在使用平板电脑设备,能够展示他们的工作,而人工智能能够看到他们的工作。我想你儿子演示过这个,对吧?是的,那是去年OpenAI的演示,公平地说,那是第五次尝试。它犯了很多错误,但最终还是成功了。但是人工智能能够在看到你的工作的同时非常自然地进行交谈的想法是
并给你反馈,是的,我认为如果它很健壮……
感觉就像我辅导我的表兄弟姐妹,或者现在我辅导我的孩子们时一样。所以我希望在未来一年半到两年内,我们可以把它变成一件主流的事情。那将是一件大事。是的。当我提到的时候,我被震惊到了一件事,显然,有一些有趣的用例可以探索。而且,你知道,你前面提到的,很多事情都是围绕参与,就像,你知道,有很多不同的技术,很多技术都是有效的,这实际上只是让人们参与其中任何一项。呃,
我很想知道我们是否会看到一些,你知道,有趣的新方法,我们还没有概念化,实际上推动了,你知道,推动人们参与。然后,显然,你可以将一些其他的东西叠加在其之上。是的。而且,你知道,我一直以来,我们多年来一直在进行游戏化。显然,在教育科技领域有一些人做得很好。像Duolingo这样的人,你知道,Duolingo受益于,他们自己制定标准,对吧?他们可以,他们可以,他们可以,他们可以,他们可以,他们可以尽可能多地获得多巴胺的刺激。它会,
当我们开始的时候,我们也在同一条道路上,但是一旦我们在学校变得更主流,我们就想,好吧,我们必须与标准保持一致。而其中一些标准并不是最令人愉快的事情。
对于一些学生来说。所以总会有,你知道,如果你真的想要做,学习并不总是容易的。所以总是有那种你必须做的富有成效的挣扎。现在,我认为如果我们能够在基于任务的学习方面真正有创意,当人们进行寻宝游戏或密室逃脱时,他们愿意解决相当困难的问题。
认知上具有挑战性的问题,因为它是更广泛的游戏的一部分。所以我认为这里可能有一些东西,特别是如果人工智能足够好。我10岁的儿子,在他10岁生日那天,我为他做了一个寻宝游戏,我用推理模型想出了大部分内容。它不是开箱即用的。我不得不进行很多调整。但是几年后,你可以想象它能够根据这些类型的事情创建游戏。
完全正确。你有没有用过什么东西来测试新的模型?我记得,我想,当你看到GPT-4时,你用的是,我想,AP生物考试来判断这些模型是否好用。就像,现在当谷歌、OpenAI或Anthropic发布新模型时,你用什么来判断它有多好?
你知道,一两年前我们担心的一些事情,我现在不再担心了。我的直觉是,你知道,数据似乎也支持这一点,所有的Gemini、Clods、Groks和,你知道,GPT 4.5,它们都在同一个
正负,有些人会说,一个比另一个好,但即使是这样也是没有提示的。我认为如果你提示,你可以从所有这些模型中获得几乎相同的行为。所以现在实际上是,
显然存在成本效益问题,但它们之间的差异非常细微,以至于我不得不更多地依赖我们自己的评估框架来说,好吧,在我们严格的测试案例中,有多少成功或失败,等等,而不是我亲自尝试它。是的。你们今天是如何进行模型评估的?从开始到现在,有什么经验教训吗?哦,有很多……
我们有一系列从一开始我们就看到的严格测试案例,现在已经有数百个案例,我们知道这些模型在这些案例中遇到了麻烦。它们是一些经典的例子
0.33是学生说的。三分之一是答案。分配律是这些模型至少在过去曾经遇到麻烦的事情之一。我们有一整张清单。当我们开始这个包含,让我们称之为200个测试案例的列表时,它实际上在约70%的测试案例中失败了。这些是非常小众的。这并不意味着它在70%的交互中失败了,而是70%的困难测试案例。现在这些数字,我最近一两个月没有看过,但它就像,
据我了解,只有不到10%的最难测试案例。我们做了一些这样的工作。我们还,你知道,我们对交互进行了机器标记。所以,你知道,
我们可以使用人工智能来查看人工智能交互,并说,好吧,这里可能出现了一个错误。人工智能在某个时刻说,哦,对不起。你答对了。错误等等。但我们也进行人工标记,因为人工智能不是,
AI标记并不完美。所以是人工标记工作。大约六个月前,我们进行了大约2000次样本对话。这帮助我们得到了一个更好的结果,你知道,当我告诉你的这些数字,比如2%、3%的错误,是基于人工标记的。我们还在对以下内容进行一些标记,我不仅关注错误,还关注对话的效率,例如,有多少百分比的对话是健康的,学生正在
参与其中,与学生只是说“我不知道,我不知道,我不知道”的百分比相比。你是否能够训练一个模型来评估这一点,或者今天所有这些都是人工标记的,例如什么是完美的对话?现在都是人工标记的。理论上,我们可能能够随着时间的推移训练一个模型来进行评估。但是,是的,我们正在进行人工标记。
它也很有趣,因为我认为在传统的课堂上,你可能会看到类似比例的孩子只是退出了,说“我不知道,我不知道”。他们甚至没有参与。但无论如何,我们正在尝试标记所有上述内容。你有没有早期的,你知道,任何关于,你知道,我觉得人们正在研究这些模型在许多不同,你知道,环境中的影响。我觉得在工作场所,有一些研究表明,实际上,它就像。
对于那些可能处于劳动力下半部分的人来说,影响非常大。我认为每个人仍在努力弄清楚这一点。关于迄今为止,至少到目前为止,对于这些模型影响最大的学生类型或地点,你有什么早期的想法吗?或者现在还为时过早?在学生方面,我认为对于那些好奇并且已经参与其中的学生来说,这是
他们的梦想成真,我的意思是他们可以问任何问题等等,所以,你知道,但是有效果,我们开始运行一些,我们看到了一些与参与之间的相关性,以及潜在的学习,但是我认为模型必须成为学习体验的更大一部分,而不仅仅是回答问题,然后我们才能看到真正的变化,是的,
是的。
是的。我的意思是,特别是那些我一直在谈论的事情,呃,你知道,一些记忆,呃,架构,呃,一些,呃,健壮的评估架构,自动化的评估架构,呃,将会非常,非常好。是的。这些是,这些是,这些是,这些是两个。然后,你知道,如果有一些架构适合那些在数学等方面真正擅长的人,呃,
所以它能够很好地进行评估,而不是仅仅,我们知道,是的,你知道,显然你似乎正在向这些主动的、你知道的、使模型主动的方面进行重大转变。而且,你知道,在多大程度上这最终可以由个别教师定制,而不是说,嘿,对于我们教授代数来说,只有一些通用的最佳实践。所以我们知道教学法或提示是什么,就像,你如何考虑这个问题?是的,教师参与是必不可少的。其中一个问题是,
所以你可以说,嘿,我是一个人工智能。问我任何问题。你知道,有些孩子会参与进来。你可以说,嘿,我是人工智能。当你来到网站时,我会出现。来问我一些问题,或者我在这里是为了,或者你可能会有这个问题,也许这会更好一些。但实际上最好的是,这就是我们明年要构建的目标。如果人工智能注意到一个学生,比如说,注意到雅各布在分配律方面遇到了麻烦。
它会告诉雅各布的老师汗先生,嘿,雅各布在分配律方面遇到了麻烦。点击这里,你将安排一次关于分配律的Khanmigo辅导课程。雅各布必须在明天晚上之前完成。这就是我们将要做的……
这是他的作业。雅各布必须完成它。所以,当你有老师布置人工智能辅导干预措施,然后老师能够让学生对这项干预措施负责时,那时你将最终开始看到孩子们参与进来。
太令人兴奋了。我觉得听到这个,显然,我们,你知道,在旧金山,所有这些,你知道,技术乐观主义,你听到这个,你会想,上帝,就像,这几乎感觉,你知道,这几乎感觉像是对世界的怠慢,这些东西并没有更广泛地使用。如果我们今天拥有这些能力,我的意思是,特别是,你知道,即使你看看新兴市场,那里可能没有像今天这样高质量的教育,就像,
我相信有很多技术乐观主义者会说,上帝,我们应该今天就将这些模型完全交给学生,让他们运行。这些人错过了什么?我想,你知道,你如何看待未来几年在全球范围内的发展?因为当你描述这个用例时,它似乎,似乎令人难以置信地引人注目。
是的,就像世界上有一定比例的学生可以轻松地处理事情一样。这位先生,苏加塔·米特拉,他做了墙上的学校洞,墙上的学校,诸如此类的事情。他在印度农村地区放了一些平板电脑,贫困的孩子们。我不。
他们声称孩子们开始走到平板电脑前开始学习等等。我认为有一些。我的意思是,那里肯定存在好奇心。但我认为这是有限的。我的意思是,仅仅让印度村庄的孩子们接触ChatGPT或其他东西,可能也会有一些好处。一些子集可能会开始真正很好地利用它。但再一次,如果你不知道你不知道什么,我的意思是,你谈到了空白的东西。
空白的石板,你甚至不知道如何构建你自己的旅程。你甚至不会知道如何提示它说,嘿,你能带我了解印度国家代数标准吗?你知道,你甚至不会知道该怎么做。所以我认为你必须更结构化地进行。我认为一旦你,这就是可汗学院,我们的一个价值观是,我们一直拥有这种结构化的内容,并且有一些孩子,你知道,我刚遇到一个年轻女孩,
麻省理工学院的大一新生,来自阿富汗。她不能上学。可汗学院是她的教育。她使用了我们另一个名为schoolhouse.world的平台来证明她所知道的知识。麻省理工学院接受了这一点并录取了她。所以有一些人正在使用已经存在的东西。但是是的,我认为你只是开始把东西扔到,你知道,你不会
但我认为在一两年后,我们将拥有你可以使用的东西。理想情况下,你确实可以接触到一位了解代数、物理或其他任何学科的老师。但如果你没有,而你身处一个拥有,你知道,Starlink接入和一些30美元、40美元、50美元的平板电脑的容器中,这些平板电脑一天会被五到六个孩子共享,我实际上认为你可以走得很远。
是的。你认为我们会看到吗?是的。我的意思是,已经有人在尝试了,但我看不出我们为什么看不到。我希望在明年为可汗学院做的一件事,让我们称之为两年。我们确实需要在转录方面的一些资金来自动化转录,但我希望提供高中学分和高中毕业证书。我认为一旦你……
提供高中学分、高中毕业证书,最终提供大学学分和大学毕业证书。我的意思是,我不知道我们什么时候会颁发大学毕业证书,但大学学分肯定会的。然后突然之间,如果你是在印度的这个孩子,拥有其中一种设备并至少获得国际认可的高中毕业证书对你来说就变得非常有吸引力了。这意义重大。
是的。我想听听你对更广泛的人工智能和教育市场的评论。就像,你知道,你,你对什么有什么看法?你知道,你在那个领域关注哪些其他领域或空间?显然,你似乎真的在努力解决这个问题的核心,但我很想知道,你还有什么其他的看法,或者你发现还有什么有趣的事情正在发生?你知道,有,我认为我们只是,我们,现在有很多噪音。有很多初创公司。听起来像人工智能。我,我们所看到的是很多人做了一些
在ChatGPT上添加一层和一些提示。而且,你知道,他们中的一些人可能会获得一些吸引力,但这实际上是一个艰难的环境。我的意思是,你在这里是一位投资者。这,这在某些方面,这是一个梦想,你可以比以前更快地制作有实质内容的应用程序。与此同时,转换成本和进入壁垒如此之低,以至于
我认为一些,不是为了批评你们,一些投资者群体的激励措施并不一定允许你们采取稍微长远一点的观点。这就是我告诉我们团队的。可汗学院,如果市场完全解决了问题,可汗学院就不需要存在了。我们是一个非营利组织。我们现在存在。
我会说在这个时刻,我们的价值在于我们确实有权采取稍微长远一点的观点。我们仍然有,你知道,我们给自己施加了很大的压力,以便在短期内保持高度相关性,并与任何人竞争。但是我们有资助者会给我们,你知道,五年期的资助来思考评估。
来思考写作,知道它会发展和变化。老实说,一些初创公司没有这种奢侈。他们只需要,你知道,在接下来的九个月内获得一些产品市场契合度,否则他们就会消失。我认为我们的另一个价值是信任,好吧,
你知道,人们对人工智能更敏感。好吧。他们真的不是关于,你知道,以某种方式改变,破坏教师吗?他们真的是关于教学法的吗?他们真的有有效性研究吗?这是我能感觉良好的事情吗?而且,你知道,多年来,希望我们一直在建立很多这样的信任。所以在人工智能世界中,这会有所帮助。是的。教育市场的任何角落,也许你们没有关注,但你们就像,哦,我希望有一些初创公司正在尝试建立,你知道,这个领域或
或者这些类型的产品怎么样?我相信有一些初创公司正在这样做。我不知道他们,而且据我所知,他们中没有一个成为主流。但是,哦,我的意思是,有很多
整个面试环节非常耗费资源并且很糟糕,面试就是评估。它感觉不像评估,因为它是非标准化的,而且成本很高。而且,你知道,即使在人工智能出现之前,如果我进入谷歌的最终面试阶段,谷歌告诉我,嘿,萨尔,你是一个很棒的人。要么是你,要么是雅各布。
我们真的不得不抛硬币。所以我们把工作给了雅各布,祝你生活顺利。然后我去微软,不得不重新开始。微软也不得不重新开始,花费所有这些时间。他们不应该像我走到最后一样,谷歌应该给我一些类型的证书,说像,萨尔是一个非常好的,
然后微软只需要进行最后一轮面试,以确保我适合这个职位,并且我与这个职位保持一致等等。所以一直以来都存在巨大的、巨大的、巨大的低效率。即使是谁能够获得面试机会,这也是一小部分人。我们有一个产品经理职位空缺。我们收到了数百份申请。我们可能能够进行电话面试,也许是20到25个人,20个,
我相信有一些假阴性,我相信我们会在我们没有面试的180到280个人中错过一些人才,甚至没有进行电话筛选。我相信那里有一些人才,但也许最好的申请者就在我们甚至没有回电的280个人中。所以无论如何,我认为这里有一些有趣的事情。我认为在公司培训和发展方面有一些有趣的事情,以及
你知道,我们所有都必须做的事情,这些,你知道,在工作中什么是合适的类型的网络安全培训或性骚扰培训等等。我必须相信与人工智能的模拟会更有趣。就像以下情况刚刚发生。接下来你做什么?完全正确。好吧,我的意思是,你显然提到了这一点,你知道,这些在企业界的应用。我想……
你知道,也许放大一点,我觉得我确定你思考了很多的一个更广泛的问题是,实际上重要的技能,世界变化的速度有多快,对于我们为未来劳动力培训的学生来说,实际上重要的技能,随着这些模型不断改进,你如何看待这个问题?以及我们为之培训人们的工作,以及在多大程度上,如果有的话,我们所教授的内容必须调整或改变以适应这种情况?是的,我相信一个聪明、有条理、
强大的批判性思考者总是像,这始终是一项非常好的基本技能。所以我,我认为孩子们应该继续学习写作、阅读和做好数学,并且,你知道,对社会研究、历史等等有良好的常识,公民教育。但我认为真正重要的东西是,我认为它,
我认为经济学家将创业精神视为生产要素,对吧?这种能力能够利用已经存在的资源,但将它们放在新的排列中,创造以前世界上不存在的价值。大多数人总是认为创业精神就像创办可汗学院或你投资的东西一样。就是这样。但我实际上认为这将在几乎任何行业中变得越来越重要。
尤其是在未来20年,变化如此之快。拥有这些能力的人,他们还有其他扎实的技能,但他们总是说,嘿,
哇,我刚刚听说了一件事。让我尝试使用它,并将其与这件事结合起来。哇,如果我这样做,然后我取这个输出,然后把它放在这里,我可以做到这一点,我可能能够做得很好,它可能不是最终的输出,但它可能让我达到80%。然后我必须使用我的技能来调整它,成为这些人,我认为将会,呃,那就是,那就是技能。那些是技能。而且,呃,
这些是我希望在我们组织中突出的人。而没有做很多这类事情的组织也会受到影响。如果他们没有很多这样的创业精神,他们将无法创新。他们的成本结构将远高于其他人。我喜欢这个。好吧,我们总是喜欢在我们的采访结束时进行快速问答环节,在那里我们可以了解你对一系列问题的看法。也许首先,在过去一年中,你对人工智能的看法改变了什么?事后看来很明显,但是……
人工智能本身,我认为我甚至在两年前也不会说人工智能本身就能解决所有问题,但我肯定更加倾向于我们谈论的很多内容,那就是,这更多的是关于人工智能如何真正赋能教师让学生负责,并让学生参与其他富有成效的事情。
你今天在可汗学院使用人工智能最喜欢的方式是什么?然后是愿望清单上你希望在一两年后使用它的任何东西?当我准备制作视频时,要制作一个视频,我的一种,我想你可以称之为,如果你想说超能力的话,那就是我在脑子里问所有愚蠢的问题,有时人们害怕问这些问题。我认为有时老师会忽略它们,因为他们也害怕问这些问题。但我就像,等等,这是怎么回事?即使我正在做四年级的概念,我也会想,等等,等等,这说不通。好吧。
有时我可以自己弄清楚,但很多时候我,你知道,过去我会,我会进行网络搜索。我会打电话给人们。我发现,对于一个会问正确问题的人来说,人工智能可以极大地加快,呃,这个过程。我现在总是能够为视频制作有趣的图像,这些图像可以可视化我想要展示的内容。所以这很有价值。呃,
每隔一段时间,我倾向于……我的大多数演讲都是即兴的,但我不得不做一些正式的演讲,比如毕业典礼演讲等等。而这就是进行口头倾倒,然后让AI转录它,然后至少进行演讲的第一遍,然后进行调整,可以节省数小时。我想尝试做一些……
你知道,我一直在和一些拥有这些平台的人交谈。他们说你现在可以提示AI,它会制作整个应用程序,并且会为你托管一切。我想尝试一下。因为我想在编码方面有所作为,呃,在编码方面。有Bunkable,我知道创始人很好。他前几天告诉我,呃,
不,你可以制作整个应用程序,我甚至描述了我想要制作的应用程序,他说:“是的,那可能有效”,我说:“哇,好吧,我需要尝试一下”,我一直告诉我16岁的儿子,他非常喜欢编程和制作游戏,就像你应该做这个vibe kobe一样,这很有趣,因为他就像个老头,他说:“不,这是作弊”,我说:“不,但那是编码的未来,你必须做一点”,他说:“不,我需要自己正确地学习它”,我想,嗯……
在构建这些功能的过程中,最大的惊喜是什么?我想也许是你认为会非常有效但实际上没有,或者是你没有期望太多但实际上在Conmigo的采用中非常成功的。我的意思是,这并不令人惊讶,因为当你尝试大规模和企业级地做某事时,几乎所有事情都会以这种方式出现。但是,是的,工作量要大得多。当我第一次看到这些模型时,我想,“哇,这些太神奇了”。看,我仍然担心……
这些模型会以某种方式超越使用它们的应用程序吗?或者像chat GPT这样的通用应用程序会超越专业应用程序吗?这仍然是一个担忧,但是,是的,我的意思是,为了让它真正适用于某个用例,需要付出大量的努力。比预期更好的事情,
你知道,两年前我担心我们的团队是否准备好进行这种类型的转变。我担心教育界是否准备好进行这种类型的转变。我实际上认为,如果我们如此依赖人工智能,我们会受到很多批评。但现在很有趣。我们的团队确实将自己视为一家以人工智能为首要的组织。这对我来说很容易说,但当我真正考虑我们两三年前的情况时,那并不是……
很明显的事情,有一些抵制,也有一些人不喜欢那个方向。我还想说,教育界的发展速度比预期的要快。那些周是什么样的?我的意思是,很明显你得到了GPT-4的演示,你做了你的AP生物测试,然后你回来试图重新定位。那第一个月是什么样的?嗯,几乎每天我们都在和OpenAI的律师谈话。我们说,我们想让另外五个人或十个人签署保密协议。我们有一个,我们有一个现场会议。我记得第一次
我们有一个小办公室,每次我们得到人手时,我们都说,跟我来。我想让人们看到,因为这太像了,他们会认为自己被愚弄了。这在chat GPT或任何其他东西出现之前。我说,我有一些东西要给你看。他们会走进来。我只是喜欢做演示。他们说,“发生了什么事?”“这是什么?”“这是什么?”“你在给我看什么?”我说,“这是未来。”而且
但是,你知道,我认为最初大约有一半的公司认为,这就是一切。我们必须停止我们正在做的事情。然后他们中的一半说,“等等,它会出错,会产生幻觉,会有偏差。这会让人们感到害怕,作弊。”我们说,“看,你们双方都是对的,但是我们不能,我们必须承担所有这些风险,并将它们转化为特性。”是的。
我喜欢这个。好吧,听着,这是一次引人入胜的谈话。我想确保我留下最后一句话给你。你想把我们的听众指向任何地方,让他们了解更多关于可汗学院的信息,你正在做的AI工作,其他任何事情,现在轮到你了。是的。你知道,人们想尝试一下。你可以访问可汗学院,Khanmigo,如果你在家上学或当老师,你可以尝试一下写作教练。我还想,人们应该了解Schoolhouse.world,这是一个我帮助创办的姐妹非营利组织,它围绕免费辅导。
我们通过志愿者来做这件事。所以如果人们想做志愿者并提供辅导或获得辅导,我们即将推出一个名为“对话倡议”的东西,你将就棘手的话题进行对话,然后互相评价对方听得多好。所以,是的,看看吧。记住,我们是家非营利组织,所以请捐款。是的,太棒了。好吧,非常感谢,Sirius。这是一次引人入胜的谈话。太好了,谢谢。
谢谢。
随着人工智能快速发展的步伐,我们的目标是帮助你分解和理解最重要的突破,并更清晰地了解现实。感谢您的收听,我们下期节目再见。