We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode #149 Open Weights != Open Source with Google Engineer and Stanford Researcher Yifan Mai

#149 Open Weights != Open Source with Google Engineer and Stanford Researcher Yifan Mai

2024/11/8
logo of podcast freeCodeCamp Podcast

freeCodeCamp Podcast

AI Deep Dive AI Insights AI Chapters Transcript
People
Q
Quincy Larson
Y
Yifan Mai
Topics
Quincy Larson:即使在人工智能领域,扎实的软件工程基础仍然至关重要。未来AI技术的发展可能导致一些工作岗位的消失,但同时也会创造新的就业机会。持续学习和提升技能对于适应未来的劳动力市场至关重要。 Yifan Mai:他从谷歌TensorFlow团队离职,转而从事斯坦福大学的AI研究,更像是一位工程师,热衷于构建工具来支持科研人员。他认为学术界和工业界的职业道路差异很大,动机和激励机制也不同。美国学术界有固定的职业路径,而工业界则更为灵活。他目前在斯坦福大学的角色是通过编写开源软件和维护基础设施来支持科研人员。他喜欢构建供他人使用的工具,现在他为学术研究人员和开源用户构建工具。研究工程师/研究软件工程师帮助研究人员完成研究工作,弥补研究人员在软件工程方面的不足。在研究领域,好的软件工程实践可以显著加速研究进程。科研人员的激励机制主要在于发表论文,而非编写高质量的软件。研究人员的成果主要通过影响力来衡量,这在很大程度上取决于特定领域。在AI领域,软件的实际使用情况也成为衡量研究影响力的一个指标。 Quincy Larson:他认为Yifan的工作更像是为科研人员提供支持,类似于数据工程师的角色。科研人员在软件工程实践方面存在不足,例如,在网页应用中加载过大的JSON文件。采用React等现代化前端框架可以显著提升网页应用的性能和可维护性。科研人员的激励机制主要在于发表论文,而非编写高质量的软件。他认为,如果只衡量研究成果而不考虑代码的可重用性和可维护性,那么研究效率将会受到影响。他与许多博士生和博士后以及教师合作,发现许多研究人员的成果衡量标准是研究的影响力,这在很大程度上取决于特定领域。在AI领域,软件的实际使用情况也成为衡量研究影响力的一个指标。大型语言模型的权重(参数)是模型的核心组成部分,开源权重意味着模型可以本地运行和实验。闭源模型阻碍了研究社区对模型的深入研究和实验。Meta发布的Llama模型缩小了开源模型和闭源模型之间的差距。但“开源权重”和“开源”的概念有所不同,前者仅指模型参数的开放,后者则包含模型代码和训练数据的开放。大型语言模型的训练数据中可能包含受知识产权保护的材料,其伦理和法律框架尚不明确。

Deep Dive

Key Insights

Why did Yifan Mai leave Google to work at Stanford?

Yifan Mai left Google to work at Stanford because he wanted to focus on research and build infrastructure that supports scientific researchers, rather than being on the faculty track or publishing research himself. He enjoys being close to research and enabling other researchers through open-source software.

What is the HELM project, and what does it aim to do?

The HELM project, led by Yifan Mai, is a research initiative that benchmarks the performance of large language models (LLMs) across various tasks and use cases. It provides a standardized and transparent framework for evaluating models, allowing users to compare their performance on different benchmarks and use cases.

What is the difference between open weights and closed weights in LLMs?

Open weights refer to models where the parameters (weights) are available for anyone to download and run locally, such as Meta's LLaMA. Closed weights, on the other hand, are models like OpenAI's GPT or Google's Gemini, which are only accessible through the company's API or services, and the parameters are not publicly available.

What are some challenges in evaluating LLMs, particularly in high-stakes domains like medicine or law?

Evaluating LLMs in high-stakes domains like medicine or law is challenging because it requires domain-specific benchmarks and expert evaluation. For example, medical advice given by an LLM needs to be assessed by a real doctor, and legal advice requires verification against existing case law. These evaluations are complex and often require human judgment, which is difficult to automate.

What is the 'win rate' concept in the HELM project, and how is it calculated?

The 'win rate' in the HELM project is a metric that measures the probability of one model performing better than another across a variety of benchmarks. It aggregates results from multiple benchmarks to give an overall sense of how models compare to each other in different tasks.

What are some potential harms of LLMs, according to Yifan Mai?

Yifan Mai highlights several potential harms of LLMs, including the generation of harmful outputs like instructions for building bombs or political disinformation. There are also concerns about bias, fairness, and labor displacement, as well as the ethical implications of using AI in high-stakes applications like unemployment benefits processing.

How does Yifan Mai see the future of AI in terms of accessibility and distribution?

Yifan Mai is optimistic about the future of AI accessibility, particularly with the improvement of smaller, more efficient models that can run on consumer-grade hardware like MacBooks. He believes this will make AI more evenly distributed, though he remains concerned about who gets to decide how the technology is used and the power dynamics involved.

What advice does Yifan Mai give to aspiring AI engineers or programmers?

Yifan Mai advises aspiring AI engineers to focus on building strong software engineering fundamentals, including programming, software engineering practices, and foundational knowledge in AI, such as probability and statistics. He believes these fundamentals will be crucial regardless of the specific AI technologies that emerge in the future.

Chapters
This chapter explores the narrative of LLMs replacing jobs, particularly in programming. It emphasizes the enduring value of strong software engineering fundamentals, even within the AI field, highlighting the importance of understanding core concepts like probability and statistics.
  • LLMs are not expected to entirely replace programmers.
  • Software engineering fundamentals remain crucial, even in AI.
  • Strong foundations in probability and statistics are essential for AI professionals.

Shownotes Transcript

<context>#149 开放权重与开源:谷歌工程师和斯坦福研究员Yifan Mai的对话 在本周的播客中,freeCodeCamp创始人Quincy Larson采访了Yifan Mai,他是谷歌TensorFlow团队的高级软件工程师,曾离开私营部门前往斯坦福进行人工智能研究。他是开源HELM项目的主要维护者,在该项目中,他对大型语言模型的性能进行基准测试。我们讨论了:- LLM中的开源与开放权重 - LLM使用案例的破碎前沿 - 人工智能对工作的影响及我们的预测 - 学习什么以便保持在水线之上 你能猜到我在开场时播放的是什么歌吗?如果你想听,我把整首翻唱歌曲放在了播客的最后,你还可以在这一集的YouTube版本中看到我演奏所有乐器。此外,我想感谢每月支持我们慈善事业的10,993位善良人士,是他们让这个播客成为可能。你可以加入他们,支持我们的使命,网址是:https://www.freecodecamp.org/donate 我们在对话中提到的链接:- Yifan的个人网页:yifanmai.com - HELM排行榜:https://crfm.stanford.edu/helm/ - HELM GitHub仓库:https://github.com/stanford-crfm/helm - 斯坦福HAI博客:https://crfm.stanford.edu/helm/</context> <raw_text>0 有一种叙述认为LLMs会取代工作,尤其是程序员的工作。特别是在预科化学学生方面,我想说即使你想进入人工智能领域,拥有良好的软件基础、软件工程基础和编程基础总是有价值的,真正理解人工智能的基础,包括概率和统计等内容。我有一张照片

钉在我的墙上,是你和我的合影,我们在笑,但看看我们现在的生活,满是破烂和撕裂,我们争吵、打闹,直到黎明流下的泪水中欢喜,现在的我,哇

欢迎回到Free Code Camp播客。我是Quincy Larson,FreeCodeCamp.org的教师和创始人。每周,我们为您带来开发者、创始人和渴望进入科技领域的雄心勃勃的人的见解。本周,我们与Yifan Mai交谈,他是谷歌TensorFlow团队的高级软件工程师,离开私营部门前往斯坦福进行人工智能研究。

Yifan目前是开源HELM项目的主要维护者,在该项目中,他对大型语言模型的性能进行基准测试。Yifan,欢迎来到节目。非常感谢你,Quincy,能来这里我感到很荣幸。

是的,我很高兴你能来,因为你有在私营部门作为软件工程师工作的经验,现在又作为斯坦福的研究员工作。所以你在谷歌的TensorFlow团队做了硬核软件工程,现在你正在进行前沿研究,弄清楚这些新兴模型的实际表现。这对我来说非常令人兴奋。

是的,我真的很高兴能谈论这些东西。是的,我给观众提供一些关于你我相遇的背景。我去参加了一个活动,在新加坡,或者说不在新加坡,但几乎可以算是。在旧金山有很多新加坡人。当然,你是在新加坡长大的?是的,我在新加坡长大。我2010年搬到这里。所以我在旧金山湾区待了大约14年。是的。

是的。你真的很好地利用了时间。你是作为国际学生过来的,还是怎么来的?

是的,我最初是在新加坡长大的。我在新加坡完成了大部分学业。我是为了上大学而搬到这里的。所以我在斯坦福大学完成了本科学位,从那时起我就留在这里了。我基本上在那之后继续在这里工作,然后我在斯坦福完成了本科学位和硕士学位,现在我在斯坦福工作。我喜欢开玩笑说,这有点像搬回父母家。

但我真的很享受在湾区的生活。有人自愿离开吗?因为人们总是离开学术界,去硅谷、纽约市等地方寻找高薪、体面的工作。但有人自愿放弃那种生活,放下工具去做—

基本上做一些几乎完全不同的事情。做研究与应用工具是非常不同的。或者也许你在谷歌工作时除了作为软件工程师外还做了很多研究。但这算是一种常见的职业发展吗,还是说相对不常见?是的,好问题。我想说这很不同,因为学术轨道尤其如此。我有朋友...

在两个方向上都有过渡。我有朋友在学术界获得了博士学位,你知道,博士的一部分是进行研究,然后再回到工业界从事工程。我也有朋友在工业界做工程,决定“哦,我想去做研究,回到学术界攻读博士学位。”现在我的一些朋友是教职人员,他们来自工业界,而不是教职人员。

我认为这样做的动机,学术界和工业界的工程是非常不同的职业道路,具有非常不同的激励。

在美国,尤其是,学术界是一条相对僵化的轨道,你被期望有一条非常固定的职业路径,你被期望完成博士学位,然后可能在中间进行博士后研究。然后你有初级教职和高级教职。这与工业界的视角有些不同。

对于我的朋友们来说,他们从工程转回学术界,我认为很多动机是他们想做研究,他们想要真正推动某个领域的发展。对我来说,动机有点不同,因为我与我的朋友们非常不同,我并没有真正回到学术界走学术轨道。

所以我实际上没有博士学位,也不打算攻读博士学位,这很不寻常。我基本上是... 等等,你没有任何攻读博士学位的打算?我没有。我在我的实验室里是唯一一个没有考虑攻读博士学位或已经拥有博士学位的人。我更像是一个工程师,因为我喜欢构建东西。

所以这与我朋友们的动机有些不同,因为我不会走教职轨道。因此,我不会成为教授。我考虑的方式是,与其说我的影响力在于发表研究、领导研究,不如说我更看重自己作为科学研究者的支持者的影响力。

所以我编写软件,开源软件,并维护基础设施,使其他科学研究者能够完成他们的工作。我认为这对我来说是一个很大的动机。我真的很享受与研究者的接触。在谷歌,我也有一点这样的经历,因为我为TensorFlow工作,他们是机器学习研究者。在谷歌,你使用TensorFlow进行科学研究。

但在我目前的角色中,我觉得我比在谷歌时更接近我所推动的研究。这很有趣。这几乎有点像数据工程师的角色,我认为数据工程师的作用是为数据科学家准备数据,对吧?

对,他们绝对是让数据科学家获得所需信息以完成工作的关键。但实际的工作是由,呃,你知道的,可能是一个奇怪的类比,但就像,知道的,飞行员驾驶飞机,投放伞兵,呃,在,呃,试图从德国人手中夺回国家的过程中。对,就像,

你实际上是在为他们提供位置,以便他们能够成功完成任务。但你的技能和你所做的工作有点不同。当然,你的背景也不同。正如你所说的,你的目标和激励也不同,因为你并不是想成为某个大型研究机构的终身教授。你已经...

在一个大型研究机构,但你正在做一种更像是,呃,更肮脏的工作,处理实际的数据和实际的软件。这算是准确的描述吗?我认为这正是我所想的。就像,我在谷歌工作时,我在TensorFlow和一个叫TensorFlow Extended的项目上工作,特别是构建机器学习基础设施。研究人员会,呃,研究,很多研究是在TensorFlow上进行的。所以TensorFlow是一个机器学习框架,用于构建模型。很多研究,比如机器学习研究,都是在这个框架上进行的。

我把我的工作视为,实际上我很享受在基础设施上工作。我喜欢为其他人构建东西。我的转变有点像,从为工业界构建东西转向为学术研究者构建东西,以及其他开源用户,而不仅仅是斯坦福的人。

所以我有点像,我的确很享受成为这种,呃,为研究用户构建东西的人,因为他们有很多有趣的想法,支持他们,像支持这些想法,真正与他们交谈,了解他们的用例。这真的很有趣和愉快。我发现我真的很喜欢这样做。我也相信,呃,

在工业界,有很多聪明的人在做这些事情。

所以我目前的工作角色,我的职位叫做研究工程师,或者在其他一些大学我们称之为研究软件工程师。这些基本上是帮助研究人员完成研究的程序员,对吧?要么通过构建基础设施,构建软件,应用软件工程的实践

到研究中,因为研究人员本身可能不是软件工程师。他们可能不知道工程的最佳实践,甚至是一些基本的东西,比如如何构建生产系统?如何使用代码控制?如何进行监控?这些技能对工程师来说是熟悉的,但对研究人员来说则不太熟悉。而且

我认为在研究环境中缺乏良好的工程实践。在某些情况下,我认为研究确实可以加速,如果更多的软件工程师...

在这条轨道上,真的,呃,想要在这个角色中。你能给我一些具体的例子吗?比如说,也许是你注意到的某些事情,哦,研究人员一直在这样做,但在工业界我们已经做了多年的更优越的事情。现在我有点像是把这种火从神那里带下来给研究人员,让他们能够,更有效地烹饪他们的鸡肉,换句话说。

是的,我的确有一些非常基本的例子,你会发现这些例子实际上是可笑的基本。但一个例子是,当我第一次加入这个组织时,它有点像准备推出HELM的初始论文,语言模型的整体验证。

他们试图基本上像他们有一个前端,能够可视化在模型上运行的基准测试结果。他们有这个用户界面,显示模型获得的分数,这里是我们发送给模型的请求和来自这些模型的响应。

当我看到它时,他们实际上是在每次页面加载时将数百兆字节的JSON文件加载到Chrome浏览器中,导致浏览器崩溃。哇。他们为什么要通过浏览器这样做?是的,因为他们正在为查看结果构建用户界面。这是一个网络应用程序,对吧,用于查看结果。哦,好的,好的。所以这就像是渲染结果。是的。

是的,渲染结果。但他们没有进行任何形式的过滤或分页。所以他们只是渲染这些巨大的网页,调用以获取数百个JSON文件,然后渲染这个庞大的HTML DOM树。

这会消耗你所有的内存并崩溃你的浏览器。我想,这只是基本的,非常基本的网页开发基础。是的,所以非常基本的网页开发内容。因此,在这个项目的生命周期中,我们有几个志愿者。我们实际上有一个来自斯坦福外部的志愿者帮助我们将其移植到React。这使得

一切运作得更好。这个网络应用程序快得多,维护起来也容易多了。所以这不是我要声称的功劳。我帮了一点忙。这主要是我的一位硕士生Farzan和一位外部贡献者帮助完成的。是的。

所以,基本上只是利用你在,呃,你在Coursera工作过,你在谷歌工作过,你在硅谷的许多大型科技公司工作过,积累了很多最佳实践和方法论,像是代码异味之类的东西。你可能已经掌握了,其中之一可能是,不进行分页并加载过多内容到浏览器中。因此你能够,像是,有很多比喻上的低垂果实可以摘取,这些都是可接触的,但人们不知道去摘取它。是的。我认为更多的,可能是更不平凡或不那么平凡的例子。例如,

像是如何进行持续集成,对吧?如何测试代码并确保在更改时保持其正常工作。像是你使用什么技术?比如我在斯坦福的同事David Hall,也是研究工程师,他使用了

VEI框架进行机器学习模型的分布式数据预处理。所以有像,呃,你有一个问题,什么样的技术是合适的?还有一些像,呃,

很多这些都是代码实践,甚至像Python打包,使你的代码可以从页面安装。这是很多研究人员不愿意做的,因为它是...

此外,我会说,部分工作与激励对齐有关。因为作为研究人员,你的工作是发表论文,因为这是你被衡量的标准,对吧?而不一定是发布好的软件。因此,如果你查看为论文编写的代码,它可能不容易被其他人使用。

所以另一个外部研究人员可能会查看你的代码,他们可能需要花费数小时才能使其工作,或者他们可能不得不自己重新实现。这可能不是一个pip安装,像Python pip安装那样的情况。在许多情况下,研究人员确实知道如何做到这一点,但他们没有时间,因为他们忙于撰写论文。而且,

创建易于使用的软件并不是激励结构的一部分。是的。我的意思是,如果你所衡量的只是研究产出,而你没有衡量那些试图重现你工作的人的隐性成本,他们必须像,

处理意大利面代码库之类的东西并使其运行,那么,嘿,我的工作完成了。你就这样走开了,走出了这个繁琐的捕鼠器游戏。而是,你获得了一些额外的引用,系主任对你很满意,你将能够希望为更多的研究争取资金,所有这些。研究人员面临的激励

而我没有任何研究经验。我的年龄数字极低。我确实有一个Google Scholar账户,但只有少数人引用了我做的一些东西,但没有一个是以研究者的身份进行的。这只是我试图将公共信息发布到公共领域。但是的,也许你可以描述一下他们面临的激励,或者像,

显然,你有很多同行是研究人员。你每天都与这些人合作。显然,斯坦福是一个非常有声望的地方,但你可以想象许多不是知名品牌的研究机构。典型研究人员的一些优先事项是什么,它们与试图编写可维护代码、可靠运行等的工程师有何不同?

是的,所以我与很多博士生和一些博士后及教职人员合作。人们被衡量的很多标准是你研究的影响力。而影响力的定义相当模糊,对吧?我喜欢开玩笑说,研究人员是最初的影响者。

这一切都取决于有多少人知道你的工作或熟悉你的名字。很多研究人员现在都在Twitter上,或者我想现在叫X。但实际上,这个讨论发生在Twitter上,我看到人们在他们的研究演讲中放上推文的截图。

但衡量影响力和影响的方式也有点模糊,取决于特定领域。所以我之前提到过,像软件工件,很多研究人员并不太关心这一点。我应该澄清,这确实有点依赖于领域,因为我看到,例如,

在人工智能领域,我看到一些研究人员说,好的,我写了一个软件包,它在GitHub上有1万个星标,像,呃,大型科技公司正在使用它。这就是他们衡量影响力的标准,对吧?人们正在使用我的工作,因为他们在使用我的软件。所以这算是,我认为这是文化的转变,尤其是在人工智能领域,在那里,

如果你编写的软件被使用,这也被视为影响力。但在其他领域,这不一定是事实。在人工智能内部,研究软件的质量差异很大。有些软件包你可以直接pip安装,使用起来很简单。有些则是研究意大利面代码,虽然能工作,但对其他用户并不真正可用。

所以它的质量差异很大。好吧,让我们谈谈HELM,因为这是我相信你是主要维护者的项目。如果我可以表达一下这个项目的功能,基本上你试图将所有这些不同的模型拿出来,比如,

GPT-4、Claude,像所有这些其他大型语言模型。基本上你评估它们,以查看它们的真实强度。我对你如何衡量某些东西的好奇心很强,有很多不同的方法。有标准考试。你可以给它律师资格考试。你可以给它,可能有一个,

建立的语料库,像,呃,你将其放入并且,你必须提出标准的,呃,指标,然后你必须像给这些打分,并且,这个,呃,我不确定HELM在这些模型中有多大的影响力,尽管,呃,很多这些,呃,模型,他们在营销他们在不同基准上的表现。嗯,他们在营销,像,呃,

呃,仅仅是他们模型的整体能力。对吧?而且,尤其是像模型大小不同的情况,像谷歌有,我认为有三到四种不同大小的Gemini,Facebook可能有不同版本的Lama,他们已经发布了。因此,你必须能够进行像苹果与苹果的比较,基于像参数数量或它们可以运行的硬件类型。也许你可以谈谈这个。就像我只是抛出一堆东西,并且,请注意,我对我在说什么一无所知。我只是试图构建一个问题并为你提供机会,Yifan。你可以,嗯。是的。是的,我想我的问题是,

你在做什么?这实际上是一个很好的介绍。所以,语言模型的整体评估,简称HELM,这是我工作的主要项目。它既是一个研究项目,因为它已经发表了论文。它有一篇同名的论文,HELM,拥有超过50位合著者。

它还包含一个开源框架,你可以用它来重现结果,或者你可以用它来评估自己的模型或使用自己的数据集。因此,基本上我们所做的是,这个框架与许多不同的模型和许多现有的基准测试进行了集成。

所以基准测试,你之前提到过,基准测试可能是这样的,哦,给模型,呃,法律考试或学术考试的问题。例如,一个人们经常谈论的流行基准是MMLU,巨型多任务语言理解,简称MMLU。那实际上是

来自高中和大学水平的学术考试,涵盖多个不同学科。你将这些多项选择题给语言模型,然后看看它是否能答对。

所以HELM所做的是,我们挑选了很多现有的基准测试,这些基准测试大多数是来自文献的现有论文。因此,它们已经经过同行评审,已经建立了一段时间。我们将这些论文或基准集合成一个元基准,并对每个模型在每个基准上进行了评估。

我们以一种标准化、可比较和透明的方式进行此操作。因此,你可以查看我们发送给每个模型的确切请求和我们收到的所有原始响应。

从每个基准和模型中,我们计算出一些指标数字,并构建一个包含所有这些数字的表格。我们称之为HELM排行榜。如果你访问HELM网站,这就是你所看到的。

你说得对,某些模型开发者已经将其用于营销。他们会说,哦,是的,你知道,我们在排行榜上获得了某个排名。因此,

是的,开源软件的部分是,像,人们想要进行这些评估。他们想知道,好的,如果我有一个新的用例,比如说我想在医疗应用中使用一个模型,或者我有一个医疗数据集或基准。

你可以去HELM说,好的,在我的基准上运行这个模型。或者如果你有自己的模型,你可以说,好的,尝试我的新模型与这个基准。你可以用它进行比较。但你可以用这个来运行模型评估。

好的,太棒了。我正在查看这个,并在节目说明中链接到它。因此,如果你在YouTube上观看此内容,只需向下滚动到描述。如果你在使用的任何播客播放器中收听此内容,请点击说明,你将能够看到这个链接。你可以亲自查看,评估基础模型的整体框架。

看起来Lama 2目前是赢家。我认为70B是指700亿参数。这是它的意思吗?是的,这实际上来自原始论文的结果。因此,原始论文的结果。我们有一个更新版本,我会把它发给你,这样你就可以链接到它。但当前...

最新的排行榜,我相信GPT,某个GPT变体目前在顶部。GPT-4变体。好的,太棒了。是的,但我们基准测试了一些闭源模型,比如

OpenAI GPT模型,我们有谷歌Gemini和Entropic Cloud。我们还有一些开放权重模型,比如Mistral和MetaLama以及其他一些。

是的,为了让不熟悉权重及其意义的人受益,也许你可以谈谈LLM 101或神经网络101,像权重是什么,以及为什么开源这些权重以及模型本身很重要。是的,好点子。是的,是的。所以让我稍微回顾一下。语言模型,大多数人此时都熟悉ChatGPT作为语言模型的一个例子。语言模型是

一个接受文本输入的模型,比如你给它指令,然后它给你文本输出,就像助手的响应。这些模型已经在大量文本上进行了训练,通常是互联网文本和其他一些来源。

当我们说模型时,这实际上是这些深度学习模型,具体来说,它们使用一种称为Transformer的架构。但你可以把它看作与其他形式的深度学习模型相似,它是一个参数网络,这些参数是基于输入语料库进行训练的。

所以当你想到像GPT、ChatGPT或谷歌Gemini时,这些通常是通过公司的网络应用程序、移动应用程序或API访问的模型。因此,你基本上是将文本通过互联网发送到他们的服务器,他们再将响应发送给你。

所以本质上他们在运行服务。这与我们称之为开放权重或开源模型形成对比,后者是你基本上在自己的机器上运行模型,你控制着它,像在你的笔记本电脑或台式机上运行它,并将输入发送给它,从该程序获取输出。

目前大多数最强大的模型都是闭源的,这意味着公司不提供模型权重或参数。我使用权重和参数这两个术语是可以互换的。它基本上是指在这个网络中用于根据文本输入计算文本输出的数字。你可以把它看作是一种程序。

目前大多数最大的模型,最强大的模型都是闭源的,意味着它们仅作为在公司服务器上运行的服务提供。

这包括OpenAI、GPT、Entropic Cloud、谷歌Gemini。这与开放权重或开源形成对比,后者是像Matalama、AI2OMO、Mistral这样的模型,你实际上可以在你的计算机上下载这些模型并本地运行它们,基本上像一个程序一样。你给它文本输入,它给你文本输出。

这非常重要,因为闭源模型给研究社区带来了问题,因为我们对它们了解不多。我们不知道它们使用了什么数据,权重是什么。我们无法对程序进行实验,因为我们没有访问权限。

因此,很多工作,像学术界的很多讨论是,如何获得更多我们可以进行实验的开放模型,以及如何让它们与闭源模型一样好?因为现在开放模型和闭源模型之间存在很大的差距。是的。这个差距有多大,是否在缩小?

这个差距似乎已经显著缩小,主要是因为一两家特定的公司。其中一家我想提到的是Meta,即Facebook的母公司。他们发布了一个名为Lama的开放权重模型,实际上是一个名为Lama的模型系列。最新版本叫做Lama 3.2。

这很有趣,因为这是由一家大型科技公司生产的模型。因此,他们可以访问比斯坦福大学更多的数据和计算资源。因此,他们能够利用这些资源来生产这个非常高质量的模型,并且他们以一种实际上并不是开源的许可证发布它。

这实际上是一个非常奇怪的许可证,对使用有一些限制。因此,它在传统意义上并不被视为开源。但正因为如此,这个模型在能力上与我之前提到的其他封闭模型(包括Gemini、Cloud和GPT)非常相似。

我认为这给人们带来了很多希望,也许开放模型可以赶上。这里的关键是,当我说开放时,我一直在使用“开放权重”这个术语,这与开源有些不同。我之所以说开放权重,是因为如果你考虑...

如果你考虑一个模型的源代码是什么,当我们说开源时,我们通常是指在传统软件意义上,我们的意思是你可以查看开源代码,对吧?你可以看到程序是如何构建的。你可以理解它。你可以逆向工程并对其进行修改,然后重新构建它。

在机器学习的背景下,有一个问题是源代码是什么?当然,它是模型代码,也就是训练和生成文本输出的代码。但它也是数据。你还需要训练模型所用的数据,以便创建这个模型。

而Meta并没有发布这个模型背后的数据。因此,这就是我称之为... 他们可能有很多原因不愿意发布这些数据,因为我想象它有着不可思议的... 有很多原因。

知识产权侵权。为了明确起见,我们将进一步讨论这个问题。我只是想提供一些背景信息。所以Meta就是Facebook。他们刚刚更改了名称。但这仍然是同一个马克·扎克伯格的公司或公司集合。他收购了Instagram,收购了WhatsApp。这些都是... 但他几乎有无限的资金。他可以补贴,可以构建像开放权重模型这样的东西,纯粹是推测,因为训练这些模型并发布它们的成本可能只占他们运营预算的1%左右。因此,对他们来说,这就像是良好的公关,我认为这很酷。我很高兴他们这样做,但我相信,如果你真的查看所有这些差异的来源,并且有正在进行的诉讼,比如《纽约时报》、Reddit等所有这些公司都在起诉,

我认为所有基础模型公司,可能也会起诉Facebook,因为仅仅因为他们制作了开放模型或开放权重,并不意味着他们没有侵犯他人的工作。但是,我想我想说的是,

他们不会把它放在那里,像是“这是我们偷来的所有书籍和我们抓取的所有Reddit文章,以及我们包含的所有freeCodeCamp文章。”因为我们有成千上万的文章几乎肯定在这些模型中。是的。为了明确起见,我们与这些模型制造商没有任何正在进行的诉讼。我希望他们能给我们一些信用,但你知道,我们不会浪费我们稀缺的捐赠者资金去尝试发起一些投机性的诉讼,去起诉马克·扎克伯格,我们没有钱去做这个。但我只是想明确。如果有人说,“哦,我的天哪,Quincy是否在某种程度上支持这些模型的构建方式?”绝对不是。这不是关于伦理或任何事情的对话。我们只是——我们是如何走到这一步的?

这就是我想问的。这就是我想建立的。像,呃,所以请不要把这看作是“哦,Quincy在默默支持大量知识产权的盗窃。”我们也被抢劫了。对吧。但现在这些模型已经存在了,它们确实存在了,让我们理解它们是如何工作的,以及我们如何可能使用它们,因为我认为魔鬼已经放出瓶子了。希望人们会得到补偿,也许freeCodeCamp有一天也会收到我们的支票。呃,你知道,但无论如何,呃,

我只是想为观众澄清一些事情,以确保他们理解。所以Llama就像是长脖子的动物。L-L-A-M-A。我认为他们最初是把L-L-A-M大写,但这真的很混乱,因为它是一个L-L-M,这是一个聪明的名字。但这就是我们在谈论的内容。是的。

你有一个可爱的大小写,但他们改变了。所以现在它只是以正常的方式拼写。是的。你可能还会意外地成为这些诉讼中的原告之一,因为其中一个是针对所有GitHub开源作者的集体诉讼。好的。我认为...

等等,是原告还是被告,我不知道,像... 是的,被告和原告。是的,所以OpenAI可能是从原告那里辩护,原告可能是GitHub。所以我期待着收到我们两美分的支票,正如... 确实如此。我过去曾随机收到过两三美分的支票来自某些... 你可能会在某个时候收到OpenAI的三美分捐款。是的。是的。

所以,是的,这是一件我们实验室非常关注的事情,像这种事情的伦理。我会说,关于这方面的伦理和法律框架尚未完全确定。正如你提到的,有很多材料用于训练,这可能受到知识产权的限制,知识产权。尚不清楚他们是否被允许这样做。尚不清楚版权是否适用于模型的输出,以及这些输出是否可以被视为侵权。

正如你提到的,有一些案件正在通过法院。因此,最终会有案例法来澄清这一情况。美国政府在这方面也有很多活动。例如,美国版权局去年或今年举行了多次听证会,基本上是邀请艺术家、作家和音乐家对生成性AI的影响发表意见。如果你对这些主题感兴趣,版权局的那些记录都是公开的,听听人们有什么担忧是很好的。

所以,个人而言,我分享许多这些担忧,绝对是我们思考的事情,比如,我们如何公平地补偿人们?我们如何确保艺术家不会失去工作或被技术取代?是的。

所以,抛开很多这些担忧,我认为这真的很有趣。我想确保,我并不是在忽视这些担忧,但我只是不想花费我们稀缺的时间来讨论这些事情,而是可以讨论实际的技术,对吧?好的。所以你已经很好地描述了这些系统是如何工作的。

现在也许你可以简要谈谈基准测试的过程,像你如何让这些模型经过考验,如何找出哪个模型表现更好?我喜欢这个术语胜率。也许你可以描述一下什么是胜率。是的,胜率实际上可能是这个基准测试中最具创新性但也可能令人困惑的部分。

所以我们运行了一些不同的基准测试,对吧?所以你可以把Helm视为一个元基准。基准测试的内容包括学术问答、解决数学问题、进行翻译、回答特定领域的问题,如医疗和法律问题。胜率的概念是

这个模型在随机选择的竞争模型和随机选择的基准测试下表现优于另一个模型的概率。因此,这是一种聚合的方式,反映了所有组成部分,所有不同的基准测试。

在我们如何进行评估方面,每个基准测试实际上都有点不同。例如,

多项选择题问答基准测试是最简单的,因为如果你只是问模型,嘿,这里有一个数学问题,答案是A、B、C还是D,你给它问题,你知道,通过文本输入提示它,然后你只需获取文本输出,即A、B、C或D,然后你只需评分是否是正确的字母。因此这有点简单。但

当你进行更开放的事情时,它就变得更加棘手。比如说你在询问一个模型的医疗建议,顺便说一下,我不建议在现实生活中这样做。

你会得到一些建议,比如一段文字。问题是:你如何评分?因此,你可能需要找到一个真正的医生,问他们,这实际上是正确的答案吗?你可能需要有一个教科书参考答案来检查,这是否相似?

还有一些其他技术,比如我们所称的指令跟随的用例,这就像是表现得像一个有帮助的聊天助手。你可以问人类,你知道,这个回应是否有帮助?比如我问了一个食谱,这个食谱是否有帮助?

然后还有更近期的技术,比如我们所称的LLMS评判,这实际上是你问第二个模型第一个模型的输出是否有帮助。通常它在判断人类喜欢什么方面做得相当不错。有趣。这真有趣,你就像是替代人类,所以你可以自动化事情。你有点在自动化人类的判断,而模型可能甚至没有意识到,显然它没有意识到,因为它只是一个LLM。但是...

它甚至可能不知道被输入的内容来自另一个LLM。你知道,即使他们有一些代码,比如“猩猩,不伤害猩猩”之类的。是的,做这件事确实有好处和坏处。就像这是一种更具可扩展性的方式。你可以为成千上万,甚至数百万的请求以相当便宜的价格做到这一点。但另一方面,实际上,成千上万,数十万。但另一方面,其他研究人员会变得怀疑。他们会想,你真的确定你测量的东西对应于人类想要的东西吗?还是仅仅是AI统治者想要的东西?你知道,这实际上是否符合人类的价值观?

是的,这是一个非常有趣的——我们可以深入探讨与人类实际想要的东西相关的哲学问题,对吧?因为我们并不是在谈论单一的人类。许多人类都是坏演员。或者有奇怪的自恋倾向之类的,会最大化自己的价值。许多人会玩那些经济学家的游戏,他们会把所有20美元都拿走,给其他人0美元,因为他们根本不在乎。他们是社会病态的,或者其他什么,对吧?是的。

但是,有一个问题在你谈到让LLM作为评判时,立刻浮现在我脑海中,我认为这是你描述的方式。

这是否存在一种合成数据类型的问题,即LLM正在合成数据,因为它们耗尽了从Reddit抓取的有机数据?突然间,这就像是一种近亲繁殖现象,或者说基因不断被错误复制。你是否在让LLM评判时也有同样的现象?

即偏见被强化,或者模型整体的弱点通过让LLM评判其他LLM而被强化?是的,所以也许是,也许不是——这目前是一个开放的问题。因此,这更多是——

一个事实是,我们发现,一些研究人员发现,如果你让GPT成为LLMS评判,它会稍微偏爱自己的输出而不是其他模型。但这非常人性化,对吧?如果你让一个人评判他们五年前的写作,他们会觉得,“哦,我真的很认同这个。”也许他们完全忘记了他们写过它,但他们会在潜意识中感受到这种情感,呃,对自己工作的情感,对吧?就像每个人都喜欢听自己的声音。每个人都喜欢看到自己的名字印刷出来,对吧?如果你想在2024年拥有一个受欢迎、成功的地方报纸,首先,我认为这是不可能的,但第一步是你四处走动,采访每一个公民,确保每周都有一篇文章谈论某些公民,这样人们就可以阅读关于他们自己的内容,并且像,

是的。这在LLM中是否是一种新兴现象,它们偏爱自己的工作?你刚才说过。是的,大多数似乎都有这种行为。我认为问题的另一部分是你提到的有机数据耗尽。现在,LLM训练管道,你从这个庞大的文本语料库开始,对吧?然后还有一个阶段,我们称之为后期操作或后期信用。

我们称之为对齐或RLHF是另一个术语,或者后训练,在这个阶段,你基本上让人类查看模型输出并进行注释,教他们什么是有用的响应,然后你再训练模型,这样就产生了像助手一样的行为。

所以这都是人类在管道的两个部分,对吧?第一部分,像这个庞大的文本语料库,最终来自人类。然后后期调优也是来自后训练,这也来自人类。是的,只是为了快速定义一个缩写,你说的RLHF,指的是人类反馈的强化学习,对吧?是的,来自人类反馈的强化学习,RLHF。

这是一个术语,指的是人类注释者基本上教模型如何表现得像一个问答助手或对话助手。- 有点像给他们胡萝卜和大棒,像,“哦,你在这里做得很好,这是胡萝卜,像是一些像--” - 正是如此。 - 实用性或其他任何东西。 - 正是如此,所以教他们遵循指令,指令跟随训练。因此,这两者,像,人们一直在思考,像,你能否用某种模型替代其中一个或两个?

所以我们的HF实际上已经有一个模型组件。通常不是直接使用偏好,而是基于这些偏好训练一个额外的小模型,称为奖励模型,然后使用它。但我认为更大的问题是,你能用AI替代多少?这里的动机是正如提到的,

数据耗尽,对吧?这实际上是一个经济问题,对吧?就像我们可以支付人们写小说。就像,“嘿,我会给你每月10,000美元,让你坐下来每月写一部小说。”就像我们可以像nano readmo,国家写小说一个月。然后我们可以生成大量的作品,如果我们只是预算。

所以,对我来说,合成数据,像是总是看起来像是节俭的事情,在那里,你知道,拥有模型评判作为LLM,这就像给我一种“囚犯管理精神病院”的感觉。就像,如果我们不雇佣监狱看守和所有这些东西,而是让囚犯自我管理,但像,

这可能会以许多不同的方式出错。我不知道。我不知道。你可以称我为怀疑者,但,我就像是街头的人。我不是斯坦福的研究人员在思考这些事情。只是我的直觉反应是,这可能是个坏主意。

所以有数据量的问题和数据数量的问题。在数据量方面,我认为我们无法获得更多。原因是我们已经在使用互联网上的大规模脚本。这实际上是大量的...

这确实是大量的人类输出,对吧?有些人说,“嘿,如果我们有,你知道,我们还有私人数据,”首先,这在伦理上有点可疑。其次,我认为这实际上不是你想要的数据。我认为这不会改善情况。

然后还有质量的论点,有些其他人则在争论,嘿,诀窍不仅仅是数量,如果你只是用非常高质量的教科书进行训练,这些教科书是由非常有知识的作者撰写的,那么你就会得到一个好的模型,这有点像说,

就像告诉一个青少年,你知道,去读书而不是玩电子游戏或其他什么。进行更高质量的训练。是的,我的意思是,如果你考虑到,玩《魔兽世界》的人,他们在进行突袭时,实际上会阅读大量粗俗的评论和其他东西。

是的,他们仍然会接触到大量的文本,但这不一定是高质量的文本。高质量的文本。是的。是的。有很多,知道,Reddit进入了这些模型。因此,这些模型正在从许多非常可疑的内容中学习。是的。

就像,你知道,星座的子版块和其他东西。抱歉,向任何相信星座的人道歉。但在我谦虚的观点中,互联网上有很多胡说八道,这些模型正在接触到。而且有很多讽刺文章。例如,谷歌曾经出现过一个失误,他们告诉人们,像每天吃几块石头是可以的。

或者说在比萨饼上涂胶水是可以的,因为有关于这些的讽刺文章,模型无法辨别讽刺,讽刺对他们来说是失落的,他们认真对待。

所以互联网上也有很多垃圾被输入到这些东西中。现在会有大量的合成数据,它不知道是合成数据,因为我们已经进入了一个新时代,我们已经越过了这个鲁比孔。我可以告诉你,像是从一个关心SEO并进行研究的人来看,我们希望Free Code Camp在许多查询中排名靠前,我们许多最好的文章几乎都是LLM生成的文章。

而且当你打开它时,很明显这只是一个LLM,但谷歌的爬虫并没有足够复杂,无法区分LLM的垃圾和实际的,知道,由一些在这个问题上工作多年的软件工程师撰写的专业知识,坐下来写出像样的教程。

对吧。呃,所以,我希望这听起来不像我在发牢骚,尽管我确实对此感到非常生气,完全坦率地说。我认为这毫无意义,对所有人都是一种不公正,创作者和试图使用谷歌完成事情的观众。我知道你不再在谷歌工作,所以不要,我不是想让你去找搜索的负责人,像,“哦,有这个功能请求,”但,呃,

是的。就像,我想知道我们从这里去哪里?对我来说,世界并不够,所有人类写的文本,所有书籍,所有博客文章,所有这些,仍然不足以训练这些模型。这让我感到震惊。这显示了这个问题有多难,我想。呃,但我们没有文本,即使我们支付很多人生成文本,它也不会推动进展,你在说什么。

所以如果你支付人们,我认为也许再次,如果你有无限的钱,你可以尝试获得教科书的许可,对吧?你可以尝试获得最好的教科书,这些教科书尚未进入库房,像,“哦,我们会支付出版商或作者,让我们使用这个进行训练,或者,知道,也许委托你的教科书,对吧?”所以这是一种方法。如果,知道,如果好的教科书训练假设是正确的,那么这可能会给你一个更好的模型。

但就原始数量而言,我的感觉是这就是我们能得到的全部。我认为也许一年前,人们会说,“哦,我们就做视频吧,”因为有大量的视频在那儿。问题是,现在人们正在制作视频。最新的模型,如Gemini和GPE 4.0,已经在视频和图像上进行了训练,因此他们已经利用了这一点。

最后一点我们提到的,像AI反馈循环问题,有研究人员进行了实验,像,斯坦福的研究人员进行了实验,像,如果你只是尝试训练一个小模型,知道,

让它继续在自己的训练数据上训练?它最终会失控吗?所以它会自我改进还是保持不变?到目前为止,答案是这取决于。像有几个人发现它确实会失控,但也有反对的论点,像,“哦,如果你,

以不同的方式过滤数据,或者你以不同的方式进行采样,那么你可以解决这个问题。”所以现在这是一个有点未决的问题。就我个人而言,我认为不,你不能永远在自己身上训练ALM。

那么,在一个非常受限的领域,比如围棋,对吧?AlphaGo。他们最初有大量的训练信息。这是我的理解。请记住,我不是研究人员。如果我说错了,请纠正我。但我的理解是...

他们有一堆训练数据。他们有像高水平围棋选手下的所有游戏,他们最初在此基础上训练AlphaGo。然后他们意识到,“哦,我们可以让它在计算机时间内自我对弈。”所以像是数千年的自我对弈。最终它会辨别规则,并且像是从第一原则出发,如何很好地玩围棋。这就是他们的做法,因为他们没有足够的训练数据,或者他们发现这种方法在特定用例中效果更好。这是发生的事情吗?

是的,这实际上就是发生的事情。所以有一个概念,首先是数据库,训练原始玩家,然后是第二部分,他们称之为自我对弈,基本上是你拿两份AlphaGo,或者多份AlphaGo,然后让它们相互对弈,对吧?这给你提供了大量的游戏,你可以将这些游戏用作训练数据。

在AlphaGo的设置中,这种方法是有效的,因为围棋是一个有固定胜利条件的游戏。你想赢,基本上。得分是有的,胜负的概念是存在的。

尝试将此应用于LLM的问题在于,当你谈论助手时,胜利的概念非常不明确,就像我们所称的效用,像它有多有用。

所以,我们之前提到的LLM作为评判。理论上,你可以尝试生成,让模型相互对话,让LLM作为评判说,“这些是好的对话。基于这些好的对话进行训练。”但实际上这并不奏效,因为LLM作为评判,这个管道存在太多问题。

一个问题是,善的概念是如此不明确,因为在一个人类语言的背景下,有

你知道,有一些像有用性、创造力、价值观,像更多的、更多无形的东西,我们在对话中关心的东西,这些东西是如此难以衡量或告诉模型如何衡量的。这真的使得试图引导模型朝着这个北极星变得困难,因为你不知道北极星是什么。是的。

是的。我是说,这对人类也是如此。就像在论坛上,呃,如果你查看freeCodeCamp论坛,那个论坛非常活跃,可能每月有700万次访问。人们只是互相帮助解决编程问题,并在求职过程中相互鼓励,呃,你可以像,

点赞回复,甚至可以标记或申请为解决方案,这对我们来说是很多信号。因为我们试图找出谁是最有帮助的人。这样我们就可以找出谁可以获得管理员权限等等。因此,管理员可以像挑选明星一样,因为我们想要建立2024年的顶级贡献者。对吧。我们很快会发布这个。像是你听到这个时,它可能已经发布了,但基本上在所有开源贡献者和活跃于社区的人中,我们必须判断谁是最有帮助的。对吧。因此,这对我们来说是极其困难的判断,因为我的意思是,这个线程可能只是一个非常受欢迎的话题。就像如果你按投票数对Stack Overflow帖子进行排序,很多时候它只是一些无处不在的技术,比如git,

在本周的播客中,freeCodeCamp创始人Quincy Larson采访了Yifan Mai,他是谷歌TensorFlow团队的高级软件工程师,曾离开私营部门前往斯坦福进行人工智能研究。他是开源HELM项目的主要维护者,在该项目中,他对大型语言模型的性能进行基准测试。我们讨论了:- LLM中的开放源代码与开放权重 - LLM使用案例的破碎前沿 - 人工智能对工作的影响及我们的预测 - 学习什么以便保持在水线之上 你能猜出我在开场时播放的是什么歌吗?如果你想听,我把整首翻唱歌曲放在了播客的最后,你也可以在这一集的YouTube版本中观看我演奏所有乐器。此外,我想感谢每月支持我们慈善事业的10,993位善良人士,是他们让这个播客成为可能。你可以加入他们,支持我们的使命,网址是:https://www.freecodecamp.org/donate 我们在对话中提到的链接:- Yifan的个人网页:yifanmai.com - HELM排行榜:https://crfm.stanford.edu/helm/ - HELM GitHub仓库:https://github.com/stanford-crfm/helm - 斯坦福HAI博客:https://crfm.stanford.edu/helm/</context> <raw_text>0 或Vim或类似的东西。人们对此提出了很多问题。因为每个人都在谷歌搜索这个,他们会觉得,哦,这有帮助。而我则认为,因为这是一个更突出的提问,它在投票中获得了更多的信号。然后,您知道,也许对一个更冷僻问题的最优雅、最有帮助的答案不会得到类似的关注。像是在评估模型时是否有类似的考虑?比如说,如果你给它一个相对晦涩的任务,它在其他模型中独特地表现良好。你会额外加权吗?比如说,你提到法律建议,对吧?那是专业领域。那些在法律领域浸淫了整个职业生涯的人,理解先例案件等等,可能会有一些直观的理解,嗯,他们从事这个工作多年积累的直觉。

如果你有一个能够提供良好法律建议的LLM,律师会说,哦,这不错。你会比那些能够解决基本数学问题的人更重视这个特定任务。因为很多模型都是这样。那么,当你实际建立如何对这些模型进行排名时,你是如何建立评估这些模型的启发式和标准的,你如何加权不同类型的专业知识?

你如何看待在困难领域表现卓越的模型,并将其与一般表现良好的模型区分开来?是的,这是一个非常复杂的问题。首先,最终我们希望模型对专业环境中的人们有用,对吧?例如,现在,ChatGPT在政治方面表现得很好,但有一个问题是:

如果你是一名律师,在法律中有这样的情况:好吧,我想查看与我当前案件相关的所有现有案例法,并想要一个总结。这听起来像是一个LRM任务,对吧?所以律师们一直在思考,研究人员也在思考,我们能否让它做到这一点?

问题的答案是,这在很大程度上取决于你所谈论的专业领域,比如法律、医学或其他领域。而且,目前也没有很多实际应用正在使用。就像我相信你已经看到过,有个故事是一些律师试图向ChatGBT询问案例法。ChatGBT编造了一些虚假的东西。他们把它展示给了法官,结果他们惹上了麻烦。法官试图查找,但并不存在。这些DOI或他们使用的任何指标都不准确。是的。

确实有一种感觉,GBT在很多现实世界的专业任务中还没有准备好。我们在实验室中一直在努力寻找特定的任务。

专业用例,并试图围绕它们建立基准,以便看看,嘿,你知道,这在现实生活中是什么样子,问题是目前很多这样的基准并不存在,原因有很多。首先,你需要专业专家来建立这些基准,而时间又很紧张。其次,很多数据,比如说如果我们谈论医学基准,

获取医学基准非常困难,因为隐私和数据保护问题,医学数据,还有像是,嗯,还有一种感觉,嗯,

我认为并不是所有领域都受到同等程度的关注。例如,由于LLM研究是由程序员进行的,因此有很多编程评估。比如说,有一个基准,就是你能否处理一个GitHub问题并为其编写一个拉取请求,这算是一个合理的专业任务,真正的工程师会做的。

我怀疑的是,之所以有这么多工作在这方面,是因为我们是计算机科学的人。我们想要解决老问题。所以在这方面有很多工作。是的,而且这是我们已经了解的领域。确实如此。因为大多数计算机科学的人可能之前打开过请求,或者至少阅读过GitHub问题,并考虑过他们将如何解决它。

是的,我听说过一个术语,叫做LLMs的破碎前沿,这正是这个想法,即LLM可能在每个主题上并不那么有能力。它可能在法律方面表现出色,但在医学方面却不太好。因此,最终,你必须逐个用例进行评估,以确定他们实际想要使用它的每个用例。

所以破碎前沿,像撕裂的布一样——我的意思是,在某些地方会比其他地方更长。可能会有一种锯齿状的模式。因此,这种模式在所有不同的专业领域之间呈锯齿状分布。是的,可能最被探索的领域是软件开发,仅仅因为它与我们如此接近,并且—

程序员在互联网上发布了大量内容。我们有超过20年的Stack Overflow帖子。我认为现在大约有20年的帖子。我们几乎有10年的free code camp问答线程。我们有像...

大量以视频形式发布的编程教程,例如O'Reilly书籍和其他所有东西,对吧?是的。如果你查看训练数据,有一些论文确实发布了某些模型的训练数据内容。大部分是编程材料,其中一些正是你提到的,对吧?像程序员,

我们生活在网络上,所以我们更倾向于在网上分享。有像Stack Overflow这样的成熟基础设施,用于在网上分享知识。因此,其中一些只是因为网络上有大量的编程知识,像所有的GitHub代码也存在。因此,所有这些,知道,进入LLMs的编程相关材料很多。而且还有...

有一个问题是,是否,知道,有一个假设认为这很好,因为

编程知识,人们假设编码教会模型如何做其他事情,比如数学推理或逻辑推理,因为它们是如此相似的技能集。是的,这不是GPT-4的一个重大解锁吗?我记得他们包括了——他们不断更改名称,但基本上就是它会编写代码,然后展示它用来得出结论的代码。哦,是的,思维链。是的。

但你实际上可以看到代码,你可以查看它。这对我来说是一个巨大的意外收获,让我更好地理解这个东西是如何“思考”的。能够看到,比如说,我问它一个问题,比如,美国每年制造多少个飞机座位?然后它会去找飞机生产等信息。我不知道,但,是的。你认为这是否是...

对。

对。法律实际上被称为代码。对,因为它就像“如果这样,那么那样”。对。这种逻辑基本上运行着整个国家。而且类似地,代码,如果你查看Linux内核,如果你收到这种类型的输入,知道,返回这个。

或者调用这个函数,这将决定传递给这个的内容,而这可能会调用其他几个函数。这几乎是一个层次结构,并且是某种确定性的。因此,通过像编程一样思考,它强迫你的思维保持一定的严谨性。我可以看到这对强迫LLM以类似的严谨性解释自己是多么有用。是的。

是的,我实际上听到过一位律师将法律描述为编程代码。但我认为这也不一定是正确的,因为作为人类,我们处理了很多模糊性。而且LLM目前在处理模糊性方面相当糟糕,比如处理模糊问题或识别模糊问题。

所以这很有趣。但我也同意。我听说过教代码的原因,这并不是教学生编程的一个重大好处,而是让他们获得数学推理或逻辑推理的技能。

是的,它确实教会你,比如说,著名的史蒂夫·乔布斯的名言。每个人都应该学习如何编程,因为这教会你如何思考。对。当然,著名的是,史蒂夫·乔布斯并不知道如何编程。所以他不能听从自己的建议。但你绝对可以将其扩展到每个人都应该学习如何编程,因为这教会你,知道,批判性思维和逻辑。重要的是,它教会你沟通技巧。

我认为这对我来说是一个巨大的解锁,精确性。当我开始和程序员交往时,我习惯于和老师们交往。具体性水平,如果你随便使用一个短语,比如说,哦,实际上,我做过。哦,那是事实吗?人们会问这些问题。我会想,哦,嗯。我不确定这是否确实是事实。我们在英语中使用的所有这些小东西都是极其不精确的。

但是,人类在解释模糊性方面非常擅长,像人类大脑似乎非常善于区分地上的树枝和蛇等东西。对吧。而计算机可能会看到那个阴影,他们可能会错误标记它,或者他们可能会错误标记,知道,松饼为吉娃娃,反之亦然。对吧。因此,显然,这一点已经改善了很多,但这只是表明人类在感知方面有如此多的复杂性,并且,

让计算机能够拥有与人类大脑所展示的灵活性将是一个极其漫长的道路。

是的,绝对如此。我认为很多早期的工作,比如说,如果你查看Helm,我们所做的许多评估,许多早期评估只是像,能否回答多项选择题,对吧?这与能否与人进行长时间的对话是非常不同的。涉及到的技能有很多,知道,我们谈到了模糊性,但还有更多的技能参与其中,对吧?是的。

是的,我认为这只是一个漫长的过程。有些人正在研究社会方面。更像是,LLM是否具备社交技能或社交智能?他们能否推理人?他们能否说服人?他们能否理解情感?他们能否理解双关语和幽默?而这在目前仍然是一个开放的问题。

是的,我有很多问题要问关于LLM的能力,因为我认为它们在各种公共报告和媒体中可能被夸大和低估。你在过去六个月中看到的LLM做过的最令人印象深刻的事情是什么?哦,这是个难题。最令人印象深刻的事情。所以...

我觉得我的印象有点偏差,因为我刚好在周围。好吧,我可以给你一个例子。有一位著名的数学家,Terence Tao。最近,他基本上获得了对一个名为O1的开放AI模型的预览访问。

O1是一个进行思维链推理的模型。我们之前提到过,思维链推理是当你问一个数学问题时,模型不会仅仅给你一个简短的答案。它会尝试生成一些,知道,一段文本,推理这个问题,然后再找出答案。

所以他得到了这个模型进行实验,他基本上给模型提出了一些像

请求它帮助他进行非常高水平的证明。他请求它将其中一个证明翻译成定理证明语言。他请求它为另一个问题写一个新的证明。最后,他实际上说:“好吧,这个模型的表现相当于一个中等水平的研究生。”

互联网的反应是,互联网的反应是,等等,目标是如何移动的,以至于:

十年前,如果一个模型能够写出研究生级别的证明,那将是惊人的。但现在我们却说,哦,它只是一个中等水平的研究生。这似乎不再令人印象深刻。因此,我认为这是一个相当令人印象深刻的演示。能够实际用于高水平的研究数学,并且它确实产生了一些价值。

是的。我是说,我一直在使用它们,我继续对它们感到印象深刻。就像昨天,我拿了一个我们几年前创建的巨型PDF,我想,我不想手动将这个PDF转换为JSON,像获取属性一样。我找不到我用来生成PDF的原始属性。我只是说,嘿,找出这个PDF中的结构化数据是什么。它大约有10页长,并将其转换为我可以用于REST API的JSON。它做到了。效果很好。我有一些小问题。是的。

我是说,这真是节省了大量时间。这不是我个人无法做到的事情。我可能能做得比它好得多,但就像拥有一个中等水平的研究生在执行我的确切命令,我不必叫醒某人。对吧。我只需跳进去,没有人真的受到困扰,开放AI花费,知道,一美元或什么的来运行我的任务。然后,

你知道,我只是完成了我需要完成的事情。我昨天和Change Log的家伙们聊过,Change Log是一个大型开源播客的主持人。他们说,他们认为,哦,

LMS使他们作为开发者的生产力提高了20%。我的意思是,如果你考虑一下,20%的生产力提升,那是一个巨大的变化,像电子表格和,知道,脚本语言,或者我在想根本性的变化,可能是谷歌,搜索,嗯,解锁了那种生产力。因此,这是一个巨大的生产力变化。但我想问你,你认为这只是个开始吗?

还是你认为20%足以证明NVIDIA和所有其他投资的估值?我的意思是,你认为这只是生产力的开端,这些工具将解锁的生产力,还是你认为我们已经获得了很多初步的好处,接下来会有,知道,渐进式的收益递减?

是的,不幸的是,我实际上是一个AI怀疑论者。好的。我会对此下注。我认为这是一个额外的问题,像,你提到的,确实有数百亿的投资流入AI,数十亿甚至数百亿。因此,有一个问题,像,是否我们会获得数十亿或数百亿的回报?我认为,我不知道,我在任何方向上都没有足够的信心。

我相对自信的是,速度在减缓。因此,原因是,如果你查看最近的模型发布,模型发布的速度并没有真正跟上。就像有GPT-3,然后一年后是GPT-4,我们在想,哦,也许GPT-5现在来了,但GPT-5还没有发布。

有传言说,知道,我之前提到的数据问题,开始成为一个重要问题。有些人认为,也许如果我们完全改变构建模型的方式,比如说如果我们使用完全不同的架构,我们可以,知道,再次取得一步的进展,但我认为这很难预测。确实有很多人在研究新的架构和新技术,但很难预测其中一个是否会结出果实。

这很难预测,但让我请你做一个预测。自1950年代以来,我们就有AI赢家,像,哦,这没什么大不了的。软件很简单。这是他们当时的想法。他们想,嗯,我们已经有这些计算机了。我们可以做任何事情。我们可以模拟人类大脑。没问题。他们大大低估了工作量。然后出现了一些小的炒作周期,像资金的泡沫,突然AI成为了大事,然后又消退。也许每10年左右,我不知道确切的间隔,但这是一个相当可预测的兴趣正弦波,嗯,也许更像是锯齿波,但,

现在,前所未有的是,我们有大量的兴趣。我们有大量的资金。我们有大量非常聪明的人,比如你在研究AI,或者在谷歌工作之前,你开始在斯坦福研究AI并试图通过你的基准评估AI。现在我们对这个领域有如此多的关注,你认为这是否会显著提高我们开发事物的速度?你认为像...

我们必须投入N小时的研究,知道,也许过去50年在AI上投入的研究总量相当于2023年投入的研究量,或者其他什么的,对吧?你认为现在因为有如此多的关注,我们会更快获得这些收益吗?还是你认为除了人们认真思考这些事情之外,还有其他限制因素?我们只需要更多的时间。

是的,我真的不知道。我的意思是,当然,投入AI的资金大幅增加。即使是像斯坦福这样的研究人员,你可以看到很多研究。基本上,很多研究人员现在正在研究大型语言模型,而之前并没有。

我实际上并不完全确定这是否是件好事,因为如果你,如果人们进入LLM研究,很多人来自其他地方,比如AI的另一个学科或计算机科学的另一个学科。这并不是必要的。我的担忧是,好的,那些领域会发生什么,知道,研究人员较少的领域。我认为,另一个问题是,嗯,

我不知道在什么情况下会出现收益递减,因为我确实有很多人尝试很多有趣的新想法并行,但,我不知道在什么情况下,像,如何自信我能让其中一个想法真正让我们超越这些基本问题。是的。在很多科幻小说中,显然是写于AI之前的科幻小说。因此,我最喜欢的系列之一,扩展系列,

作者们谈论了

AI无处不在,但它只是有点隐形,正在后台做一些小事情,让生活变得更轻松、更简单,让人类做出更高层次的决策。但并不是说有某种统治者AI在做所有的决策,知道,总统是AI,所有这些东西。对吧。因此,很明显,在至少他们所设想的那个宇宙中,可以说是最科学准确的科幻系列,除了阿瑟·C·克拉克或其他东西,但非常准确。对吧。

那些不是AI研究人员的人,我不认为他们是软件工程师,但他们并没有认为AI会,知道,成为这个巨大的事情。他们显然认为AI能够做的事情与人类文明相比是有限的,人类文明以人类文明的方式做出决策,已经有10万年了,在小部落中,现在作为国家和其他事情。

你认为这是否可能是未来,即使在我们现在经历的所有炒作和突破中,我们刚刚经历了一个,不是一次性的步骤变化,而是相对不频繁的步骤变化。我们在未来几十年中还有更多的步骤变化可以期待,而这不会从根本上改变一切。就像很多,知道,被支付去说这将改变一切的人不断说的那样。是的,我的意思是,这很有趣,因为,

一方面,我会争辩说,在某种意义上,我们在某种程度上已经生活在那种现实中,而在某种意义上我们又没有。日常生活中有很多事情基本上是AI,我们并不认为它是AI。就像通常当某件事情运作得如此良好时,我们开始认为它是AI。比如说,电子邮件垃圾邮件过滤器是AI,但我们并不认为那是AI。

所以我说的是更传统的AI,或传统的意义上,不是LRMs,不是生成的AI。如果-那么语句。我的意思是,其中一些仍然是统计模型,不一定是决策树,这是如果-那么语句。其中一些是决策树。是的,抱歉。这是个玩笑。我意识到这比一些程序员硬编码的如果-否则逻辑更复杂。是的。

所以在某种意义上,我觉得,比如说,运行一个使用AI的搜索查询在某种意义上也是如此,但我们并不认为那是AI。因此,我们在某种意义上,你不能真的像我们每天都在与AI互动。如果你使用Facebook,你使用,知道,算法决定你看到哪些帖子。这不是AI的一个例子。因此,是的。

我并不认为所有这些应用都是AI积极的。例如,我觉得我们现在正处于一个清算时刻,我们开始思考社交媒体对社会的影响,而推荐引导是其中的一部分。因此,

在某种意义上,我们生活在那个世界中。在另一种意义上,AI目前的应用非常不均匀,因为,像,如果你使用一家大型科技公司生产的技术,像使用Android这样的产品,谷歌会有很多资金。你知道,他们在所有产品中都注入了AI,因为他们有基础设施和资源来做到这一点。

但如果你谈论许多不同的领域,许多不同的应用。例如,我最近了解到的一个应用是天气预报。谷歌刚刚推出了一种使用AI的天气预报模型,以特定方式超越传统的预报方法。哇,那是个大事。我甚至没听说过。是的。

是的,这也是个问题,对吧?有很多领域可能会使用AI,但由于各种原因,像可能有技术障碍,可能有社会、政治或文化障碍。

也许可能有真正的理由你不想使用AI,对吧?可能有合法的理由。是的。嗯,但这也可能是资源问题。像,你知道,没有人有,知道,没有机器学习人员在你的天气预报办公室,可能是一个原因。因此,

我认为仍然有很多领域,AI可以应用于许多社会利益,但尚未真正做到。- 是的,所以未来已经在这里,但它并没有均匀分布。

确实如此。我想象在未来几十年中,会有很多小公司,也许是单独的开发者,将大量的普罗米修斯之火带到卡车公司、农场和所有其他行业,基本上使其边际上更高效,或者可能显著提高效率,显著提高产出。可能在...

有一段时间,国际象棋中人类玩家和AI一起更强大。现在AI拥有绝对优势。但可能会有一个时期,人类和机器人共同合作,以更好地完成任务或获得更好的结果。就像天气报告一样,我可以随便猜测一下,穿上西装在电视上谈论天气,可能会出错。也许这对很多人来说足够好,他们只是

快速查看天气,试图弄清楚他们是否需要带伞或其他东西。这并不是那么重要。但当涉及到,知道,像估计,知道,

某种化学物质会导致多少出生缺陷或其他事情时。这可能是极其高风险的。对。而且,因此,可能这些决策的质量是极其,知道,这不仅仅是数量的问题。在很多情况下,这也是输出质量的问题。因此,无论如何,我有点像在闲聊,但我只是想处理你所说的内容。

<context>#149 开放权重与开放源代码:谷歌工程师和斯坦福研究员Yifan Mai的对话 在本周的播客中,freeCodeCamp创始人Quincy Larson采访了Yifan Mai,他是谷歌TensorFlow团队的高级软件工程师,离开私营部门去斯坦福进行人工智能研究。他是开放源代码HELM项目的主要维护者,在该项目中,他对大型语言模型的性能进行了基准测试。我们讨论了:- LLM中的开放源代码与开放权重 - LLM用例的破碎前沿 - 人工智能对工作的影响及我们的预测 - 学习什么以便保持在水线之上 你能猜到我在开场时播放的是什么歌吗?如果你想听,我把整首翻唱歌曲放在了播客的最后,你也可以在这一集的YouTube版本中看到我演奏所有乐器。此外,我想感谢每月支持我们慈善事业的10,993位善良人士,是他们让这个播客成为可能。你可以加入他们,支持我们的使命,网址是:https://www.freecodecamp.org/donate 我们在对话中提到的链接:- Yifan的个人网页:yifanmai.com - HELM排行榜:https://crfm.stanford.edu/helm/ - HELM GitHub仓库:https://github.com/stanford-crfm/helm - 斯坦福HAI博客:https://crfm.stanford.edu/helm/</context> <raw_text>0 从某种意义上说,我们将能够利用我们已经拥有的许多技术,这些技术可能对像你这样的人来说并不是特别性感或令人兴奋。甚至对我这个只是阅读这些东西的普通软件工程师来说,也未必如此,知道这些事情是在晚宴上听到的。但是,对于在奥马哈的一些农民,或者可能是一个牧场主,他们试图拥有,

更好的有机牛肉或类似的东西。也许在拐角处会有一些巨大的解锁,这些技术已经存在了一两年,只是他们还没有以可以使用的包装形式获得,这可能只是像某个移动应用程序一样简单,告诉他们何时喂养他们的牛之类的。我不知道。我对农业或牧场的领域一无所知,所以我为任何听到这个的农民或牧场主道歉,他们可能会撕扯自己的头发,像是,Quincy,你完全搞错了。这不是我们的风格,你知道吗?但我的观点是...

会有很多领域专家,他们会拿起更通用的工具,然后将其适应他们的领域,然后将其出售给他们领域中的人。因此,这是一项巨大的机会,无论人工智能是否继续改善。我们已经取得的飞跃变化,实际上只是需要几年时间来弄清楚如何使用,即使你冻结开发,仅仅是GPD 4.0,我每天使用的那个,它就是,

就那么好。它保持得那么好。希望它不会变得更糟。就像谷歌搜索似乎在变得更糟。抱歉。我知道你在谷歌工作,但我知道你不在他们的搜索团队。我会停止抱怨谷歌。但是,理想情况下,它应该保持不变。对吧?这并不是说,欢迎来到好市多。我爱你。像是在里面尝试产品展示,但实际上,你知道,它只是稳定了。是的。

即使这个工具本身也是极其有用的。我可以看到,在接下来的几年里,随着我学习利用这些工具的新方法,我的生产力会显著提高。因此,我对人工智能非常乐观。你觉得怎么样?兴奋又害怕。好的。让我们谈谈害怕的部分。是的。好的。不兴奋。害怕。是的。

大型语言模型,它们有很多误用的潜力和许多潜在的危害。所以,我可以举几个例子。例如,在HELM中,我们最近做的一个项目基本上是说,

哦,你能否使用大型语言模型生成有害输出,其中有害输出可能是关于如何制造炸弹的说明。它可能是生成的,可能是政治虚假信息,你可以在社交媒体上发布。

所以我们进行了这个评估,这个基准测试,基本上是,我们向模型发送了很多请求,要求这些有害输出,我们测量这些模型多频繁地给你有害输出?答案实际上是相当频繁的。

这取决于模型。因此,有些模型比其他模型更好。我会说,总体而言,我们对开发者能够进行的安全调优的数量感到相当印象深刻。但无论模型如何,我们仍然发现不安全的输出。

所以我认为我非常担心所有这些潜在的危害,尤其是在信息方面。还有像偏见和公平性这样的事情,模型可能对某些群体存在偏见,或者可能对某些群体的效果不佳。还有

我认为,关于劳动置换的担忧。如果模型能够取代人们的工作,这是否意味着大规模的失业?经济学家对此实际上意见不一,因为他们也认为人工智能将创造大量的工作。因此,可能会发生结构性转变,但总体而言,工人们的情况还不错。但是...他们可能需要教育。

在他们能够找到新工作之前,他们可能需要更多的教育。那么去FreeCodeCat.com吧。我们为你提供了支持。如果你担心被取代...

如果你担心被取代,只需继续学习技能,继续攀登,潮水将保持在你之下,你会没事,只要你继续学习。我只是想安慰人们。我没有看到任何证据让我相信,像我们所知道的工作将完全消失。我认为很多这种夸大其词是由有议程的人推动的。我不认为这是一个实际的论点,我们会有某种

你知道的,人工智能系统可以比人类做得更好。绝对是这样。在所有方面,人类劳动将不再需要。我们都将被聚集起来,放在这些,你知道的,米色建筑里,我们将,你知道,吃饭,基本上过着沉闷的生活,而一群非常富有的人则拥有世界的其余部分,

他们有某种UBI贫民窟之类的东西。对吧。我不这样认为。所以,我确实在认真处理你所说的内容,但同时,我想有点反驳,

我不认为一切都是绝望和阴暗的。让我们谈谈新加坡。你来自新加坡,对吧?这是世界上最先进的国家之一。我认为它是世界上第三高的收入水平。其他两个更高的国家是石油、信托基金类型的国家。是的。预期寿命是最高的之一。这就是我们喜欢说的。我和Josephine在Tio谈过。

Josephine Teal。我和她谈过,她说的一个非常有趣的事情是,新加坡人从技术上讲几乎有一种负失业率。如果你想从这个角度考虑,外面有更多的工作机会,而不是能够做这些工作的人员。因此,这只是一个问题,如何让这些人获得技能,以便他们能够做更好的开放工作。当我说更好时,我的意思是,你知道,更高的收入,

你可以争辩说,作为煤矿工人可以赚很多钱,但这不是一份好工作。对吧?没有人会争辩说,作为煤矿工人是一份好工作,因为你正在损害你的健康。你在冒着身体风险。这是艰苦的劳动。我想象着走进黑暗的洞穴,像是在墙壁上凿东西,你可以教一个

煤矿工人如何在工厂工作,或者做一些稍微不那么危险、稍微高薪的工作,你可以提升人们的水平。你可以说,你可以训练一个军队中的野战医护人员...你可以送他们去医学院,他们可以成为医生。你总是可以稍微提升人们的水平。我认为...

在新加坡,因为他们实际上在努力培训人们,让更多的人成为人工智能工程师,这些人本质上是懂得如何利用模型和利用这些每个月都在推出的人工智能工具的软件工程师。因此,

在某种程度上,即使技术在改善,工作被自动化,工作被外包等等,在美国,就业率保持相对稳定。你可以争辩说,人们只是感到沮丧,他们住在妈妈的地下室。这是刻板印象。他们住在妈妈的地下室,他们已经放弃了找工作,只是在玩《使命召唤》整天,对吧?就像发生的那样,他们只是——但是——

如果你实际上查看就业人数,尽管美国发生了所有技术革命,自工业革命以来,所有计算机和信息时代,所有这些东西,就业人数一直相对稳定。对吧。我有理由乐观,认为这个时代将是相似的,它将使每个人的生产力提高20%。而第六个被这20%取代的人,他们会找到更好的工作,他们也会继续攀登。我认为我的论点是,只要每个人都变得更聪明、更有能力等等,我们应该能够为这些人找到新的事情去做。我认为失业和痛苦的主要原因是

创造工作的人的想象力缺乏,以及糟糕的招聘实践,比如申请者跟踪系统,以及你知道的,这种咖啡问答的就业系统,然后我们对它的抵制,以及我们试图坚持旧的钢铁工人工作等。当这些工作从来就不是好工作时,它们都是痛苦、可怕、危险的工作,嘈杂,对健康有害。而且,

大多数人会更好,可能更快乐地在某个地方的隔间工作,或者在家远程工作,而不是在熔炼铁和周围的热和噪音中工作。就像这是我的理论。那么你觉得怎么样?请反驳我。请尽量多找出漏洞。请,尽量让我听起来像个无望的浪漫主义者。

是的,实际上我想分享一个我们都参加的会议上的故事,我们在那儿见面。关于一个创业公司的创始人,他正在展示一个为农场建造机器人的项目。

所以这个创业公司正在建造可以照料草莓植物和采摘草莓的机器人。他们正在与位于沃森维尔或蒙特雷的一个农场合作,那里距离旧金山几个小时。当我听到这个消息时,起初我非常怀疑。我想,这难道不会让农场工人的生活变得更糟吗?因为你只是取代了一些工作。

但故事是,他们在草莓田中运行这个原型,农场工人会非常好奇,他们实际上会询问并走到工程师面前问他们问题。当他们听到他们在做什么时,农场工人们会说,哇,这太棒了。我们什么时候能得到这个?结果他们说,采摘草莓的工作相比其他一些农场工人的工作是更不受欢迎的。

他们实际上希望那些不太受欢迎的工作被自动化。因此,从这个意义上说,我认为,这一切都与新加坡如何看待自动化有关。我们不是在考虑置换,而是在考虑增强。因此,技术不是取代你,而是你利用这项技术成为更高生产力的工人。你在工作,你知道,你在部署技术,与技术并肩工作。

当然,这有很多前提条件,你需要理解和了解技术,你的工作场所和政府政策必须是有利的。因此,我认为人工智能有很大的潜力来增强人类,而不是取代人类。

但我认为大问题是,最终谁来决定你知道技术如何被使用,这就像是一种权力的争论,像是

工人决定还是工会还是公司还是大型科技公司还是政府?权力在哪里,如何最终做出这些决定?所以我认为这非常是一个政治和民主与经济结构的问题。我最担心的是,

权力在大型科技公司中高度集中,尤其是在金钱和他们拥有模型方面。对吧?大型科技公司现在拥有大型语言模型,最好的模型。社会转型的多少将取决于这些大型科技公司和美国的大型公司,而不是

工人、工会、政府和普通公民。我对此没有明确的答案。是的。好吧,假设开放源代码或开放模型,而不是你指出的开放权重模型,它们在HELM基准测试中接近性能,并且在所有重要方面都变得可比。

他们变得可比,并且,免费可可可以托管自己的llama实例,我们确实这样做。我们在内部用于很多事情。是的,每个组织,比如农民,都可以在家里有一个盒子,可以托管,知道他们想要的东西。对吧?实际上,

我看到很多人做这个,只是拥有自己的实例,可以与之互动,而不必为OpenAI支付许可证,知道吗?你知道,专业版每月20美元。考虑到所有的用途,这并不算太多钱。我会惊讶于这个价格不会上涨。但是,假设这些模型接近,然后,如何影响这种权力动态?如果人们不再依赖于大型科技公司,如果,

假设,假设发生两件事。首先,开放权重模型几乎变得一样好,然后顶级模型开始停滞,对吧?他们确实达到了某种性能的上限,此时,就像iPhone一样,没有人关心新iPhone,没有人关心新PlayStation,因为它已经足够好多年,这些边际改进在图形或速度或任何方面对普通人几乎是不可察觉的。

我们不在乎。对吧?就像我真的不在乎200美元的开罐器和1美元的开罐器之间的区别。对吧?它只是打开一个罐头,而且它有效。对吧?就像,如果它完全商品化并且完全停滞,它只是我们拥有的新工具,就像电子表格一样。我不,我敢肯定Excel比Google表格更好,功能更多,但我懒得安装它并为许可证支付一大笔钱,当我可以使用Google表格时。对吧?

如果它达到那种程度,所有的人工智能只是这个问题的解决方案?是的,我认为在影响劳动市场方面。

是的,我认为我对这个未来的乐观程度比一年前要高一些。因此,大约一年前,情况是你必须支付OpenAI才能使用这些模型,对吧?或者你使用劣质模型。即使你想使用劣质的开放权重模型,你也需要一台非常昂贵的台式机,可能要花费数千美元或数万美元,

这超出了普通程序员的能力。因此,你可以考虑,如果你把这视为另一种工具,就像编程工具一样,当我还是青少年,第一次接触编程时,我的第一批工具是像Cubase stick或PHP或可以免费下载和使用的开源工具。

而且你需要一个非常大的GPU或API,这一切都使得它不免费,并且对至少一些人来说都是遥不可及的。我对这项技术会更容易获得感到有点乐观,因为过去一年发生的事情是,小模型变得更好。因此,现在我们有可以在你的MacBook上运行的模型,例如,或者在小型笔记本电脑上,它们工作得很好。

它们没有GPT那么好,但它们工作得相当不错。因此,我认为我现在对这项技术的分布会更加均匀。尽管,正如我之前提到的,仍然存在差距。因此,你知道,我们在斯坦福大学,我们也在努力训练我们的模型。我们在努力缩小差距。

所以这可能会实现。我仍然感到悲观的一件事是,即使你有一个工具,即使你解决了工具的可获取性和开放性,仍然存在一个问题,即谁决定如何使用这个工具。

例如,举个例子,假设雇主决定替换,好的,这是一个非常假设的情况,但假设雇主决定解雇所有的法律助理,用一个开源模型替代他们。这仍然是一个权力的问题,对吧?这个决定是如何做出的?就像,

工具是开源的并不会减少被解雇的法律助理所遭受的伤害。还有一个更具体的例子,我刚刚了解到,例如,内华达州正在与谷歌合作,试图使用LLM处理失业福利申请。这让很多人感到恐慌,因为有...是的。我的意思是,如果它出错了,你得不到失业救济怎么办?是的。

确切地说。这是一个非常高风险的部署。我想我非常非常担心事情可能出错的方式。因此,我认为,你知道,这还有另一个问题,谁来决定,对吧?这仍然是新颖的,你知道,政策如何制定,政策的内容是什么,允许这些用户的政策是什么。所以这是我对此的看法。

如果你有兴趣听听我的想法,我相对天真的想法。我不想让任何人觉得,Quincy只是花了几个小时在这里哲学思考和写论文之类的。这很好。在理论上,假设发生了一堆假阴性或假阳性。我是说,我敢肯定内华达州会鼓励LLM,并可能鼓励谷歌。你能否让它拒绝更多的申请?他们有每一个动机去这样做。但是,

这真的与告诉他们的人类评估者没有什么不同,就像,嘿,试着找到每一个小漏洞来拒绝人们的申请?就像,保险公司一直在这样做,对吧?是的,你绝对可以说这甚至比以前更糟,但这不是社会中邪恶的进程吗?人工智能真的加速了什么,还是只是让它变得稍微...

清洗他们的意识,因为这不是某个必须按下电击按钮的人,而是一个决定按下它的机器。对吧。作为程序员,你与构建末日机器的人相隔几步,而不是直接出去执行死刑的人。你知道吗?所以,是的。

是的,继续。就像,我的意思是,人们正在提出反驳,正是反驳的论点。因此,例如,有研究表明,例如,任何在司法或政府办公室做出决定的人,他们并不免于偏见,对吧?他们仍然会根据偏见做出决定,有时是不公平的决定,有时是错误的决定。

而现在人工智能的目标,有些人争辩说,不是要完美,而只是要比人类基线更好或更少偏见或更少错误。我认为在某种程度上这可能是可能的,但这非常困难,对吧?我觉得在学术界和研究中,我们有点理解这些细微差别,比如,

嘿,如何衡量这些东西?如何衡量公平性、偏见和准确性?但真正的问题是,在现实世界中,人们多大程度上关心这些?人们多大程度上能做到这一点?所以绝对有一种方法可以做到这一点,我认为,但这非常困难。是的,我只想明确表示,我认为...

这些公司应该像这些巨大的,你知道,拥有大量资金的实体,应该倾向于信任那些申请失业救济的人。人们,我理解。我刚刚看了一部来自1940年代的伟大电影,叫做《双重赔偿》。

而且,它完全是关于保险诈骗的基本上。就像,但这是1940年代的事情。这是一部非常好的新战争电影。如果你想看一部非常老的电影,几乎是公共领域的。但是,是的,我理解会有人试图欺骗并篡改数字,还有,你知道,有一部我在70年代看的伟大电影,叫做《蓝领》。

主角,呃,理查德·普赖尔,他假装自己有六个孩子而不是三个,以便他可以在税收减免中获得额外的儿童福利。这是一个主要的情节点。我理解,但这些人往往是极度贫困的人。我觉得我们需要从根本上找出如何不让他们处于可能感到压力的境地。而且,还有,你知道,这就像那个,像,呃,你知道,你应该,

释放十个有罪的人比错误地处决一个无辜的人要好得多,或者类似的东西。对吧?我的意思是,这回溯到现代或西方哲学思想的基础。

所以,我的想法是,很多这些问题都是人类的问题,而人工智能只是人类指向贫困者的武器,而不是,嗯。所以,我绝对理解这是一个巨大的缺陷,它将给人们一种清晰意识的错觉,而他们只是同谋,拒绝人们的生存和生活。

这是一个非常大的问题,值得深入探讨。超出了这个播客的范围,但我确实想要权衡一下你所说的内容,因为这非常危险,尤其是与保险公司有关,尤其是在我最关心的领域。

作为一名教师,看到这些人被某些无法准确识别的人工智能错误标记为抄袭者。人们在外面销售声称能够检测抄袭的工具,但实际上效果非常差。你可以从GPT复制一些东西,打开一个新的GPT实例,你可以粘贴进去,然后你可以说,嘿,GPT,世界上最复杂的LLM。你认为这是由LLM生成的吗?而它可能不知道。

你知道这方面的任何事情吗?是的,大多数工具。有像GPT-0这样的工具,像LLM检测。它们大多数都不是很好。我会说,它们大多数现在都不是很好。它们大多数是未解决的问题。因此,任何声称我有完美LLM检测工具的初创公司可能都是在撒谎。

是的。但是现在有一些首席信息官正在高尔夫球场上与他们的销售人员交谈。我敢打赌。是的,学校系统正在购买抄袭检测工具,这只是邪恶的延续。这只是—

是的。

我认为这只是像这些抄袭跟踪软件的延续,像Turnitin之类的东西。它们已经存在几十年了,而且,它们并不总是准确的,假阳性的数量很高,我认为情况会变得更糟,因为人们对这些工具的信心过高,认为它们的效果比实际要好。抱歉,我并不是想垄断谈话。我想采访你,但我只是觉得,像是指出这一点。是的。是的。

我的意思是,我也害怕很多相同的事情。

就像,我的意思是,早些时候我们在谈论,知道,人工智能的大量投资,很多都是C-suite高管,实际上并不真正理解这项技术能做什么,只是在扔钱,对吧?你提到,你知道,这并不感觉像是技术问题。这感觉像是人类问题。这正是对的。就像我可以,做我的演讲,我工作的组织叫做以人为本的人工智能中心。

而且,很多在中心工作的研究人员或与我们合作的研究人员来自其他学科,比如法律、政策、经济学或物理学。

商业或其他领域。很多都是因为这些棘手的伦理问题,你真的需要。一些问题是基本的西方哲学问题,对吧?像,什么是伦理?什么是伦理模型?模型应该是伦理的吗?所以

是的,我认为那里有很多有趣的工作,可能对程序员的兴趣较小。但如果有人对阅读人工智能的伦理和哲学感兴趣,确实有一个丰富的视角,现在极其相关。有没有什么文本或文章,相对容易理解,没有很多引用的东西?你会推荐给人们入门吗?

我的意思是,我可以推荐一下我的雇主有一个博客。因此,以人为本的人工智能中心有一个博客。它叫斯坦福HAI。它对很多社会问题有一个相当好的汇总。至于一本书,我不认为目前有特定的书我推荐。有很多最近出版的书,但我没有时间去看它们,不幸的是。

太棒了。那么,如果你在出版日期之后收听这个,如果On给我发了书推荐,我会把它放在下面。

我们已经覆盖了这么多内容。和你交谈真是太愉快了。我觉得我们可以聊几个小时,但我想尊重你的时间。你是个忙碌的人,正在完成事情,研究这些模型,而不仅仅是无脑地,哦,这个比那个更高的价值。你实际上在思考这些的影响。很明显,你是那些思考和感受的人之一,而且你确实关心。你有一个

在这些模型运行的未来社会中,您有任何结束语或建议听众思考的事情吗?特别是对于 freeCodeCamp 的听众。我觉得,您知道,我们之前谈到的工作替代问题。我觉得,有一种叙述是,您知道,LRMs 替代工作,尤其是程序员。我觉得在这方面,

尤其是对于 freeCodeCamp 的学生,我会说,

即使您想进入 AI 领域,拥有良好的软件基础、软件工程基础和编程基础总是有价值的,真正理解 AI 的基础知识,包括概率和统计等内容。我认为,凭借这些基础知识,您将走得很远,尤其是因为当我第一次开始时,

所以当我第一次加入斯坦福作为研究工程师时,我必须学习很多关于 LLM 的知识,因为当我在学校攻读学士和硕士学位时,LLM 并不存在。我必须掌握这项技术。但因为我已经有了基础知识,我可以相对快速地掌握它,并且能够理解这项新技术与我已有知识的关系。

所以我会说,老实说,拥有良好的软件工程基础,能够理解问题,能够与他人良好合作,这些都是无论未来出现什么技术都将是最重要的技能。是的,100%。我非常感谢您在这里分享的一切。我只是想再次强调您刚才所说的。

当有疑问时,回归基础。学习它们。我喜欢说,在《星际迷航》中,每当您看到乔迪在引擎室工作时,他们都理解整个系统。他们了解船上的情况以及所有不同系统的工作原理。他们花时间去学习。这并不是说...

他们只是摸索黑暗,教育在那时将会有显著进步。他们将能够在脑海中掌握更多的事实和理解现实运作模型的能力。他们将能够做到这一点。就像我总是喜欢指出的,每隔几年,他们必须改变 IQ 测试的标准。并不是说我对 IQ 测试很看重,但因为人们每一代、每几年都变得越来越聪明。

而随着我们获得更多信息的机会,这种情况将加速。我们可能一整天都在听像这样的播客,甚至是双倍速度,同时完成事情,我们的信息饮食变得越来越丰富。我们变得更加深思熟虑,思考的层次也不同,我们不仅仅有自己的偏见和错误信息,而是作为人类不断进步。呃,我认为随着这种情况的发展,

人类社会将变得越来越有能力,越来越好奇。这种美德将继续增强,我们将利用这些工具来扩展我们对世界的理解和我们的智力。我认为这就是世界上深刻的善良,

人们感到好奇,追随这种好奇,而不是陷入智力贫困。曾经有人估计,典型的美国人在边境生活在木屋中的一生中所接触的信息量,相当于一天的《华尔街日报》。

想想您现在可以接触到的所有信息,以及您可以在放松时以何种方式消费这些信息,您在吃爆米花,放松在沙发上,学习关于 AI、机器学习等主题,或者任何您感兴趣的学习主题。因此,我鼓励您继续提升自己的技能,就像 Yifan 一直在努力工作一样,我们甚至没有深入探讨您的背景,但我相信它是卓越而有趣的,因为您不会偶然间成为机器学习团队的一员,或者偶然间成为斯坦福的研究员。我相信您为达到现在的成就付出了很多努力。在某个时候,我希望能请您再次上节目,我们可以更深入地讨论这个话题。但我想给大家留下一个想法,无论发生什么,机会总是青睐有准备的人,您可以通过建立基础技能不断做好准备,正如 Yifan 鼓励您做的那样。非常感谢您来到节目,伙计。就这样,

我祝愿大家度过一个美好的星期。直到下周,快乐编码。我在墙上钉了一张照片

一张你我在一起大笑的照片。但看看我们现在的生活。满是破烂和撕裂。我们争吵、打闹,享受着直到黎明的泪水。看看我现在。哇。

所以也许我应该离开这里。

是的,走得远远的。但您知道,我宁愿和您在一起。哦,哦,抱紧我。哦,哦,我的心。与爱同在,开始。哦,哦,我的心。与爱同在,开始。

让爱开始。哇。我爱你。

那么,我能说什么呢?我在这里所做的一切都是我们玩的游戏之一。所以我会为您唱一首新歌。请不要再哭了。

即使是为了您的宽恕,不,我不知道我在请求什么。哦,抱紧我。哇,温暖我的心。与爱同在,开始。与爱同在,开始。哦,现在抱紧我。哇,温暖我的心。与爱同在,开始。

与爱同在。