我整个人生都在追求那些极其困难,几乎到了痴人说梦的地步的问题。对我来说,如果没有空间智能,AGI 就不会完整,而我想要解决这个问题。我只是喜欢做企业家。忘记你过去做过什么。忘记别人对你的看法。埋头苦干,努力建设。那是我最舒适的区域。
所以我很高兴能在这里见到李飞飞博士。她在人工智能领域拥有如此漫长的职业生涯。我相信你们很多人认识她,对吧?举手。我也认识你。她被称为人工智能的教母。你创建的第一个项目是 2009 年的 ImageNet,16 年前。我的天哪。
别提醒我这件事。现在它有超过 80,000 次引用,它真正启动了人工智能的支柱之一,那就是数据问题。告诉我们这个项目是如何产生的。那在当时是一项非常具有开创性的工作。
是的,首先,戴安娜、加里和各位,感谢你们邀请我来这里。我很高兴来到这里,因为我觉得我就是你们中的一员。我现在也是一名企业家。我刚创办了一家小公司,所以非常高兴来到这里。ImageNet 是……
是的,你说得对。我们实际上是在将近 18 年前构思的。时间过得真快。我当时是普林斯顿大学的一年级助理教授。哦,哇。嗨。嗨,老虎们。
是的,当时人工智能和机器学习的世界与现在大相径庭。数据非常少。至少在计算机视觉方面,算法不起作用。没有产业。就公众而言,“人工智能”这个词根本不存在。
但仍然有一群人,从人工智能的奠基人开始,对吧?约翰·麦卡锡,然后我们经历了杰夫·辛顿这样的人。我认为我们只是做了一个人工智能梦。我们真的、真的想让机器思考和工作。带着这个梦想,我个人的梦想是让机器看到。
因为视觉是智能的基石。视觉智能不仅仅是感知,它实际上是理解世界并在世界中做事。所以我痴迷于让机器看到这个问题。当我痴迷于开发机器学习算法时,那时我们确实尝试过神经网络,但它不起作用。我们转向了贝叶斯网络,转向支持向量机,无论是什么。但一个问题总是根深蒂固地
困扰着我,那就是泛化的问题。如果你从事机器学习工作,你必须尊重泛化是机器学习的核心数学基础或目标。为了泛化这些算法,这些数据,
但当时在计算机视觉领域没有人拥有数据。我是第一代开始涉足数据的研究生,因为我是第一代看到互联网、物联网的庞大互联网的研究生。所以快进到,
大约 2007 年左右,我和我的学生决定,我们必须做一个大胆的赌注。我们必须押注机器学习需要范式转变,而这种范式转变必须由数据驱动的方法来引领。而且没有数据,所以我们想,好吧,让我们去互联网上下载
十亿张图像,这是我们在互联网上能获得的最高数量,然后创建世界上、整个世界的视觉分类法。我们用它来训练和评估机器学习算法。这就是 ImageNet 的构思和
诞生的原因。直到出现有前景的算法才花了一段时间。直到 2012 年 AlexNet 出现,这才构成了通往人工智能的等式第二部分,即获得计算能力并投入足够的计算能力和算法。告诉我们,当您开始看到,哦,您用数据播种了它,现在社区开始为人工智能找出更多东西的时候是什么样的时刻。对。
对。所以在 2009 年,我们发表了这张小小的 CVPR 海报。从 2009 年到 2012 年,亚历克斯,我们有三年时间
我们真的相信数据会驱动人工智能,但我们关于它是否有效几乎没有信号。所以我们做了一些事情。一个是开源。我们从一开始就相信,我们必须将其开源给整个研究界,让每个人都能参与其中。
我们做的另一件事是发起了一项挑战,因为我们希望世界上最聪明的学生和研究人员都能参与解决这个问题。这就是我们所说的 ImageNet 挑战赛。所以每年我们都会发布一个测试数据集。好吧,整个 ImageNet 都用于训练,但我们会发布测试数据,然后公开邀请每个人参与。
然后前几年实际上是在设定基线。你知道,性能的错误率在 30% 左右。它不是零,我的意思是,它不是完全随机的,但它并不那么好。但在第三年,2012 年,我,你知道,我在我出版的一本书中写过这个,但我仍然记得,你知道,
那是在夏末左右,我们正在获取 ImageNet 挑战赛的所有结果并在我们的服务器上运行它。我记得那是深夜。有一天,我收到我的研究生的提示。我当时在家,他说:“我们得到的结果非常突出,你应该看看。”
我们查看了它。它是卷积神经网络。当时它不叫 AlexNet。杰夫·辛顿的团队被称为 Supervision。这是一个非常巧妙的词语游戏,既有 super,也有 supervised learning。所以是 Supervision。我们查看了 Supervision 做了什么。这是一个旧算法。
卷积神经网络发表在 20 世纪 80 年代。在算法方面有一些调整,但一开始我们看到如此大的飞跃还是非常令人惊讶的。当然,我们,你知道,我们,我的意思是,接下来的历史,你们都知道,我们在当年的 ImageNet 挑战赛研讨会上介绍了这一点
ICCV 佛罗伦萨,意大利,亚历克斯·克鲁舍夫斯基来了,很多人来了。我记得 Yann LeCun 也来了。现在全世界都知道这一刻为 ImageNet 挑战赛,AlexNet 时刻。
我想说,这不仅仅是卷积神经网络。这也是亚历克斯和他的团队第一次将两块 GPU 放在一起并用于深度学习的计算。所以这真的是数据、GPU 和神经网络第一次结合在一起的时刻。现在,遵循计算机视觉智能弧线的趋势,
ImageNet 实际上是解决对象识别概念的种子。之后,人工智能开始能够解决场景问题,对吧?因为你和你的学生,比如安德鲁·卡帕西,能够描述场景,做了很多工作。告诉我们从对象到场景的转变。
是的,所以 ImageNet 解决了这样一个问题:你看到一张图像,然后你指出其中的物体。有一只猫,有一把椅子等等。这是视觉识别中的一个基本问题。
但是自从我作为研究生进入人工智能领域以来,我就有一个梦想。我认为这是一个百年梦想,一百年的梦想,那就是对世界的叙事,那就是当人类睁开眼睛时,想象一下你刚刚在这个房间里睁开眼睛。你不仅仅看到人、人、人、椅子、椅子、椅子。你实际上看到一个人。
你知道,有屏幕,有舞台,有人,有,你知道,人群,摄像机,你实际上可以描述整个场景。这是人类能力,是视觉智能的基础。这对我们日常生活中使用至关重要。所以我真的认为这个问题会占据我的一生。我,我,我,
我字面意思上,当我作为研究生毕业时,我告诉自己,如果我能在临死前创造出一个能够讲述事物故事的算法,我就成功了。我就是这样看待我的职业生涯的。想象一下 Alex,那一刻来了,深度学习起飞了。然后当 Andrej 后来 Justin Johnson
进入我的实验室,我们开始看到自然语言和视觉开始碰撞的信号。然后 Andrej 和我提出了图像字幕或讲故事这个问题。
长话短说,2015 年左右,Andrej 和我在 2015 年发表了一系列论文,其中一些与同时发表的论文一起,实际上创造了一台能够为图像添加字幕的计算机。我几乎感觉像
我接下来要做什么?那是我毕生的目标。对我们两个人来说,那都是一个令人难以置信的时刻。去年,我做了一个 TED 演讲,我实际上用的是 Andrej
几年前发布的一条推文,大约在他完成图像字幕工作的时候,那几乎就是他的论文,我实际上和他开玩笑说:“嘿,Andrej,我们为什么不反过来试试呢?取一句话,生成一张图像。”当然,他知道我在开玩笑,他说:“哈哈,我不干了。”世界还没有准备好。
但现在快进到今天,我们都知道生成式人工智能。现在我们可以取一句话,生成美丽的图片。所以故事的寓意是,人工智能取得了令人难以置信的进步。就我个人而言,我觉得自己是世界上最幸运的人,因为我的整个职业生涯始于
人工智能寒冬的结束,人工智能开始起飞的开始,我的许多工作,我的职业生涯都是这场变革的一部分,或者帮助了这场变革。所以我觉得非常幸运,很幸运,在某种程度上也很自豪。我认为最疯狂的事情,即使是实现你描述季节的毕生梦想,甚至用扩散模型生成它们,
你实际上梦想得更大,因为整个计算机视觉的轨迹是从物体到场景,现在是世界的概念。你实际上决定从学术界教授的身份转向现在成为 World Labs 的创始人兼首席执行官。告诉我们什么是 World Labs。它甚至比场景和物体更难。是的,确实如此。这有点疯狂。所以……
所以,当然,你们都知道过去。很难总结过去五六年。对我来说,我们正处于这项技术进步的文明时刻,对吧?作为计算机视觉科学家,我们看到计算机视觉取得了令人难以置信的进步,你知道,从 ImageNet 到图像字幕到图像字幕。
使用一些扩散技术进行生成。虽然这正在以非常令人兴奋的方式发生,但我们还有另一个极其令人兴奋的线索,那就是语言,那就是大型语言模型,那就是 2022 年 11 月,ChatGPT 打开了真正有效的生成模型的大门,这些模型可以
基本上通过图灵测试等等。所以,这甚至对像我这样年纪大的人来说也变得非常鼓舞人心,可以真正大胆地思考下一步是什么。
我作为计算机视觉科学家有一个习惯,我的许多灵感实际上也来自进化以及脑科学。在我的职业生涯中,我发现自己有很多时刻都在寻找下一个北极星问题来解决。我问
我问自己进化做了什么,或者大脑发育做了什么。有一件事非常重要,值得注意或欣赏。人类语言在进化中的发展大约需要,如果你非常慷慨,让我们假设它大约需要 3 亿到 5 亿年,不到一百万年。
这是进化发展人类语言所花费的时间。而且几乎只有人类拥有复杂的语言。我们可以争论动物语言,但就作为一种交流、推理、抽象工具的语言而言,它确实是人类的。所以这甚至不到五百万年。但想想视觉。
想想理解三维世界、弄清楚在这个三维世界中做什么、在三维世界中导航、与三维世界互动、理解三维世界、交流三维世界的能力。这段旅程让进化花费了 5.4 亿年。
第一个三叶虫在 5.4 亿年前进化出了水下视觉。从那时起,视觉实际上是引发这场进化军备竞赛的原因。在视觉出现之前,动物很简单。在视觉出现之前的 5 亿年里,只有简单的动物,但是接下来的
5.4 亿年,由于能够看到世界,理解世界,进化军备竞赛开始了,动物的智力开始相互提升。
所以对我来说,解决空间智能问题,理解三维世界,生成三维世界,推理三维世界,在三维世界中做事,是人工智能的一个基本问题。对我来说,如果没有空间智能,AGI 就不会完整。而我想要解决这个问题。
这包括创建世界模型,超越平面像素的世界模型,超越语言的世界模型,真正捕捉世界空间智能和语言的三维结构的世界模型。
我生命中最幸运的事情是,无论我多大年纪,我总是能与最优秀的年轻人一起工作。所以我与三位令人难以置信的年轻但世界一流的技术专家 Justin Johnson、Ben Mildenhall 和 Christoph Lassner 共同创办了一家公司。
我们只是想尝试解决在我看来目前人工智能中最难的问题。
这是一支令人难以置信的人才团队。我的意思是,Chris,他是 Pulsar 的创造者,Pulsar 是高斯斑点之前的初始种子。有很多可微渲染。还有 Justin Johnson,你的前学生,他真的拥有这种超级系统工程思维,获得了实时神经风格迁移。然后是 Ben,他是 NERF 论文的作者。所以这是一个超级精英团队。而且
你需要这样一个精英团队,因为我们一直在聊这个,视觉在某种程度上实际上比大型语言模型更难。也许说大型语言模型基本上是一维的,这是一种有争议的说法,对吧?但你谈论的是理解许多三维结构。为什么这么难?而且它仍然落后于语言研究。
你知道,我真的很感激戴安娜,你理解我们问题的难度。是的,语言从根本上来说是一维的,对吧?音节按顺序出现。我的意思是,这就是为什么序列到序列、序列建模如此经典。语言还有人们不欣赏的另一面。语言纯粹是生成的。
自然界中没有语言。你摸不到语言,你见不到语言。语言实际上来自每个人的大脑,这是一个纯粹的生成信号。
当然,你把它写在纸上,它就在那里,但是语言的生成、构建、效用是非常非常具有生成性的。世界比这复杂得多。首先,现实世界是三维的,如果你加上时间,它是四维的。但让我们只关注空间。它从根本上来说是三维的。所以这本身就是一个组合上更难的问题。
其次,视觉世界的感知、接收是一个投影。无论是你的眼睛、你的视网膜还是相机,它总是将三维压缩成二维。你必须理解这有多难。从数学上来说,这是一个不适定的问题。所以你必须,这就是为什么人类和动物有多种传感器。然后你必须解决这个问题。
第三,世界并非纯粹是生成的。是的,我们可以生成虚拟的三维世界。它仍然必须遵守物理定律等等。那里也有一个现实世界。你现在突然以非常流畅的方式在生成和重建之间切换。
用户行为、效用、用例都大相径庭。如果你完全转向生成,我们可以谈论游戏和元宇宙等等。如果你完全转向现实世界,我们谈论的是机器人技术等等。但这所有的一切都在世界建模和空间智能的连续统一体上。当然,房间里的大象是
互联网上有很多关于语言的数据。空间智能的数据在哪里?你知道,它都在我们的大脑里,当然,但它不像语言那样容易获得。这就是它如此困难的原因。但坦率地说,这让我兴奋,因为如果它很容易,其他人已经解决了。
我整个人生都在追求那些极其困难,几乎到了痴人说梦的地步的问题。我认为这是一个痴人说梦的问题。感谢你的支持。甚至从第一性原理来思考这个问题,人脑在视觉皮层中处理视觉数据的数量比语言要多得多。
这如何转化为与大型语言模型非常不同的模型架构,从你正在发现的东西来看,对吧?是的,这实际上是一个非常好的问题。我的意思是,仍然存在不同的思想流派,对吧?我们在大型语言模型中看到的大部分内容实际上是将写作缩放定律一直写到圆满结局。你几乎可以
你可以强行进行自我监督。构建世界模型可能需要更细致入微一些。世界更有结构。我们可能需要使用信号来引导它。你可以称之为先验的形式,你可以称之为数据中的监督,无论是什么。
我认为这些是我们必须解决的一些悬而未决的问题,但你是对的。而且,如果你考虑人类,首先,我们甚至对人类的感知并不完全了解,对吧?三维在人类视觉中是如何工作的,这并不是一个已解决的问题。我们知道机械地,两只眼睛必须对信息进行三角测量,但即使在那之后,数学模型在哪里?
很棒。人类并不是那么擅长三维动物。所以还有很多问题需要解答。所以我们在 World Lab 绝对是。我只是指望,真的指望一件事。我相信我们拥有像素世界中最聪明的人来解决这个问题。可以说你在 World Labs 正在构建的是这些
全新的基础模型,其输出是三维世界吗?你设想的一些应用是什么?因为我认为你列出了从感知到生成的所有内容。生成模型和判别模型之间总是存在这种张力。那么这些三维世界会做什么呢?
是的,我不会过多谈论 World Labs 本身的细节,但就空间智能而言,这也是让我兴奋的地方。就像语言一样,用例非常广泛,从
你可以想到设计师、建筑师、工业设计师,以及艺术家、3D 艺术家、游戏开发者。从创作到机器人技术,机器人学习,
空间智能模型或世界模型的效用非常非常大。然后还有许多相关的行业,从营销到娱乐,甚至到元宇宙。我实际上对元宇宙非常非常兴奋。我知道很多人有点
仍然像,它仍然不起作用。我知道它仍然不起作用。这就是为什么我感到兴奋,因为我认为硬件和软件的融合即将到来。所以这也是未来另一个伟大的用例。我个人非常兴奋你正在解决元宇宙问题。我在我之前的公司尝试过。所以我很高兴你现在正在做这件事。是的,我认为有更多信号。我的意思是,我认为……
硬件是障碍的一部分,但你需要内容创作。在元宇宙中,内容创作需要世界模型。让我们稍微换个话题。也许对一些观众来说,你从学术界转向现在成为创始人/首席执行官的转变可能显得突然。
但你实际上在你的一生中经历了非凡的旅程。这不是你第一次从零到一。你告诉我你如何移民到美国,你在十几岁的时候不会说英语。你甚至经营了一家自助洗衣店很多年。告诉我们这些技能是如何塑造你现在的模样的。对。我相信你们来这里是为了听听如何开一家自助洗衣店。
那是你 19 岁的时候,对吧?是的,我 19 岁,那是出于绝望。所以我没有办法养家糊口,我的父母,我需要上大学,在普林斯顿大学学习物理专业。所以我开了一家干洗店,用硅谷的语言来说,我筹集了资金。我是创始人兼首席执行官。我也是收银员和其他所有职位,然后我退出了。所以
七年后。你们太好了。我从未因为我的自助洗衣店而获得掌声,但谢谢你们。
无论如何,我认为戴安娜的观点,特别是对你们所有人来说,我看着你们,我为你们感到兴奋,因为你们就像字面意思上是我的年龄的一半,甚至,你知道,也许是我的年龄的 30%。而且你们才华横溢。去做吧。别害怕。你知道,我的整个职业生涯,当然,我做过自助洗衣店。但即使作为一名教授,我也选择。
有几次我选择去那些我是第一个计算机视觉教授的系。
这与很多建议背道而驰。你知道,作为一名年轻的教授,你应该去一个有社区和资深导师的地方。当然,我很想有资深导师,但如果他们不在那里,我仍然必须开辟我的道路,开辟我的道路,对吧?所以我并不害怕。然后我去谷歌学习了很多关于谷歌云和 B2B 业务以及所有这些方面的知识。
然后我在斯坦福大学创办了一家创业公司,因为大约在 2018 年,人工智能不仅接管了产业,人工智能也成为一个人的问题。人类将永远推进我们的技术,但我们不能失去我们的人性。我真的很关心在人工智能的进步中创造一盏明灯,并尝试
想象一下人工智能如何以人为本,我们如何创造人工智能来帮助人类。所以我回到斯坦福大学,创建了以人为本的人工智能研究所,并将其作为一个创业公司运营了五年。可能有些人不太高兴我在大学里把它作为一个创业公司运营了五年,但我对此非常自豪。所以,在某种程度上,
我认为我只是喜欢做企业家。我喜欢从零开始的感觉,就像站在零点一样。忘记你过去做过什么。忘记别人对你的看法。埋头苦干,努力建设。那是我最舒适的区域。我只是喜欢这样。关于你另一件非常酷的事情,另一个……
除了你所做的一切令人敬佩的事情之外,你还指导了许多传奇的研究人员,例如安德鲁·卡帕西、英伟达的 Jim Fan、你的 ImageNet 合著者贾登。他们都开始了令人难以置信的职业生涯。当他们还是学生的时候,他们身上真正突出的特点是什么?你可以告诉听众的建议,啊,这个人将改变人工智能领域,你可以分辨出来。首先,我很幸运。
我认为我欠我的学生比他们欠我的更多。他们真的让我成为一个更好的人,更好的老师,更好的研究人员。并且与你所说的许多传奇学生一起工作,这真的是我一生中的荣幸。
所以他们非常非常不同。他们中的一些人只是纯粹的科学家,试图埋头苦干,解决科学问题。他们中的一些人是产业领袖。他们中的一些人是人工智能知识最伟大的传播者。但我认为有一件事将他们统一起来,并且
我鼓励你们每个人都考虑一下这一点。我也为那些正在招聘的创始人,这也是我的招聘标准,那就是我寻找智力上的无畏。我认为这与你来自哪里无关,与我们试图解决的问题无关,这种勇气,这种拥抱困难事物的无畏精神
去做,全力以赴,并以你想要的方式去解决它,这确实是成功人士的核心特征。我从他们那里学到了这一点,我真的很想寻找拥有这种品质的年轻人,然后作为 World Labs 的首席执行官,在我的招聘中,我寻找这种品质。
所以你也在为 World Labs 招聘很多人,所以你也在寻找同样的特质,对吧?是的,我得到戴安娜的许可,说我们正在招聘。是的,所以我们正在招聘很多人。我们正在招聘工程人才,我们正在招聘产品人才,我们正在招聘 3D 人才,我们正在招聘生成模型。
人才。所以如果你觉得自己无所畏惧,并且热衷于解决空间智能问题,请与我联系或访问我们的网站。酷。我们将开放提问环节,持续
接下来的 10 分钟。嗨,飞飞。感谢你的演讲。我是你的超级超级超级粉丝。是的,所以我的问题是,二十多年前,你从事视觉识别工作。我想开始我的博士学习。我应该从事什么工作才能像你一样成为传奇人物?我想给你一个深思熟虑的答案,因为我总是可以说,做任何让你兴奋的事情。所以首先,我认为人工智能研究已经发生了变化,因为
因为学术界,如果你要开始博士学习,你就在学术界。学术界不再拥有大部分人工智能资源。这与我当时的时代大相径庭,对吧?计算和数据在学术界资源方面非常低。然后有一些问题是产业可以用更快的速度解决的。
所以作为一名博士生,我建议你寻找那些不会与产业可以用更好的计算能力、更好的数据和团队科学更好地解决的问题发生冲突的北极星。
但是,我们仍然可以在学术界发现一些真正根本性的问题,无论你拥有多少芯片,你都可以取得很大的进展。首先,对我来说,跨学科人工智能是学术界一个非常非常令人兴奋的领域,尤其是在科学发现方面。有很多学科可以与人工智能交叉。我认为这是一个很大的领域。
人们可以去的地方。从理论方面来说,我发现人工智能的能力以 100% 的速度超过理论这一事实令人着迷。我们不知道,你知道,我们没有可解释性,我们不知道如何找出因果关系。在模型中,有很多我们不理解的东西,人们可以推进。
而且,你知道,这个清单还可以继续列举。在计算机视觉领域,我们仍然有一些尚未解决的表示问题。而且,你知道,小数据,这是另一个非常有趣的领域。所以,是的,这些都是可能性。
非常感谢 Fei-Fei。感谢李教授,并再次祝贺您获得耶鲁大学荣誉博士学位。我很荣幸在一个月前在那里见证了那一刻。我的问题是,从您的角度来看,人机交互更有可能以统一的、单一的统一模型出现,还是以多智能体系统出现?
你问这个问题的方式本身就包含两种定义。一种定义更具理论性,即把 AGI 定义为通过某种智商测试来定义 AGI。
你问题的另一半则更实用一些,即如果它是基于智能体的,它能做什么任务,我很难对 AGI 的这个定义做出评价,原因如下:1956 年在达特茅斯聚在一起的 AI 奠基人,你知道,约翰·麦卡锡和马文·明斯基,他们想要解决的问题是
能够思考的机器。这也是艾伦·图灵几年前提出的问题,比他们早 10 年或更久。
而这个说法并非狭义人工智能。这是一个关于智能的陈述。所以我真的不知道如何区分 AI 的资助问题与这个新的词 AGI。对我来说,它们是一回事。但我理解,今天的行业喜欢称 AGI 为超越 AI 的东西。
而我对此感到困惑,因为我觉得,我不知道 AGI 与 AI 的确切区别是什么。如果我们说今天类似 AGI 的系统比 80 年代、70 年代、90 年代或其他任何时候的狭义 AI 系统性能更好,我认为这是对的。这只是该领域发展的进程。但从根本上说,我认为人工智能的科学,即智能的科学,就是思考
创造能够像人类一样聪明,甚至比人类更聪明地思考和做事。
所以我不知道如何定义 AGI。所以我不知道,在没有定义它之前,我不知道它是否是单一的。如果你看大脑,它是一回事,你知道,你可以称之为单一的,但它确实有不同的功能,你甚至可以,有布罗卡区负责语言,有视觉皮层,有运动皮层。所以我真的不知道该如何回答这个问题。
你好,我叫 Yashna,我只是想说声谢谢。我认为看到一位女性在这个领域发挥领导作用非常鼓舞人心。作为一名研究人员、教育家和企业家,我想问一下,你认为在人工智能快速发展的情况下,应该是什么样的人去攻读研究生?这是一个很好的问题。这是一个连父母都会问我 的问题。研究生?
是四年或五年你充满强烈好奇心的时间。你被好奇心所引导。而这种好奇心是如此强烈,以至于没有比这更好的地方了。
这与创业公司不同,因为创业公司不仅仅是……你必须小心一点。创业公司不能仅仅由好奇心来引导。你的投资者会对你发火的。创业公司有更明确的商业目标,其中一部分是好奇心,但这不仅仅是好奇心。而对于研究生院来说,解决问题或提出正确问题的好奇心
是如此重要,我认为那些怀着强烈好奇心的人会真正享受这四年或五年,即使外部世界正在以光速飞速发展。你仍然会快乐,因为你在那里追寻着好奇心。
首先,我想感谢你的时间。感谢你出来和我们讲话。你提到开源是 ImageNet 发展壮大的重要组成部分。现在,随着大型语言模型的最新发布和发展,我们已经看到各组织在开源方面采取了不同的方法,一些组织完全保持封闭源代码,一些组织完全发布他们的整个研究堆栈。
处于中间位置,开源权重或具有限制性许可证等等。所以我想问一下,你对这些不同的开源方法有什么看法?你认为作为一家 AI 公司,开源的正确方法是什么?
我认为当存在不同的方法时,生态系统是健康的。我并不是说你必须开源或你必须闭源。这取决于公司的商业战略。例如,Meta 为什么想要开源是很清楚的,对吧?他们……
现在,他们的商业模式还不是销售模型。他们正在利用它来发展生态系统,以便人们来到他们的平台。因此,开源非常有意义,而另一家真正通过……甚至通过货币化来获利的公司,你可以考虑开源层和闭源层。所以我对此相当开放。
元级别是,我认为开源应该受到保护。我认为,如果在公共部门(如学术界)和私营部门都努力进行开源,这非常重要。这对创业生态系统至关重要。这对公共部门来说非常重要,我认为这应该受到保护。它不应该受到惩罚。
你好,我叫卡尔。我从爱沙尼亚飞来。我有一个关于数据的问题。你很好地描述了机器学习向数据驱动方法的转变,以及 ImageNet。现在你正在研究世界模型,你提到我们没有互联网上的空间数据,它只存在于我们的脑海中。
你是如何解决这个问题的?你押注什么?你是从现实世界收集这些数据吗?你是否正在进行合成数据来相信这一点,或者相信良好的旧先验?谢谢。
你应该加入 World Labs,我会告诉你。哦。这是一个好问题。看,作为一个公司,我不能分享很多,但我认为承认我们正在采取混合方法很重要。拥有大量数据非常重要,但拥有大量高质量数据也很重要,数据
归根结底,如果你不注意数据质量,仍然是垃圾进,垃圾出。我们再问最后一个问题。你好,李博士。我叫安妮,非常感谢你与我们交谈。
在你的书《我看到的世界》中,你谈到了你作为一名移民女孩和女性在 STEM 领域面临的挑战。我很想知道你是否曾经有过在工作场所感到自己是少数人的时刻,如果有的话,你是如何克服这个问题或说服他人的?感谢你的提问。我想在回答你的问题时非常非常谨慎或深思熟虑,因为我们每个人都来自不同的背景,我们每个人感受的方式
非常独特。你知道,我们的大类别是什么几乎无关紧要。我们所有人都有感觉自己是少数人或房间里唯一一个人的时刻。当然,我也曾有过这样的感觉。有时这是基于我的身份。有时是基于我的想法。有时只是基于,我不知道,我衬衫的颜色,无论是什么。我有,但是
这就是我想鼓励每个人的地方。也许是因为我年轻时来到这个国家,我经历过,就是这样。我是一个移民女性。我几乎已经培养了一种能力,不去过度关注这一点。我和你们每一个人一样。我来这里是为了学习,为了做事,为了创造东西。
谢谢。这是一个很好的答案。而且,你们所有人,你们即将开始做某事,或者正在做某事,你们将会有软弱或奇怪的时刻,我每天都会有这样的感觉,尤其是在创业生活中。有时我会想,哦,我的上帝,我不知道我在做什么。专注于去做吧。梯度下降你自己到优化的解决方案。
好了。这是一个很好的结束方式。感谢李博士。