We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode E161|聊聊大模型如何思考与深度学习科学家Yann LeCun

E161|聊聊大模型如何思考与深度学习科学家Yann LeCun

2024/7/29
logo of podcast 硅谷101

硅谷101

AI Deep Dive AI Chapters Transcript
People
泓君Jane
硅谷101创始人与播客主理人,曾任《财经》杂志驻美记者,著有多篇获奖专栏文章。
陈羽北
Topics
泓君Jane:大模型的“黑盒”特性引发了AI安全性的担忧,人们迫切需要理解其内部运作机制。 陈羽北:白盒研究旨在将深度学习从经验性学科转变为科学学科,目标是理解人工智能并通过理解重构它,构建出从根本上不同的东西。白盒研究的本质在于理解信号的结构,从而提升模型效率、鲁棒性、安全性以及可信度。通过分析词嵌入和大型语言模型,可以发现模型内部存在结构性信息,例如“原意思”,这有助于理解模型的运作机制。理解模型的运作机制可以反过来优化模型,例如调整模型中的偏见,使其更公平安全。OpenAI等机构的研究也尝试通过识别特定神经元的激活模式来理解模型的运作方式。人类可以通过少量数据获得强大的泛化能力,而大模型需要海量数据,这体现了人类学习效率的优越性。理解大模型和人脑运作机制的难度各有不同,大模型的可观测性更强,但其对世界的理解不如人脑全面。神经科学背景可以启发AI研究,例如对生物系统中信号处理方式的观察可以挑战现有的AI方法。传统机器学习模型是白盒模型,而大模型是黑盒模型,黑盒模型发展迅速的原因在于其包袱少,并且受益于数据规模的扩大。白盒模型追求简洁性,但过度简化可能限制其能力。白盒模型研究可以提升大模型的效率并统一不同模型,并扩展到控制领域。距离构建完全可解释的大模型还有很长的路要走,研究目标可以分阶段进行,例如先解释ImageNet的运作机制。白盒模型的研究流派包括可视化、神经科学和数学统计三种。 陈羽北:Yann LeCun长期坚持自监督学习和世界模型研究方向,他更关注模型的自身能力和自主学习能力,而非单纯依靠Scaling Law。Yann LeCun对Meta的贡献包括筹建Meta AI和推动开源路线。大模型研究已经从科学家驱动转向工程驱动,未来发展需要科学和工程的共同推动,Scaling Law虽然重要,但效率提升同样关键。

Deep Dive

Chapters
讨论白盒研究的目标是将深度学习从经验学科推向科学,并探讨如何解释大语言模型的输入输出。
  • 白盒研究旨在将深度学习从经验学科推向科学。
  • 通过理解大语言模型的输入输出,可以优化模型并提升效率。
  • 早期模型如词汇嵌入可以学到语言的表征,但需要进一步解释其性能提升的原因。

Shownotes Transcript

欢迎 收听 硅谷 101, 我是 红军。 从 ChatGPT 到 特斯拉 V 12, 自动驾驶 神秘 的 大 模型 一次又一次 的 在 工程界 给 人们 带来 惊喜。 当 人们 输入 一个 数据, 大 模型 就能 直接 输出 一个 答案。 但 整个 中间 过程 是 怎么样 的, 没有人 知道, 我们 把 这个 过程 称为 黑盒。 也 正是 因为 黑盒 的 不可 解释性, 所以 A I 的 安全问题 在 当下 受到 了 很多 大佬 的 质疑。 有 一群 科学家 他们 在 尝试 去 解开 这些 秘密, 业内 称之为 白盒 研究。

今天 我们 邀请 到了 加州大学 戴维斯 分校 的 助理 教授 陈 渝北。 他 博士 师从 加州大学 伯克利分校 计算机 神经 科学家 bruno oth。 Housing 博士后 是从 纽约大学 的 深度 学习 专家 杨乐 坤 教授, 央视 2018年 的 图灵奖 得主, 被 业内 称为 卷积 网络 之 父, 同时 他 也是 meta 的 首席 科学家。 今天 我们 就 来 和 渝北 聊 一下 黑盒 模型 的 拆箱 进展, 以及 与 之 相对 的 白盒 模型。 也许 不用 所有的 人都 了解 黑盒 的 秘密, 但是 总要 有人 打开 它。 Hello, 渝北 你好。

你好。

然后 今天 跟你聊 这个 话题, 其实我 主要是 想 聊 一 聊 白盒 模型, 所以 你 现在 是在 研究 这 一块儿。

对 这个 方向, 其实 它的 一个 比较 大 的 目标, 就是 把 我们 现在 看到 的 这种 深度 学习, 从 一门 纯 经验性 学科 向 一个 科学 学科 来 推动。 或者说 工程 变成 科学。 其实 主要 的 一个 动力 是 来自于 这种 工程 上 的 一些 进展, 而 它的 科学 发展 相对 来讲 又 缓慢。

那 在 你 自己 做 这个 白盒 模型 研究 的 过程中, 你 有没有 发现 一些 我们 怎么 去 解释 GPT 它的 输入输出, 它 到底 是 怎么 推动 已经 出来 的 一些 研究成果。

我自己 的 工作 早期 做 过 一些, 以前 有一个 模型 叫做 词 的 嵌入 embedding, 他 可以 学到 一些 语言 的 一些 表征。 大家 当时 其实 就有 一个 疑问 说, 我们 做 任务 的 这些 性能 变 好了, 可是 是什么 导致 这个 性能 变 好了? 所以 我们 当时 做 过了 一个 非常 早期 的 一个 工作, 就 尝试 打开 词汇 的 这些 表示。

当你 把 它 打开 的 时候, 你 会 发现 一些 很 有意思 的 现象。 比如说 苹果, 苹果 这个 词, 苹果 的 这个 词, 它 有一个 机器学习 出来 的 一个 表示。 当你 把 它 打开 的 时候, 你 会 发现 你可以 找到 里面 的 一些 原 意思。 比如 其中 的 一个 意思 可能 就是 代表 一个 水果 的 一个 意思, 然后 另外一个 意思, 它 代表 甜点 的 一个 意思。 然后 你 再往下 挖下去, 你 会 找到 有一个 是 技术 和 产品, 当然 它 就 指的 是 现在 苹果公司 的 这些 iphone 这些 产品。 所以 你 就会 发现 在 所有的 这些 意思 里边, 你 能 找到 这些 原 意思。 顺着 这条路, 你 就可以 去 把 这样的 方法 延伸 到大 语言 模型 里边。

当我们 学 完 一个 大 语言 模型 以后, 我们 也可以 尝试 在 这种 大 语言 模型 里面 去寻找 它 里边 所 带有 的 一些 原 意思, 然后 尝试 去 打开。 当你 做 这些 事情 的 时候, 你 会 发现, 一个 大 语言 模型 它 有 很多 层。 在 初级 的 这些 层 里面, 它 会 出现 一个 现象 是 说 词语 的 消息。 比如说 像 在 英文 里面 有 个 词 叫做 left。

Left 这个 词 它 既有 可以 当做 是 向左转 的 这个 意思, 也可以 说 我 离开 的 一个 过去式。 那么 具体 它是 什么 意思 呢? 在 当前 这个 语境 下, 要 取决于 前后 的 这种 上下文。 所以 它的 语言 模型 你 会 发现 它 在 初期 的 几层 里面, 它 就 把 这个 词语 的 消 歧 就 做了。

在 中期 你 会 发现 有 一些 新的 意思 也可以 产生。 当时 我们 觉得 一个 很 好玩的 一个 意思 是 他 就 做 一件 事情, 他 就 做 单位转换。 一旦 你说 多少 的 公里 变成 英里 这个 转换, 然后 一旦 你说 多少 的 温度 从 F 就是 华氏 变成 摄氏度 的 时候, 它 就会 被 激活, 就是 这个 意思, 会 被 打开。 所以 当时 我们 觉得 这就 很 有意思, 你可以 顺着 这个 路 找到 很多 相似 级别 的 这种 原 意思, 然后 你可以 再 往上走。

再 往上走 的 时候, 你 甚至 会 发现 有 一些 原因, 它 只 检测 一种 规律。 这种 规律 就是说 当 你的 这个 上下文 里面 出现了 一个 重复 的 一句话 的 时候, 或者 重复 的 一个 意思 的 时候, 它 就会 被 激活。 比如说 在 星空联盟 的 这个 广播 里面, 当 你说 广播 播放 了 两遍, 你 就 发现 这个 意思 它 被 激活 了。 然后 或者说 你说 在 歌词 里面, 我 重复 了 一句 歌词, 它 也会 被 激活。 所以 就是说 你 会 用 这样的 方式 可以 去 打开 大 语言 模型 以及 小 语言 模型, 对 吧? 当然 这些 思路 也 并 不完全 是 新的, 它 在 视觉 的 模型 里面 其实 已经 有 相当 的 历史 了。 就 比如说 从 马苏 zala 开始 就是 有 一些 这样的 探索。

那 顺着 这个 思路 是不是 如果我们 知道 了 它 部分 是 怎么 运作 的, 我们 可以 从 工程 上 对它 有 很多 的 优化。

对 这个 是一个 非常 好的 问题。 我 其实 觉得 理解 的 比较高 的 标准, 或者 是 说 做 任何 的 理论, 它的 一个 比较高 的 要求 是 可以 指导 实践。 所以 在 我们 当时 做 这种 语言 模型, 还有 词汇 的 表征 的 时候, 其实 当时 也有 一个 目标。 就是说 当我们 理解 以后, 我们 能不能 反过来 优化 这些 模型, 其实 是 可以 的。

就 比如说 举 一个 例子, 如果你在 这种 大 语言 模型 里面, 你 找到 的 一个 原 意思。 这个 原 意思 他 可能 当 他 看到 某 一种 原 意思 的 时候, 他 就会 激活。 那 这个 东西 它 这 一个 神经元 它 就可以 被 作为 一个 判别 器, 你 就可以 用 这个 东西 来做 一些 任务。 当你 找到了 这么 多 原 意思 以后, 你可以 通过 对 这些 原 意思 的 改变。 改变 之后, 你 就 会说 我 这个 模型 以前 它 有 一些 这样的 一个 bias, 或者说 这样的 一个 偏见。 然后 你可以 通过 对 这些 偏见 的 一些 调整, 如果我 能 发现 它 的话, 那 我可以 调整 它。 最近 anchor rope c 他们 做了 一个 工作, 他们 能 找到 这种 语言 模型 里面 的 一些 可能 存在 的 一些 偏见, 然后 对它 进行 一些 改变。 可能 是 可以 使 这个 模型 变得 更加 的 公平。

更加 的 安全。 然后 我 看到 去年 OpenAI 它 还有 一项 研究, 它的 那 项 研究 就是 用 GPT four 去 解释 GPT two, 看 GPT two 到底 是 怎么 工作 的。 比如说 GPT two 的 神经元 在 回答 所有 跟 美国历史 1800年 前后 的 事情 的 时候, 是 第五 行 的 第12个 神经元 会 被 激活。 在 回答 中文 的 时候 是 第十二 行 的 第13个 神经元 会 被 激活。 如果说 我们 把 它 回答 中文 的 这个 神经元 关闭 的话, 它 对 中文 的 理解能力 就会 大幅 的 下降。 包括 我们 去 看 他说 到 跟 加拿大 有关的 信息 的 时候, 就是 第二十一 排 的 这个 神经元。 但是 我们 就 看 他 越往后 的 这个 神经元, 比如说 它的 神经元 到了 2000排左右 的 时候, 那 它 整个 的 可信度 就 已经 下降 了 很多。 你 有没有 观察 到 这样 一篇 论文。

具体 这些 数字 我 好像 没有 读 到 这 篇文章。 不过 这个 方法, 我 觉得 其实 你 如果 要 仔细想 这件 事情 的话, 它 非常 像是 给 大脑 的 神经元 做手术。 就是 相当于 我 现在 如果 有了 一个 神经 的 网络。 如果 这些 网络 的 它的 意思 从 某种意义上 它 能 找到 一个 局部 的 一个 存在 的话, 它 不是 完全 分散 的, 然后 它是 相对 能够 找到 的 这个 意思 的话, 那么 我 就可以 相对 来讲 对它 进行 一些 操作。 比如说 我 把 这个 神经元 切掉 了, 那你 就可以 认为 他 这 一块 的 能力 相对 来讲 就 损失 掉了。 就是 人 其实 也是 一样的, 就 比如说 我在 人 如果 是 有 癫痫, 然后 有的 时候 做 完 手术 了 以后, 可能 会 出现 某 一些 语言 的 一些 障碍, 对 吧? 但是 其他 的 功能 不 受损 是 多少? 我 觉得 是从 原理 上 看起来。

是 相似 的。 OK, 那你 觉得 你的 研究 跟 OpenAI, 包括 anthropic 他们 大家 都在 研究 这个 大 模型 的 可 解释性, 它们 之间 有什么 区别 呢?

就是说 白合 模型 的 研究 是否 我们 将来 能 成功 这件 事情 我不知道。 因为 在 这件 事情 上, 实际上 我也 跟 我的 导师 我们 也都 讨论 过。 大家 一致 的 看法 是 说 这件 事 值得 尝试, 但是 是否 会 成功 我们 都 不知道。

如果我们 回到 这块 儿 的话, 我们 其实 是 想 理解 这个 人工智能, 并且 通过 我们的 理解 重构 它? 构建 出来 一些 从根本上 不一样的 东西。 观测 就是说 从 解释性 这个 我 觉得 只是 一种 手段。 就是说 打开 这种 模型 也好, 我 做 这些 实验 也好, 我 尝试 去 根据 我 打开 的 这些 东西 来 对我 的 这些 模型 进行 一些 调整 也好。 我 认为 这个 都是 我们在 理解 过程中 所谓 的 一些 尝试 的 一些 手段。

但是 我 觉得 真正 重要 的 一个 白盒 模型 的 它的 本质, 实际上 要 回到 这个 信号 的 本身。 因为我 不管 是 人脑 也好, 还是 机器 也好, 他们 学习 的 本质 是因为 这种 信号。 我们 这个世界 中 存在 一些 结构性, 他们 也要 通过 这些 结构 来进行 学习, 学 的 也 正是 这些 结构。 那么 我们 是否 可以 找到 这些 结构 背后 的 规律, 以及 表示 他们的 一些 数学工具, 然后 把 这些 东西 进行 重组, 构建 出来 一个 不一样 模型。 如果 这件 事儿 可以 完成 的话, 我想 可能 可以 带来 的 一个 希望 是 说, 我们 可能 会提 我们的 系统 的 鲁棒性 也好, 安全性 也好, 可信度 也好。

但是 还有 一点, 其实我 觉得 是 如果我们 看 历史 的话, 最 重要 的 一点, 可能 它的 efficiency, 也就是说 它的 效率 会 提高。 这个 例子 多少 有点 像是 一个 以前 我们 一开始 是 这种 蒸汽机 先 出来 的, 后来 才有 了 这些 热力学 这种 理论 出来 了, 才能 支撑 把 它 从 一门 完全 的 工匠 的 学科 变成 了 一门 科学。 同理 到 今天 来讲 的话, 我们 现在 就 好像 我们 第一次 在 数据 上 有了 我们的 蒸汽机 一样。 我们 从 以前 不 理解 我们的 数据, 终于 可以 开始 做出来 一些 A I 的 这些 算法, 把 数据 中的 规律 给 抓 出来。

所以 它 会 更 节能。

你 要是 说到 节能 的话, 我可以 给你 几个 有意思 的 例子。 第一个 数 是 说 肯定 是 节能, 因为 大脑 它 相当于 一个 基本 是 20瓦的 功耗 的 一个 灯泡。 我们 现在 的 超级计算机, 它 可能 要 超过 百万 瓦。 它 这样的 一个 功耗, 首先 这是 节能, 对 吧?

第二点 是 说, 如果我们 看 自然界 的 各种各样 的 这种 生物, 大自然 进行 演化 的 时候, 它 演化 出来 的 这个 生物, 它 其实 效率 非常 的 高。 比如说 我们 举 个 例子, 像 有 一种 生物 叫做 jumping spider, 它是 一种 特殊 的 蜘蛛。 这个 蜘蛛 它 只有 几百万个 神经元。 但是 你 如果 看 它的 在 世界 中的 这些 行走 的话, 它 其实 是 可以 做出 非常复杂 的 三维 的 裙 线 去 捕捉 它的 猎物。 比如 你 在 一个 很 复杂 的 一个 草丛, 然后 这边是 它的 猎物, 他 可能 要 分析 整个 的 结构, 然后 他 发现 我应该 先 从 这儿 下去, 然后 再从 这边 走过来 再上去, 对 吧? 他 要 能 理解 这种 三维 的 结构 的, 然后 达到 它的 猎物。 他 有 这么 强 的 能力, 还要 控制 自己 的话, 他 只有 几百万个 神经元。

我 其实 觉得 最 有意思 的 一件 事儿, 实际上 是人 对于 数据 使用 的 效率。 我 觉得 这个 很 有意思。 你看 我们 现在 A I 在 过去 其实 不 长 的 时间, 对 吧? 就是 大概 也就 12年 这个 样子。

一二年 是从 哪一年 开始 的?

14年 我们 我 觉得 从 image net 我 觉得 可以 作为 一个 分水岭。 因为 image 多少 可以 认为是 一次 对 数据 大范围 的 一次 尝试。

就是 竖 的 那个 项目。

对对对, 是的。 很多人 说 就是 把 A I 的 发展 的 这个 年, 它 断 到 叫 alex net, 就是 alex net 出来 那一年, 也就是说 在 一美 之 战 上 它的 性能 提高 上去 了。 但是 我 其实 更 倾向 于 看到 的 是 说, 在 这 之前 2010年 的 时候, 这个 数据 其实 从 原来的 小 数据 变成 大 数据 了。 这个 是一个 分水岭。 在 这 短短的 十几年 里面, 它 取得 的 进展 其实 是 巨大 的。 到 今天 来讲, 我们的 这种 大 语言 模型, 比如说 lama three, 我 印象 中 他 现在 可能 也 变得 数据量 更大 了。 那 应该 是 13个trAiling 的 这个 token。

但是 如果你 想 人 在 自己的 一生 当中, 就是 在 你的 成年 之前, 你到底 能 接受 多少 的 数据 呢? 不管 是 图片 也好 还是 文字 也好, 我 认为 这个 magical 的 比较 神奇 的 数字 是 十个 building。 就是你 假想 这样 我 每秒钟 都 可以 获得 30帧图像, 那么 这 30帧图像 的话, 你 1个小时 有 3600秒。 你 每天 假设 那你 这样 做 12个小时, 然后 你 做 20年, 那你 得到 的 大概 就是 十个 病例。 同样 的话, 我可以 不间断 的 在 做 阅读, 对 吧? 我 每秒钟 我可以 阅读 30个token, 大概 十个 词 这个 样子。 我 阅读 也是 像 刚才 那样, 阅读 20年 的话, 我 得到 的 也是 十个 病例。

那 问题 来了, 就是说 人是 如何 通过 如此 少量 的 一个 数据, 看似 少量 的 数据 跟 大 模型 比是 已经 很少 了 对 吧? 一样 这样的 一个 数据 获得 如此 强 的 一个 泛化 的 能力? 我 觉得 这个 是 又是 一个 efficiency 里面 最 让 我 觉得 神奇 的 一点。

那你 觉得 我们 去 揭开 大 模型 到底 是 怎么 运作 的, 跟 揭开 人脑 是 怎么 运作 的 哪个 更难? 我 听起来 都 很难。

这 两者 它 各有 各 的 难 法, 我 觉得 他的 方法 上 是 相似 的对 吧? 就是 不管 是 人脑 也好, 大 语言 模型 也好, 我 都是 我 尝试 去 观测 他, 看 他 对 什么 产生 了 响应。 这个 方法 我 其实 觉得 从 hobo and vessel, 就是 当时 他们 得 诺贝尔 生理学 奖。 他们是 研究 在 视觉 皮层 里边 的 这种 叫做 simple cell。 就是 人的 这种 视觉 皮层 大概 就是 在 后脑 的 时候 这个 地方, 然后 从 眼睛 过来 经过 中间, 然后 再 传到 后边 的 这个 诊 业。 他们 找到了 这样的 这种 simple cell, 并且 尝试 研究人 看到 什么东西 的 时候, 这些 神经元 它 会 产生 冲动。 然后 他 就可以 分析, 我 让 你看 不同 的 东西, 看你 有的 时候 完全 不 响应, 有的 时候 他 非常 的 高兴 这个 神经元。 我 就 想知道 你 看到 什么东西 能 最佳 的 让 他 兴奋。 他们 就 找到了 这个 神经元 的 receptive field。

我们 今天 来 研究 这种 大 语言 模型 的话, 其实 也是 相似 的。 我们 就 来 找 这种 不同 的 输入, 让 我们的 大 语言 模型, 我们 尝试 理解 它 内部 的 哪些 神经元 是对 哪些 输入 感兴趣, 对 吧? 其实 是 相似, 只不过 它 有 个 区别。 第一个 区别 我 认为是 对于 大 语言 模型, 我们的 优势 是 我们 其实 所有 东西 我们 都 可以 观测, 并不是 受限于 我们的 观测 手段。 对于 人脑, 你 就有 很多 的 受限 手段。 你 以前 是 可以 插 一个 电极, 然后 后来 你可以 插 一个 电极 上面 比如 12个电极.

再 后来 就 脑机 接口 的那。

一套 是 对对对, 是的。 然后 现在 你可以 比如 插上 几百个 这样的 上 千个 的 这种, 但是 你 毕竟 你的 观测 手段 是 受限 的。 不管 你是 用 F M I 还是 用 不同 的 这种 neo pixel, 这种 侵入 式 的 非 侵入 式 的, 他们 各有 各 的 局限。 所以 它 语言 模型 给你 一个 天然 的 好处, 就是说 你的 观测 手段 不再 受限 了。 如果你 有 更好 的 方法, 你 就可以 尝试 去 分析。 甚至 你 还 可以 整个 的 模型 还是 可 微 的对 吧? 你可以 通过 一些 微分 的 方法 来 进一步 的 分析。

但是 它的 缺点 是 大 语言 模型 的 能力, 我 认为 还 远远 不及 大脑, 尤其是 这种 大 语言 模型。 如果我们 给他 一个 例子 的话, 它 只从 这种 语言 里面 来 学习 这个世界, 他的 对 世界 是 理解 是 不完整 的。 就 觉得 好像 是 说 一个人 他 没有了 其他 的 感官, 只有 语言。

大脑 处理 的 是 更 多维 的 信号, 对不对? 他 除了 语言 还有 嗅觉 非常 多。

对对对, 听觉 对, 就是说 他的 这种 感官 的 丰富 的 程度, 他 对 世界 的 理解, 很多 的 时候 甚至 有的 时候 我们 可能 会 想 一个 问题, 就是说 语言 是否是 完备 的。 如果 没有 其他 感官 的 支撑 的话, 语言 里边 是不是 所有的 概念 都 可以 独立 的 存在? 还是 说 它 一定 需要 其他 感官 作为 支撑, 你 才有可能 说来 最终 的 理解 那 一部分 的 意思。 就 比如说 我 举 个 例子, 我说 在 语言 里边 我可以 说 冰箱 这个 东西, 你 如果 不和 现实 的 这种 世界 构成 一个 这种 冷热 等等 的。 当然 你可以 通过 冷热 的 这种 方法, 它 有门 的 这个 东西 来 描述 这个 冰箱 这种 通过 它 这种 统计 特征。 但 也许 这种 描述 永远是 不 完备 的, 但 具体 是不是 完备 的 我也不知道, 我 感觉 是 不 完备, 但是 我 也没有 办法 去 把 它 完全 的 用 数学 证明。

或者 所以说 其实 现在 整个 大 模型 跟 大脑 相比, 它 还是 欠缺 非常 多层 的。 但是 因为 我们 可以 看见 的 更多, 可以 把 它 拆开来 研究。 所以 我 综合 你的 观点, 就 你 觉得 他 还是会 比 揭开 大脑 的 秘密 的 这个 野心 稍微 更进一步 的。

理解 大 语言 模型 它的 难度 当然 就在于 你 观测 的 手段 多, 你 可能 能 对他 理解 的 更加 多一点。 我的 感觉 是 这样 的对 吧? 有 两台 机器, 一台 机器 你 完全 可 观测, 一台 机器 部分 可 观测。 我 从 直觉 上 来讲 是 一些 完全 可 观测 的这 台 机器 更容易 被 理解。 当然 他 有 一些 能力 是 这 台 机器 没有, 所以 不能 取代 对 人脑 的 一些 理解。

对我 跟 听众 简单 介绍 一下, 渝北 之前 是 学 neuroscience 的, 所以 也是 懂 非常 多 神经科学 相关 的 知识。 其实我 挺 好奇, 就是你 觉得 之前 你 学 的 这个 学科 背景, 包括 我们 对 整个 神经科学 的 研究, 对 现在 你来 做 A I 方向 的 研究会 有什么 帮助 吗? 或者说 他 会不会有 一些 跨学科 可以 相互 借鉴 的 研究方法 在 里面。

对我 我 学 过 一些 计算 神经科学, 但是 我是 个 半吊子。 我 其实 一直 也 不是 专业 学 计算 神经科学 的。 因为 本科 的 时候 在 清华 是 电子系, 在 伯克利 的 时候 其实 是在 伯克利 a research 也是 电子 工程 计算机系。 然后 还有 一些 纯数学 的 一些 背景。 我 当时 我 所在 的 那个 研究 的 研究所, 他是 一个 理论 神经科学 的 一个 研究所, 所以 我 导师 自己是 计算 神经科学 的 专家。

刚才 的 这个 问题 说 计算 神经科学 也好, 神经科学 也好, 对于 我们 研究 A I 有什么 不一样的 帮助? 我的 感觉 是 说, 对于 我 来讲 的话, 这种 帮助 通常 来讲 是一种 启发。 因为 当 你知道 自然界 的 这些 系统, 有的 时候 你知道 它 可以 做到 什么的 时候, 或者 它 面临 的 一些 情况 是 什么样 的 时候, 你 可能 会有 不一样的 想法, 会 重新 看待 我们 眼前 的 这个 问题。

我可以 举 几个 例子, 这 几个 例子 很 好玩, 就是说 我们 现在 习以为常 的 一张 图片。 这 张 图片 的话 它是 一个 像 二维 的 一个 输入 信号, 它 有 很多 的 pixel 像素。 这个 像素 它 会 分 有 横向 的, 有 纵向 的, 然后 它 形成 一个 网格。 但 如果我们 看 人眼 的话, 你看 人眼 的 视网膜 的话, 它 不是 长 这样的。 首先 它的 这种 不同 的 感知 的 这种 接受器 感受器, 它是 可以 非常 密集, 但 又 不是 非常 规则 的 方式 排布 的。 而且 它 中间 非常 的 细密, 向 两边 的 时候 会 变得 稀疏。 当时 你 面对 这样的 一个 输入 信号 的 时候, 你 会 想 首先 一个 问题 说 我们 习以为常 的 这些 卷积 神经网络 什么的 这些 东西 所有的 这些 东西 都 失效 了。 因为 连 卷积 在这里 都 没有 定义, 所以 当你 看到 生物 系统 它所 面临 的 这样的 一种 情况 的话, 你 会 重新 去 想 我们 所谓 的 这些 卷积 到底 从何而来。

所以 你 会 重新 去 想 你的 方法 是不是 对的, 是不是 一定要 以 这种 方式 来 实现。

对, 假设 你 第二天 你 醒来 的 时候, 所有的 神经元 都 打乱 了, 然后 你 还能 再去 理解 这个世界 吗? 就是你 因为你 已经 不 看到 的 已经 不再 是 一张 图片 了, 你 也 不能 再 用 卷积 神经网络 来做 这件 事情 了。 那你 怎么 去 理解 这个世界 呢? 你 需要 什么样 的。 方法 其实 还是 可以 的, 我们 没有 完全 解决 这个 问题。 但是 我 觉得 做了 一步, 还 挺 有意思 的。

这个 是 怎么做 的 呢? 你 就可以 说, 虽然 我的 所有的 神经元 都 打乱 了, 就是 我们的 感受器 图像 里面 的 这些 像素 打乱 了。 可是 相邻 的 这些 像素 他们 有 一些 关系。 比如说 我们 看 图像 里边 的话, 我会 发现 如果 一个 像素 是 红 的那 周围 的 像素 也 更 可能 是 红 的这 是 他们 统计 上 的 一些 关系。 那么 通过 这种 关系, 你 就可以 去 让 这些 像素 他们 重新 去 找朋友。 然后 你 就可以 把 相似 的 这种 像素 让 自己 自 组织 成 一些 关系 这样 东西。 然后 这个 时候 你 再加上 我们的 大 语言 模型 的 这个 里面 的 这种 transformer 这样的 结构, 你 就可以 重新 的对 这种 图像 做出 一个 表示, 而且 这个 表示 的 最后的 它的 性能 还 不错。 这个 就是 一个 具体 的 一个 例子, 就是说 完全 就 是从 一个 自然 的 一个 启发。 我们 重新 去 审视 我们 现在 一些 工程 上 的 一些 做法, 然后 提出来 一些 不同 的 方法。

对 感觉 整个 研究 A I 大 模型 跟 看 人脑 跟 神经科学 是 怎么 运作 的, 还是 有 很多 相似之处 的。 我 好奇 会有 神经 科学家 从 他们的 这个 角度 来 研究, 跟 你们 产生 这种 跨 领域 的 合作 的 吗?

其实 有 很多 的 神经 科学家 以及 统计学家, 然后 数学家 他们 想要 理解 自然 信号 中的 一些 结构, 同时 也会 关注 大脑 中的 神经元 它们是 如何 运作 的。 然后 把 这 两者 结合 在一起, 尝试 去 提出 一些 极 简 的 对于 信号 的 一些 表示。 举 一个 例子, 就是说 在 大脑 里面 你 会 发现 有一个 现象, 就是说 这个 神经元 虽然 很多, 但是 同一时间 在 工作 的 这些 神经元, 就是 兴奋 的 这些 神经元, 它 其实 是 非常 的 稀疏。 也就是说 比如 我给你 100万个 神经元, 可能 几千个 他们 在 工作。

这 里面 的 问题是 说, 他们 到底 学 了 一个 什么东西? 其实 早年 的 时候, 神经科学 这边 就 提出来 一个 方法, 就是我 当时 导师 他们的 参与 研究 这个 工作 叫做 稀疏 编码。 稀疏 编码 当然 它 不仅仅是 一个 神经学 方面 的 一些 看法, 同时 它 在 统 经济学家 也 在 同期 在 提 相似 的 一些 思路。 也就是说 在 这种 高位 信号 中, 我们 能不能 找出 一些 稀疏 的 低 维 的 一些 表示。 从 这样的 思路 出发, 你 就 构建 出来 的 一个 算法, 它 也会 学 出 一个 神经元 它的 表示。 然后 你 会 惊奇 的 发现, 你 学 出来 的 这个 表示, 它 和 你 在 大脑 里面 观测 到 的 这些 神经元 的 这些 表示 非常 的 相近。 所以 这个 是 当时 计算 神经科学 的 一个 早期 的 算是 无 监督 的 一个 成功。

我 觉得 到 今天 来讲 的话, 我们的 整个 的这 一只, 我 管 它 一个 名字 叫做 自然 统计 信号 的 研究, 叫做 natural signal statistic。 它的 目标 就是 揭示 信号 背后 的 一些 基本结构。 它的 发展 其实 相对 来讲 挺 慢 的。 你 会 和 这种 大 模型 它的 进展 来看 的话, 你 会 发现 大 模型 的 进展 非常 的 快。 但 相比之下, 这种 白盒 模型 这类 的 神经科学 的 结合, 它 相对 来讲 走 的 慢 一些。 我 其实 觉得 一方面 可能 是因为 问题 复杂, 但 另一方面 也 是因为 投入 这个 方向 的 人 比较 少。

简单 来说 就是 研究 白盒 模型 的 人 太少 了。 但是 像 我们 之前 研究 的, 比如说 传统 的 机器学习 的 这种 算法, 线性回归、 决策树 等, 我们 都 可以 理解 它是 白盒 模型。 简单 来说, 在 大 模型 出现 以前, 我 可不可以 理解 成 整个 传统 的 机器学习, 它 可能 就是 属于 白盒 模型 的 范畴。

我 觉得 这个 说法 可以 认为是 对的。 就是说 以前 的 这些 机器学习 的 模型 相对 简单, 你 都 相对 来讲 可以 理解。

他们 类似 于 现在 我们 看到 的 这些 大 模型, 包括 扩散 模型, 他们 其实 是 可以 算作 属于 是 黑盒 模型 的。 为什么 说 现在 整个 的 黑盒 模型 看起来 它 在 研究 跟 进展, 甚至 在 表现 跟 大家 的 观感 上, 对白 盒 模型 它是 实现 了 一个 弯道 超车。 就 为什么 它 打击? 对对对, 为什么 他的 速度 可以 快 这么 多?

这个 问题 你 问 出来, 我们 就 先是 紧张 一下, 对 吧? 然后 再 回答 我 为什么 紧张 这个 问题, 就是 因为 它 很 尖锐。 其实 这个 问题 就是说 是不是 白盒 模型 或者说 可以 理解 的这 条 路径 我们 应该 放弃 了 呢? 就是说 我们 是不是 在 A I 的 研究 上, 从 我们 这个 时代 开始, 我们 已经 不再 研究 科学 了。 就是说 它 从 以后 全都 变成 一个 经验性 学科 呢? 我 觉得 还 不是。

但 如果 回到 你 刚才 的 这个 问题是 说到底 发生了什么? 在 这个 过程中, 为什么 现在 这种 黑盒 模型 往前 跑得快, 而 白盒 模型 跑 的 不够 快? 我 认为 首先 一点 就是说 黑盒 模型 的 包袱 少。 你 既要 这个 方法 可以 工作, 可以 work, 然后 你 同时 又要 这个 方法 可以 解释 你 有 两条 要求。

那 他 放弃 了 一条。

放弃 了 一条 我可以 让 他 工作, 这 一条 是一个 非常重要 的 一条。 第21个 我 认为 一个 很大 的 一个 被 大家 所 忽视, 相对 来讲 甚至 被 很多 科学家 所 忽视 的 一个 东西。 我 认为是 数据 的 逆势 增长 或者说 规模 扩大。 我 认为 这个 在 过去 的 十几年 来讲, 甚至 有一个 我记得 Richard sutton 写 了 一篇 博客 文章, 他 就 讲 叫做 bitter lesson, 一个 痛苦 的 教训。 它 里边 提到 了 一个 事情, 就是说 在 过去 的 20年 里面, 有一个 一直 没有 被 打破 的 一个 东西。 就是说 当我们 有 更多 的 数据, 当我们 有 更多 的 计算, 你 总是 应该 找 一些 比较 能够 真正 扩张 的 一些 算法。 它 能够 把 所有的 数据 的这 规律 找进来。 我 认为 这个 是 黑盒 模型 里边, 或者说 我们 现在 的 经验性 的 这种 进展 里面 很大 的 一条。 就是说 我们 有 更大 的 数据 更好 的 数据, 更多 的 计算, 更大 的 模型, 然后 我 就能 学 的 更多。 但是 我们 回到 这个 问题 的话, 你可以 想 白盒 模型。 你说 这个 里面 大家 有一个 追求 是 说 我想要 做出来 这个 模型, 它 要 简洁性, 然后 他 要 这个 模型 本身 要 简洁。

为什么 白盒 模型 要 简洁性? 我 是不是 可以 理解 成 如果 它 过于 复杂, 你们 要在 中间 加 的 东西 会 更多, 然后 它 就 很难 被 设计。

对我 其实 觉得 做 理论, 你可以 只有 简洁 的 东西 才 可以 被 理解, 对 吧? 你 肯定 是要 做 一次一次 的 简化。 但是 如果你 考虑到 这种 skilling law 这件 事情 的话, 你 会有 一个 问题, 就是说 当我们 在 追求 模型 的 简洁性 的 时候, 可能 会 做了 一次又一次 的, 在 英文 里面 叫做 over simplification 过度 简化。 就是 一旦 你 出现 这种 过度 简化 的话, 你的 模型 就 无法 完全 的 刻画 数据 的 形态。 那么 数据 更多 的 时候, 你的 模型 就 更 无法 刻画 它的 形态。 那你 就会 出现 将来 这个 模型 就 走 不 下去 了, 它的 能力 会 被被 限制住。 所以 我 认为 这是 以前 大家 在 研究 白盒 模型, 在 研究 简单 模型 相对 来讲 面临 的 一个 困难。

我 不仅仅 要 带着 那个 包袱, 我 这个 模型 需要 工作, 同时 我 还需要 它 可 解释, 同时 我 还需要 它 简 协。 当你 把 所有的 这些 东西 带上, 你 会 发现 这个 包袱 太重, 有点 走不动。 然后 它 你 会 引入 错误, 对 吧? 当你 做 过度 简化 的 时候, 你 就 引入 了 错误, 错误 会 积累, 再 后来 就 走不动 了。

但是 现在 黑盒 模型 发展 的 很快, 然后 我们 又 开始 尝试 去 解决 它。

对 这次 如果我们 在 解决 它的 时候, 你 可能 就会 重新 来 审视 这个 问题。 就是说 我们 不一定 需要 让 这个 模型 完全 的 简化 到 那个 程度, 它 还是 能够 表示 这个世界 比较复杂 的 一面, 但是 你 还是 要 知道, 我们的 包袱 还是 很 重要。 希望 他 工作 同时 希望 他 还是 比较 可以 理解 的, 还是 希望 它 有 相对 来讲 简化。 所以 我 认为 如果有一天 我们 可以 做到 白盒 模型 的话, 在此之前, 我 认为 每一次 的 尝试 都是 一次 过度 的 简化。 但是 我们 希望 每一次 简化, 每 走 一步 都能 往前走, 我们 甚至 不需要 完全 做出 一个 白盒 的 模型。 也许 我们 可以 做出 一个 白盒 的, 但是 没有 大 模型 那么 强 的 模型, 但是 也很 强 做到 一个 相对 来讲 不错 的 模型, 但 同时 它 又 相对 来讲 非常 简 也 非常 简化。

同时 还要 保证 功能, 对 部分 功能 是 部分 功能 部分 功能。

它 对于 我们 理解 的 学习 背后 的 本质 是 有 帮助 的。 同时 这种 理解 可能 能 反过来 又 让 我们 对 大 模型 的 训练 什么的, 它的 效率 也会 上去。 因为 我们 要 回到 这个 效率 这个 问题, 这个 也是 我 跟 一样 之前 讨论 过 几次 的 事情。 就是说 如果我们 发展 这个 背后 的 理论, 最后 我们 就 可能 可以 让 我们的 工程 的 这种 实践, 它 以 数量级 的 方式 效率 上升。

所以 杨乐 坤 他的 观点 是什么? 他是 更 希望 发展 白盒 模型 还是 黑盒 模型?

如果 是 在我看来 的话, 我 跟 漾 聊过 这个 事情。 我 认为 Young 他是 一个 科学家, 但 同时 他是 一个 以 工程 方面 所 著称 的 一个 科学家。 所以 他的 很多 的 尝试 还是 要 走 第一步, 要 让 这个 东西 工作 起来。 但是 作为 白盒 模型 的话, 我 认为 这件 事情 是 一样 支持, 但是 他 也 不知道 能不能 走 通 的 一个 方向。 比如说 我 跟 他 讨论 完, 他 会 觉得 这条路 值得 探索, 但是 是否 能 实现 呢? 他 也 不知道。

就 一个 过于 有 野心 的 目标。

总要 有人 做 的。

是的, 而且 感觉 白盒 模型 就像 你说的 黑盒 模型, 它是 一个 类似 于 工程 问题。 白盒 模型 它是 一个 科学, 你 必须 用 科学 解释 它, 感觉 它 对 商业化 或者 应用, 它 在 你 真正 能 出 成果 以前, 他 看 投入产出比 不是 那么 高。 但是 如果你 最终 能 做出来 这个 东西, 我 觉得 对 A I 的 安全性, 包括 我们 说 最终 对应 到 它的 商业化 还是 很 有 价值 的对。

商业化 这件 事情, 其实我 认为 所有 做 基础 A I 研究 的 人, 首先 他 工作 的 初衷 不是 以 任何 的 应用 为 初中。 它是 一个 对于 智能 这个 问题 一个 比较 纯粹 的 一个 好奇心 来 驱动 的。 紧接着 你 可能 会 发现 它 有 一些 应用 在 这 上面。 比如说 这个 中间 的 一些 过程, 你 所 发现 的 一些 规律, 它 反过来 可能 能 帮 到 你 在 工程 的 实践。 但是 你 由于 这个 研究 本身 它 并不是 为 某 一种 应用 所 设计 的, 所以 它 并不是 一个 那种 直接 的 关系。

举 一个 例子, 那你 正常 来讲 做 无 监督 学习 的话, 你 可能 会 需要 训练 很多 个 e poc 就是 它 训练 一遍。 我们 现在 就可以 问 一个 比较 疯狂的 问题, 就是说 我们 能不能 所有的 数据 只 看一遍, 能 学 多少 是 多少? 这个 时候 你 会 怎么办? 如果你 这个 时候 不知道 学习 的 背后 的 它的 一些 基本 的 一个 原理 的话, 那你 可能 就 不容易 达到 一个 比较高 的 效率。 我们 当时 也 做 过 一些 这样的 尝试, 你 会 发现 其实 当 你知道 背后 他在 学 什么的 时候, 你是 有可能 数据 只 看一遍, 然后 也 学 得 非常 好的。 虽然 他 没有 完全 把 这个 区别 消除, 但是 它 其实 可以 比 你 正常 不了解 这个 原理 的话, 它的 效率高 了 很多很多, 它的 区别 是 很大 的。

还有 一点 的话, 我 认为 说 当我们 在 追求 这种 白盒 模型 这个 过程中, 还是 极致 的 这种 效率 的 过程中 的话, 你 会 回来 追问 这个 问题。 就是说 我们 现在 做 的 这个 大 语言 模型, 是不是 只 通过 这种 规模化 或者 skin law 这 一条路 走下去 就可以 了。 我 认为 其实 还 是不是 的, 因为 人 他 其实 是 做不到 接受 这么 大量 的 数据。 那 如何 用 少量 的 数据 还能 获得 比较高 的 泛化 能力, 这个 也是 我们在 研究 的 一个 重要 的 问题。

我 觉得 这个 也是 黑盒 模型 的 学者 在 研究 的 一个 问题。

对对对。

大家 都在 研究 是是是, 那 现在 白盒 模型 它 有 哪些 学者 跟 流派 在 研究 这个 事情 呢?

白盒 模型 的话 我 其实 觉得 就是 看 A I 的 3股力量。 第一股 力量 的话 就是说 我们在 研究 大 语言 模型, 研究 这些 工程 模型 的 过程中, 我们 可以 会 产生 的 一些 经验, 然后 我们 可以 对它 进行 一些 可视化, 这个 我 认为 就是 一种 流派。 Anthropic 最近 OpenAI 他们 也 参与 在 做 的 这些 事情, 然后 对它 进行 可视化 之前 就 做了 一些, 然后 现在 又 做 的 更多, 这是 其一。 其二 的话 就是 计算 神经科学 这边, 神经科学 这边 我们 要 尝试 对 人脑 进行 理解。 然后 在 人脑 里面 比如 找到了 视觉 和 语言 的 他们 交叉 的 一些 区域, 找到了 一些 记忆 可能 的 存在 的 一些 方式, 找到 一些 层次化 表示 的 一些 迹象, 这 是一种 流派。

还有 一种 流派 是从 比较 数学 的 角度 来 出发, 比较 统计 的 角度 出发。 我们 问 的 一个 问题 就是 信号 的 基本 的 结构 是什么? 大家 研究 的 甚至 我们会 追问, 比如 3乘3的1个 像素 空间, 它 长 什么 样子? 它的 形状 是 什么样 的? 然后 去 追问 这个 信号 本身 背后 的 这个 结构, 这是 三种。 然后 在 这个 之间 还会 产生 很多 的 交叉。

你 属于 哪 一派?

其实 这 三派 我 都 或多或少 的 有 受到 一点 影响。 因为 之前 在 伯克利 的 时候, 跟 我的 导师 以及 马毅 老师 他们 都 属于 多少 有点像 计算 神经科学 和 数学 统计 的 这个 流派。 然后 在 一样 这边 是 工程 这边 受 的 训练 多一点, 所以 这 三种 方法 我也 觉得 都 可以 接受。 因为 它 最终 都会 让 我们 往 同样 的 一个 方向 前进。

同样 的 方向 是 哪个 方向? 现在 有 阶段性 结果 吗?

最终 就是 理解 这个 模型, 之前 有 一些 阶段性 成果, 就 比如说 我们 能不能 做出 一些 哪怕 是 两三层 的 一个 网络, 然后 它 还能 表示 把 这些 比较 高层 的 这些 概念 学 出来。 那每 一层 我们 都 可以 看 他 学 的 是 什么东西, 最后 你 发现 真的 可以 做到 一个 数字, 你 要 想 表示 它它 你 会 把 它 一个 一个 的 笔画 全都 学 出来。 笔画 之间 就 这些 相似 的 笔画, 它们 可以 把 它 联系 在一起。 在 这个 之上 你 就可以 构建 出来 下一个 层次 的 一个 表示, 就像 这样的 一层 一层 的, 最后 找到了 数字 的 这样的 一个 概念。

有意思。 那你 现在 的 这些 研究会 继续 有 真正 的对 黑盒 模型 产生 优化 吗?

黑盒 模型 优化 的话 也会 有一个 是 就是说 当你 对 它的 理解 加深 了 以后, 你 可能 会 比如 优化 这些 黑盒 模型, 让 它的 效率 变 高。 第二个 是 说 可以 让 不同 的 黑盒 模型, 你可以 把 它们 统 一起来, 这样的话 你就是 减少 了 很多 不必要 的 浪费。 同时 我 觉得 还有一个 涉及到 我 这个 实验室 的 另外一个 支柱性 的 工作, 就是 要 给 研究 不仅仅是 感知, 但是 还有 控制。 就是 当你 给 了 这些 大 语言 模型 也好, 给 这些 不同 的 model 它 能够 和 世界 交互 的 这个 能力 的 时候, 这个 过程 能不能 让 他的 整个 的 学习 的 效率 变 高。

然后 之前 我们 做 过 一些 很 好玩的 一些 尝试, 就是 比如说 在 控制系统 里边, 你 能否 获得 同样 的 泛化 能力。 但是 这个 是什么 意思 呢? 就是说 在 感知 系统 里面 你 会 发现, 我 学 了 苹果, 我 学 了 离, 然后 来 一个 桃子。 由于 我 之前 学 了 一个 相似 的 苹果 和 梨 的 概念, 你可以 很快 就 学会 桃子 的 这个 概念。 那么 在 控制 的 领域 的话, 你 能不能 达到 相似 的 性能? 比如说 我 现在 这个 机器人, 它 学会 了 向前走, 然后 我 学会 了 原地 跳跃。 那 我 能不能 很快 一 变, 就 把 它 变成 了 一个 向前 一边 跳 一边 走 的 一个 机器人。 就是 有 这样的 一种 控制 的 泛化 能力, 这是 我们 之前 做 的 一个 比较 好玩的 一个 工作。

综合 来说, 如果 让 你 给 一个 结论 的话, 你 觉得 白盒 模型 的 研究 到 我们 现在 去 解开 这个 大 模型 它是 怎么 运作 的, 这个 秘密。 它 大概是 一个 什么样 的 进度条? 它的 进度条 到哪里 了?

它的 进度条 我 都 不知道 这个 进度条 有 多长。 我 感觉 我们 距离 这个 目标 其实 很远。

就 可能 是 还在 one percent。

它 其实 有的 时候 发展 它 不一定。

是一个 线性 的对 吧?

然后 它 可能 是一个 这种 比较 像 量子 的 这种 跳跃。 当你 有一个 什么东西, 你 一个 新的 一个 认知 出来 以后, 你 可能 会 马上 往前走 一大步。 我 倒是 觉得 我们 有可能 能够 做出 一个 比较 强 的 这种 模型, 完全 可 理解 的。 但是 他 复现 当时 的 像 比如 alex N E T 这样的 performance 或者说 理解。

就 还是 要 看 你的 阶段性 目标 是什么。 对。

看 你的 阶段性 目标 是什么。 如果你 想做 一个 白盒 的 ChatGPT, 我 认为 这个 还 挺 远 的。 但是 你 如果说 我们 要是 想 做出来 一个 还 不错 的 这种 模型, 我 觉得 这个 还是 非常 有可能 的。

就是 根据 我们 还 不错。

的 白盒 模型。

比如说 它 可以 用来 干嘛。

它 可以 就 做 这种 image net 的 这种 识别。 然后 我们 可以 理解 它 里边 的 每一步 它是 怎么做 的, 然后 它是 如何 一步一步 的 变成 了 一个 猫 和 狗。 然后 这个 猫 和 狗 它的 这个 结构 是 怎么 产生 的。

就 image net 的 识别 它 算是 白盒 还是 黑盒, 就是 我们 还没有 发现 它的 工作 原理。

是什么 过 我们 还没有 完全 发现 它的 工作 原理。 但是 我们 之前 比如 从 methow Z E eller 和 rob focus 他们 做 的 一些 早期 的 ization, 后期 的 又有 很多 的 研究者, 他们 做 的 这些 visualization 就是 观测 可视化 还是 有 一定 理解。 但是 没有人 能够 创造 出来 这样的 一个 模型, 然后 每一步 我们 都 可以 理解, 然后 他 且 还能 工作 的 不错。

所以 我 觉得 可能 目标 就 分阶段。 第一步 我们 先 解释 这个 imagine net 是 怎么 工作 的。 这个 谜底 揭开 以后, 我们 可以 再来 解释, 比如说 一些 小 模型 是 怎么 工作 的, 就像 用 GPT four 去 解释 GPT two 是 怎么 工作 的, 然后 再 慢慢的 来 解释 这个 大 模型 是 怎么。

工作 的对 对。 所以 这个 过程 我 觉得 还是 有 相当 的 一个 过程 的, 而且 也 需要 更多 的 人 来 投入到 这个 方向 上。 因为 毕竟 工程 上面 的话 现在 主要是 进展, 所以 导致 大部分 的 工作 也就 集中 在 这儿。 如果我们 放到 学校 来做 的话, 那你 其实 需要 有 一些 原创性 的 一些 想法, 而 不是说 你 去 scale 我也 去 scale, 大家 都是 skill。 最后 其实 是 没有 区分度, 就 看 谁的 机器 最好 了 和 谁的 数据 最 多了。

那 倒 也是 对, 接下来 我想 跟 你 讨论一下 你 博士后 的 导师 Young 了 抗。 虽然 在 开头 的 部分 其实我 没有 介绍 过 样, 但是 我 还是 想 给 不太 了解 的 听众 来去 介绍 一下 样 的 背景, 让 他的 中文名字 叫做 杨丽坤, 是 一名 法国 计算机 科学家。 因为 他在 深度 神经网络 概念 和 工程 上 的 突破, 他 和 gel free hinton 以及 yoh a bengel 一起 获得 了 2 0188年 的 计算机 学界 最高 奖项 图灵奖。 他们 三个人 就 被 称为 是 深度 学习 三巨头, 可以 理解 成 现在 我们在 人工智能 上 的 巨大 突破, 跟 他们的 科学研究 成果, 跟 他们的 推动 是 有 很大 的 关系 的。

Young 在 2013年, 它是 成为 了 facebook 人工智能 研究院 的 第一任 主任。 当时 facebook 是 专门 为了 他在 纽约 成立 了 一个 研究院, 现在 他 还是 meta A I 的 首席 科学家。 可不可以 给 我们 不懂 技术 的 朋友 稍微 解释一下, 让 主要 的 科学研究 成果 跟 他 为什么 这么 知名度。

杨子 坤 他 相当于 从 80年代 的 时候 就 开始 研究 神经网络 A I 这个 领域。 它 经过 了 很 多次 的 高峰 和 低谷, 高峰 低谷 也有 不同 的 学派 出现。 衰落 样 的话, 他 从 早年 他 就 选定 了 这样的 一个 方向。 他 坚持 深度 学习 网络, 他 相信 这个 一定 能 做成。 不管 他的 高峰 低谷, 他 走过 黑暗 的 人。 所以 也就是说 他们 经过 了 当年 2000年 的 时候, 他 因为 那种 不同 的 学派 起来, 然后 摔 落在 2000年 的 时候。

曾经 有一个 非常 有意思 的 一个 小故事。 他们 发 文章 的 时候, 你 会 发现 非常 的 困难, 困难 到 什么 程度 呢? 如果 你的 文章 里面 存在 neural 这个 词, 就 神经 或者 是 你存在 network 这个 词 之一 的话, 你的 被 拒 稿 的 概率 就 很大 了。 但是 如果 你存在 neural network 的话, 基本 就 一定 会 被 拒 告。 所以 当时 对于 他们 来讲, 这 是一个 至 暗 时刻, 对 吧? 但是 他们 那个 时候 可能 经费 也 受影响, 但是 他们 能 在 这种 黑暗 当中, 他们 能 坚持 不放弃, 最后 能 走出 这个 黑暗, 一直 坚持 他们 所 相信 的这 条 道路。 到 今天 神经 深度 网络 也 确实 改变 了 世界, 对 吧? 我 觉得 这个 其实 也是 他们 得 图灵奖, 对 他们 当年 早期 作为 前期 的 先锋 的 一种 记忆。

对我 对 你的 个人经历 也 挺 感兴趣 的。 就 比如说 我知道 其实 你 在 博士后 的 时候, 你是 选 了 两 了 困 的 组。 你 当时 是 为什么 会 选 他的 组?

这 是一个 比较 有意思 的 奇遇。 我 当时 其实 挺 迷茫 的, 我 甚至 没有 想 过 那个 学期 去 毕业。 因为我 当时 觉得 我在 博士 的 工作 其实 没有 做好。 当时 是我 博士 当时 的 决心 是 说 我在 博士 期间 就要 做出 一个 白盒 的 模型, 而且 要 和 alex N E T 它的 性能 要 可比。 当时 我 觉得 就 差一点, 我 就 想 好, 那 我 再 拖 一拖 再 毕业。 但是 我 那年 去 开 new rips, 反正 也 在 温哥华。 然后 同学们 就说 你 做 博士后 反正 也是 做做 博士 也是 做, 你 也 不用说 非得 说 博士 把 所有 东西 都 做 完。 他们说 你 不如 这个 学期 毕业。

我 同学 他们说 的对 吧? 就是 那一年 很 有意思, 很多 事情 都 不是我 自己 决定 的。 我 以前 事情 都是 我自己 决定, 那一年 我 感觉 我是 在 被 推 了 很多。 对对对, 基本上 就是 他们说 什么, 我 想一想 有 也有 道理, 然后 我 就 好, 我 就 那时候 决定 毕业了, 然后 决定 毕业 十天 基本 就 把 毕业论文 写 完。

当时 我 就 想, 那你 要 毕业 的话, 我要 找 博士后, 那 要 找 博士后 的话 我 去 找 谁 呢? 然后 我 本来 想 的 是 给 别人 发邮件, 同学 他们 就说 你 都在 neuropace 在 开会, 大家 都在 这 开会, 你 为什么不 当面 聊 呢? 我 觉得很有 道理, 然后 我 就 当时 去 当面 去 聊, 当时 我 想到 的 其实 第一个 想到 的 人是 chelly。 如果你 这么 看 的话, 他 有点 像是 一个 东海岸 的 我的 导师。

这个 风格 我们在 西海岸 也是 sim chelly, 也是 计算 神经科学 领域 的 一个 领军人物。 他在 东海岸 那边, 所以 我 一开始 想到 的 是 他。 但是 他 那一年, 刚好 他 要 去 有 个 Simons foundation, 就是 James Simons 开创 了 一个 simple foundation, 是一个 研究机构。 他 要 去 那个地方 去 筹建 他们的 一个 计算 神经科学 的 研究所, 他 就 非常 忙。

然后 我 其实 跟 他 聊 也没有 聊 出来 一个 说 要约 meeting 约 一些 会, 然后 我们 也 聊 一 聊聊 得 挺好, 但是 也没有 得到 一个 结论 吧? 是不是 要 一起 工作 等等 的。 然后 在 会场 上 就 碰到 了。 我 当时 想 的话 是 说 大家 肯定 都想 找 样 去做 博 后。 我不想 是 王兆 芬, 我 其实 不是 特别 投机 的 一个人。 所以 当时 碰到 他的 时候, 我 其实 主要 想 的 是 聊 一下 他 对我 工作 的 一些 看法, 以及 对 未来 的 方向 上 的 一些。 大家 可以 谈一谈 这个 观点。

比较 有意思 的 时候, 当时 在 会上 聊聊 的 就 非常 好。 当时 也 觉得 非常 的, 至少 我们 相信 的 这种 方向 以及 我想 的 一些 问题, 他 曾经 也都 想 过, 只不过 是从 neural network, 就 是从 这种 神经网络 的 这个 角度 来 想 这个 问题, 以及 最终 追求 的 一些 方向 的话, 我 觉得 也很 切合。 所以 当时 他 就 问我, joppa sock 你 有没有 兴趣 申请 一下? 我说 我 当然 申请 了。 所以 当时 就是这样 一拍即合, 有意思。 所以 我 最后 博士后 也就 只 申请 了 他的 博士。

要是 一个 什么样 风格 的 导师, 他是 属于 非常 多 的 给 学生 自由空间 探索 的, 还是 属于 他 其实 就是 实际上 来 跟 大家 一起 讨论 帮忙 很多 的。

首先 是 后者 的话, 他 现在 这个 情况下 已经 不可能 了, 他 现在 太 忙 了, 我 觉得 这个 事情 比较 多。

你 指的 他 太 忙 了 是 比如说 meta 那边 的 事情 很多, 研究 的 事情 也 很多。

当你 变得 很 有名 的 时候, 你 自然 就 变 忙 了, 很多人都 需要 他的 时间, 从 这个 角度 来讲, 它 能够 分给 每一个人 的 时间 也 相对 来讲 就 没有 那么 多。 我 觉得 一样, 相对 来讲, 我 认为是 相当 放羊 的。 他 其实 和 我的 博士 的 导师 相似, 就是说 在 一些 大 面上 是 非常 放羊 的。 但是 我 认为 他们 有 另外 一点 相似 的 事情, 就是说 对于 他们 所 相信 的 事情, 他们 会有 坚持。 就是 他 可能 会给 你说 往 这个 方向 走, 那么 具体 怎么走, 你走 哪条 小路, 你是 乘船 还是 乘车, 这 都 没有关系。 但是 这个 大 的 方向, 我 认为 他 会有 自己的 一些 品味。 我会 觉得 另一方面 我 认为 她 对 不同 问题 的 直觉 还是 非常 不错 的。 其实 他 会给 你 指 一个 大方向, 他 不会 去 控制 这些 细节。 然后 我们 会有 一个 比较 大 的 一个 愿景 或者说 一个 目标 mission 在 这个 mission 下面, 我们 就 会要 坚持 的 沿 这个 方向 走。

他的 大方向 是什么?

其实 很多年 也没有 变 过。 让 他 想什么 实际上 是 非常 透明 的。 因为他 会 出去 给 不同 的 地方 给 演讲, 然后 他 讲 的 这些 东西 基本上都 是 他 坚持 的 这个 大方向。 在 过去 的 这些年 里面, 我 觉得 他 坚持 的 这个 方向 一直 是 自 监督 学习。 然后 自 监督 学习 的话 其实 分两 部分。 一个 部分 是我 做 感知, 感知 上面 的话 我可以 做 自 监督。 但是 更 重要 的 一点 的话 是当 有 最深 的 时候, 我 如何 用 最深 的 方式 来做 自 监督。

或者 我们 现在 给他 一个 名字 叫做 世界 模型 word model, 我 认为 这个 是 他 believe in 的 一个 方向。 这个 名字 其实 还是 我 安利 给他, 但是 因为我 当时 读 了 David 和 史 miss uber 的那 篇文章, 然后 他们 起了 一个名 名字 叫 word model。 然后 我 觉得 这个 名字 挺 酷 的。 虽然 是一个 传统 的 想法, 就是 以前 也有 这种 model, predictive control, 然后 forward model, 就是 有 各种各样 的 名字, 对 吧? 但是 这个 world 的 model 我 感觉 挺 酷 的, 所以 我们 当时 强烈 的 安利 了 一波。

你 觉得 让 他的 研究 方向 跟 脉络, 跟 OpenAI 的这 一套, antha rapist 的这 一套 好会 有什么 不一样 吗?

如果说 真 要说 什么 不一样 的话, 我 觉得 一样 可能 想要的 是 模型 它 需要 有 几件 事情。 第一件 事情 它 要有 自身 的 能力。 我 觉得 他 要是 可以 在这个世界 里 不是 只是 堆 数据, 而是 说 这个 模型 最终 他 可能 会 可以 自己 去 探索 这个世界。

这个 有什么 不一样 呢? 大家 都 希望 最终 达到 这样的 一个 结果。

但是 你 如果说 看 他的 执行 的 方式 的话, 我 觉得 每 一个地方 他 执行 的 时候, 他的 最 坚持 的 我 其实 觉得 是 比如说 在 OpenAI, 我 认为 它是 scaling law, 对对对 吧? 就是我 认为 这个 其实 是 OpenAI 一直 做 的 比较, 相对 来讲 是 他们 做 的 很 对的 一个 东西。 那 我要 更多 的 数据, 更好 的 数据, 然后 更多 的 计算, 更大 的 模型, 更 general 模型 对 吧? 基本上 坚持 这个 对于 硬 来讲 的话, 它 其实 还是 比较 科学化 的。 他 会说 如果我们 想 真正 通向 比较 像 人艺 这种 level 的 智能 的话, 那 你到底 需要 什么? 而 不是说 我 就 把 数据 给你 堆上去, 只是 做 这样的 事情。 那 我 可能 会 觉得 只是 堆 数据 是 不够 的这 是 它的 不同点。

所以 它 其实 也是 相当于 你说的 黑盒 白盒 一起 研究。

就是 它 对于 样子 来讲 的话, 甚至 我 认为 它 没有 那么 在意 这个 是否 它 发展 成 一门 科学。 目前 我 认为 他的 观点 是 他 还 停留 在 经验性 和 工程 上面, 然后 让 这个 系统 可以 工作 得 更好。 我 认为 这个 话 在 短期 之内 是 会 走 的 比较 快 的对 吧? 也是 他 其实 一直 非常 擅长 的 一个 东西。 因为 当年 其实 在 开会 的 时候, 在 会场 上 他 就会 带着 他 当年 做 的 卷积 神经网络 去做 给 别人 看。 你看 这个 我可以 做 数字 的 识别 等等 的。 他 其实 很 擅长 这个 工程 的 这种 让 这个。

系统 可以 工作 起来。 对我 好奇 的 是在 OpenAI 证明 了 skin law 可以 达到 很 好的 效果 的 时候, 你 觉得 让 他在 科研 方法 跟 他的 思维 上 他 会有 转变 吗? 还是 他 非常 坚持 的, 还是 原 路线。

我 其实 觉得 他 并不 反对 skin law。 对对对, 就是 更多 的 数据, 更好 的 数据 和 更多 的 计算。 我 觉得 大家 在 这件 事上 并没有 冲突。 但 真正 的 可能 分歧 就是说 比如说 在 OpenAI 很多 工作 其实 还是 要 以 产品 为 导向 的, 对不对? 一样的 研究组 来讲, 我 其实 觉得 O P I 的 很多 东西, 一个 是 工程 上 执行 的 极致, 另外 一方面 也是 产品 上 的 一些 突破。

比如说 对话 的 形式 的 最新 的 引入。

这个 还是 需要 一点 商业 上 的 天才 来做 这样的 事情。 然后 我 觉得 对于 央行 自己的 组, 它 其实 更是 一个 科学 形式 的 一个组。 他 想 这些 问题 的 时候, 想 的 就是 里面 不太 涉及到 产品 的 这些 问题。 他 想 的 只有 一个 问题, 就是说 我 怎么能 实现 这样的 智能, 那 到底 是 需要 什么? 因为 他在 这个 领域 已经 太久 了, 已经 不 像是 我们我们 进入 这个 领域 其实 也有 一段时间 了, 对 吧? 但是 他 8几年 的 时候 就在 这个 领域 在 深耕 了。 所以 他 可能 看 这些 问题 的 时候, 他 还是 坚持 自己的 理想。 说 我 怎么能 获得 更强 的 像 他 看到 的 这种 方式, 来 让 这个 智能 的 能力 提升。

对你 刚刚 一个 说的是 让 这个 智能 自主 的 学习, 这是 第一个 观点。 就是 让 它的 一些 大方向, 其他 的 还有 一些 方向 是什么?

还有一个 方向 的话 一样 一直 相信 的 一个 东西, 我 其实 觉得 这个 是一个 有意思 的 问题。 这个 问题 就是说 他 一直 在 谈 的 是 japan joint embedding predictive architecture 这个 结构, 它 其实 表示 一个 观点, 就是说 我 当然 要有 自身 能力, 对 吧? 我 当然 要有 自主 学习 的 能力。 但是 比 这个 更 重要 的 一点 是 说, 它 其实 不仅仅是 一个 压缩 的 一个 问题。 它是 当你 在 学习 数据 的 时候, 你是 希望 把 数据 中的 一些 比较 高层次 的 一些 规律 学习 出来。

那 就是 两派。 一派 是 说 好, 我 学到 的 这些 东西, 我要 能够 对 数据 进行 完全 的 重建。 你可以 认为 是一个 挺 压缩 的 一个 思路。 但是 要说 的 这个 东西, 他 认为 说 他说 数据 中 它所 具有 一些 高层次 的 规律, 你 不 希望 它 完全 的 去 回到 这个 图像 当中。 因为你 如果 要是 还能 重建 这个 图像 的话, 你 就 带有 了 太多 的 细节。 而 这些 细节 并不是 对 你的 这个 系统 做 判断 的 时候 最 重要 的 一些 信息。 所以 在 这点 上 的话, 我 认为是 他 也 一直 在 坚持 的 一个 东西。

这点 他 跟 你 伯克利 的 导师 马毅 老师 的 观点 是 不一样的。

我 其实 觉得 严格 来讲, 他们是 很 好的 朋友 OK。 所以 我 其实 觉得 这个 观点 上 并没有 本质 的 冲突, 只不过 是 表述 的 方式。 我自己 看 这个 问题 的话, 比如 马 老师 觉得 这个世界 的 规律 是 简洁 的, 让 觉得 说 这些 细节 其实 对你 做 下游 的 这个 任务 或者 做 一些 很多 的 判断 是 不利 的。 所以 你 要把 那些 高层次 的 规律 找到。 但 如果你 仔细想, 这 两个 东西 实际上 是 一样的, 对 吧? 因为 高层次 的 规律 它是 简洁 的, 但 只是 说 当我们 想 这个 问题 的 时候, 我们 可以 把 这个 完全 看成 一个 压缩 问题, 对 吧?

马 老师 经常 说 所有的 东西 都是 压缩。 如果你 拿 一样的 这个 观点 来看 的话, 你 会 发现, 没错, 所有的 东西 都是 压缩。 但是 这个 数据 的 它的 这种 层次 的 结构 有 不同, 对 吧? 因为 是 现实 世界 是 复杂 的。 那么 现实 世界 如果你 你 深入 到 这些 细节 里边, 你 会 发现 有 大量 的 东西, 它 其实 是 低层次 的 一些 结构。 不是说 这些 规律 不存在, 只是 说 这些 规律 并 不像 我们 人类, 比如说 咱们 人类 知识 的 高峰 就像 万有引力, 对 吧? 我们 找到了 这样 万有引力 的 几个 公式, 可以 基本上 在 我们 可 观测 的 范围内 都是 对的, 或者说 在 我们 常规 的 物理 的 可 观测 范围 都 是对 的那 这个 可能 只是 很小 的 一段 信息, 但是 如果我们 去 看 外面 的 这个 森林 的 树叶 的 样子 的话, 那 它 这 里面 很多 的 结构 是 局部 的那 这些 局部 的 这是什么 意思 呢?

当我们 在 谈 压缩 的 时候, 数据 中有 结构。 任何 存在 结构 的 东西 都 是从 噪声 偏离 的 一个 反应。 就是说 完全 没有 结构 的 东西 就是 噪声, 任何 离开 噪声 你就是 有 结构 了, 对 吧? 然后 我们 要 学习 的 本质 要 学习 这些 结构, 但 结构 有 不同 的 层次, 低层次 的话, 比如 地毯 它的 样式, 当你 上升 这个 层次, 在 更大 的 一个 尺度 的 时候, 你 会 发现 这个 东西 这个 结构 其实 已经 不重要 了。 它 甚至 已经 没有 更 高级 的 结构 了。 那 它 在 那个 层次 来看 的话, 这些 东西 就 已经 变成 相对 来讲 像 噪声 一样的 东西 了。 所以 这样的 一个 观点 是 说, 我们 需要 有 这样 一个 层次化 的 学习, 能 学习 出来 越来越高 的 这个 结果。

所以 我 如果我们 做 压缩 的话, 这 对 我们 做 的 出了 一个 挑战。 我们 要 压缩 是 没错, 我们 要 学习 信号 中 所有的 结构, 不同 层次 的 结构。 但是 最高级 的 结构, 它 往往 对于 压缩 的 整个 的 所占 的 这个 比, 它 不大, 在 优化 的 过程中 可能 会 丢失, 对 吧? 就是 因为你 大量 的 东西 都 是在 低层次 的, 这些 像 噪声 一样的 这个 信息量 是 最大 的。 越 往上走 就 越 难 发现 这样的 结果, 为什么呢? 因为 在 你的 优化 的 loss function, 就是 你的 目标 函数 里边, 你 找到 这个 规律 和 找不到 这个 规律 可能 对 你的 loss 影响 不大。 我 觉得 主要 就是 这么 几点, 它 一个 是 对于 这种 世界 模型, 一个 是 对于 这种 层次化 的 表示。

你 觉得 他们 身上 有 哪些 特质 是 特别 打动 你的?

我 觉得 他们 身上 特别 打动 我的 特质, 可能 就是 他们 做 事情 的 那种 专注 和 纯粹。 对, 因为我 跟 Young 有 一次 吃 午饭, 然后 我 觉得 我们 聊 一个 事情, 我 觉得 他说 的 一句话 很 有意思。 他说 你们 在 年轻 时候 想要的 所有的 东西 我 都 有了, 但是 我 已经 没有 太多 时间 了。 所以 他 只能 用 自己 剩下 的 时间 做自己 真正 相信 的 事情。

我 觉得 当你 跟 这样的 一些 科学家 工作 的 时候, 你 可能 会 被 他们 身上 的 这种 气质 所 影响。 以至于 你 即便 你 还没有 达到 他们 现在 所在 的 这个 地位, 以及 他们 所 拥有 的 这些 东西 之前, 你 也能 以 他们的 视角 来 看待 这个世界 一点。 所以 你 在 做 选择 和 做 事情 的 时候, 你 可能 会 超出 你 现在 完全 你 所在 的 这个 位置。 可能 会 想 一些, 我 如果我 有 每天 也都 像 他 一样 全都 拥有 了 以后 我会 做什么, 对 吧? 那你 这样的话, 你 在 选择 一些 研究 的 问题 的 时候, 以及 事业 的 这种 方向 的 时候, 你 可能 会 被 他们的 这种 气质 经过 长时间 的 这种 气质 所 影响。 我 觉得 这个 可能 是我 觉得 收获 挺 大 的 一个 东西。

所以 他 有 改变 你的 哪些 决定 吗?

有啊, 他 会 让 我 做 很多 的 选择 的 时候 会 想到 这个 事情。 其实 这点 的话, 我 在读 P H D 的 时候, 读 博士 的 时候, 也会 被 我的 导师 影响。 本身 他们 几个 人都 是朋友。

对, 所以 就是 学术 圈子 很小。

对, 学术 圈子 很小, 他们 以前 也是 有 合作。 我 读 P H G 的 时候, 第一天 其实我 的 导师 他 讲 了 两件 事情, 他说 希望 你 不用 发 很多 的 文章, 后来 他 不 承认 这件 事情。

对的, 就是 出不来 结果 还是 要说 对他 后来 我 跟。

别人 讲 的 时候 他 也 在场, 我说 他说 不需要 我 发 很多 的 文章, 他说 他 没 说过 这个, 但是 他 有一个他 承认, 他说 过 他 就是说 他 希望 你 能 发出 来 的 这种 文章 能够 穿越时间, 就是说 在 20年以后 看到 这 篇文章 依然 不 救。 我 后来 觉得 这个 很难, 因为 很多 的 工作 它 带有 鲜明 的 时代感。 但是 真正 一些 深邃 的 思想, 他 可能 穿越了 100年, 穿越了 几十年, 它 依然 看起来 还 不是 很 老。 这样 是 高质量 的 工作。

那你 那个 20年 还不 旧 的 工作, 那 至少 是 能 推动 人类 往前 前进 20年 的 一年 不就 就 推动 人类 前进 一年。

对, 这个 是一个 很高 的 目标, 而且 短期 无法 被 验证。 只有 在 你 退休 的 时候, 它 可能 才能 被 验证。 等你 快要 退休 的 时候, 我们 才能 重新 审视 这个人。 但是 他 至少 他 提出了 一个 灵魂 的 拷问, 对 吧? 就是你 能否 坚持 去做 一些 能够 与 时间 共存 的 工作, 我 觉得 这个 要求 很高。

第二个 是 他 希望 说 一个 学者 应该 具有 自己的 一种 态度。 如果你 觉得 一件 事情 是 A 可以 做, B 可以 做, C 可以 做, 你 也可以 做, 你 就 不要 做。 就是说 当你 做 这件 事情 的 时候, 你 会 发现 并不是 这个 工作 需要你, 而是 你 需要 这个 工作, 这 是一种 投机 的 心态。 就是我 其实 觉得 他们 身上 有 相似 的 这种 气质, 可能 就是说 他 希望 你 做 一点, 不要 随大流, 能有 自己的 态度, 寻找 到 自己的 一些 voice 的 一些 东西。 所以 在 你 在 选 这些 研究 的 方向 的 时候, 你 也会 自己 时不时 的 判断 一下 我 现在 做 的 这个 工作 到底 是一个 投机 的, 还是 一个 真正 的 中流砥柱 的 工作, 有的 时候 你 还是会 做 一些 投机 的 工作, 但是 你 自己 心里 要 有一个 判断。

对我 觉得 这个 就是 独立思考 且 坚持 自己的 热爱。

对, 而且 我 觉得 他们, 尤其是 像 一样, 他们 比较 伟大的 一点 就是说 你可以 穿越了 这种 几乎 是 绝望 的 过程中, 然后 迎来 曙光。 因为我 觉得 没有 经历 过 低谷 的 人, 沉淀 的 可能 还是 不够。 当你 经过 至 暗 时刻, 你 还能 走出。

在 至 暗 时刻 没有 改变方向。 对, 走 出来。

对, 当然 你 不是说 不撞南墙不回头 就是 完全 错了。 而是 说 你 你的 眼光 可以 穿越 短期 的 这个 时间, 你 可能 真正 有 一些 坚持 的 东西, 而且 你是 证明 他是 对的。 我 觉得 这个 是 挺 有意思 的 一种 气质。

有 哪些 样 在 科学 上 的 看法 是你 不 同意 的 吗?

比如说 样 的 观点 会 有点 挺 鲜明 的 一些 特点, 它 有的 时候 会 铁口直断。 比如说 最近 他 有可能 说 如果 你是 P H D 的话, 那你 就 不应该 研究 large language model。

那 他 认为 什么 阶段 应该 研究?

不他 就是说 你 如果 作为 一个 研究者 的话, 你 在读 博士 的话 就 不应该 研究 这个 东西。 这 他 有 很 多种 理解, 从 他 字面上 意思 的 理解 的话, 你 就会 很多人 就会 不 同意, 对 吧? 包括 我 可能 会 觉得 大 语言 模型, 可能 它 里面 有 一些 结构 是 值得 被 理解 的, 去 研究 一下 的。 但是 他 可能 他 真正 想说 的, 也许 我 有的 时候 听 他的 这个 话, 他 背后 想说 的 可能 是你 不要 去做, 就像 刚才 说 的 这种 A 可以 做, B 可以 做, C 也可以 做 这种 投机性 的 工作。 而是 说 你 真正 有 自己的 一点 坚持, 找到 一些 比较 原创性 的 贡献。 如果 是 这样的 说 的话, 我 其实 觉得 我会 更 同意 一些。 但是 我 其实 觉得 有的 时候 他 表达 的 是 这种 意思。 可是 由于 他是 大 V, 他 他说 如果说 所以。

认同 他的 理念, 不 认同 他的 表达 话 术。

他 有的 时候 这个 话 讲 出来 会 吓 你 一 跳。

什么 意思 对 吧? 很 可爱。

对我 觉得 这 他 比较 有意思 的 地方, 但是 他 有 话题 性。 这样的 好处 是 说 大家 看 完了 这个 以后, 大家 觉得 你 就 瞎说, 然后 这 我 觉得 挺好玩 的。

对, 因为你 也 在 meta 工作 过, 你 觉得 一样 对 meta 最大 的 贡献 在哪 几块 儿?

一样 对 meta 最大 的 贡献, 我 觉得 首先 它 应该 算是 帮助 筹建 了 meta ai 当时 他 筹建 meta A I 的 时候, 首先 是 mark 找到 他, 第二个 是 说 他 自己 也有 一个 理想。 因为他 早年 是 贝尔实验室 的, 他 很 向往 当年 的 贝尔实验室 的 那个 状态。 所以 他 其实 想 在 meta.

在 工艺 复制 这样的。

一个 贝尔实验室。 他 秉承 了 这样的 一个 理念 做了 meta ai 也 招 了 一批 非常 不错 的 人。 结果, 其实 也是 给 这个 领域 做了 很大 的 贡献。 我 认为 这个 可能 是 他 真正 比较 大 的 一个 贡献 在 meta。 然后 借助 这样的 一个 平台, 把 这样的 一个 理念 给 贯彻 出去。 这也是 他 现在 推动 整个 领域 发展 的 一个 方式。 如果你 只是 自己 一个人 研究 的话, 可能 不如 能 搭 一个 摊子。 然后 让 大家 这些 聪明 的 人 一起 在 这样的 一个 框架 下 一起 推动, 一起玩。

OK 对我 觉得 开源 应该 也 算是 他的 很 重要 的 一个 贡献。 比如说 麦 塔拉 玛 之所以 走了 开源 的 路线, 跟 整个 样 的 思想 应该 也是 非常。

一致 的对 对, 这个 说 开源 的话, 我 认为 这是 样 所 坚持 的。 至于 将来 在 商业 上, 因为 商业 上 它 总是 有 一些 竞争, 这条 理想主义 的 道路 到底 还能 走 多远, 我也不知道。 将来 meta 是不是 会 一直 开源 下去, 就是 所有的 东西 都 开源。 还是 说 因为 毕竟 meta 也会 面临 竞争。 它 作为 一个 公司 来讲, 它 要 发展 的话, 它 会 面临 他 什么样 的 竞争, 比如 OpenAI, google 什么 这些 公司 的 竞争。 那 在 这样的 一个 竞争 情况下, 你 是否 还能 以 一个 比较 现实 的 方式, 一直 坚持 这种 开源 的 这种 理念? 我 其实 不知道, 但是 我 觉得 这是 一样的 一个 理念, 最终 能 执行 到 多好, 能 走 多远, 其实 也要 看 整个 的 这个 群体 community 它的 发展。

那你 觉得 现在 整个 大 模型 的 研究, 它是 一个 必须 是一个 科学家 驱动 的 吗? 还是 它 会 慢慢 变成 一个 工程 驱动 的 事情?

我 觉得 它 已经 变成 一个 工程 驱动 的。

早期 是 科学家 驱动 的对。

就是 当 东西 它 不太 work 的 时候, 就是 它 还 不太好 用 的 时候。

这个 就 它 没有 做出来 的 时候。

它是 科学家 驱动。 对你 需要 有 一些 belief, 就是说 你 要有 一些 坚持。 但是 在 过去 的 这些年 里面, 我 感觉 这 一两年 里面, 我 觉得 主要 的 这个 进展 都 来自于 工程 的 执行, 执行 的 极致 程度? 数据 的 质量 是不是 变 高了, 数据 是不是 变 多了, 它的 distribution 是不是 变 丰富 了, 计算 是不是 能够 并行? 这 一个 一个 的 这种 工程 的 非常重要 的 细节 导致 的。

就 感觉 现在 大家 都 是在 做 忧患 早期 从 0到1 的 时候, 是 科学家 在 带着 大家 从无到有 去 创造 这件 事情。

对 它的 发展, 它 前期 是从 0到1, 它 需要 这种 突破性。 然后 从 1到100, 它 其实 需要 工程 的 严格 性 和 执行 能力。 他 也是 不同 人 在 不同 阶段, 他的 角色 的 变化, 反正 要 让 他 发展 的话, 可能 需要 不同 角色 的 人 一起来 推动。

大家 现在 都在 期待 GPT5, 你 觉得 如果 GPT5 就是 下一个 这样 非常 大规模 的 大 模型 出来 了, 它 更多 是一个 科学 问题, 还是 一个 工程 问题 呢?

我 觉得 工程 上面 可 走 的 路 是 很远 的, 还是 有 相当 的 一段路 可 走 的。 甚至 我们 可以 认为 skin law 他 还有 相当 的 路可 走, 他 完全 没有 到 尽头。

就是 数据 还有 很多。

数据 还有 很多 算 力, 还有 算 力 可以 扩展。 你的 数据 的 质量, 以前 大家 光 说 量, 其实质 也很 重要。 这些 我 觉得 都能 走 相当 的 一段时间, 但是 我 认为 不够 的, 你 skin law 肯定 不是 not enough。 就 我们 这 很多 现在 大家 喜欢 说 或者 是什么 什么什么 is all you need, 我 觉得 更好 的 一个 方式, 我们 都 觉得 是什么 什么东西 is not enough。 即便 我们 现在 找到了 最 robust 最 鲁棒 的 一条路, 就 像是 skin law 这样的 东西, 我 认为 is not enough。

那么 我们 还需要 什么 呢? 我 其实 觉得 需要 的 就是 类人 的 这样的 efficiency, 就是这样 的 高效 效率。 那 这个 效率 如何 实现 这样的 一个 效率? 有可能 是 数据 触发 的, 有可能 是 data 追问 的对 吧? 完全 是 数据 驱动 的, 但 也 可能 是 还有 其他 的 一些 东西。 所以 我 觉得 如果我们 说 要 通向 A G I 的 过程中, 应该 还 会有 这种 完全 从 0到1 的 一些 比较 大 的 一些。

就是 既要 有 科学 上 的 进展, 然后 工程 上 我们 还有 很大 的 空间 可以 去 提高。 对 这个 总结 非常 好好, 谢谢 渝北。

感谢。

好了, 这就是 我们 今天 的 节目。 如果 大家 喜欢 我们的 节目, 欢迎 在 你 所 收听 的 音频 渠道 来 订阅。 我们 中国 的 听众 可以 通过 小宇宙、 喜马拉雅、 苹果 播客、 蜻蜓 F M、 网易 云 音乐、 荔枝 播客 和 QQ 音乐 来 关注 我们。 海外 的 听众 可以 通过 苹果 播客 和 spot f 来 关注 我们。 另外 大家 也可以 在 youtube 上 搜索 硅谷 101播客 来 关注 到 我们。 我们的 搜索词 是 硅谷 101播客。 如果 大家 在 搜索 的 时候 出现了 我们 硅谷 101的视频, 大家 也可以 一起 关注。 好, 感谢 大家 的 收听, 谢谢。