欢迎 大家 收听 三 五环, 我是 刘飞, 今天 邀请 到 的 是 嘉艺。 先 打个招呼。
大家好, 三 五环 的 听众 大家好。
嘉 译 是我 之前 哈工大 的, 我们是 师兄弟 关系。 对我 是 飞哥 的 师弟。 嘉艺 一直 是在 从事 科研 相关 的 工作, 而且 之前 我们 实验室 算作 N R P, 就是 机器学习 相关 的 这些 内容, 其实 跟 最近 比较 大热 的 A I 相关 的 这些 话题 有 很大 的 关系。 所以 邀请 来 我们一起 聊 一 聊 这方面 的, 就 可能 会 更 偏 技术 和 更 偏 这个 原理 逻辑 一点 的 这个 话题。 先 简单 介绍 一下。
我 叫 嘉 译, 然后 之前 是在 哈工大 拿到 的 博士学位, 然后 一直 是 做 自然语言 处理 相关 的 一些 研究 工作。 博士 课题 主要是 做 句法, 句法 就是 要 找到 这个 句子 中的 主谓宾、 丁 张 卜 这些 这 一类 的 事情。 毕业 之后, 第一份 工作 是 国内 一个 大厂 的 一个 研究部门, 做 语言 模型 相关 的 一些 基础 底层 的 一些 研究 工作。 最近 几年 因为 觉得 基础 工作 实在太 难 太难 做了, 然后 我 就 跳 到 一个 更 业务部门 的。 现在 相当于 是一个 一个 偏 更更 工程 更 业务 的 这样的 一个 定位。
对, 哎 这边 能不能 问 一句, 就是你 像 在 大厂 里面 做 A I lab 这种 事儿, 是不是 还是 挺挺 艰难 的? 相对来说 你 可能 必须 得 跟 业务 结合 是 吧?
对, 简单 讲 一下 我在 第一份 工作 他 做 的 那个 语言 模型。 当时 其实 还没 ChatGPT, 然后 我们 当时 其实 主要 的 一个 研究 主流 还是 这个 bert 模型。 当时 进了 这个 google 的 bert, google 的 bert, 对对对, 就是 刷 了 很多。
对, 另外一个 大 语言 模型, 相当于 bot 和 GPT, 是 当时 学术界 比较 认同 的 主流。
我们 相当于 另 一套 技术方案。 在 大 厂里 做 研究, 其实 一个 基本 的 方法论 就是 想想 办法 把 这个 fundamental research 和 前端 的 业务 需求 做 一个 结合。 我们 当时 那个 厂子 里头 是 有一个 挺 规模 很大 的 一个 图谱 知识 图谱。 然后 我们 就 当时 在 想 怎么 想 把 这个 语言 模型 和 这个 图谱 给 做 结合, 然后 在 一些 下游 的 上 任务 上 做 应用, 然后 让 这个 可能 下游 的 做 一些 分类, 做 一些 匹配, 做 的 更好。 A I love 一般 是 这种 模式, 就是 想想 办法 找到 一种 业务 的 抽象 和 这个 research 相关 的 一些 结合点。 然后 最终 还是 要 回到 业务 中 去 验证 我自己 的 价值。
然后 现在 相当于 更多 就在。
现在 相当于 更多 的 就是 业务 了。 对对对。
第一个 问题 就是你 第一次接触 和 使用 ChatGPT 的 时候, 你 当时 是什么 体验 科研 的 视角, 觉得 这 是个 新 东西, 这个 之前 完全 没没 体验 过 吗?
会 这样 吗? 现在 这份 工作 是 做 一些 偏 客服 相关 的 boat chabot 这种 产品。 其实 chatbot 它它 是一个 对话 这个 形式 呈现 给 人的。 所以 看到 了 ChatGPT 之后, 我们 马上 就是 他他 跟 我们 相当于 跟 我们的 主业 是 重合 的, 我们 马上 就 去就 去 搞 了 一些 账号, 然后 去 做了 一些 调研。 我记得 当时 应该 是 做了 我和我们 同事 大概 测试 了 二十几个 问题, 包括 一些 包括 一些 客服 场景 的 一些 对话, 然后 也 包括 一些 信息 抽取, 甚至于 包括 故意 提供 一些 错误 的 背景 信息, 让 他 让 ChatGPT 去 回答。 甚至于 说 让 他 提供 一些 brings all in 的 这些, 就 可能 更 像 偏 检索 的 一样的 一些 问题。
当时 我们的 一个 感觉 是 说, 这个 模型 很 流畅, 然后 就是 不会 出现 就 传统 我们 对于 可能 早 几年 的 时候 这种 偏 生成式 的 这些 模型, 就是说 我们会 比较 容易 它的 有有 的 时候 生成, 可能 生成 前 十个 词 还是 还 算算 合理, 往后 越 生成 它 就 越 糟糕。 然后 就会 甚至于 出现 语法 不通, 甚至于 不断 重复 一个 片段, 这种 就 比较 糟糕 的 这种 的。 对, 就是 这个 生成 的 质 就是 早 几年 的 生成 模型 的 质量 是 非常 它 质量 堪忧。 但是 我们 其实 测 了 这么 几个 case 之后, 就 觉得 没有 这个 流畅性 是 没有 问题 的, 回答 的 非常 好, 非常 像 人。 然后 当时 还有一个 另外一个 观感, 就是 他他 显得 很很 中立, 会 尝试 把 问题 的 各个方面 都讲 出来, 然后 话 特别 多。 这个 是 我们 当时 的 一个 我 觉得 当时 觉得 这个 不是 一个 chatbot, 不是 一个 聊天 的 一个 对他 他是 更更 像 一个 写作者 writer 这种。
对我 有 个 好奇 的 问题, 就是 像 之前 大家 的 客服 机器人 是不是 还是 加 很多 规则, 基于 统计 再加上 一堆 规则。 你可以 这么 理解, 但是 实际上 ChatGPT 它是 一个 比较 通用 的, 就 它 一个 大 语言 模型, 所以 它 也能 同时 解决 这个 垂直 场景 的 问题 了。
是 就是说 到 垂直 场景, 这 其实 就是 也 体验 的 时候, 我们 其实 也 测试 了 一些 垂直 场景 的 一些。 比方说 我们 是因为 我们是 一个 可能 电商 领域 的 一个 boat, 我们会 问 说 那个 问 ChatGPT 就是 消费者 问 有没有 运费险 的 时候, 你 应该 怎么 回答? 然后 ChatGPT 就 给 了 一个 很 中立 的 答案, 就是说 运费险 是 什么东西? 然后 那个 铷 它是 一种 保险, 如果 商家 购买 了 它 就有 就 就是 有 运费险, 如果 没 购买 怎么样? 然后 你 还需要 咨询 什么东西? 然后 他 给 了 这么 一个 答案, 但是 但 真的 聊天 不会 这么 讲话, 不会 让 消费者 看到 这么 一 这么 长 一段话 我 都会。 所以说 我们 当时 会 去就 把 这些 背景 信息 放到 那个 prom 里面, 因为 我们是 其实 也会 做 一些 这种 in context learning 的 这些 相关 的 一些 事情。
然后 其实 是 把 我们的 一个 测试方法, 是 把 背景 信息 就是说 有没有 运费险, 有没有 发货 时间, 预计 发货 时间 是 什么时候, 这 等等 一些 背景 信息 给 放到 这个 prompt 里。 然后 再加上 这个 时候 消费者 问 什么什么 的, 我们 去 看 这个 机器人 回答 什么。 这个 时候 他 chat p 一下, 确实 表达 表现 出了 一种 说 他 能把 这个 答案 答出来, 而且 不是 那种 一种 快速 的 学习 能力。 对, 他 就 不是 前面 那种 运费 显示 什么, 你 要 怎么样 就 把 这种 他 相当于 进入 了 你的 情境, 这点 当时 我们 觉得 很很 厉害。
就是说 相当于 说 他 相当于 是 一方面 是 说 这种 通用 领域 的 这个 回答 他 做 的 很好, 然后 就是 像 搜索引擎 一样, 他 做 的 很好。 另外 一方面 就是 follow 指令 的 这个 能力 是 比较 好的。 但是 我们 其实 也 相当于 是在 调戏 这个 机器人, 就 给他 一些 错误 的 背景 信息, 或者 是 说 故意 造成 一些 前后矛盾 问 的 一些 事实, 然后 就让 他 去 问 他 然后 也 结论 就是 当时 也 不是 特别 好吧, 而且 我们 测 的 比较 早, 就是 早期 版本 是 有 会有 重复 的 问题 的。 生成 了 一段话 之后, 又 把 前面 的话 又 给 复制 了 一遍。 车轱辘话 不 甚至 不是 车轱辘, 它 就是 完全 文本 复制 完 完全 文本 的 复制。 对, 就是 我们 测 的 比较 早, 然后 当时 体验 就是 真 挺挺 牛 的。 我们 当时 没 觉得 他是 一个 chat, 当时 的 体验 就是 这 是一个 有点像 搜索引擎 的 一样的 一个 产品。 对。
所以 当时 会 感觉 说 它 能 替代 这个 场景 吗?
就 你们 在 做, 我们 当时 是 没有 觉得 是 觉得 是 没没 任何 机会 的 这种 想法 有 转变 吗? 其实 也没有 太大 的 转变, 我们 甚至于 觉得 还是 他 没法 完全 取代 我们 现在 的这 套 方法论。 把 它 当成 一个 软件 来看 的话, 它 其实 是 不光是 这个 文本, 但 它 确实 有点像 最近 那个 GPT 加 bug in 的 那个那个 是 吧? 然后 他 就 可能 给你 提供 一个 什么 卡片。
什么 一个 还有 接入 一些 业务 模块。
对对对。
明白。 那那 之前 的 这个 客服 机器人, 他的 他 也是 用了 一些 机器学习 统计 学习 的 方法 是 吧?
对 客服 机器人 这个 事情 其实 是 他在 从 算法 的 角度 来 非常简单 纯净 的 一个 问题。 所以说 是 分析 消费者 的 意图, 就是 做 一个 分类。 做 完 分类 之后, 我 把 这个 意图 对应 的 一个 答案。 这个 答案 可能 是 平台 给予 的, 可能 是 商家 给予 的那 把 这个 答案 吐 给 消费者, 当然 这个 答案 可能 带着 更 丰富 的 一些 这种 想想 自助 可以 自助 的 一些 动作 什么 这种。 但是 整体 上 来讲, 它 这个 流程 是 很很 简单, 就是 识 意图 识别 到 答案 生成。 对, 这个 就 相当于 是 人工 定义 的 一套 系统。 对。
从 你的 视角 来说, 1 chat G P 带给 你 其他 的 启发 主要是 在哪? 是不是 更多 的 还是 整个 路线 上 的 学术 路线 上 的, 而 不是说 现在 手头 工作 上 的。
对对对, 一个 比较 有趣 的 事实 是我 老婆 对于 这个 ChatGPT 的 热情 比 我 高。 虽然 我是 从业者, 但是 那个 明显 就是我 我 妻子 对 就是 对 这个 新技术, 它的 它是 完全 不是 科技 圈 的对 吧? 他 虽然 是 有 博士学位, 他 不是 计算机 从业者, 然后 现在 的 工作 也 跟 计算机 毫无关系, 但是 他 对 X T P 非常 感兴趣。 是 我们 有的 时候 会 在 家里 测 一些 问题, 然后 就是我 我 一个 明显 的 感觉 就是我 问 的 问题 和 我 老婆 问 的 问题是 就是 风格 是 不一样的我 会给 他 假设 给 ChatGPT 假设 各种 情境, 然后 让 他 去 再 放到 这个 情境 上。 但是 很显然, 这个 就 不是 真正 的 人类 对话 的 那种 方式。 对对对, 像 像 就是 像 我 老婆 那种, 她 就会 问 一些 奇奇怪怪 就是 问问 一些 奇奇怪怪 的 问题。 甚至 这些 问题 中 有 一些 比较 宏观 的, 有 一些 比较 可能 比较 微观 细节 的。 然后 也就 不 只是 一种 纯 事实性 的 一些 获取 知识 的 这种 这样的 一个 思路。
这个 是不是 也是 ChatGPT 在 做 这个 事儿 的 思路 上 的 一个 特色, 就是 它是 围绕 纯 他 不是说 让 科研人员 来 帮 我 测, 或者 让 科研人员 帮 我 出题, 对, 而是 我 直接 投入到 人民群众 的 汪洋大海 里。
有可能 这个 确实 是 思维 观念 上 的 一个 差异。 或者 是 说 他 可能 是 X G P OpenAI 这个 团队, 他他 在 做 这个 产品 的 时候, 一个 先进性 在 里面。 科研人员 可能 会 更 关注 说 我 拿 一套 高考 的 一个 阅读 理解 题, 然后 我 去 测 一下 他他 能 答对 多少。 这件 事情 是 科研人员 擅长 的, 也 关注 的。 但 实际上 真实 人类 社会 中 并不是。 或者说 99% 的 query 或者 请求 都是 咨询, 它 都 不是 只有 高考题 的 阅读 理解 的 这种 东西。
对, 我 觉得 这个 比喻 很 恰当。 就是你 做 很多 阅读 理解 或者 你 会 写 高考作文, 和 你 平时 跟人 对话 开会 沟通。 其实 人类 活动 就 可能 一大半 都是 通过 对话 沟通 完成 的, 那些 真实 场景 是 不一样的。 ChatGPT 它是 基于 围绕 这个 驱动 的。 既然 说到 这个 了, 我们 就 沿着 说说 一下 ChatGPT 从技术上 的 一个 大概 的 运作 逻辑。 就像 刚才 说 的, 可能 是 他 怎么 去 训练 语料, 怎么 用语 料 驱动 的 这个 逻辑。 当然 它 背后 肯定 也有 深度 学习, 怎么 搭 网络, 怎么 包括 大家 很多 朋友 了解 的 可能 知道 transformer 模型 这种 能不能 简单 叙述 一下 它 整体 的 运作。
他用 了 一个 transformer 一种 优秀 的 模型 去 从 海量 的 数据 中 学习, 然后 学习 一个 语言 模型, 这个 就有 可能 就是 GPT 这个 模型 在 做 的 一些 事情。 首先 它是 一个 语言 模型, 很 古老 的 一个 自然语言 处理 的 任务。 它 说白了 我就是 要 做 一个 模型 去去 预测, 再 给 一个 对 预测 下一个 词 是什么? 语言 模型 是个 很 古老 的 东西, 六七十年代 好像 对 七 八十年代 就有 了。 就是 A L P 的 书 里面 翻开 的 第一页 可能 就是 所以说 其实 GPT 这个 model 它是 一个 生成式 的 语言 模型。 给定 上文 预测 下一个 词, 那一个 关键 就是 怎么 去 建模 这个 上文, 或者说 怎么 去 把 这个 上文 的 一连串 的 文本 给 变成 一些 能够 机器 能够 理解 的 数学 化 符号化 的 一些 是 数字 也好, 公式 也好, 或者 是 模型 也好, 然后 让 他 去 能够 预测。 这个 transformer 就在 这 里面 发挥作用, 你可以 理解 成 它是 一个 模型 结构。 我 首先 给 每个 词 一个 向量, 这 一串 词 的 向量 做 一个 加权平均, 然后 得到了 每个 磁芯 的 一个 向量, 然后 再 叠加 这个 过程 向量 维度。
它 用 一些 巧妙 的 方法 让 它 保持一致, 这样 你 就能 预测 了。 因为 大家 很难 想象, 可能 说 人 就是你 你 拿到 一个 词儿 预测 下一个 词儿 是 容易 的。 但是 一堆 词儿 甚至 几 几千个 字符, 它 怎么能 预测 下一个 词儿? 可能 得 做 一个 处理。
对 这 你 提到 了 一个 很 关键 的 问题, 就是说 在 没有 transformer 之前, 其实 做 语言 模型 n gram 主要是 n gram 就是我 用 可能 有限 的 两三个 词 去 预测 下一个 词, 它 没法用。 假如 说 这个 是一个 信息 放在 100个字 开外 了, 那 我 就 没法 去 把 这 一从 100个字 到 现在 的 所有的 人上 文都 给 建模 起来。 这件 事情 是 传统 做不到 的。 但是 这个 transformer 相当于 把 它 给 encode 到 一个 统一 的 一个 向量 空间 上。 就是说 我不管 你 有 多少, 当然 也是 有一个 长度 象限, 但是 它 整体 上 来讲 是 能够 建模 很长 的 一个 历史。
这个 n gram 我 稍微 跟 大家 解释一下, 就是你 以前 的 计算 量, 包括 存储量 可能 只能 去 预测, 去 通过 前面 几 一个 词 预测。 就 词数 再 多 的 计算 量 已经 供 不 上了。 就 之前 的 算法, 因为 它 就是 硬 算, 就 根据 前面 几个 词儿, n gram 指的 就是 前面 几个 词儿。 你 根据 前面 三个 词 四个 词儿 的 预测 的 难度 已经 很大 了, 所以 去 理解 词组 和 句子 还好 文章 是 以前 完全 做不到 的, 但是 有了 transformer 能。
解决 了 这个 问题。 对, GPT 模型 其实 是 Open AI19年 其实 迭代 了 200到2020年 的 时候, 其实 就有 这个 叫 GPT3 的 这个 模型。 就是 因为 GPT3 它的 它是 公开 论文 的, 它的 从 它的 论文 的 一些 benchmark 的 这个 结果 上 来看, 其实 就 他用 了 很大 的 数据量, 用了 很大 的 计算资源。 但是 其实 并没有 beat 掉 当时 一些 其他 的 可能 相对 小规模 的 一些 模型。
所以 大家 觉得 这 是个 新 尝试, 但是 没有 看到 效果, 所以 到 3的时候 还 也 还好, 其实 是 3.5。
就是 我们 之前 有位 同事 后来 去 英国 读书 了。 然后 他他 在 这个 GPT 这 段 时, 他 发 了 一个 很 详细 的 一个 就 追溯 这个 GPT 的 生产过程 的, 从 3到3.5 之间, 他 提到 的 一个 核心 观点 就是说 就是 G P3 已经 有 很强 的 这个 能力 了。 他 已经 把 这个 世界上 很多 的 数据 都 记住 了。 但是 我们 并没有 用 一种 合适 的 方法 把 它的 信息 给 抽取 出来。 就 题目 错了。 对, 就 相当于 人人 问 错了。
我 之前 在 的 那个 做 语言 模型 的 那个 团队, 其实 也 做 过 跟 GPT3类 似的 一些 尝试。 但是 但 我们 当时 绝对 不会 像 现在 这 我们 这么 跟 ChatGPT 这样 问 模型, 我们 都是 假如 说 我是 要 做 一个 去 写 的 这个 工作, 我不会 说 你 给我 续写 一段, 我 有一个 上文 你 给我 续写, 我不会 用 这种 语言, 我是 要 直接 把 上文 写 出来, 然后 谁谁谁 说 接下来 让 模型 接着 往 一下 生成。 就是说 我们 就要 很 好的 呵护 这个 模型 的 生成 过程。
在 那个 行为心理学 上 叫 知识 的 诅咒。 就 当你 有了 knowledge 之后, 你 天然 的 就会 想, 他 这个 模型 他 肯定 不知道, 我 就 别 难为 他 了。
我 就 问 该 问 的, 但是 我 觉得 就是 ChatGPT 它 他的 这套 相当于 是 他 做了 一个 叫 human human intent 的 一个 aligned, 相当于 是 说 他 去 尝试 理解 人类 的 这个 意图。
所以 之前 他们 讲 的 让 菲律宾 的 人 去 标语 料, 这些 是在 3.5.
发生 的对, 是的, 其实 是 能 看到 一篇 论文 叫 InstructGPT。 ChatGPT 就是 用 这个 InstructGPT 的 思路 去 构造 的。 InstructGPT 那 篇文章 很 详细, 他 把 他的 构造 了 哪些 问题, 他是 怎么 训练 的, 包括 标注 人员 的 国籍 的 组成 都 写 出来 了。 其实 我 觉得 很 聪明 的 就是说 他 把 这个 训练 大概 分成 三步。 第一步 就是 他 要 让人 去 写 输入 和 输出, 不只 局限于 像 一些 完形填空 那种 答题, 或者 是 说 你 问 他 这个 世界上 最富有的人 是谁? 他的 问题 定义 是 开放 的, 但是 他 总体上 来讲 大概 有 十几 类, 就是 一些 问答 闲聊 什么, 然后 信息 抽取 文本 分类 等等。 就是 他 会 让 让人 去 想 或者说 构造 这样的 一个 输入输出, 然后 大概 有 1万1万句 左右, 这 其实 这个 数据量 很小 的。 然后 他 就 拿 他在 GPT3 的 基础上 做了 一遍 精 调。
做了 金条 之后, 他 接下来 做做 的 第二步 事情 是 随机 的 去 让人 去 提问。 然后 提问 完 之后 有 一些 机制 是 能够 让 模型 生成 出 多个 答案 的, 会 让 第二批 人 去 对 着 比方说 五个 答案 去 选择 最好的 答案。 但 它 有一个 非常 严格 的 一个 标准, 这个 是 强化 学习。 对对对, 有一个 标准, 就是说 什么 是 好 答案, 什么 是 差 答案, 他 就 通过 这些 数据, 他 其实 有一个 排序, 拿 这个 排序 去 训练 的 一个 这样的 一个 打分 模型。 训 好了 这个 打分 模型 之后, 他 又 用 这个 打分 模型 反过来 去 教 这个 GPT 模型, 说 你 生成 的 哪个 句子 是 好的, 哪个 句子 是 不好 的。 然后 好的 你 要把 这个 尽量 往 那个 方向 生成, 坏 的 你 要 避免 往 这个 方向 生成, 它 就 简单 的 调整, 这 样子 它 就是 最终 呈现 出来 就是 我们 看到 的 这个 ChatGPT。
所以说 整个 过程 来看, 它 就是 人类 世界 的 指令 加工, 一 万多条 数据, 十万 条 数据, 它 就可以 follow 这个 指令。 它的 模型 基础 已经 在那。 然后 这个 数据量 来了, 是用 的 数据 来了 之后, 让 他 激发出 了 他的 能够 理解 人类 的 这个 指令 的 这样的 能力。
而且 这个 激发 的 过程 听起来 也 好像 挺挺 玄幻 的, 是不是? 科研 领域 这方面 的 讨论 也 很多。
现在 都 是在 想 怎么 把 这个 黑盒 打开, 而 不知道 就是说 这个 到底是什么 什么什么 事情 导致 他 能够 有 这样的 能力。 对, 但 确实 现在 是 没 定论 的。 我 觉得 有 几个 现在 大家 比较 公认 的 一个点, 一个 是 模型 规模 和 这个 能力 是 比较 相关 的。 就是 就 你 语料 参 数量、 语料 大小、 训练 次数、 训练 轮次 这些, 包括 神经 网络层 对 层次 层数 这些, 这也是 比较 关键 的。 就是说 可能 认为 有 个 门槛儿, 十 就是 十时 必定 的 那个 参 数量。 100亿, 对, 是 100亿是个 门槛。 过了 这 一百亿 之后, 它 就有 一个 比较 好的 一个 质 的 变化。
对, 就是 在在 这个 基础上 又 做了 偏 比较 玄幻 比较 黑盒 的 一个 激发。 而且 这个 激发 我真的 挺 惊讶 的 是, 之前 这个 表现 不好 的 这个 学生, 当 标 了 这 一万条 数据 让 他 去 锻炼 的 之后, 他 突然 就 变得 特别 聪明。 所以 这 是个 很 神奇 的 事。 就 1万条, 大家 想象 一下, 就是 他 现在 能 呈现 出来 这个 效果 是 挺 神奇 的对。
但是 这个 确实 我们 之前 是 没没 想 过往 这个。
方向 努力 过, 这 是不是 OpenAI 在 路线 上 跟 其他 大家 很 不一样的 地方。 因为 这个 刚 出来 的 时候 大家 就会 疑惑, 但是 OpenAI 也 拿了 微微 软 投资 也 很多 钱。 但是 它的 钱 和 投入 和 资源, 包括 他 专家 的 档次 肯定 是 不如 google 微软。 他们 之前 主要是 google 投入, 但是 OpenAI 就 把 这个 做出来, 它 肯定 是 有 一些 方法 创新 的 地方, 它 这个 方。 创新 就是 在 刚才 这 一步? L I M 这个 模型 之前 google 那个 也 很大 对 吧? 它的 参 数量 也 很大。 包括 百度 也 发布 过 一个 一百多 亿 的 一个 参 数量 的 模型, 但是 它 都 没 被 激发 出来。
对, 是的。 其实 我们 如果 真的 去 看 这个 参 数量 的 那个 我们我们 叫 他 军备竞赛 的话, 不管 是 国内 的 大厂 还是 国外 的 大厂, 都是 有 那种 超大规模 的 语言 模型。 就是 这些 语言 模型 都 没有 表现出 就 都 没有 表现出 ChatGPT 这样 能够 服 follow 人的 那个 指令 的 这个 特点。 就是 这个 估计 也都 是因为 没有 在 这 上面 再做 一个, 就 刚才 那个 神奇 的 金条。 对。
就 这 一步 它 最大 的 意义 是 让 大家 发现 语言 模型 它 可以 做 语言 之外 的 事儿。 因为 大家 之前 可能 只 觉得 语言 就是 做 统计, 就 比如说 你 做 翻译 是 可以 的, 因为 这 都是 现成 的 东西。 翻译 它是 一个 没 记忆 和 拼凑 的 工作, 它是 个 统计 概率 的 工作。 但是 现在 你 单纯 从 统计 概率 里 已经 看到 它 表现出来 推理 表现出来 逻辑 这个 事儿 是不是 很 神奇 的, 也是 个 挺 黑盒 的 事儿。
完全 是 我们 预期 之外 的。 我 觉得 反正 至少 从 我的 接受 教育 的 这个 经历 上 来讲, 说明 从来 业 了 十多年, 从来 没想过 他 会有 这样的。 到底 什么 是 推理 是 吧? 对 我们的 推理, 所谓 推理 其实 是不是 就是说 人类 这个世界 的 记忆 能力 不足, 才 需要 有 这个 推理。
就是 人类 自己 建 了 个 模 对。
建 了 个 小 模型。 对, 就是 我们 其实 对于 这个世界 的 认识 都是 基于 抽象 上 进行 的。 这个世界 有 一万种 灯, 但是 我们 都是 只有 一种。 这个 灯 是 都是 什么东西? 不然 你 就 不住。 对, 不然 你 这个 对他 对 世界 的 认识, 你 就会 你 就 需要 很大 的 参 数量 去 记忆 这个世界。
所以 如果 机器 有 这种 完整 的 存储, 我 为啥 要 中间 这 一层? 我 为啥 要 做 抽象 呢? 对我 就 现 算 都 可以 有 这个 有可能 是一个 对 这 是个 挺 有意思 的 东西。
实际上 我们 说 他的 那个 chain op shot 很 好的 应答 这个 现实 世界, 那个 世界 知识。 甚至于 你 给定 一个 上文, 它 能 很好 抽取 出来 信息。 看起来 有 这些 能力, 但 有可能 是 这件 事情 在历史上 发生 过。 但是 只不过 这个 模型 把 这件 事情 给 相似 的 事情 给 记住 了, 然后 按照 发生 过 的 方案 重新 把 它 展现 出来。 然后 从 人的 视角 上 来看, 他 就像 有了 各种各样 的 能力 一样。
我 跟 飞哥 聊天, 其实我 把 我们的 是 历史 的 一些 总结 这些 认知。 其实我 的 意思 是 说 我们 可以 直接 就 把 这个 事情 给 讲 出来, 不需要 对 他说 我在 做 总结 怎么样 给他 下一个 结论。 所 的 经验 都 是以 经验 的 形式 呈现, 而 不需要 总结 的 呈现。 其实 这也是 可能 的 认识 世界 的 方式, 对不对? 这就 比较 哲学 了。
但 这个 是个 很很 现实主义 的 哲学, 这 不是 形而上 的 东西。 前段时间 看到 一个 说法, 好像 你 之前 也 跟 我 提 过 这个 说法。 就是 N R P 的 从业者 很多人 会 觉得 说 之前 大家 研究 的, 包括 你 读 博 的 时候 研究 的 那些, 比如说 我要 认识 词性, 我要 认识 这个 词 是 褒义 的 还是 贬义 的, 情感 分析 等等 各种 这种。 本来 是 为了 解决 这 中间 问题, 最终 还是 要 解决 实际 的 应用。 然后 用 这个 就 本来 人人 就 科学家们、 科研人员, 大家 想 的 就是我 就 跟 人的 思考 方式 一样, 我 一步一步 解决, 我 分词 解决 特别 好, 下一步 解决 特别 最后 它 就能 翻译, 它 就能 对话, 它 就 等等。 但是 现在 发现 这个 好像 是一个 过渡期 的 东西, 如果 它 能 输入输出 直接 完成, 为啥 要 这些? 这就是 一个 灵魂 拷问 了。
所以 很多人 预测 说 ChatGPT 出来 之后, 所有 做做 中间 过程 的 这些 N O P 都 可以 都会 会 消失。
对 我我我 之前 没 意识到, 后来 发现 身边 这些 老同学, 这些 朋友 在 焦虑 的 时候, 我 才 意识到 这个 问题。 其实 很多 守 着 看 GPT 发布会 的 都 不是 创业者, 不是 产品 经理, 反而 是 那些 NLP 从业人员。
对, 是的, 大家 看自己 会不会 哪天 被 革命 掉了。 你 要不要 看看 开发。
看完 之后 的 手心 都是 汗。 对你 刚才 说 的 这个 之前 没 意识到, 就是 连 人的 这个 思考 方式 也是 一个 折中 的 方案, 它是 一个 没办法 的 方案。 但 实际上 如果你 存储量 和 计算 性能 足够 好 的话, 那那 确实 不需要 这个 中间 抽象 过程。
我 有的 时候 会有 这种 科幻 的 想法。
但 但 对, 但 这种 是 没有 定论 的, 就是 大家 只是 突然 看到 了 一种 可能性, 之前 说 确实 是 科 幻化, 就 比如说 去年 是 年终 说是 科幻, 今年 现在 再说 都 觉得 ChatGPT 它 代表 着 A G I 是 完全 靠 语言 模型。 就有 可能 不光 隔 了 N R P 的, 你 还 隔 了 很多 A I 领域 其他 的 各种 课题 的。 比如说 视觉 这种 各种 其他 包括 控制论 相关 的 一些 课题 的。 这个 你 个人 的 视角 是 怎么看 呢? 就 比如说 A G I 现在 是 很 明确 肯定 会 发生 的, 就是 他 只是 需要 调整 修修补补 就可以 了, 还是 说 他 目前 只是 个 假象, 他 并没有 那么好。 你是 怎么看 的 这个 事儿。
你是 乐观 还是 复杂 的 问题? 但是 我 觉得 从 几个 方面, 从 科研 的 角度, 或者 是 说 从 学校 做做 研究 的 角度 来讲, 以 更高 的 目标 去做 一些 或者 是 至少 ChatGPT 它它 表现出 一种 通向 A G I 的 这个 路径。 它 也 它是 一种 是 提供了 一种 可能性。 比方说 像 我 以前 做 的 句法, 这些 意义 不大。 坦率 的 讲, 但是 学校 来讲 更 值得 去做 一些 A G I 相关 的 一些 研究 公司 的 角度, 或者说 是从 我 现在 所处 做 业务 的 这个 角度 来讲, 没法 完全 抛弃 掉 传统 的 那些 基于 抽象 对 世界 的 认识 的 这个 思路 的。
就 他在 解决 一些 别的 课题, 不一定 是 说 A G I 能 解决 所有。
对对对, 就是 举例子 说, 我们 假如 说 做 一个 电商 的 一个 运营 动作, 我要 识别 出 哪些 用户 是 我们的 目标 客 群, 哪些 用户 不是。 那 其实 这个 时候 就是 以 我们 对于 人的 一个 抽象 了。 整个 这个 系统 中 大家 都 是用 这种 抽象 的 方式 去去 讨论, 去去 讲 业务, 去 推进 业务 的。 这个 系统 中 其实 是 很难 摒弃 掉 这种 中间 过程。 真的 说 像 那个 偏 前沿 科研 的, 确实 还是 应该 做到 终端, 或者说 做到 最终目标 的 这样。
明白, 那就 单纯 说 你 个人 视角 上 看你 会 觉得 GPT 代表 的 这个 路线 未来 会 怎么 发展 呢? 它 会 变成 真正 的 A G I 吗?
我 这边 可以 分享 一些 数字, 因为我 是 做客 服, 客服 这个 文本 分类 是一个 最 核心 的 一个 算法, 我们 试 着 拿 ChatGPT 去 做了 一些 文本 分类 的 尝试。 我们 最后 发现 还是 我们 自己 build 了 很多年 的 系统, 那个 准确率 其实 还是 有有 十几个 点的 差距。 经验 就是 ChatGPT 可以在 很多 任务 上 看起来 做得 很好, 都 达到 70分、 80分的 这个 准确率。 但是 如果我们 对 这个 系统 的 要求 是 达到 90分更高 的话, 那 有可能 还是 需要 有 一些 中间 过程 的 定义 和 问题 的 一些 拆解。 所以说 这部分 来讲, 其实我 我 觉得 还是 有 必要。 或者说 就是 这种 基于 中间 过程 的, 基于 抽象 的 这种 认识 世界 的 方法, 以及 做做 算法 的 方法论, 其实 还是 短期内 还是 不会 消亡。
整体 来说 会 变成 一个 新的 范式。 但是 它 也 不是说 我 颠覆 了, 就 之前 的 所有人 都要 失业, 之前 的 所有 事儿 都要 推翻 重来, 就 所有人 都要 上大 模型。 肯定 不是 这样的, 它是 是一种 能 带来 很多 新 可能性, 但是 以前 的 很多 课题 还是 有 价值 的。
对, 包括 你 其实 在在 看, 就是说 的 稍微 感性 一点, 就是 这个 的 出现 也是 建立 在 很多 前人 的 基础上 的。 你 包括 他们的 那个 首席 科学家, 其实 也是 当年 的 hinton 的 那个 学生。 对, 他们是 有 这种 传承 的。 未来 产业界 或者说 学术 圈, 比如 高校 企业 这些, 他们 再 能 复刻 一个 像 GPT 这样的 大 模型, 或者说 ChatGPT 这样的 产品 的 可能性 有 多大, 或者说 难度 有 多大。 百度 不是 已经 搞 出来 了 吗? 但 大家 还是 存疑。 对, 百度 搞 的 这个, 所以 你看 比如说 百度 这个 就 问问 的 更 具体 一点, 你的 观感 上 它是 是不是 像 GBT3, 刚才 你说的 那个 底层 的 东西 已经 实现 了, 只不过 激发 做 的 还 不够 好 还是 怎么样。
就现在 大家 看 效果 肯定 不行, 可能 两方面 都有, 就 本身 它的 基座 模型 会 可能 不如 那个 OpenAI 的那 套 模型 做 的 好。 具体 原因 可能 就是 那个 数据 质量 什么的 这部分 导致 然后 激发 这部 你 用 一个月 的 时间 肯定 比不过 人家 仔仔细细 调 了。
这个 相当于 是 从零开始 的, 肯定 就是 那个 底层 的 那个 是 以前。
有以 它它 是 基于 已有 的 那个 而且 去做 的对, 就是 百度 也 做 过 那个 GPT3 类似 大小 的 语言 模型。 所以 回到 这个 问题 说, 我 觉得 这个 的 事情 是 它的 难度 会 变得 越来越低。 大家 会 形成 一套 方法论, 怎么 去 能够 build 出 一个 比较 像 一个 ChatGPT 的 这样的 一个 模型。 这个 方法论 会 逐步 大家 逐步 摸出来。
我 看到 确实 大部分 可能 偏 技术 的 一些 人的 说法 还是 相对 乐观 的。 就说 这 是个 时间 问题, 因为 它的 方法 不存在 特别 强 的 黑盒, 就是 可能 怎么 这 里面 具体 的 调 的 代码 什么的, 它 没有 开源, 但是 它 不 基本 的 逻辑 都在, 无非 就是你 有没有 耐心 慢慢的 去 调。
可能 这个 花时间 就 实际上 那个 像 训, 假如 说 我要 训 一个 170B 的 模型 的话, 如果 没有 这种 成本 或者 资源 的 这个。 这个 问题 其实我 是 只 可以 有 直接 的 开源 的 方案 去去 帮 我 达到 这个。 就是 就 NVIDIA 有 个 叫 microtron L M 的 那个 开源项目, 相当于 你你你 组 好 足够 多 的 机器, 然后 那个 代码 就能 跑 起来。 就是说 你 真的 搞 一个 很大 的 模型, 其实我 觉得 从技术上 来讲 是 没有 大 难度 的。 但是 可能 更大 的 难度 就是说 我 怎么 去 把 它 把 这个 模型 训 稳定 了 之后, 就是 这个 模型 首先 它的 它 要 稳定, 模型 训 出来 就是 我们 说 质量 要好, 然后 就是 怎么 去 进一步 激发 它。
这部分 可能 会 可能 是 有 一些 壁垒 的, 这部分 是 OpenAI 一个 比较 核心 的 一个 资产。 这个 他 没有 公开 是 吧? 对, 其实 你看 他 GPT4 的 论文 里面, 他 会 讲 我 这 趴 事情 是 一共 有 哪些 团队 在 做, 然后 他 其实 列 的 很 清楚。 对, 然后 像 他的 我 看到 他 data team 大概 有 30人左右, 然后 那个 data set team 也有 三十多 人。 我们 假如 说 我们 应该 有 100人, 他 至少 有 百分之三四十 的 人是 需要 去 关心 这个 数据 质量, 关心 这个 模型 在 哪些 任务 上 的 表现。 这个 可能 会 就 假如 说 我们 要 造 一个 A G I 的话, 或者说 一个 通用 的话, 那 可能 这 不是 逃不掉 的 比喻 的话。
那 是一个 就像 驯兽师 或者 训练师 这个 角色 会 变得 非常重要。
会 出现 一种 新的 工种。 这个 工种 是 如何 去 跟 GPT 沟通, 或者说 我 怎么 去 验证 我 这个 模型 的 性能。 然后 不管 它是 一个 GPT 还是 一个 文心 一言, 我需要 有一个 有 一群 人 这群人 他 有 一些 文本 的 文本处理 的 功底, 同时 他 对 语言 的 任务 有 一定 的 理解, 然后 有 一定 的 经验, 或者说 写 这个 prompt 的 经验。 他 能把 这部分 的 去 拿, 他 不断 去 测试 这个 模型, 然后 去 看 它 达到 一个 什么 状态。 未来 可能 这部分 会有 一些 那种 产生 一个 新的 工作, 或者 是 刚刚 他说 的 那个 什么 prompt engineer。
对, 说到 模型 这件 事情, 其实 最近 我们 关注 到 有 两个 更 小规模 的 模型。 你 像 一个 是 斯坦福 他 开源 了 一个 叫 l parka 的 一只 羊驼, 这么 一个 相当于 他在 一个 6B0的模型 上去。 刚才 说 他 这个 训斥 T P T, 它 在 一个 第一阶段 一 万多条 指令, 这个 比较 重要 的, 然后 他 就让 chat G P 去 生成 出 五千 多条 指令。 对 然后 那 他用 这个 在 自己 手写 了 几百条, 这个 东西 去 尝试, 去 当成 这个 第一阶段 训练 去做。 然后 实际上 也 也 做到 了 一些 对他 肯定 是 beat 不了 这个 ChatGPT 的 效果 的对, 但是 你 考虑到 他 整个 一个 学校, 然后 用 很少 的 一个 计算成本 就 达到 了 一个 反正 看起来 回答 流畅, 然后 时不时 会 答非所问, 但是 你 觉得 他 还是 像 那么回事 的。 我 觉得 就是 他 表现出 这个 成本, 其实 这 事情 没有 那么 难 做。
还有一个 就是 清华 那边, 他们 开展 了 一个 拆 G L M 的 一个 模型, 也是 大概 6比0的size, 有有 内测 过 的据 据说 比 文心 一言 还要 好。 我自己 run 了 一下 那个 model, 确实 不如 百度 的 那个 质量 好的。 对, 我我我 自己 体验 是 不如 百度 质量 好的。 对 百度 的 问题 是什么 呢? 百度 的 问题是 它 不能 很 好的 follow 你的 instruction, 你 让 他 尽可能 简短 的 讲, 他 还是 给你 一大 串 东西。
对他 对 上下文 的 理解, 就是 对你 问题 的 理解 好像 有点 问题。 他 回答 的 反正 你 把 问题 回答 是 没问题, 但 其实 是 像模像样。
对对对, 但是 我说 你 要 十个 字 回答, 他 回答我 的 还是 一个 长篇大论 的 一个。 对, 可能 就是你 一个月 的 时间, 你 想 把 一个 language model 替换成 那种 很 好的 follow 你的 instruction 的。 这个 可能 还是 有 挑战。
对, 还是 前面 说 的 激发 和 训练 那 一步, 这个 可能 是 核心 问题, 但 这个 不是 技术 问题, 这 是一个 经验 或者 是 说 一个 所以 就是 需要 时间, 就 可能 就 去 调。 对, 需要 这个 产品 可能 它 又 很 玄学, 它 不像 过去 你 做 这个 调试。 对 技术 的 调试 也好, 就 产品 的 调试 也好。
100个任务 去 试一试, 然后 看看, 然后 人 去 check 一下 效果 怎么样。
也得 全 依赖 标注 和 人的 去 评估。 对对对, 就 这么 想象 一下, 好像 挺 难, 他 都 没有 好的 切入点, 就你不知道。 该该 比如说 你 现在 你 准备 1万个 月 那个 问答, 1万个 文本, 你到底 怎么 准备? 应该 是 什么样 的 是 吧? 对, 就是 乍 一 想 好像 还 挺挺 不知道 如何 入手。
所以 这个 估计 也是 会 成为 一个 新的 一个 工种。
顺着 这个 说 在 这个 大 模型 之下, 就 你的 观察 毕竟 也 在 企业 待 过, 未来 会 出现 那种, 比如说 你 像 刚才 说 它 替代 不了 这种 垂直 场景, 比如说 客服 对话 及 一些。 但是 是不是 未来 借用 他的 这个 客服 对话会 更好 用。
我 觉得 会 出现 这种 在 垂直 领域 上 的 一个 GPT, 或者 是 说 大家 做 一个 小的 业务 去 build 这个 GPT model 的, 这个 是 存在 这种 可能性 的。 其实 有 几个 点, 一个 是 说 我们 刚才 其实 举 了 很多 电商 的 这个 场景 的 例子。 当你 这个 问题 复杂 到 一定程度 的 时候, 你 把 它 都 丢 到 prompt 里头, 让 模型 去 生成, 让 模型 去 抽取。 这个 其实 成本 也 比较高, 这是 一点。 就是你 没法 完全 把 这个 上下文 做 一些 文本 化 的 一些 动作, 没法 做 prompt 或者 是 低成本 的 做 这个 事情。 那 可能 就是说 我需要 用 找 一种 prompt 和 生成 做 折中 的 这样的 一个 一套 思路。 那 我 就 可能 在 学校 需要 一个 领域 内 的 一个 小的 模型, 或者 是 说 我们 垂直 的 专门 做 这个 电商 build 的 这个 东西, 这是 一个点。
再 一个 可能 我 观察 到 有 一些 语言 相关 的 一些 问题, 就是说 我们 现在 其实 都是 中文、 英文 这个 优势 语言 在世界上 做 的 最多 的 两种 语言。 小语种 其实 有 一些 语言 是 没有 这个 能力 的。 所以说 假如 说 你 要 去 拓展 一个 小语种 的 市场 的话, 那你 可能 就 需要 一些 小语 种类 的。
我的感受 是 小语种 的 那个 翻译 不成问题, 但是 小语种 的 语料 可能 是 问题。 就 类似 为什么 很多人 去 问 ChatGPT, 发现 游戏 中文 的 部分 他 都 知道, 但是 他 回答 很 容易 就是 错乱, 信息 乱七八糟, 记忆 是 混乱 的。 但是 英文 的 很 容易 就 答对, 比如说 我 让 他 推荐 歌曲, 推 的 英文歌、 歌手名 等等 基本上 没 啥 问题, 推 中文歌 就 不行。 后来 我 就 看 他的 用 的 中文 语料 只有 一个点, 那就 显然 就 他用 了 英文 语料 是 97%, 他 都不 在于 说 翻译 的 时候 怎么样, 问题 是你 你 压根 不知道 这个 信息 和 知识。
对, 这个 就 像你 深入 到 一个 语言, 你 可能 是 泰语 的 那个 流行歌曲, 你 完全 是 不知道 的。 类比 的话, 你 要 深入 到 一个 特定 的 垂直 领域, 你 这个 领域 内部 的 一些 定义 的 一些 方法论、 方式, 他 也是 不知道。 所以说 我 觉得 这些 都是 有可能 会有 机会, 而且 估计 大家 也 不会 闲着。
听起来 好像 是 未来 还 会有 两个 核心 的 团队, 两个 核心 的 竞争力。 一个 就是 你的 数据, 对 吧? 就是现在 大家 都在 提 的, 就 你 有 这个 数据, 别人 没有, 别人 也 没法 来 爬, 那你 这个 就有 独特 价值, 比如说 知乎 这种。 还有一个 就是你 刚才 说 的, 可能 这个 公司 它 调 的 很好, 它 有一个 非常 好的 prompt engineer 团队, 或者说 这种 搞 激发 这 一步 的 团队, 这也是 一个 竞争力。 可能 听 下来 是 这 两个 是 吧。
我 觉得 两者 都是 相辅相成 的, 是 缺一不可 的。 你 光有 领域 数据, 你 只能 训 出 一个 像 GPT1样 底层 的 模型, 但是 你 没法 把 它的 能力 激发 出来。 就是 这个 大公司 它的 那个 language model 的 团队 都会 这种 数据 和 这种 激发 团队 都会 组织 在一起。
你说的 再 细 一点, 这种 搞 激发 的 这个 团队, 搞 problem engineer 的 团队 是个 什么 角色 呢? 都 想象 不 出来。 原来 他们 都 是从 哪儿 转行 来 的, 就 技术 估计。
就是 技术 产品。 但是 其实 你看 那个 ChatGPT, 他的 那个 OpenAI 的 团队, 有 一位 叫 温 丽莲 的 华人。 在 我 读书 的 时候 他是 一个 researcher 做 科研 的。 但是 现在 看 他在 那个 团队 也是 一个 产品 经理。 或者 是 说 经历 的 这样 一种 一 那样 一种 定位。 估计 未来 也 不会 说 大家 就是 我 以前 是 做做 模型 的, 将来 也 一定要 做 模型。 有 一个点 就是说 对于 这个 任务, 或者 是 说 我 对于 实际 需求, 或者 实际 下游 那个 需 大家 在 需要 什么, 或者说 我 做 这个 模型 输出 的 这个 是 文本 分类, 它 分 的 是什么 类? 就 这些 事情 了解 这个 事情 还是 有 核心 竞争力 的。
所以 就是 听起来 产品 经理 还是 不会 失业 的。 产品 经理 已经 失过 一波 业 了, 就 因为 没有 什么 新产品 可 做了。 但是 现在 可能 又 因为 要 调 大冒险, 还得 重新 发掘 用户需求, 发掘 场景 需求, 定义 任务, 定义 问题。 听起来 又 乐观 了 一点, 但是 程序员 也 分 几种, 如果 是 那种 比如说 日常 就是 写 circle, 或者 写 一些 确定 的 比较 确定性 强 的 语言, 可能 确实 比较 危险。 我 朋友圈 已经 发现 有 完全 不懂 代码 的, 用 ChatGPT 写写 软件 了。 从 你 个人 感受 或者 你 身边 朋友 的 感受 来说, 这 几个 月 发生 的 这些 事儿 之后 会有 哪些 调整, 或者说 会有 哪些 变化 吗? 就是 工作 上 或者 做做 产品 上, 自己的 职业 发展 上 会有 吗?
我 感觉 大厂 厂子 里面 这些 程序员 应该 可能 还好 吧, 一两年 内。
一两年 但是 也 挺 紧张 了 这个 时间。
对, 所以 基本上 就是 要么 学习 去 听 这个 longer model, 要么 去 学习 做 一个 好的 prot engineer。 但是 我 觉得 一个 比较 残酷 的 事情 是, 现在 可能 做 科研 的 同学 他 受到 的 挑战 更大。 可能 自己的 题目 做到 博 四 博 5的时候, 题目 没了。
这个 是一个 这个 实际上 是一个 比较 现实 的 一个 对人 在 这个 社会上 的 一个 核心 竞争力。 不是说 我 把 这个 分数 刷 到 多 高, 把 考试 考 的 就是你 真的 在 这种 公司 里面, 除了 要把 这个 模型 的 准确率 做 高, 可能 模型 准确率 做 高 只是 5% 的 工作。 真的 去 搞清楚 要 做什么, 然后 需求 是什么, 甚至于 可能 拉通 各种 人, 这种 其实 也是 一个 比较 重要 的 事情。 我 觉得 技术 是一个 带来 一个 变化, 但是 短期内 看 还 不会改变 大家 做事 的 方式, 就 特别是 可能 相对 来讲 比较 大 的 公司 的 做事 方式 不会 有 特别 大变 变化。 但是 你说 比方说 一个 小的 十 人的 创业 团队, 但 这个 事情 也要 看 投入产出。 如果 他 你的 每次 请求 不值 这个 ChatGPT 的 A P I 的 钱 的话, 那你 可能 还是 传统 的 老办法 是 比较 有效 的。 其实 要 看 财务 模型。
GPT 本身 这个 调用 成本 的 变化, 它 也会 影响。
我 理解 ChatGPT 它 不会 一直 保持 现在 这个 技术路线。 就 假如 说 我们 后来 未来 这个 与 文本 交互, 或者说 是 这种 偏 语音 交互, 自然 源 的 交互 是 取代 了 屏幕。 那 可能 这个 蜡烛 lange model 会有 有 要 适配 的 这种 新的 一些 取代 屏幕 的 时候, 它 可能 会 产生 新的 语言, 产生 新的 问法, 产生 这种 这个 可能 都是 会有 变化 的对, 但是 这个 可能 相对 来讲 是 比较 远 的。 今天 先 看 了 一篇 文章 说 那个 in 是 新的 操作系统, 然后 那个 是 新的 chat T T, 新的 G U I。 对我 觉得 这个 想法 倒是挺 挺 红 的。
很多人 也 讲, 包括 黄仁勋, 当然 黄 老板 他是 个 卖 芯片 的, 他 肯定 卖 卡 的, 可能 得 他 肯定 是 乐观 的 这个 事儿。 他他 也 说 现在 就是 iphone 时刻, 那 很多人 也 说 他 那个 blog in 是 叫 什么 f store 时刻, 它 提供了 一个 APP 应用 商店, 感觉 还是 没 那么 一样的 核心点。 我 觉得 还是 体验 差 的 问题, 就是你 整体 的 用户 感知 上 的 体验 差。 你 如果 拿到 一个 拿 手里 的 是一个 摩托罗拉 和 诺基亚, 你 拿到 一个 iphone, 用 iphone 里 的 东西 那种感觉 那是 有点 跨时代 的 感觉, 就 很 科幻 的 感觉。 现在 我们 用 的 聊天 是 有点 科幻 的, 但是 你 聊天 的 过程 中能 解决 个人生活 工作 中的 问题, 还没有 那么 科幻。 那 现在 解决 了 一部分, 这是 让 大家 觉得 科幻 成 真的。
或者 他他 准确 的 更 准确 的 理解 你想要什么 了。
对, 帮忙 解决 一部分 确定性 强 的 问题。 但是 让 他 去 解决 其他 的 我们 日常生活 中用 的 互联网产品 的 问题, 那 肯定 还没有 那么好。 理想 情况下, 当然 有一个 很 模糊 的 一个 想法, 我想 买 一个 东西, 那 现在 淘宝 拼 多多 满足 不了 我, 但是 他 也 满足 不了 现在 因为他 没有 这些 信息。
最后 问 一个 问题, 我 其实 也 最近 一直 在 思考 这个 问题, 就是 因为 现在 信息 太多 了, 就 关于 ChatGPT A I 相关 的 大家 都 在写, 就 搞 产品 的、 搞 技术 的, 然后 学术 的、 企业 圈 的, 大家 都在 聊 这个。 然后 这 里面 你 获取信息 的 方式 有 很 多种。 就 可能 一种 是看 论文 读 论文, 一种 是 我自己 去 体验, 一种 是 自己 实际上 手 能 做 一些 东西, 包括 在 看 别人 怎么用 这个 等等。 就 其实 获取 这些 信息 的 方法 很多, 我 先 抛 个 砖, 我自己 会 感觉 之前 我 可能 主要 就是 看 一些 文章, 后来 发现 不行, 得用 对 吧? 但 你 用了 之后 发现 好像 还 不够, 因为你 你 用 跟 用是 不一样的。 之前 大家 也 只是 我我我 注册 个 账号, 我就是 为了 想 看看 他 有 多 厉害, 问 几个 刁钻 的 问题 也就 完了。 那那 其实 好的 用法 是你 把 它 利用 在 真实的 场景 里, 看 能不能 解决问题。
我 最近 看到 有 一些 朋友 在 用来 去 帮忙 分析 自己 写 的 论文 也好, 自己 在 研究 的 课题, 写文章 去去 整理 结构。 它 其实 这个 很 非常 需要 你的 prompt, 就是 你的 prompt 运用 的 好 的话, 它 能 给 很多 洞察, 这个 是 让 我 觉得很有 价值 的。 包括 我 用 的 mid journey 去 画图 之前 也就是 画 一些 有 噱头 或者说 比较 好看 的 图。 但 现在 我 发现 能不能 让 他 更 可控 去 画 一些 你 本来 想 画的, 就是 让 你 原来 完全 不懂 画画 的 一个人 能 变成 一个 创作者, 这 是个 有 价值 的。 然后 后来 我 再看, 又 发现 很多 朋友 也 在 讲说 要不要 自己 亲身 去 实践 做 一些 尝试。 是看 一下 它的 底层 的 逻辑, 去 实现 一下 一个 大 模型 还是 怎么样, 就是 做 的 方式 很多, 这个 事儿 你是 怎么看 的对。
反正 我自己 大概是 会 关注 两个 方面。 一个 是 这个 底层 的 模型 是 怎么 训练 出来 的。 然后 我 用 什么样 的 数据 能够 激发出 他的 这个 chat 的 能力, 或者 是 说 他 follow instruction 的 能力。 我 可能 比较 关注 就是 在 我们的 那个 垂直 领域 内, 我 怎么能 不能 通过 一个 小的 模型 或者说 达到 这个 跟 大 模型 类似的 情况。 可能 还有 另外一个 比较关心 的 问题, 就是我 怎么 让 模型 知道 它 这个 问题 他 答 不了。 对, 这个 其实 是从 一个 通用 的 问题, 通用 模型 到 一个 领域 模型 中 面临 的 一个 比较 大 的 问题。
所以说 其实 从 我自己 来讲 会说 就 主要是 看 论文, 然后 就是 要 要 用 要 基本上 模型 都会 去 试一试, 然后 就 跑 一 跑 那个 A P I, 包括 那个 ChatGPT 这些 的, 其实 都会 调研。 所以 这 在 这个 调研 过程中, 其实 形成了 一套 prompt 的 数据集, 或者 形成 一套 一个 data 在 其实 就是你 会 发现 我们在 用 这个 model 的 时候, 一个 是在 build 这个 model, 一个 是在 用 这个 model 用 的 毛泽东 自觉 的 不 自觉 的 就会 形成 一些 数据。 这个 就 有点像 OpenAI 他们的 data 赛 团队 在 做 的 事情。
这个 模型 很 好的, follow 的 十个 字 以内 的 下一个 模型 就 不行, 就是 百度 的 可能 就 这个 不 太行。 然后 下一个 就 完全 是 乱 生成, 也有 一些 标准, 就是 它 会不会 生成 出 重复, 会不会 生成 出 一些 完全 不 相关 的。 然后 我们 因为 自己 内部 也 在 去 build 这个 模型, 其实 这套 方法论 也 在 往 自己的 模型 上去 做。
技术 的 角度 上 来讲, 相当于 是 现在 会 关注 两点。 一点 是 怎么 去 build 模型, 一点 是 一点 其实 就是 data set 的, 怎么 去做 prompt, 把 真正 的 需求 怎么能 转换成 一套 可以 prompt 的。 这个 事情 其实 是 挺 大 的 一个 问题。 你 简单 的 问 几个 问题, 得到 一些 答案, 这个 看起来 很酷, 但是 它 不是 解决 产品 问题 的 一个 思路。
最后 肯定 还是 说 我 有一个 产品, 这个 产品 接收 到 用户 的 一些 输入 之后, 我 把 它 加工 成 一个 prompt, 从 ChatGPT 拿出 东西 来, 然后 再 进行 加工 之后 再 返回 给 一些 终端用户。 就是 中间 这个 prom 的 这个 转换 的 过程, 其实 是 是 新 工种, 就是 engineer。 以前 可能 就是 看到 一个 用户 去 一个 query, 十个 用户 的 query, 现在 就 变成 100个用户 的 query。 我 怎么用 特殊 的 prot 能够 让 从 这个 模型 中 抽出 更好 的 识别 结果, 或者 是 更好 的 答案。 这 其实 已经 是 在在 做 的, 后面 会 逐渐 成为 一个 方向。
那就 变成 一个 建议, 包括 我们 自己 也都 在 实践 的 一个 事儿。 就是 与其 大家 看 很多 文章, 听 很多 播客, 不如 可能 试一试 你的 prompt 能不能 创造 一些 新的 东西, 能不能 把 它 激发 出来 一些 新的 可用性。 非常感谢 嘉艺, 今天 就 聊到 这儿。
拜拜 大家 再见。
欢迎 在 小宇宙 苹果 podcast 订阅 和 收听 3、 五环, 也 欢迎 在 评论 区 留言 交流。 如果 喜欢 三、 五环 的话, 也 恳请 您 在 苹果 podcast、 spotify 或者 喜马拉雅 留下 你的 宝贵 好评, 下期 再见。