We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode E135|大模型带火的下一个风口:向量数据库

E135|大模型带火的下一个风口:向量数据库

2023/12/27
logo of podcast 硅谷101

硅谷101

AI Deep Dive AI Chapters Transcript
People
吴万涛
栾小凡
Topics
栾小凡:向量数据库起源于对GPU算力在结构化数据处理中过剩的观察,进而转向非结构化数据处理。通过深度学习模型提取特征向量,再利用向量数据库挖掘向量间的相关性,在大模型时代,因其对语义的关注和对合理推断能力的提升而变得重要,能够更好地处理大模型测试的困难以及大模型输出结果的模糊性。选择向量数据库赛道基于两点判断:非结构化数据占人类数据绝大部分,且该领域未被巨头充分关注,未来前景广阔。向量数据库的护城河在于能否解决工程挑战(好的embedding模型和向量检索算法)和性能与成本挑战(在大规模向量数据中实现毫秒级召回和低成本存储)。向量数据库的准确性通常用召回率衡量,目前业界已能达到95%甚至99%的召回率,但最终准确性还取决于embedding模型的质量。Zilliz的商业模式是纯云SaaS模式,基于公有云(主要在亚马逊云科技)构建,提供标准化服务,避免定制化服务。开源有助于商业化,因为它能帮助公司获得用户,提升产品影响力,并为商业化提供市场基础。开源代码与商业化产品的代码并非完全相同,通过重写核心代码、增加高级能力(监控、报警、embedding pipeline等)和附加功能(数据迁移、备份、安全)来实现差异化竞争。向量数据并非绝对安全,经过精心设计的模型可以恢复用户信息,因此需要采取加密措施和数据移位等技术来增强安全性。Zilliz的全球业务主要集中在北美,营收70%以上来自美国市场,欧洲、新加坡和中国市场也有业务。选择出海而非专注中国市场,是因为美国在AI模型成熟度、用户接受度和资本活跃度方面领先,可以获得一手用户信息并影响产品方向。加入Linux Foundation AI & Data基金会,是为了将Milvus打造成一个真正走向世界的开源产品,并从中获得前沿视野和社区支持。 吴万涛:大模型时代,向量数据库重要性体现在其能够存储和处理大模型无法学习的企业私域数据,结合大模型的推理能力,开发各种应用场景。向量数据库与传统数据库结合,能提升电商长尾搜索质量,并通过检索增强生成(RAG)技术,利用企业私有数据提升大模型应用精度。亚马逊云科技在向量数据库领域的策略是“逆向工作法”,即从客户需求出发,提供多种选择,包括融合向量处理能力的传统数据库产品和支持第三方向量数据库产品的方案。

Deep Dive

Chapters
讨论向量数据库与传统数据库的区别,特别是基于关键词匹配与上下文和语义相似度匹配的不同。
  • 向量数据库利用深度学习模型提取特征和向量,挖掘向量中的相关性。
  • 传统数据库基于关键词匹配,要求严格相等。
  • 向量数据库更注重上下文和语义,通过语义找到相关信息。

Shownotes Transcript

欢迎 收听 硅谷 101, 这是 一档 分享 当下 最 新鲜 的 技术 知识 与 思想 的 科技 博客。 我是 红军, 这 期 跟 我们 聊天 的 嘉宾 是 zelie 的 技术 合伙人 栾 小凡。 Hello 栾 总, 你好。

hello 大家好, 我是 栾 小凡。 然后 来自 俄罗斯, 主要 在 我们 公司 负责 工程 相关 的 一些 工作。

栾 总 除了 是 zelie s 的 技术 合伙人, 同时 也是 尼那 斯 基金会 的 A I 和 data 的 基金会 技术咨询 委员会 的 成员。 我 觉得 待会儿 也可以 跟 我们 去 聊 一 聊 开源 基金会 的 运作。

好 好, 今天 很高兴 有 机会 能 跟 大家 分享 关于 限量 数据库, 关于 中国 的 公司 出海, 以及 咱们 在 开源 领域 里面 做 过 的 一些 事情。

今天 跟 我们在一起 的 还有 一位 是 亚马逊 云 科技 解决方案 的 架构师 吴 万涛。 Hello 万涛, 你好你好。

红军 硅谷 101的听众 大家好。

今天 这 期 节目 依然 是 硅谷 101与亚马逊 云 科技 联合 制作 的 出海 特辑 的 第三期。 我们 今天 要 聊 一个 可以 说 最近 在 资本 市场上 特别 火 的 话题, 就是 向量 数据库。 大家 都 知道 今年 是 大 模型 火 起来 了。 那大 模型 火 起来 之后, 其实 在 底层 的 很多 技术 上 也是 有 很多 的 创新 的。 我知道 在 今年 上半年 的 时候, 不管 在 中国 还是 美国, 向量 数据库 都 是一个 非常 火 的 词 跟 创业 的 方向。

而且 我看见 zelie 的 创始人 星爵, 他在 接受采访 的 时候 说 了 这样 一段话, 还 蛮 能 精准 的 概括 现在 向量 数据库 在 整个 产业链 里 的 位置 的。 他是 这样 说 的, 他说 过去 十年 最大 的 机会 是 做 cloud native 的 数据 基础设施。 产生 过 像 slow flake 这样的 巨头, 未来 10年 最大 的 机会 就是 做 A I native 的 数据 基础设施。 像 zelie 这样的 向量 数据库 就会 迎来 它的 历史性 机遇。 今天 也 算是 我自己 学习 跟 补课 的 一期。 栾 总 你 要不要 先 跟 大家 解释一下 什么 是 向量 数据库? 因为我 知道 你们 有 客户 是 宜家 或者 易贝, 能 不能用 一个 例子 来去 对比 看一下 向量 数据库 与 传统 数据库 它 有什么 不一样的 地方。

聊到 向量 数据库, 可能 要 从 我们 做 向量 数据库 的 初心 开始。 其实 最 开始 我们 公司 是 一家 做 传统 的 O B 数据库 的 一个 公司。 但 当时 我们 其实 的 一个 主要 的 想法 就是 利用 G P U 这 样子 更 先进 的 一个 算 力, 去 加速 结构化 数据 的 一个 处理。 在 处理 的 一个 过程中, 我们 逐渐 发现, 其实 第 1GPU 的 算 力 可能 在 结构化 的 数据 的 体量 底下 是 过剩 的, 并没有 办法 很 好的 去 发挥 一个 很 好的 性价比。 于是 我们 逐渐 就 把 我们的 关注点 转向 了 非 结构化 数据 的 处理。 这里 的 非 结构化 其实 指的 是 包括 像 图片、 音频、 视频、 长 文本 种种 的, 并 不能 很 好用 传统 的 这个 数据库 去 处理 的 一些 数据。

在 这个 过程中, 逐渐 就 演进 出了 这样的 一种 处理方式。 就是 我们 把 各种各样 的 微 结构化 的 数据, 通过 一个 深度 学习 模型 提取 出 它的 特征 和 向量。 然后 再 利用 向量 数据库 去 挖掘 这些 向量 当中 的 一些 相关性。 当然 也 随着 这个 业务 的 逐渐 发展, 挖掘 的 过程 其实 也 变得 更加 的 复杂, 带来 了 更多 的 一些 香港 检索 的 语义。

以 咱们 刚才 聊 的 一个 例子, 如果 是 宜家 他在 用 这个 向量 数据库 的 过程中, 可能 是 把 他们 所有的 一些 家具 的 一些 图片, 包括 这些 家具 的 描述性 的 文字, 通过 以 多 模态 的 一个 模型 把 它 转化成 向量。 实际上 在 使用 的 过程 中有 的 用户 可能 是 拿着 图片 去 搜索 对应 的 这个 家具 信息。 也有 的 用户 可能 是 通过 一段 语言 的 描述。 比如说 我想要 一个 红色的 凳子, 那么 就 可以在 宜家 的 物料 信息 里面 找到 他们 对应 的 一些 数据。

随着 现在 大 模型 的 不断 的 成熟, 怎么 把 各种各样 的 废旧 化 数据 转换成 向量 的 这个 部分。 其实 我们 看到 在 过去 的 一两年 中 发生 了 一个 非常 大 的 一个 快速 的 发展。 这也是 为什么 现在 数据库 概念 在 过去 的 一两年 里面 变得 非常 火 的 一个 主要 的 原因。

我 还是 用 你 刚刚 这个 例子 来去 解释一下。 就是说 传统 的 数据库, 比如说 大家 在 宜家 上 要 搜索 一个 商品, 可能 就要 输 这个 商品 比较 准确 的 名字, 或者 去 输 这个 商品 的 编号。 好, 但是 向量 数据库 就是 当 他 输 一个 红色的 凳子, 那么 它 就会 模糊 的 去 匹配 红色 凳子 这些 词, 然后 给 它 一个 比较 相近 的 搜索 结果。 这样 理解 是 对的 吗?

对, 稍微 补充 一下 的话, 其实我 觉得 对于 向量 数据库 来讲, 它 最 关键 的 一个 用 英文 来讲, 我们 叫 semantic 或者 中文 叫 语义。 就是说 他 所做 的 匹配 跟 传统 的 数据库 相比, 传统 数据库 基本上 是 基于 关键词 去做 匹配 的。 也就是说 它是 要求 严格 相等。 而 对于 向量 数据库 来讲, 它 其实 是 充分利用 上下文, 充分利用 语义 之间 的 相似度。

比如说 可能 我说 苹果 它 其实 本身 是一个 多义词, 既有 可能 是 苹果 手机, 又有 可能 是 咱们 今天 在 吃的 这个 苹果。 那 到底 在 一个 具体 的 语义 当中, 我们 怎么 判断 这个 苹果 具体 的 语义 是 指的 是 前者 还是 后者 呢? 其实 取决于 我的 上下文 到底 在 聊 什么东西。 所以 我 觉得 现代 数据库 相比 于 传统 的 数据库 来讲, 其实 它 更多 的 是 在乎 上下文 和 语义。 然后 通过 这种 语义 找到 相字 或者 相关 的 一些 信息。

现在 因为 是 大 模型 时代, 是不是 在 大 模型 出来 之后, 这种 基于 上下文 跟 语义 的 搜索 它 变得 更加 重要 了。

其实 首先 我 觉得 大 模型 引领 了 一种 新的 开发 范式。 相信 很多 用过 大 模型 的 朋友, 或者说 基于 大 模型 做 开发 的 朋友, 也都 很 深刻 的 能 感知 到大 模型 的 测试 是 非常 困难 的。 就是 他 有的 时候 说 的 东西, 你 其实 很难 通过 一个 非常简单 的 判断 标准 来 判断 它 对 还是 不对。 要 去 达成 这种 match, 其实 不仅仅是 大 模型 本身 是要 去做 一个 转变 的。 包括 在 数据库 这 一侧, 其实 我们 也有 很多 的 场景 底下, 他 对 语义 的 关注, 或者说 他 对 这种 刚才 说 的 是否 合理, 是不是 能 做 足够 多 的 推测。 比如说 我想要 一个 红色的 帽子, 但是 实际上 我搜 出来 一个 黄色 的 帽子, 是不是 在 某些 情况下 它 也是 成立 的。 如果 你的 应用 场景 是 符合 这些 我们 所谓 的 能够 合理 推断 即可 的 这种 场景 的话, 那 其实 你 会 发现 向量 数据库 是 非常适合 这种 应用 场景 的。

我 做 一个 补充, 其实 向量 数据库 为什么 说 在 大 模型 时代 这么 重要? 另外一个 原因 就是说 大 模型 在 训练 的 时候, 它 其实 是 使用 公开 数据 进行 训练 的。 很多 企业 里边 它 有 很多 私 域 的 数据, 这个 私 域 的 数据 大 模型 是 学 不到 的那 我们 就 商量 数据库, 就可以 很 方便 的 把 思域 的 数据 放到 向量 数据库 里边。 再 结合 大 模型 的 这种 总结 能力、 推理 能力, 然后 来 开发 出 各种各样 的 应用 场景。

举 个 例子, 比如说 咱们 企业 里边 就是 某个 制造业 的 一个 企业。 它 里边 有 很多 产品 的 一些 描述 的 文档。 那 这个 文档 的话, 它是 在 企业 内部 的 环境 里边 的。 当 他的 用户 去 搜索 产品 相关 信息 的 时候, 他 直接去 问 大 模型, 大 模型 是 给 不出 答案 的。 我们 可以 把 大 模型 和 向量 数据库 做 一个 结合, 把 这些 产品描述 信息 放到 向量 数据库 里边。 然后 通过 向量 数据库 的 语义 搜索, 把 相关 信息 搜索 出来, 然后 再 交给 大 模型 去做 后续 的 处理。 比如说 做 总结, 做 一些 推理 等等 相关 的 工作。

栾 总, 你 有 觉得 这 一轮 大 模型 火 了 之后, 你们的 这个 应用 场景 跟 客户 突然 有变 多 吗?

确实 是 这样的, 因为 我们 公司 做 现在 税 库 其实 是 比较 早, 可能 从 1819年 开始, 我们 就 开源 了 这个 mail 4.0。 在 那个 阶段 的话, 大家 其实 主要 还是 AI1.0 的 一些 应用 场景。 比如说 图片 的 搜索, 多 模态 的 检索, 或者说 这种 推荐 系统、 风 控系统。 从 过去 这一年 开始 的话, 我 觉得 大 模型 本身 的 能力 其实 足够 的 强。 大家 也 一直都在 去 摸索, 就是 大 模型 里面 到底 可能 有 哪些 可以 落地 的 一些 点。 比如说 大家 最 熟知 的 像 这个 R A G R A G generation, 包括 像 agent 的 long term memory 以及 一些 多 模态 检索 的 场景 里面, 开始 越来越多 的 去 看到 这个 向量 数据库 能够 去 落地 的 一些 场景。

刚刚 你 有 提到 就是 你们 公司 是从 2019年 左右 就 开始 在 推向 量 数据库。 并且 我 采访 您 之前 也 做了 一些 功课, 你们 2018年 下半年 开始 就 已经 有 做 这个 向量 数据库 的 想法 了。 当时 你们 刚 开始 做 这个 赛道 的 时候, 就是 大家 都 没有 开始 去 这样 做 的 时候, 你们是 怎么 觉得 你们的 方向 是 对的, 包括 这件 事情 能不能 做成, 它是 一个 技术 门槛 或者说 学术研究 门槛 比较高 的 领域。

从 最 开始 day one 开始 的话, 其实 没有人 知道 这个 是不是 一个 对的 赛道。 其实 我们 自己 也是 某种程度 上 也是 摸着石头过河。 只是 我们的 信念 或者 我们 对 大 的 一个 方向 的 判断, 就是 我们 认为 非 球 化 数据 在 整个 的 人类 的 数据 的 体量 里面, 其实 占 到 绝大多数, 可能 超过 80% 以上。 所以 首先 这里 有 足够 大 的 一个 数据量, 就 意味着 有 足够 大 的 市场。 其次 的话 就是说 这 不是 一个 well solve 的 problem。 就 我们 希望 找到 一个 相对 来讲 可能 还没有 被 那些 巨头 盯上 的 一个 比较 小的 市场。 而 这个 市场 未来 又有 很大 的 前景。

这是 我们 为什么 说 我们会 all in 去做 向量 数据库 这个 赛道 这个 事情。 但是 后面 是不是 能 做成, 我相信 可能 会有 很多 的 机会 或者 运气 的 东西 在。 所以 这个 赛道 其实 从 day one 开始, 我们 也是 一点点 去 切入。 最 开始 的 时候 其实 甚至 连 我们的 向量 里面 最 核心 的 这个 向量 检索 引擎, 也是 基于 facebook meta 开源 出来 的 这个 face 去 改造 的。 随着 我们的 应用 场景 的 迭代, 我们 确实 也 看到 了 更多 的 机会。 到 今天 为止, 我 觉得 它 已经 是一个 我们 所谓 的 护城河 很深的 一个 赛道 了。 如果 大家 去 里面 仔细 看 里面 的 认知 的话, 我 觉得 就是 非常 多 的。 但 如果 从 a one 来看 的话, 我 觉得 其实 大家 都是 摸着石头过河。 我们 只是 做 这件 事情 做得 更 早 而已。

今天 的 护城河 是什么 呢?

首先 我 觉得 在 我们 来看, 第一 我们 已经 看到 了 这个 地方 的 数据 体量 带来 了 越来越多 的 一些 工程 的 挑战。 如果 大家 今天 去 问 大 模型 接下来 还 会有 哪些 挑战? 我相信 几乎 所有人 认知 就是 两个 点。 第一 就是说 大 模型 的 能力 还 不够 强, 就是说 他 能 理解 的 东西 还 比较 少, 所以 我要 不停 的 去 扩大 我的 模型。 那 一旦 扩大 我的 模型 就会 带来 第二个 挑战, 就是说 我的 推理 速度 或者说 我的 推理 成本。 其实 可能 没有 办法 让 我在 我自己 的 用 场景 里面 去 拿到 足够 好的, 让 用户 能够 满意 的 一个 性能。

其实我 觉得 对于 向量 数据库 来讲 也是 完全 一样的。 其实 对 用户 来讲, 他 无非 在意 的 是 两件事。 第一个, 我 能不能 搜 到 好的 结果。 搜 到 好的 结果 我相信 当然 取决于 两件 事情。 第一, 你 要有 好的 embedding 的 模型。 第二 你的 向量 检索 的 算法 本身 要 足够 的 好。

当然 这个 里面 其实 检索 本身 也 不再 是 只是 做 一个 非常简单 的 一个 我们 叫做 neighbor arch 是的 这样 一个 最简单 的 检索。 我们 看到 检索 里面 开始 掺杂 越来越多 的 语义 的 信息, 包括 过滤, 包括 一些 关键字 的 混合 查询, 以及 越来越多 的 更 复杂 的 一些 计算 的 一些 方式。 比如说 传统 数据库 里面 有的 join gw bag aggregation 这些 操作。 其实 我们 都 看到 了。 在 向量 数据库 里面 都 开始 有 用户 去 提 这些 需求。

怎么 把 这些 需求 能够 高质量 的 映射, 这个 是 我们 看到 第一个 大 的 挑战。 第二层 挑战, 我 觉得 其实 依然 是 性能 和 成本 上面 的。 因为 我们 现在 看到 越来越多 的 用户, 他 可能 有的是 10亿级别 甚至 百亿 级别 规模 的 向量。 那么 要 怎么 在 这么 大规模 的 一个 向量 里面 能够 做到 毫秒 级 的 召回, 能够 以 非常低 的 成本 去 存储 这些 向量, 我 觉得 这个 也是 向量 数据库 这个 赛道 面临 的 很大 的 一个 挑战。

刚刚 其实 问 护城河, 你 讲 了 两个 挑战, 工程 的 挑战, 性能 与 成本 的 挑战。 我 理解 如果 能 解决 这 两大 挑战 的话, 它 其实 也就 慢慢 形成了 一个 护城河 了, 它的 壁垒 也是 很高 的。

是的, 其实我 想 表达 的 也是 这个 意思, 就是说 谁能 最先 的 把 这 两个 挑战 很 好的 去 解决, 谁 就能 最早 的 去 达成 自己的 P M F。 先 找到自己 最合适 的 一些 用户。

那 从 万涛 这边 看啊, 亚马逊 云 科技 也有 很多 就是这样 的 用户。 大家 现在 在 对 这种 传统 数据库 和 向量 数据库 的 这种 比较 中 会有 特别的。 比如说 大 模型 出来 以后, 更加 倾向 于 去 使用 向量 数据库。 就 客户 的 反馈 跟 他们的 一些 问题 会 是什么 呢?

今年 向量 数据库 火 起来 之后, 其实 很多 客户 确实 都有 这么 一个 疑问。 比如说 我的 业务 场景 里边, 我 使用 传统 的 数据库 能 做到 的 事情。 那用 向量 数据库 能不能 去 做到 更好, 或者说 能不能 提供 有效 的 一个 补充。 比如说 我 有一个 电商 客户, 他是 基于 传统 的 这种 搜索 技术, 比如 关键词 搜索 去做 商品 的 搜索。 用户 在 他的 站点 就可以 直接 搜索 我想要 到 的 商品, 这个 是 传统 我们 做 这个 的 方式。 但是 当 他 分析 传统 的 搜索 用户 效率 的 时候, 他 会 发现 有 一些 用户 的 需求 表述 并 不清晰。 比如说 他在 搜索框 里边 输入 的 关键词 表达 并 不准确, 这个 时候 搜索 质量 相对来说 就会 比较 差。 他 就在 考量 就说 我们 用 什么样 的 方式 能把 这些 常委 的 搜索 质量 不高 的 这些 给他 提高 上去。

后来 我们 考虑到 就是 用 向量 数据库 的 这种 手段, 从 语义 上去 理解 客户 的 搜索 需求。 通过 语义 的 理解 检索 出来 相应 的 这个 商品。 所以说 通过 这个 案例, 我们 得出 的 这么 一个 简单 的 结论。

传统 的 数据库 有 它的 优势, 那 我们 向量 的 数据库 也有 向量 数据库 的 这种 优势。 把 两者 根据 你的 业务 场景 做 一个 融合, 可能 是一个 比较 好的 一个 解决方案。 当然 这个 是 其中 的 一点。 另外 一点 就是说 其实 向量 数据库 的 本身 也是 提高 了 数据 的 准确性 的。 为什么 有 这个 观点 呢? 就是 我们 把 它 放到 整个 生成式 A I 的 这个 角度 来看。

其实 刚才 我也 解释 了 向量 数据库 为什么 在 大 模型 时代 这么 重要。 在 这个 生成 C A I 的 环境 里面 看, 这种 大 模型 它 没有 企业 私有 数据, 他 做不到 企业 私有 数据 的 这种 检索 和 处理。 这个 时候 我们 用 向量 数据库 来 存储 企业 的 私有 数据, 然后 再去 用 这个 私有 数据 来 覆盖 我们的 应用 场景。 这个 时候 其实 就是 向量 数据库 本身, 他 就是 把 G N A 的 这个 应用 给 做了 一个 精确化。 现在 专有 的 一个 名词 叫 R A T, 就是 检索 增强 生成。 这个 也是 一个 比较 典型 的 一个 例子。

检索 增强 生成。

对我 把 企业 私有 的 数据 通过 语义 检索 出来 之后, 再 交给 大 模型 去 处理。 可能 你 返回 的 是 多条 的 结果, 一大 段 的 结果 用 大 模型 去做 一些 总结, 做 一些 推理 等等。 然后 再 输出 一个 最终 的 结果 给 到 终端用户。

其实 你 提到 这个 点 很 有意思, 就是 我们的 博客 最近 还有 采访 一个 大 模型 的 深度 用户, 他们是 怎么用 的。 然后 我 就 发现 其实 现在 别说 企业 了, 就是 在 一个 深度 用户 中, 他们 也会 把 比如说 所有的 资料 放到 一个 叫做 reg 的 一个 程序 里面。 再 把 那个 程序 导入到 大 模型。 这样 就可以 让 大 模型 帮 他们 去 总结。 可能 就是 跟 你说的 这个 企业 的 私 域 数据 是 有 还 蛮 多 相似 的 地方 的。

其实 是一个 东西, 我 刚才 说是 R A G 然后 有的人 就 发音 成 rag。 其实 是一个 东西, R A G 就 发音 成 rag.

挺 有意思 的, 我们 最近 的 几期 播客 都 连 起来 了。

向量 的 这个 精度 的 提高, 就是 在 我的 观点 里面 看, 其实 还有 一种 技术 能够 去 提高 精度, 就是 这种 embedding 的 这种 模型。 因为 我们 传统 的 把 语言 转换成 embedding, 那 可能 是用 通过 词 映射, 比如说 word to react to wake 这种 方式。 这种 方式 的话, 后来 进化 到 使用 transformer 的 这种 模型, 比如说 bot 后来 进化 到大 模型 等等。 他 对 你的 语言 的 理解 越来越 精确, 他 知道 你 哪些 语料 是 相似 的, 他 生成 的 embedding 的 质量 越来越高。 质量 越来越高 之后, 我们在 向量 里边 存储 检索 精度 也会 越来越高。 所以说 这个 模型 本身 的 迭代 对 向量 数据库 的 这种 精度 的 提高 也是 有 很大 作用 的。

其实 说到 向量 数据库, 我也 问 了 一些 行业 人的 观点, 大家 可能 普遍 的 一个 比较 担忧, 或者说 就是 对 这个 问题 有 一些 稍微 不确定 的 地方, 就是 向量 库 它 其实 做 的 是一个 模糊 的 语义 匹配。 他 如何 去 解决 这种 准确性 的 问题? 刚刚 万涛 有 说到 用 embedding 的 模式 去 解决。 从 听众 的 角度, 就 我 很 好奇 向量 数据库 现在 它的 精度 到底 做 的 怎么样, 它 能 达到 一个 什么样 的 程度?

就是 刚才 我说 的 这个 精度 肯定 是 越来越高 的。 对 我们 常用 的 语料, 因为你 对 它的 精度 的 理解, 我们 还是 要 看 它 具体 的 场景。 比如说 大 模型 训练 给予 了 很多 公共 的 知识, 那么 原始 语料 越 丰富, 对 它的 理解 就 越 准确。 当然 你 可能 有 一些 小众 的 一些 场景, 比如说 某个 行业 领域 一些 专有 的 这种 名词, 那么 它 理解 起来 可能 就 相对来说 困难 一些。

那 向量 的 方式 能够 做到 什么样 的 准确性? 栾 总有 补充 的 吗?

其实 如果 大家 说 这个 向量 检索 的 准确性, 我们 通常 用 一个 指标 来衡量, 就是 recall 或者说 叫 召回 率。 这 里面 其实 是 有 两 部分 的, 一部分 是 我们 所说 的 绝对 的 召回 率, 就是说 我 从 向量 的 相似 程度 的 角度 来看 这个 召回 率。 其实 现在 来讲, 在 这个 领域 里面, 业界 做 的 其实 都 已经 做 的 相当 不错 了。 比如说 我们 自己的 产品 的话, 最高档 的 召回 率 的话, 基本上 对于 任何 的 一个 数据类型 来讲, 都 可以 实现 95%。

甚至 在 很多 情况下 是 99% 的 召回 率。 但是 如果 从 大家 的 用户 的 业务 视角 来看, 我 肯定 更 关注 的 是 我给你 多少 文档, 对 吧? 这个 文档 的 召回 跟 我 实际上 想要的 文档, 而 不是我 仅仅 关注 就是说 向量 层面。 到了 这 一层 以后 的话, 其实 就会 发现 很多 时候 in bedding 的 这个 决定性 还是 相当 的 高 的。 所以 这里 其实 也 给 所有 在 用 线上 数据库 的 朋友们 一些 建议。 就是说 大家 一定要 在 这个 过程中 更好 的 去 evaluate 自己的 向量 模型。

其实 之前 很多人 觉得 i OpenAI 的 embedding 是不是 就是 最好的 in bedding, 因为 这个 也是 大家 可能 普遍 的 一个 认知。 但是 其实 我们 自己 测试 下来, 其实 有 很多 开源 的 in bedding 模型。 包括 第三方 的 像 cohered, 包括 硅谷 那边 有 新 出的 这个 voyage, 包括 国内 这边 智源 的 B G E。 这些 模型 其实 在 很多 的 应用 场景 底下, 可能 效果 都是 甚至 要 超过 open E D evading 的。 所以 这块 可能 是 大家 需要 去 关注 的。

为什么呢? 他们的 效果 考验 的 是 哪个 方向 呢? 是 怎么 做到 的?

训练 一个 emlin model 和 训练 一个 生成式 model 有 很多 的 相似之处, 但 其实 也 存在 着 很多 的 不同之处。 之前 其实 也有 专门 的 paper 去 讲, 就是我 把 一个 bert 的 这种 生成 的 模型, 如果 从 中间 选 几层 提取 出来 来做 一个 in bedding 的话, 它的 搜索 效果 其实 并不是 特别的 好。 所以 需要 增加 一些 额外 的 一些 操作。 比如说 很多人 通过 对比 学习 或者 其他 的 一些 方式, 能够 让 向量 在 高 维空间 里面 有 更大 的 区分度。 还有 很多 就是说 可以 去 优化 你的 180模型 的 一些 trip。 比如说 取决于 你到底 基于 哪些 数据集 去 训练, 在 我们 对 领域 的 数据 去 对 这个 imagine 模型 做 肯定, 也能 去 提升 你的 080模型 在 特定 的 使用 场景 底下 的 一个 准确度。

考虑 的 因素 其实 还是 蛮 多 的 我们。 也 看到 就是 在 不同 的 数据集 底下, 可能 各种 一般 的 generation model 其实 是 各有 优劣 的。 所以 我 觉得 最好的 方式 还是 在 你 自己的 应用 场景 底下 去 达成 一个 评测。

尤其是 对于 大 模型 的 开发者 来讲, 我 觉得 可能 开发 这件 事情 本身 其实 并不是 什么 特别 大 的 门槛。 我 觉得 未来 人人 都是 产品 经理, 重点 是你 得 想 清楚 在 你的 业务 场景 底下, 你的 评价 体系 和 评价标准 是什么。 我自己 个人, 我是 非常 推荐 所有 无论是 做大 模型 开发 的 人 也好, 或者 我们 今天 说 做 rag 开发 的 人 也好。 最 重要 的 是 先 在 你 自己的 业务 场景 底下 找到 你的 评测 tat set, 基于 这个 评测 的 set 去 找 最 适合 你的 模型 和 最 适合 你的 一个 向量 数据库。

我看 你们 也 推出 了 自己的 zee's cloud, 其实我 挺 好奇 你们 像 做 向量 数据库 这个 商业模式 是什么? 可不可以 解释一下? 比如说 大家 是 直接 用 你们的 云来 付费, 还是 说 它 其实 是一个 类似 于 bomb 的 SaaS 的 一个 销售。

对于 Z E A L S 来讲, 我们 最 重要 的 一个 标签 其实 是 开源。 就是 在 过去 公司 成立 的 最 开始 的 4到5年 里面, 我们 其实 做 的 最多 的 就是 构建 我们 自己的 这个 开源 产品。 然后 帮助 很多 的 企业 的 用户, 能够 真正 的 把 我们的 开源 产品 在 他们的 这个 生产 环境 里面 去 部署。 直到 去年 开始, 我们 其实 才 真正意义 上 的 去 开始了 我们的 这个 商业化 之路。

我们的 整个 商业模式 其实 是 纯 云 的 SaaS 模式。 目前 来讲, 我们的 产品 其实 是 全部 基于 public cloud 去 构建 的。 我们 产品 最早 其实 就是 在 亚马逊 云 科技 游戏 上线, 最 开始 是 提供了 SaaS 的 模式。 现在 我们 其实 也有 一种 新的 模式, 叫做 bring your own cloud。 对于 某些 对 安全 各方面 要求 比较高 的 用户, 可能 会 在 它的 V P C 内 去 部署。

但 整体 来讲, 我们 其实 是 有 个 很大 的 一个 条条框框, 就 我们 很多 生意 我们是 不做 的。 我们 不会 去做 线下 的 生意, 我们 也不 希望 去做 定制 化 的 生意。 我们 从 day one 开始, 我们 就是 更 希望 去 拿到 这个 高质量 的 营收。 在 我们 看来 就是 在 开源 产品, 在 公有 云 上去 提供 托管 服务, 是 整个 开源 的 生态 里面 最好的 一种 商业模式。

所以 我 简单 理解 一下, 其实 你是 把 zelie s 的 云 搭 到 亚马逊 的 云之上。 相当于 在 上面 再 给 客户 来 提供 一个 向量 数据库 的 解决方案 的 云 服务。 它 也是 比较 标准化, 而 不是 去做 很多 的 定制 服务 的 这样的 一个 商业模式。

其实 对于 亚马逊 云 科技, 对于 我们 来讲 有 两层 非常重要 的 意义。 第一 来讲 就是 您 刚才 说 的, 就是 我们 把 公有 云 当做 我们 非常 稳定 的 基础设施。 在 他们的 提供 的 基础 能力 之上, 我们 构建 自己的 业务。 过去 几年 在 A 还没有 特别 火 之前, 大家 其实 一直 在 讨论 一个 概念 叫做 connected。 我的 理解 什么 叫 connected call native? 其实 就是说 从 你的 day one 开始, 你 就 应该 基于 公有 云 的 一些 能力 来去 构建 你 自己的 应用。 这也是 我们 最 开始 去 设计 我们的 向量 数据库 mills 最 重要 的 一个 考虑 点。 我们 其实 一直都在 考虑 应用 A M S 基础设施, 怎么能 去 构建 一个 让 用户 来讲 觉得 足够 易用, 然后 又 非常 好去 扩展 的 一个 系统。

第二个 层面 上 来讲, 我 觉得 亚马逊 云 科技 其实 也 给 我们 提供了 很多 的。 无论是 marketing 的 资源 也好, 或者 是 用户 的 资源, 也 给 我们 带来 了 很多 渠道。 像 mark place 可能 本身 是一个 对 我们 来讲 非常 有意义 的 一个 渠道, 可以 帮 我们 更好 去 触 达到 一些 用户。 这是我 觉得 公有 云 业务 对于 我们 这个 third party 的 第三方 的 SaaS provider 的 最 重要 的 两个 意义。

接下来 可能 有一点 砸 场子 的 问题, 这个 问题是 问 万涛 的, 就是 亚马逊 对于 向量 数据库 自己是 怎么 考虑 的。 因为我 理解 其实 你们 也可以 自己 在 自己的 云 上去 搭 一个 这样的 标准化 的 服务 的 组件, 来去 提供 给 更多 的 客户。 那 你们是 怎么 去 考虑 自己 做, 还是 跟 zilla 合作 来 去做 这件 事情 的?

亚马逊 有一个 工作方式, 我们 叫 逆向 工作法。 逆向 工作法 是什么 意思 呢? 就是说 就 是从 客户 出发 来 设计 我们的 产品。 所以说 我们 设计 产品 的 时候, 是从 用户 的 实际 的 需求 出发。 我们在 向量 数据库 这 一块, 其实 也是 把 选择权 交给 用户。

在 生成 C A I 火 起来 之前, 其实 亚马逊 就有 一款 产品 叫 open search。 Open search 本身 有一个 A N 的 一个 插件, 它 就 支持 向量 的 存储 和 检索 了。 后来 就是说 生成式 A I 火爆 起来 之后, 亚马逊 也 非常 认同 向量 数据库 是 新时代 的 一个 基础设施, 就是 一个 基础 的 一个 数据 产品。 所以说 我们 就是 围绕 着 这个 理念, 就 是从 用户需求 出发。 然后 在 大 的 行业 趋势 下面, 我们 也 推出 了 一系列 的 向量 数据库 的 这个 产品。

当然 我们 推出 的 产品 的 主要 方式, 第一个 就是 除了 刚才 说 的 open search 是一个 独立 的 一个 向量 数据库 的 产品。 我们 更多 的 是 把 向量 处理 的 能力 融合 到 传统 的 数据库 产品 里面 去。 比如说 我们 有一个 ora POS grs Q L 的 这样 一个 产品, 它 通过 一个 P G vector 的 插件 就可以 把 向量 的 能力 集成 进来。 然后 我们 还有 no circle 的 数据库 叫 D M D B, 也是 集成 了 向量 的 能力。

这里 为什么 是 这么 设计 呢? 其实 跟 刚才 咱们 谈到 的 就是 数据库 的 精确 的 话题 有关系。 你 传统 的 数据库 其实 有 它的 优势, 你的 表述 准确 的 时候, 它 可以 很 精确 的 处理 你的 数据。

向量 数据库 它的 优势 在 语义 的 理解 和 处理。 这 两者 在 很多 场景 里边 其实 是 可以 结合 的。 这里 边 就是 我们 推出 这种 融合型 的 产品。 其实 就是 针对 这种 场景, 你 可能 既 需要 传统 的 数据库 的 一些 特性, 也 需要 向量 数据库 的 一些 特性。 融合 起来 之后, 其实 给 用户 的 一个 选择。

当然 我们 这个 对 第三方 的, 比如说 我们 合作伙伴 的 向量 数据库 的 产品, 我们是 持 一个 非常 开放 的 一个 态度 的。 刚才 小凡 老师 也 说 了, 就是 z lis 已经 上架 了 我们的 marketplace。 我们在 近期 上个月 的 event 上 也 发布 了 一个 产品 叫 Better rock 的 知识库。 在 这个 知识库 里边 把 选项 提供 给 用户 了。 用户 可以 选择 第三方 的 向量 数据库 的 产品 做 底层 的 数据存储。 总的 一个 原则 就是说 从 用户需求 出发, 然后 给 用户 提供 更多 的 选择。

栾 总, 你 担心 跟 巨头 的 竞争 吗?

首先 我自己 也是 云 厂商 出来 的。 首先 我 觉得 这 云 厂商 的 产品 是 非常 值得尊重 的 一些 产品, 都是 一些 久经考验 的 一些 产品。 这个 也是 为什么 我们会 选择 基于 亚马逊 云 科技 去 构建 我们的 这个 基础设施 的 一个 比较 主要 的 一个 原因。

然后 我自己 是 这么 去 看待 这个 问题 的。 我 觉得 第一 的话, 大家 会有 一些 竞争 关系, 这个 是 肯定 的。 但是 其实 对于 这个 市场 来讲, 我 觉得 用户 的 倾向性 其实 也是 相对 明确 的。 对于 一部分 用户 来讲, 他 可能 更 倾向 于 使用 亚马逊 云 科技 全家 桶 的 一个 解决方案。 而 对于 另 一部分 用户 来讲, 其实 他 会 更加 在意 云 的 中立性, 是不是 vendor king, 以及 你的 开源 生态 给你 带来 的 一些 额外 的 价值。 我 觉得 这 两类 用户 的 倾向性 首先 都是 真实 存在 的。

第二个 点 上 来讲, 我 觉得 其实 这种 竞争 比较 有利于 促进 向量 数据库 这个 行业 的 一个 发展 的。 因为 向量 数据库 其实 大家 都 知道, 还是 处于 一个 非常 早期 的 一个 阶段。 就是 大家 其实 存在 着 很多 的 争论, 对 吧? 甚至 对于 向量 数据库 这个 品类 到底 应不应该 是一个 品类。 最近 一段时间 一直 也有 很多人 问 我说, 你看 传统 数据库 都 支持 了 向量 检索 能力, 那么 向量 数据库 是不是 没有 必要 存在 了? 但是 我 觉得 所有的 云 的 巨头 入场, 或者说 随着 这个 市场 有 越来越多 的 比较 有 能力 的 玩家 的 出现, 我 觉得 这 都 是一个 很 好的 信号。 就 证明 现在 数据库 可能 确实 就会 是在 未来 的 这个 A I G C 的 这个 时代 里面 很 重要 的 一个 组件 也好, 或者说 一个 领域 也好。 这个 我 觉得 其实 对于 整个 行业 的 发展 都 还是 挺 有 好处 的。

比如说 现在 我们 结合 AI 还有 大 模型, 你 觉得 向量 数据库 在 哪些 领域 可能 会 最先 落地? 我知道 刚刚 比如说 像 万涛 有 提到, 大家 在 一个 电商 的 场景 里面, 如果我们 加入 这个 传统 数据库 和 向量 数据库, 它的 最后的 结果 是 会更好的。 那 有没有 什么 非常适合 向量 数据库 的 领域? 但是 可能 传统 的 数据库 是 做 的 不太好 的。

在我看来 所有的 数据 密集型, 其实 大 模型 有 很多 应用, 比如说 也有 做 情感 陪伴 的对 吧? 可能 还有 一些 非常 依赖于 大 模型 推理 能力 的。 像 这 一部分 的话, 我 觉得 可能 不会 特别 适合 现在 数据库 来 落地。 现在 数据库 其实 真正 适合 的 就是 这个 数据 密集型 应用。 比如说 我们 现在 的 用户 里面, 甚至 说 比如说 做大 模型 训练 的, 他 需要 在 训练 的 过程中 找到 一些 add case, 或者 按照 我自己 的 需求 找到 对应 的 训练 数据。 当然 不 局限于 我们 所说 的 black model, 其实 包括 了 无人驾驶 的 模型。 像 这种 模型 训练 过程中 对 数据 的 需求, 其实 肯定 是 需要 通过 向量 数据库 来去 满足 的。

包括 万涛 老师 刚才 说 的 电商 场景 底下, 其实 大家 有 大量 的 用户 的 对话 数据, 大量 的 图片 数据, 有 大量 的 商品信息 数据。 这个 肯定 也是 会 是 现在 数据库 比较 早 去 落地 的。 然后 也 在 包含 了 咱们 刚才 说 的 这个 场景 底下, 其实 涉及到 方方面面 的 行业。 比如说 像 这个 医疗 行业, 像 法律 行业 这些 行业。 我知道 其实 现在 有 很多人 在 做 所谓 的 这个 领域 大 模型, 对 吧? 就是我 基于 法律 的 这个 领域 给他 做 一些 find。 其实我 个人 来看 的话, 这个 其实 也会 是 向量 数据库 落地 的 一个 比较 重要 的 场景。 因为 这些 行业 里面 其实 都有 大量 的 法律法规 或者说 相关 的 领域 知识。 有 这种 领域 知识 的话, 其实 很 适合 现在 数据库 来 和 大 模型 一起 配合 去 使用, 来 帮 用户 去 很 快速 的 去 找到 这些 信息 的。

大家 在 说到 这些 应用 的 时候。 我是 想到 大家 如果 需要 去 调度 这些 数据, 那 在 这种 情况下, 用户 怎么 知道 他的 数据 是 安全 的? 他的 数据 他 一 依然 有 隐私。 就是 我不知道 大家 在 AI 时代, 是 怎么样 让 这个 数据 更 安全 跟 怎么样 做 隐私 大家 有什么 思考。

要么 我 先 说 一下, 其实 这个 安全 隐私 是 分 多个 层面 的。 我们 看待 这个 事情, 第一个 可能 是一个 合规 层面 或者 法律 层面。 不同 的 地区 或者 不同 的 行业 都有 相应 的 标准。 我们 要 服务 于 这个 行业 的 时候, 可能 你 要 需要 满足 这些 标准。

第二个 方面 的话 可能 就是 你的 产品 层面。 你的 产品 层面 在 设计 的 时候, 你 要 保护 好 用户 的 数据。 你 这个 数据 里边 比如说 对 用户 隐私 的 数据 的 处理, 对 一些 支付 数据 的 处理, 还有 一些 其他 的 这种 各类 的 隐私 数据。 那 我们在 处理 的 时候, 我们 也要 有一个 很 好的 保护。 那 这个 保护, 就是 首先 在 云 层面, 亚马逊 云 科技 就是 我们 满足 了 很多 的 标准。 我们的 产品 在 设计 之初 对 用户 的 数据 有一个 安全 保护 的, 比如说 你的 数据 的 加密, 你的 静态 加密传输 中 加密, 你的 数据 放在 你 自己的 环境 里边。 举 个 例子, 使用 向量 数据库, 你 在 你的 向量 数据库 会有 一些 企业 的 一些 数据, 你可以 考虑 在 自己的 环境 里面。 这个 就是说 是 我们 从 产品 层面 来做。

在 自己的 环境 里面, 我 理解 是不是 它 不 在云上, 它 还是 在 自己 这 一端。

应该 怎么 理解 呢? 我说 的 自己的 环境 可能 指的 就是你 用户 在云上 的 自己 环境。 我们 在云上 有一个 虚拟 网络 的 概念 叫 V P C, 你 这个 V P C 就是你 用户 自己 私有 的 一个 环境, 你的 各类 的 应用 都在 这个 V P C 里边 运行, 云上 的 其他用户 是 完全 看不到 的。

然后 加密 的 意思 就是说, 即使 他的 数据 在 一个 数据库 里面, 但是 没有 人是 可以 看到 的。 因为 这些 数据 是 加密 的对。

这个 数据 是 加密 的, 并且 这个 密钥 在 你的 手里, 在 用 的 手里。 那 这个 时候 其他人 拿到 你的 原始数据, 他 也 没办法 进行 解密, 这个 是 我们 常用 的 一种 手段。 第三种 其实 就是 应用 层面, 还是 举 咱们 生成式 A I 的 各种 应用。 那么 生成式 A 在 输出 结果 的 时候, 因为 大 模型 它 可能 会 返回 一些 比如说 敏感 的, 比如说 涉及到 言论 的, 或者说 是 种族歧视 的, 或者说 其他 有害 的 这种 信息。 我们在 这种 应用 场景 里边, 我们 要 针对 这些 应用 信息 做 过滤, 再 返回 给 最终用户 之前, 我们 要把 这些 信息 给 过滤 掉。 其实 我们在 这方面 也有 一个 产品, 就是 上个月 的 revenue 刚 推出 来 的 叫 garden real, 就这样 一个 产品。 就 生成式 的 应用 产生 的 结果 输出 给 用户 之前, 我们 做 一层 过滤。 这个 过滤 的 规则 可以 来 设定, 比如说 屏蔽掉 P I A 信息, 就是 个人 的 信息, 屏蔽掉 种族歧视 的 信息 等等。 就是 各类 的 这种 不 合适 的 信息 都 可以 把 它 做 一层 过滤, 然后 最终 再 输出 给 用户。

Z 粒子 是 怎么 去做 数据安全 和 隐私 的?

这个 是一个 特别 有意思 的 一个 话题。 因为 最早 其实 很多 大 模型 的 用户 跟 他们 去 聊 这个 安全问题 的 时候, 其实 是 很 重要 的 一个点。 就是 把 数据 放在 自己的 环境 里, 或者说 有 这个 单独 的 存储 去 存。 这个 也是 向量 数据库 大 模型 结合 的 一个 比较 重要 的 应用 场景。

当时 我们 其实 也有 一个 观点, 就是说 向量 数据 是 非常 安全 的。 因为 本身 的话, 我们 其实 很多 时候 并不 存储用户 的 原始数据。 如果你 真的有 很多 敏感 的 数据, 比如说 什么 用户 的 电话, email 这些 东西, 一旦 它 通过 向 量化 之后, 其实 就 等于 说是 做了 一个 脱敏。 因为 我们 拿到 的 都是 一些 float 的 数字, 我们 其实 并不知道 这个 数字 背后 代表 的 业务 含义。 当时 我们是 这么 说服 用户 的, 但是 很快 这个 事情 就 被 打脸 了。

最近 的 一篇 paper, 他们 其实 在 讲 的 就是 向量 数据 在 通过 一个 精心设计 的 模型 之后, 是 可以 把 绝大多数 的 用户 信息 给 恢复 出来 的。 你 可能 就是说 这 是一个 encode decode 的 一个 模式。 就是说 你 把 数据 变成 个 in bedding, 然后 再 通过 一个 新的 模型, 它 又 回到 原始数据, 就是 回到 string。 然后 会 发现 好像 绝大多数 信息 还 一样。 所以 数据 的 风险 反过来 是 仍然 存在 的。

从 另一个 角度 也 其实 反馈 出来, 就是说 今天 大家 都在 说 这个 大 模型 本身 就是 做 数据 的 压缩。 其实 embedding n 本身 也是 在 做 数据 的 压缩, 无非 就是 把 很长 的 一些 信息压缩 到 相对 来讲 更有 语义 的 一个 比较 短 的 一个 引爆点 里面 去。 因此 的话, 其实 我们 最近 确实 也是 在 focus 做 相关 的 一些 工作。

第一 方面 可能 就是 无论是 从 做 一个 数据库, 无论是 你 传递数据 中间 的 网络, 包括 存储 这些 其实 我们 也都 采取 了 加密 的 措施。 并且 我们 也是 在在 所有的 向量 数据库 里面 第一个 推出 了 权限 管理 的 能力。 这个 可能 在 传统 数据库 里面 还是 比较 常见 的。 向量 数据库 里面 我们 也是 第一个 做了 r back。 并且 我们 在云上 其实 很 好的 跟 我们 云上 的 整个 的 SaaS 的 一个 认证 的 一个 机制 去 做了 一个 结合。

与此同时 的话, 其实 我们 也有 一个 小的 一个 研究 性质 的 一个 项目。 其实 我们 也 在 考虑 就是说 能不能 通过 一个 模型 把 这些 向量 在 高 维空间 内 让 它的 距离 不 发生 相对 变化 的 情况下, 能够 给 它 进行 一些 移位。 这个 移位 的 好处 其实 就是说 我 把 这个 向量 移 得 越远, 其实 他 就 很难 去 反编译 出 他 之前 的 语义 信息。 但是 如果我 又不 改变 它 在 高 维空间 内 的 相对 位置, 那 我在 搜索 的 时候 其实 还是 能 大 概率 的 搜 到 这个 结果。 这 样子 其实 就 相当于 我 给 这些 向量 增加 了 一些 噪音, 它的 安全性 就会 更好。 即使 是 有人 恶意 的 拿到 了 这些 向量, 他 想 去做 这个 反 解析 的 时候, 可能 也 解析 不 出来 数据 背后 原有 的 一些 价值 了。

那 通过 移位 会 影响 搜索 的 准确性, 或者 会 让 准确性 的 问题 变得 更难 吗?

所以 这 是一个 有 挑战 的 一个 事情, 大家 可以 这么 去 理解, 假如 说 我在 空间 中有 三个点, 这 三个点 是 A 大于 B 大于 C 的。 假如 是 一条 直线, 就是 我们是 一个二维 的 空间 里面, 如果 A 大于 B 大于 C 我 这个 时候 我在 搜索 的 时候, 我 给 一个 非常 大 的 一个 数字, 我 大 概率 说 我说 找 最近 的 那个 数字, 我 找到 的 可能 是 A 因为 A 是 所有 三个 数 当中 最大 的。 那么 这个 时候 其实我 就算 是 把 A 再 把 它 移到 一个 稍微 大 一点 的 地方, 我 用 一个 非常 大 的 数字 去 找到 它, 找到 其实 还是 A 也就是说 只要 我 能 保证 这些 点 在 高 维空间 里面 的 相对 的 关系 不要 发生 太 明显 的 变化, 然后 我的 搜索 结果 其实 或者 我的 搜索 准确性 依然 是 对的, 这个 绝对值 就 没有了。 本来 可能 是 A 是 一, B 是 0.5, C 是 0.3。 我 把 这个 A 放大 到 100的时候, 可能 这个 A 的 带 的 信息 可能 就 很少 了。 但是 搜索 结果 也是 对的。 我们 现在 其实 是 也是 通过 这个 机器学习 的 方式 去做 这么 一个 模型, 来 去做 这个 转化。

又 找到了 一种 护城河。

其实 在 向量 数据 内部, 我 觉得 大家 可能 过去 理解 向量 数据 的 方式 还是 比较简单 的。 我们 其实 也是 在 这个 过程中 逐渐 去 迭代 一个 认知, 包括 这个 安全性 的 问题, 我们 也是 近期 看到 这个 paper 以后 才 意识到。

你说的 那个 paper 我也 看到 了, 他们 会 用 相同 的 词 或者 相同 的 问题 不停 的 去 调 这个 大 模。 最后 那个 大 模型 会 把 它的 原始 的 训练 数据 吐出来。 看 了 以后 我 还是 觉得 还 挺 毛骨悚然 的。

在 学术界 大家 对齐, 然后 包括 安全问题, 我 觉得 这个 我 觉得 也是 大家 普遍 对 这个 AIGC 或者 last model 最大 的 一个 担忧。

接下来 其实 我们 也是 出海 特辑, 我们 聊 一 聊 出 海轮 总 可不可以 大概 介绍 一下 现在 你们的 主要 的 收入, 还有 客户 分布 在 哪些 市场, 你们的 整个 的 全球 市场 的 分布 是 怎么样 的。

刚才 其实 有 介绍 我们是 一个 纯 sas 的 公司。 我们 最早 其实 是从 二三年 的 年初, 或者 准确 的 时候, 应该 是 3 4月份 开始 做 商业化。 然后 我们 最 开始 的 市场 肯定 也是 以 北美 为主, 整个 产品 最 开始 在 亚马逊 云 科技, 美 东和 美西 去 做了 上线。 其实 我们 也 在 之后 去 做了 多云 的 战略。 其实 现在 来讲, 我们的 整个 业务 也是 包含 了 美国、 欧洲、 新加坡, 以及 也有 一部分 中国 的 业务。 当然 现在 主要 的 营收 其实 还是 以 北美 为主, 这个 占 到 我们 整体 营收 的话 应该 有 70% 以上 的 一个 比例。

这个 其实 也 并不 意外, 因为 在 整个 AIGC 的话, 确实 整个 的 浪潮 是 由 就 我们 整体 看起来 的话, 就是说 美国 那边, 尤其是 一些 start up, 他们的 行动 速度 是 更快 的。 就在 整个 大概是 今年 的 上半年, 其实 就 已经 有 很多 的 人 开始 去做 A I 应用 的 一个 开发。 如果 反观 欧洲, 然后 包含 国内 的话, 我 觉得 这个 浪潮 可能 会有 一个 时光机 的 这么 一个 效应。 就是 我们 看到 了 很多 美国 非常 popular 的 一些 话题 的话, 传播 到 中国 或者 传播 到 其他 地方 的话, 可能 会有 一个 半年 左右 的 一个 gap, 这是 我们 大概 看到 的。

你 可不可以 分享 一下, 就 你为什么 会 选择 用 出海 的 方式 做, 而 不是 和 中国 的 大 模型 一起 成长。 比如说 你 在 评估 你 这个 业务 应该 去做 哪些 市场 的 时候, 商业化 发生 在 哪些 市场 的 时候, 做 中文 市场 还是 做 海外 市场 的 时候, 你的 一些 评估 因素 是什么?

我们 还是 以 终 为 始 的 角度 去 思考问题。 在 美国 其实 大家 有 非常 多 的 耳熟能详 的, 商业化 做得 非常 成功 的 SaaS 公司, 对 吧? 包括 这个 snowfall data bricks, 包含 了 像 芒果 D B confluent data search。 这些 其实 都 是在 商业 上 取得了 非常 大 成功 的 开源 公司。 而 今天 其实 如果我们 去 看 的话, 在 中国 来讲 的话, 整个 市场上 真正 能 做到 就是 我们 称之为 成功 的 公司, 我 觉得 还 太少。

从 这个 角度 来 考虑, 我 觉得 首先 作为 一个 info 的 公司 来讲, 可能 今天 出海 不是 一个 optional 的 选择, 而是 一个 必然 要 去做 的 一个 选择。 第二个 点, 尤其是 在 对应 到 我们 自己的 业务 上 来讲, 因为 我们 其实 这个 领域 跟 A I 跟 大 模型 高度 相关。 大家 也都 知道 就是说 美国 的 无论是 模型 的 成熟 程度, 然后 用户 对 这件 事情 的 接受程度, 资本 在 这个 领域 里面 的 活跃 程度, 其实 现在 都是 远远 要 超过 中国 的。 其实 我们 有 大量 的 认知, 无论是 对 大 模型 本身 的 认知, 或者 对 用户 的 应用 场景 的 认知, 也是 被 美国 的 我们的 这些 头部 用户 或者 一些 标杆 用户 给 影响 的。 我们 可能 是 把 这些 美国 的 理念 再 搬运 回 中国, 然后 再去 教育 中国 的 这个 市场。 所以 从 这个 角度 来讲, 我 觉得 作为 一个 比较 早期 的 赛道, 只有 拿到 一手 的 用户 信息, 你 才能 保证 你的 产品 也是 在 一个 主航道 上面。 这也是 为什么 我们 选择 先 去做 美国市场 的 一个 重要 的 原因。

比如说 你 在 选择 做 美国市场 的 时候, 有 哪些 是 跟 你 想象 中 不一样的。 比如说 你 出海 过程中 遇到 的 困难 是什么? 挑战 是什么?

我 可能 先 说 一个 好的 点。 其实我 是在 国内 的 语音 厂商 也是 有 做 过 比较 长 的 时间。 中国 的 用户 其实 对 产品 本身 还是 比较 pick 的, 或者说 我们 说 不是 对 产品 本身 比较 pick, 是对 这个 服务 非常 pick。 就是你 要有 非常 快 的 这个 响应 时间。 如果 有 相对 来讲 用量 比较 大 的 用户 的话, 他 其实 都会 希望 你 有 专门 的 人 在 他 那边, 或者说 有 这种 专人 去 跟进。

其实 我们在 美国 看到 最好的 一件 事情 就是说 大家 对 SARS 使用 的 一个 态度, 其实 是 他 希望 自己 去 解决问题。 就是 很多 人是 希望 真正 研究 你的 产品, 研究 你的 文档, 理解 你的 产品 的 设计 逻辑。 然后 他 希望 他的 产品 建立 在 理解 了 你的 产品, 并且 更好 的 发挥 你的 产品 的 作用 的 这个 基础 之上。 所以 其实 很多 时候 很多 真正 的 大 用户 并不需要 你 投入 非常 多 的 人力 去 跟 他们 做 沟通。 当然 尤其是 你的 产品 如果 设计 的 好 的话, 这个 是我 觉得 最好的 一个点。

最大 的 一个 挑战, 我 觉得 其实 可能 有 两个 点。 第一个 来讲, 我 觉得 是 产品 或者 技术 之外 的, 就是说 包括 go to market。 整个 我 觉得 在 美国 其实 有 大量 非常 成熟 的 体系 和 打法, 也有 足够 多 的 人才。 而 对于 中国 来讲 的话, 整个 中国 因为 刚才 也 聊过, 就是 这 一块 其实 成功 的 公司 并不是 那么 的 多。 所以 其实 在 整个 去 看 人才 的 过程中, 其实 我们 也没有 找到 真正 能够 做出 海 的, 或者 做 sales 足够 多 的 一个 人才 的 一个 团队。 所以 我们 其实 现在 也是 在 去 改变 这个 打法, 就是 还是 要 去 建 local 的 team。 如果 是在 美国 做 这个 商业化 的话, 就是 一定要 去 convince 美国 local 的 talents 来去 加入 你的 团队。

这个 其实我 觉得 其实 是一个 蛮 大 挑战 的。 这个 会对 你 创始 团队 的 人格魅力, 别人 凭什么 相信你 这 样子 一家 公司。 我 觉得 这个 其实 可能 对我 来讲 是一个 蛮 大 的 一个 挑战 的。

然后 相对 来讲 可能 比较 小的 一个 挑战 可能 是 关于 产品 的 逻辑。 就是 很多 时候 我 觉得 中美 大家 对 产品 的 设计 理解, 其实 还是 会有 很多 不同 的。 就 同样 一个 东西, 可能 美国人 觉得 很 好用, 换 到 中国人 来讲, 我们 就 觉得 可能 设计 的 比较 奇怪。

我们 自己 公司 内部 也有 一个 比较 大 的 分歧。 我们的 美国 team 是 非常 坚定 的 喜欢 用 slack, 然后 国内 的 team 大家 就是 非常 喜欢 用 luck。 你 能 很 明显 的 发现 这 两个 产品 之间 的 设计 的 理念, 包括 很多 的 U I 的 设计, 其实 大家 习惯 都是 完全不同 的。 既然 作为 一个 SaaS 产品, 我 觉得 这种 分歧 可能 会 出现 在 方方面面。

所以 你们 最后 内部 到底 是用 slack 还是 用 nark.

最后 是 有些 妥协 的。 我们是 面对 美国 那边 的 用户 的 时候, 我们是 以 slack 为主 的。 然后 我们 自己 内部 沟通 的话, 就是 luck 会 多一点。

你说的 这个 问题 在 我们 公司 内部 也 存在。

是 这个 可能 真的 是 大家 对 这个 产品 的 txt 其实 还是 是 有点 不太 一样。

你 有 提到 一个点, 就是说 你说 其实 很多 美国 的 客户, 他在 来去 用 你们 产品 的 时候, 他 也 不会 有 很多 奇怪 的 需求, 而是 看 他的 需求 怎么 跟 你们 去 匹配。 我记得 我们在 讲 大 模型 的 时候, 经常 我们 后台 会 收到 很多 听众 的 邮件 来说 他们 想听 的 选题。 就有 一个 听众 他 发邮件 给 我说, 他说 让 我们 讲 一下 美国 像 OpenAI 这些 公司 是 怎么做 这种 大 模型 的 运营 的。 然后 我 就 仔细想 了 一下 这个 问题, 我 发现 美国 的 很多 硅谷 的 大公司, 他们 其实 是 没有 运营 这个 职位 的。 而 他们的 习惯 是 很多 东西 是 一套 标准化 的 处理 方案, 他们 有 标准化 的 解答, 他们 很多 就是 能 用 机器 处理 的 问题 都 不用 人 来解决。 但是 同时 你说的, 比如说 我们 进 到 一个 新 市场 的 时候, 怎么 去做 marketing? Sales 本土化 的 人才 从 哪里 招? 确实 这也是 一个 还 蛮 需要解决 的 问题 的, 讲 的 都 非常 的 实在。

对, 其实 在 这块 儿 我们 也是 处于 一个 摸索 的 阶段, 尤其是 包括 您 刚才 说 关于 marketing 这 一块, 我们 其实 也是 一路 踩 坑。 我们 也能 很 明确 的 感受到, 同样 的 一篇 内容, 可能 在 国内 你的 反响 会 比较 的 好在 美国 的话 可能 你 需要 去 不停 的 去 找 这个 讲法。 所以 其实 最近 这 段时间 我们 也 一直 花了 很多 时间 在 研究 这个 happy news。 希望 通过 去 找 这个 hacking use 上 的 运营 的 一些 途径。 其实 本质 上 是 我们在 去 找 美国 的 一些 消费者 或 用户, 他们 所 认可 的 一个 价值观, 或者 他们 所 认可 的 理念 到底 是 怎么样 的 一个 理念。 这个 其实我 觉得 还 存在 挺 大 的 一个 差异 的。

万涛, 你 要不要 讲 一下, 比如说 你们 在 跟 客户 一起 去 做出 海 的 时候, 或者 亚马逊 云 跟 他的 客户 在 合作。 然后 客户 要 去做 这种 全球化 的 时候, 就 你们 在 中间 可以 帮 到 他们 什么?

中国 就 80% 的 这种 出海 客户 选择 亚马逊, 因为 我们在 出海 其实 是 占 了 挺 大 一块 市场。 这里 边 可能 有 几个 原因。 第一个, 比如说 我们在 全球 的 覆盖, 我们 有 33个 区域, 105个 可用 区, 在 几 大洲 我们 都有 我们 自己的 这个 region 的 覆盖。 那 这个 就 对 出海 的 客户 就 比较 重要 了。 就是我 想 在 什么 地区 去 拓展 业务, 那 我们 就 云 资源, 有 云 服务 去 给 他们 用, 这是 第一个 方面。

第二个 方面, 其实 刚才 咱们 谈论 的 也 蛮 多 的, 就是 安全 合规 这 一块。 亚马逊 在 安全 合规 其实 做 的 也 挺 完善 的。 我们 支持 了 很多 的 这种 法规, 很多 这种 标准。 这里 在 客户 出海 的 时候, 我们 可以 给 他们 提供 一个 更好 的 一个 支撑。 当然 还有一个 就是 其实 刚才 我们 也 谈 了, 就 比如说 像 Z D S 这种 S V 的 这种 客户。 那 我们在 出海 的 时候, 我们 可以 通过 marketplace 去 发布 我们的 产品。 很多 用户 就可以 通过 marketplace 去 订阅, 去 直接 使用 这个 产品, 就是 一个 marketing 的 一个 渠道, 或者说 是一个 产品 订阅 的 一个 渠道。 这 几个 方面 来说, 对 客户, 特别是 出海 的 客户 应该说 还是 蛮 有用的。

栾 总, 你们 通过 marketplace 获得 客户 多 吗?

其实 还是 比较 多 的。 最早 我们 其实 上线 的 是 credit card 支付, 也是 基于 stripe 这套 体系 去做 的。 从 数据 的 分析 角度 来看, 我们 发现 credit card 的 用户 turn 的 比例 会 比较高, 就是说 这个 客户 的 流失率。 当然 我 觉得 也 是因为 可能 很多 credit card 的 用户, 他是 一些 个人用户, 跟 这 一件 事情 也有 很大 的 关系, 或者 是 一些 比较 小的 1。

后面 我们 上了 这个 marketplace 之后, 我们 可以 看到 就是说 marketplace 其实 除了 它 对 用户 的 获取 有 很大 的 好处 以外。 我们 发现 其实 mark place 的 用户 的 留存率 确实 相对 来讲 会 更高 一些。 当然 跟 这个 是 一些 企业 相对 来讲, 可能 是 一些 更大 的 企业 用户 也有 关系。 但是 另一个 角度 上 来讲, 我 觉得 可能 跟 整个 market 会 的 体系。 就 因为 这些 用户 可能 也是 跟 亚马逊 云 科技 有 深度 绑定 的 用户。 所以 这个 其实 对 SARS 公司 来讲, 其实 也是 一个 非常。

好的 消息。 因为 栾 总 我知道你 还有一个 身份, 就是 linux foundation A I 和 data 技术咨询 委员会 的 成员。 然后 你们 也是 一直 在 以 开源 的 方式 去做 向量 数据库 的。 可不可以 聊 一下, 就 你 在 这个 linux foundation 里面, 你 觉得 在 这 段 经历 里面, 对你 跟 星爵 你们的 创始人 最大 的 一个 收获 是什么?

首先 我自己 其实 是一个 open source person。 就是我 其实 在 没有 加入 这 之前, 其实我 也 在 阿帕奇 社区。 然后 在 其他 的 几个 adobe 的 科研项目 里面 都 比较 活跃。 加入 这 一个 其实 一个 重要原因, 也 是因为 我希望 能 做 一款 真正 的 从 中国 能够 走向世界 的 一个 开源 产品。 这是 其实 是我 加入到 这 一个 初衷。 然后 当时 其实我 看到 rios 是 有 这个 潜力 的, 并且 也是 我们是 真正 想 投入 去 把 开源 这个 事情 给 做好 的, 这是我 其实 当时 选择 去 加入 的 一个 原因。

我们 之所以 现在 在 这个 lines foundation 里面 比较 重要 的 原因, 是因为 我们 把 向量 数据库 项目 mills 捐献 给 了 linux foundation。 现在 这个 项目 也是 linux foundation 下面 A I data 这个 基金会 的 应该说 是 最 成熟, 或者说 从 开源 的 角度 来讲 最 活跃, 并且 C R 收入 最多 的 这个 项目 之一。 在 这个 基金会 里面, 我 觉得 首先 其实 我们的 这个 基金会 因为 是 跟 A M beta 有关的, 所以 其实 我们 也有 很多 的 上下游 的 项目。 其实 在 我们 基金会 里面, 比如说 比较 有名 的 像 alex 在 做 这个 模型 推理 里面 非常 有名 的 一个 开玩笑。 我们会 定时 去 开会。 有的 时候 大家 会 讨论 很多 技术 的 事情, 或者说 关于 业内 的 发展, 这个 确实 给 我们 带来 了 很多 前沿 的 视野。

另外 一方面 来讲 的话, 我 觉得 正是 因为 这个 产品 开源, 所以 也 能够 获得 很多 的 用户 的 一些 adoption 帮助。 我们 从 最早 可能 在 过去 的 几年 里面, 产品 在 逐步完善 的 一个 过程中, 也 是因为 开源。 然后 很多人 愿意 投入, 要 来 跟 我们一起 去 建设 这个 产品, 要 踩 了 很多 坑 带 去 解决。 能够 让 这个 产品 到 一个 相对 来讲 比较稳定 的 一个 状态。 这个 我 觉得 可能 是 开源 带给 我们的 很大 的 一个 收益。 当然 在 这个 过程中, 我 觉得 结识 了 很多 朋友, 对 吧? 然后 无论是 做 商业化 也好, 还是 做 技术 的 分享 和 交流 也好, 其实 都 很大程度 上 帮 到了 我们。

你们 现在 这个 产品, 你 刚刚 有 提到 你是 捐赠 给 了 linux foundation, 这 大概是 一个 什么样 的 关系?

如果 大家 去 看 开源 的话, 其实 是 有 两类 开源项目 的。 一类 开源项目 其实 是 这个 公司 主导 的。 像 这 一类 开源项目 的话, 其实 它 会 存在, 比如说 他 可能 会 改 协议, 对 吧? 这个 前几年 一个 比较 热门 的 一个 话题 就是说 像 MongoDB 或者 像 ya search 这 样子 一些 公司 去 修改 了 他的 开源 的 协议, 然后 更好 的 去 为 他们 自己的 商业化 目标 去 服务。

当然 其实 也有 另外 的 一些 开源项目, 它 其实 是在 基金会 之下 的。 当然 最 有名 的 基金会 其实 就是 阿帕奇 基金会 和 linux foundation 这 两个 基金会。 如果 是 这些 基金会 之下 的话, 首先 基金会 本身 其实 会给 我们 带来 所谓 的 流量 或者 关注, 或者说 这个 基金会 他 可能 也会 定时 的 去 组织 一些 活动 或者 交流。 我们 基金会 的 负责人 其实 也是 这个 pat orse 基金会 的 负责人。 所以 其实 大家 其实 在 这个 A I 领域 里面 可以 有 很多 的 一个 交流。

另一个 方面 的话, 其实 基金会 也 给 了 我们 很多 做 开源 的 运营 的 一些 约束 和 建议。 就是 怎么 去做 这个 所有的 开源 基金会 一定 是 有 自己的 开源 的 协议, 也有 很多 就是说 你 能 做 的, 你 不能 做 的。 这些 其实 其实 本质 上 也是 一个 约束。 在 这个 约束 底下, 所有的 开源 用户 的 利益, 我 觉得 其实 是 可以 得到 更好 的 一个 保障。

你 刚刚 提到 了 开源 的 方式 有 两种, 有 一种 是 公司 主导 的, 还有 一种 是什么?

就是 基金会 主导 的。

所以 你们的 产品 算是 基金会 主导 的。

对于 muse 这个 产品 来讲 的话, 现在 来讲 很多 活跃 的 依然 是 我们 公司 的 同事 或者 一些 前 同事。 当然 也 越来越多 的 会有 外部 的 参与者 来 参与。 所以 这个 也是 基金会 主导 的 一个 好处, 就是 这个 项目 的 包容 程度 会 变得 比较 的 高。 就是 可能 很多 基金会 主导 的 项目 里面, 它 里面 是 有 多个 玩家 来 共同 的 去 把握 这个 项目 的 一个 路线 的。 其实 大家 可能 是 通过 这种 开源 的 流程, 比如说 我们 投票决定 或者 讨论决定 的 方式。 而 对于 这种 自身 企业 主导 的, 这些 开源项目 尽管 来讲 它的 源代码 你可以 直接 拿 过去 阅读, 或者 直接 在 你 线 上去 部署 的。 但 其实 这个 项目 的 整个 的 主导 路线, 其实 都会 是 由 这家 公司 的 商业利益 来决定 的。 这个 我 觉得 可能 是 最大 的 一个 区别。

为什么 你们 会 把 这个 模式 改成 从事 基金会 主导 的, 而 不是 公司 主导 的? 在 我 听来, 我 觉得 这 两种 方式 其实 有一个 区别。 就是说 在 做 决策 的 时候, 公司 的 方式 可能 是 更加 的 快速, 或者说 他 不 那么 民主 一点, 那 基金会 可能 是 更 民主。 但是 比如说 如果 所有的 产品 大家 都 投票决定 的话, 投票 前 可能 要 充分 的 讨论, 也要 去 看 每一个人 的 意见。 有的 时候 就是 大家 在 做 一个 产品 方向 的 时候, 可能 他的 考虑 不是 从 商业化 这边 来 考虑 的, 他 会有 很多很多 的 影响 因素。 你为什么 会 决定 去做 基金会 主导 的 这种 模式?

对于 这个 项目 来讲, 虽然 说 是 我们 之前 给 基金会 了。 但 实际上 就是说 因为 我们的 贡献 在 这个 项目 里面 其实 占 比 依然 是 最大 的。 所以 其实 在 很多 讨论 的 过程中, 我们的 意见 其实 依然 是对 这个 项目 有 很强 的 一个 决策 的 一个 作用。 所以说 其实 某种程度 上 来讲, 我们 也 并没有 放弃 项目 的 一个 主导权。 当然 这种 主导权 可能 跟 企业 相比, 我 觉得 最 需要 注意 的 就是说 你 需要 去做 持续的 投入。 你 需要 保证 在 这个 无论 你是 投票 或者 做 其他 的 事情, 要有 足够 多 的 票, 对 吧? 就是你 给 这个 社区 做了 足够 多 的 事情, 你 才能 换取 足够 多 的 利益 或者说 投票权。 所以 我 觉得 首先 来讲, 我们 希望 在 这个 项目 里面 有 更多 的 人 来 参与 建设。

我们 并不 希望 mills 是一个 一家独大 的 一个 项目。 这个 其实 在 我们 看来 对 整个 开源 的 这种 项目 的 这种 结构 的 稳定性, 其实 并不是 一个 特别 好的 消息。 就 如果说 一个 项目 里面 只有 一家 玩家 的话, 而且 尤其是 说 在 今天 现在 数据库 也好, 或者 A I 也好, 都是 非常 早期 的 一个 阶段。 我们 还是 希望 能够 更多 的 去 覆盖 更多 的 人群, 做出 更多 的 声音。 而 不是说 仅仅 去 关注 怎么样 能 从 这个 项目 当中 获取 一个 更大 利益, 这是 我们的 一个 视角。

那你 觉得 开源 对 商业化 的 具体 帮助 是什么 呢?

我们 其实 今天 绝大多数 的 用户 之所以 会 选择 我们的 云 服务, 本质 上 就是说 它 几乎 都是 曾经 用过 milos 开源 的 一些 用户。 这个 比例 我们 没有 具体 统计 过, 但是 我自己 的 体感 来讲, 我 觉得 肯定 是 超过 70%到80%。 所以 这个 其实 是我 觉得 最 直接 的 一个 效应, 就是说 开源 的 用户 会 逐渐 的 去 转化成 你的 云 服务。

然后 第二个 角度 上 来讲, 我 觉得 开源 它 本身 不是 一种 商业模式, 但 它 本身 其实 是一种 做 marketing 的 很 好的 一种 方式。 作为 一个 中国 的 公司, 你的 产品 要在 美国 打造出 足够 多 的 影响力, 肯定 需要 一些 武器。 我 觉得 开源 其实 是一个 非常重要 的 一个 武器, 能够 帮助 更多 的 人 去 了解 你的 产品。 开源 是 没有 国界 的, 你 跟 大家 去 讲 一个 开源, 讲 一个 技术 的 故事, 你 从 day one 开始 给 大家 去 讲 一个 商业化 的 故事, 更容易 让 大家 去 接受。

因为我 不太懂 这个 里面 具体 的 技术细节, 所以 从 我的 角度 我 就 挺 好奇。 比如说 你们 这个 开源 的 代码 跟 你们 最后 在 这个 zelie cloud 上 做 的 这种 商业化 方案 的 代码, 它是 一样的 吗? 它是 需要 同步 的 吗?

这 是一个 特别 好的 问题。 这个 问题 也是 我们 自己 其实 在 过去 几年 中 一直 在 摸索 和 思考 的。 做 开源 的 人, 尤其是 在 一个 商业化 的 公司 里面 做 开源项目 的 人, 就 一直 有一个 话 叫 you always wear to s 就 你 自己 要 戴 两顶 帽子。 一顶 帽子 其实 是你 作为 开源 的 基金会 的 成员, 或者说 作为 这个 开源项目 的 运营者, 你 要 思考 开源 用户 的 利益 在哪里。 但 另外 一边 的话, 你 要 戴 另 一顶 帽子。 这 顶 帽子 是你 代表 公司 的 情况下, 你 得 去 思考 怎么 从 这个 开源项目 里面 更多 的 去 挖掘 你 自己 公司 的 商业利益。

我们 自己 目前 的 一个 角色 是 这样的, 首先 我们是 保证 我们的 商业 产品 和 我们的 开源 产品 的 接口 和 能力 几乎 保持一致。 这就 意味着 其实 它 里面 的 绝大多数 代码 其实 是 比较 相似 的。 但是 我们 怎么 去 做出 这个 差异化? 第一 的话, 我们 做了 新的 引擎。 简单 的 理解 就是说 在 整个 的 这个 框架 底下, 其中 有 一部分 最 核心 的 代码 我们是 专门 从 写 的。 这个 重写 之后 带来 的 收益 其实 包含 了 稳定性, 包含 了 性能, 包含 了 这个 内存 的 使用。 其实 本质 上 来讲 就是 能够 帮助 用户 去 省钱, 或者 帮助 我们 自己 去 降低成本, 这个 是 第一 大块。

第二 大块 来讲 的话, 我们 其实 除了 数据库 本身 以外, 我们 实际上 在 给 用户 去 售卖 的 这个 东西, 其实 还 包含 了 很多 的 高级 能力。 一方面 可能 是你的 监控 报警, 这样 你 怎么 去 运维 这套 系统 的 一些 周边 的 一些 设施。 另外 一方面, 其实 我们 也 在云上 除了 向量 数据库 之外, 我们 也 向 用户 提供了 我们 叫做 embedding pipeline 的 这个 能力。 就是说 把 非 结 化 的 数据 去 转换成 向量 的 这个 能力。 等于 说 我们在 这个 开源 的 项目 之外, 其实 又 建设 了 一层 附加 层。 当然 除了 这些 能力 以外, 可能 还有 一些 数据 迁移 的 能力, 数据备份 的 能力, 还有 一些 数据安全 的 能力。 这些 其实 就是 等于 说 在 这个 开源项目 之外, 我们 其实 给 用户 售卖 的 更多 的 是 这些 额外 的 价值。

这个 其实 就是 在 去 平衡 商业 竞争 跟 这种 开源社区 的 关系 了。

对 我们 希望 的 就是说 对于 所有的 开源 用户 来讲, 我们 希望 他们 能 拿到 基本 的 价值。 这个 基本 的 价值 就是说 这个 项目 要 能 用, 并且 足够 的 好用, 并且 能够 满足 我的 需求, 这是 所有的 基本 价值。 但 如果 大家 去 了解 这个 需求 金字塔, 对 吧? 就是 除了 这些 基本 价值 之外, 大家 一定 还是 希望 去 拿到 很多 其他 的 价值。 比如说 安全, 比如说 弹性, 比如说 更加 的 易用, 比如说 我希望 做 一个 可视化 的 界面, 对 吧? 更容易 管理。 这些 价值 其实我 是 觉得 就是 开源 公司 可以在 在 自己的 核心 的 开源 产品 之外, 去 给 用户 提供 并且 获取 价值 的 一些 点。

因为你 其实 刚刚 还是 有 提到 你们的 整个 的 决策, 还是 基金会 来去 决策 的。 而且 我 理解 可能 再去 搭建 一个 z eliz 这样 向量 数据库 的 开源社区。 有的 时候 社区 它的 想要的 发展方向 可能 跟 商业化 想要的 发展方向 是 不一样的我 不知道 你们 有没有 出现 过 这种 分歧, 我只是 很 好奇, 当 在 一个 开源社区 大家 的 方向 不一致 的 时候, 是要 如何 去 解决 这种 分歧 的。

首先 我 觉得 这种 分歧 一定 是 存在 的。 在 开源 里面 有一个 很 重要 的 原则 叫做 upstream first, 就是说 肯定 是 由 开源社区 来 主导 下游 的。 无论是 你 做 商业化 的 厂商 也好, 或者说 你是 基于 开源 去做 二次开发 的 一些 其他 工作 也好, 肯定 还是 要 以 这个 上游 的 角 测 为准 的。 因为 我们 其实 也有 一个 基本 的 原则, 就是说 社区 要 往 哪个 方向 走。 我们 其实 也会 把 我们的 产品 去 按照 相应 的 方向 去 改造, 就是 要 保证 两者 的 基本 能力 是 完全 一样的, 所以 这是 一个点。

然后 在 这个 基础 之上, 我 觉得 其实 涉及到 另一个 问题, 就是说 怎么样 更 聪明 的 去 平衡 开源 和 运营 之间 的 一个 关系。 然后 我们 其实 最 主要 做 的 一个 事情 就是说 把 这个 体系 做 的 足够 的 可 插拔。 就是 我们 把 很多 的 其他 组件 都 是以 接口 的 方式 或者 可 插拔 的 方式 去 把 它 配在一起。 也就是说 即使 如果我们 觉得 开源 的 这个 路子 不是 我们 想要的, 或者 我们 希望 加 一些 新的 功能, 但是 我们 其实 并不 希望 说 这些 功能 能够 完全 回到 开源 主干。 这是 我们 自己的 一些 功能 的话, 我们 都是 通过 这种 插件 化 的 方式 去 支持 的。 这样 大家 之间 其实 就 不会 有 太多 的 冲突。

这 是一个 很 好的 解决方案。 谢谢 栾 总, 谢谢 万涛。

好, 感谢 大家, 拜拜。

好的, 谢谢 红军。

好, 这就是 我们 今天 的 节目。 不知道 大家 听 完 今天 的 节目, 你 对 向量 数据库 有 怎样 的 理解? 欢迎 给 我们 写 评论, 写 留言。

中国 的 听众 可以 通过 喜马拉雅、 小宇宙、 苹果 播客、 蜻蜓 F M、 荔枝 F M、 网易 云 音乐、 Q Q 音乐 来 收听 我们。 海外 的 听众 可以 通过 苹果 博客、 spotify 还有 google podcast 来 收听 我们。 感谢 大家 的 收听, 谢谢。