We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode E135|大模型带火的下一个风口:向量数据库

E135|大模型带火的下一个风口:向量数据库

2023/12/27
logo of podcast 硅谷101

硅谷101

AI Deep Dive AI Chapters Transcript
People
吴万涛
栾小凡
Topics
栾小凡:向量数据库起源于对GPU算力在结构化数据处理中过剩的观察,进而转向非结构化数据处理。通过深度学习模型提取特征向量,再利用向量数据库挖掘向量间的相关性,在大模型时代,因其对语义的关注和对合理推断能力的提升而变得重要,能够更好地处理大模型测试的困难以及大模型输出结果的模糊性。选择向量数据库赛道基于两点判断:非结构化数据占人类数据绝大部分,且该领域未被巨头充分关注,未来前景广阔。向量数据库的护城河在于能否解决工程挑战(好的embedding模型和向量检索算法)和性能与成本挑战(在大规模向量数据中实现毫秒级召回和低成本存储)。向量数据库的准确性通常用召回率衡量,目前业界已能达到95%甚至99%的召回率,但最终准确性还取决于embedding模型的质量。Zilliz的商业模式是纯云SaaS模式,基于公有云(主要在亚马逊云科技)构建,提供标准化服务,避免定制化服务。开源有助于商业化,因为它能帮助公司获得用户,提升产品影响力,并为商业化提供市场基础。开源代码与商业化产品的代码并非完全相同,通过重写核心代码、增加高级能力(监控、报警、embedding pipeline等)和附加功能(数据迁移、备份、安全)来实现差异化竞争。向量数据并非绝对安全,经过精心设计的模型可以恢复用户信息,因此需要采取加密措施和数据移位等技术来增强安全性。Zilliz的全球业务主要集中在北美,营收70%以上来自美国市场,欧洲、新加坡和中国市场也有业务。选择出海而非专注中国市场,是因为美国在AI模型成熟度、用户接受度和资本活跃度方面领先,可以获得一手用户信息并影响产品方向。加入Linux Foundation AI & Data基金会,是为了将Milvus打造成一个真正走向世界的开源产品,并从中获得前沿视野和社区支持。 吴万涛:大模型时代,向量数据库重要性体现在其能够存储和处理大模型无法学习的企业私域数据,结合大模型的推理能力,开发各种应用场景。向量数据库与传统数据库结合,能提升电商长尾搜索质量,并通过检索增强生成(RAG)技术,利用企业私有数据提升大模型应用精度。亚马逊云科技在向量数据库领域的策略是“逆向工作法”,即从客户需求出发,提供多种选择,包括融合向量处理能力的传统数据库产品和支持第三方向量数据库产品的方案。

Deep Dive

Chapters
讨论向量数据库与传统数据库的区别,特别是基于关键词匹配与上下文和语义相似度匹配的不同。
  • 向量数据库利用深度学习模型提取特征和向量,挖掘向量中的相关性。
  • 传统数据库基于关键词匹配,要求严格相等。
  • 向量数据库更注重上下文和语义,通过语义找到相关信息。

Shownotes Transcript

过去十年,产生了类似于Snowflake这样的基于云原生业务的SaaS巨头;在AI时代,向量数据库领域会不会诞生AI时代的“Snowflake”,一个新的历史性机会正在产生。

这期节目我们邀请到了亚马逊云科技与向量数据库Zilliz来聊一聊AI Native的企业级应用。Zilliz成立于2017年,主要研发AI场景的向量数据库,在2019年开源了全球首个向量数据库产品Milvus,并且把这个产品捐赠给Linux基金会,在GitHub上获得了2.5万颗星,拥有超过5000家企业客户,目前累计融资超过1.13亿美元。

本期节目是亚马逊云科技赞助播出的出海特辑的第三期,我们会联合出海企业的案例,探讨不同行业的出海策略与方法论。在这段访谈里,我们将分析大模型时代,为什么向量数据库尤其重要,到底什么是AI时代AI native的数据基础设施。作为出海特辑的案例之一,Zilliz也会分享他们出海遇到的挑战,以及开源社区与商业化的平衡。

【主播】 泓君,《硅谷101》创始人,播客主理人 【嘉宾】 栾小凡,Zilliz技术合伙人,Linux Foundation AI & Data 基金会技术咨询委员成员 吴万涛,亚马逊云科技解决方案架构师

【你将听到】 02:19 向量数据库与传统数据库的区别:基于关键词去匹配vs上下文与语义相似度的匹配 05:53 大模型时代,向量数据库为什么这么重要? 07:47 非结构化数据占人类数据80%,从巨头没有盯上的领域启动 10:26 向量数据库的挑战与护城河:好的模型与算法、性能与推理成本 12:34应用场景:电商提高长尾搜索; 企业私有数据提升精度 16:41 衡量向量准确度:99%的召回率 19:00 OpenAI并不是最好的Embeding模型,开发者需要自己去试 20:34 Zilliz的商业模式:从开源到基于云的商业化 23:28 当巨头跟创业公司竞争:把选择权交给用户 27:00 行业过于早期,云巨头入场正在帮助行业成长 28:57 未来应用:适合电商、医疗、法律等数据密集型应用 29:50 AI时代的安全隐私:合规、产品、应用三个层面 33:26 安全问题打脸:向量数据经过精心设计后,可能会还原用户信息 37:38 移位更加保护隐私,但却让准确性更难

出海挑战 37:35 Zilliz全球业务分布:美国营收占整体收入70%以上 38:47 SaaS产业布局的全球化考量:受美国头部用户影响大 40:16 中美SAAS产品的使用态度区别 45:00 美国市场策略:HackerNews与亚马逊云科技Marketplace

开源社区 49:16 公司主导的开源项目,开源协议有可能被修改 51:17 公司主导与基金会主导,开源项目两种方式的思考 54:38 开源与商业化的代码考量:三层结构的差异化竞争 57:25 当公司发展方向与社区发生分歧,如何解决?

【相关单集】 E133|开源打法的秘诀与AI重塑的数据库行业) E130|聊聊智能硬件出海的全球版图:大模型、 新爆款与合规陷阱)

【后期】 加菲 【BGM】 Cold and Blue - Roy Edwin Williams Lazy Art - Martin Landstrom Norman - Boone River

【在这里找到我们】 公众号:硅谷101 收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客 海外用户:Apple Podcast|Spotify|TuneIn|Google Podcast|Amazon Music 联系我们:[email protected])