Snowflake正在利用人工智能帮助企业将数据转化为洞察力和应用程序。在本期英伟达人工智能播客中,主持人Noah Kravitz和Snowflake人工智能主管Baris Gultekin讨论了该公司的人工智能数据云平台如何使客户能够大规模访问和管理数据。通过将数据的存储与计算分离,Snowflake使世界各地的组织能够通过云技术连接并在统一平台上工作——消除了数据孤岛并简化了协作工作流程。</context> <raw_text>0 您好,欢迎收听英伟达人工智能播客。我是您的主持人Noah Kravitz。今天,我邀请到了Snowflake人工智能主管Barash Gultecan。在Snowflake,他负责推动尖端人工智能和机器学习产品(包括Snowflake Cortex AI和Arctic,他们的新型基础模型)的开发。但Barash本人在人工智能领域也取得了非凡的成就,
他曾共同创立Google Now并领导Google Assistant的人工智能工作。因此,我们有很多话题要讨论,包括背景、Snowflake的现状,当然,我们不会放过Barash,不会不问他关于人工智能未来的看法,以及今天热门的话题,即在人工智能时代会发生在我们所有人身上的事情?所以我迫不及待地想开始。Barash,非常感谢你加入英伟达人工智能播客,欢迎。谢谢,
非常感谢,Noah。我有时会想,我们在周五录制的播客,更不用说今天这个周五下午了,感觉比其他一些播客要轻松一些。所以我们最后得做一个退出调查。但我非常高兴能和你谈谈。我们私下聊过。在过去几年里,我一直关注着Snowflake,尤其是在人们对人工智能和数据的兴趣激增之际。我一位好朋友已经在Snowflake工作了几年了,所以我一直在关注她的职业发展。所以
我很高兴你在这里,Baris,并能更多地了解Snowflake和你的职业历程。也许我们先从Snowflake开始,然后在谈话过程中再谈谈你的背景。你能先向听众介绍一下Snowflake是什么,公司成立多久了,你做什么吗?
以及你在我们所有人都在参与的蓬勃发展的人工智能浪潮中扮演的角色。- 当然。Snowflake是人工智能数据云。我们十多年前就开始了这段旅程,专注于如何使数据更容易访问?如何使数据处理更容易为公司所用?
随着数据量的增长,将数据的存储与计算分离的一项重大创新,为数据领域带来了巨大的突破。从那时起,我们一直在从数据仓库提供商发展成为数据云,数据可以在其中轻松共享。现在,我们正处于这段旅程的第三阶段,在这个阶段,您可以为更多用户释放数据的更多价值,并利用人工智能。
好的。也许为了设定基线,你能快速地谈谈诸如数据仓库、数据湖、人工智能数据云(正如你对Snowflake的描述)之类的术语,以及这些术语的含义,以及它们是如何演变的?当然。
客户拥有大量结构化数据。他们需要一种方法来整合所有这些数据,然后管理它、治理它,并能够对其进行分析。因此,数据仓库允许我们的客户非常高效地在海量数据上运行大规模分析。好的。
这是针对结构化数据,也就是表格类型的数据。有了数据湖,您可以将其扩展到包含更多非结构化数据和结构化数据。
好的。因此,存在关于数据本身存储方式的问题,显然,还有其存储的物理介质。但是,与所有技术一样,当然也包括人工智能、机器学习、深度学习,软件也发挥着作用。互连性也发挥着作用。显然,如果它是数据云,那么所有这些都会发生。
您在云端和我的工作站之间发生的一切,无论我在世界上的哪个地方。所以有很多事情要做。所以也许我们可以深入探讨一些Snowflake带来的突破
目前正在进行的工作,以及数据如何发挥作用,数据云在现代ALML堆栈中的作用,如果你愿意的话。所以让我们谈谈,或者如果你愿意的话,谈谈Snowflake如何帮助企业释放他们的数据,正如你所说的那样。
是的。首先,我们对人工智能的能力和人工智能带来的东西感到非常兴奋。当然,当我们想到人工智能时,如果没有数据策略,就没有人工智能策略。当然。
通过将人工智能计算直接置于数据所在的位置,从而最大限度地利用这些数据。所以我们坚信能够将计算带到数据,而不是将大量数据带到计算所在的位置。我们与客户合作的方式是,我们构建了一个人工智能平台,通过这个人工智能平台,我们的客户可以运行自然语言分析,可以构建聊天机器人,可以用自然语言与他们的数据对话。
我们提供这个平台,我们的客户正在使用它来构建各种人工智能应用程序。因此,客户将他们的数据存储在您这里,但训练、推理,所有计算操作也在您这边完成。没错,就是这样。基本上,我们的人工智能平台完全在Snowflake内部运行。对于Snowflake来说,治理数据以及运行的人工智能同样重要。好的。
我们在Snowflake内部运行所有内容。也许你可以深入了解一些产品。我们想从Snowflake Cortex开始吗?是的。Snowflake Cortex是我们的托管服务。它是我们提供的一种服务,我们在Snowflake内部运行一系列大型语言模型。
我们的客户可以非常轻松地访问这些大型语言模型。但我们对人工智能的看法是,我们希望使人工智能易于使用、高效且值得信赖。有了Cortex,它非常容易使用,因为人工智能直接在数据所在的位置运行。因此,我们的客户不必构建数据管道来管理多个位置的数据并对其进行治理。
我们在安全的环境中运行它,我们有一系列非常高效的模型,从我们自己的模型到一系列合作伙伴模型。我们提供这些模型。然后,Cortex还可以使我们的客户非常轻松地构建“与我的数据对话”体验,如果你愿意的话,构建聊天机器人,既可以用于文档,也可以用于结构化数据。
一些最流行、最常见的用例是什么?我听说人们谈论过,我们在2024年6月下旬录制,我听说人们将2023年称为生成式人工智能占据所有头条新闻的一年,每个人都在
谈论很多,但并不真正知道该怎么做。而2024年可能是企业开始实际开发应用程序或使用其他人开发的应用程序的一年,但实际上开始做一些事情
使用、利用他们自己数据上的AI来做任何事情,改进流程,尝试新的工作方式,所有这些事情。您从您的角度来看,Snowflake的客户和企业客户感兴趣做的事情是什么?然后也许另一方面,一些事情,我不知道,他们担心的事情,或者他们不太理解的事情,或者他们仍然试图理解的事情。
是的。我同意你的说法。2023年是概念验证的一年。他们接触了人工智能,然后开始构建演示。今年,我们开始看到这些演示变成了真正的生产用例。我可以举几个例子。我们正在与全球制药公司拜耳合作构建演示。
一种体验,拜耳的内部团队和销售组织、营销组织可以向他们的结构化数据提问。好的。拜耳认为,仪表盘只能带给他们一定的帮助。仪表盘往往非常僵化,而且,
当你看到仪表盘时,首先发生的事情是你有三个问题,四个问题你想深入了解为什么某些事情不是你想要的样子,或者你。所以现在我们赋予了分析师和业务用户这种能力。所以业务用户……
向他们的数据提问,用自然语言深入了解。这非常强大。我们一直在与一系列公司合作,比如拜耳,他们发现让更多人能够访问这种数据非常有价值。另一个有趣的例子是,我们正在与西门子合作。他们有一个大型研究组织
他们最近刚刚构建了一个研究聊天机器人,其中包含70万页的研究资料,现在这些资料已经开放,可供该研究组织使用。所以,你知道,与其弄清楚如何以及在哪里获取数据以继续你的研究,现在团队感觉效率高多了。70万页有多少个token?是的。
很多token。很多token。所以当你工作时,我相信答案取决于客户,但是当你与客户合作做一些事情,比如将70万页的文档转换成普通员工、普通用户可以使用自然语言进行对话的东西时。
从技术角度来看,这个过程是什么样的?您是在微调模型吗?您是在构建自定义RAG管道吗?
再说一次,我相信这在不同的用例中有所不同,但是Snowflake为客户做的一些事情,他们仅仅通过将这些文档上传到公开可用的模型中是无法获得的,这些事情是什么?- 当我们实际调查我们的客户时,
当他们考虑从这些演示、概念验证转向生产时,通常会出现三件大事。一是他们担心质量幻觉。二是他们担心数据的安全性和系统的治理。最后是成本。所以这些总是出现的三大问题。然后我们试图直接解决这三个问题。是的。
Cortex Search是我们最近刚刚发布的一款新产品。我们已经调整了Cortex Search,使其在RAG解决方案方面具有最高的质量。因此,我们实现了一个自定义RAG解决方案。我们有自己的嵌入模型。我们构建了一个混合搜索引擎,可以提供高质量。我们将调整系统,使其知道何时不应回答问题,从而减少幻觉。
明白了。混合搜索是指它将RAG功能与互联网搜索相结合吗?没错。混合搜索基本上是将向量搜索与传统的基于关键字的文本搜索相结合。好的。
关于幻觉问题,在以下方面有什么有趣的学习或见解?我认为它比手动逐行告诉模型“不要说这个,不要说那个”要复杂得多。但是,您是如何诱导模型减少幻觉的呢?哦,是的。首先,肯定有模型微调。这很重要。但是,同样,
我们刚刚谈到了混合搜索元素。混合搜索的好处在于,它可以为您提供关于
这组文档与问题的相关性。而且,你知道,当LLM没有基于数据时,它们往往会产生幻觉。因此,系统可以知道与该问题的匹配度很低。与其试图回答这个问题,不如直接拒绝它。明白了。说到模型,Snowflake有很多产品。我们显然没有时间一一介绍。我将留出空间来提出我没有问到的问题。但我确实想问你关于ARTIC的问题。
那么,Arctic是Snowflake构建的LLM吗?或者你如何描述它?是的。Arctic是我们自己的语言模型。它实际上是一个语言模型家族。我们有Arctic LLM以及嵌入模型和文档模型。
因此,LLM是一个开源大型语言模型,其架构非常独特。通过结合专家混合模型和密集架构,我们能够获得一个非常高效且高质量的模型。因此,我们专注于我们所说的企业智能,能够
遵循指令,能够在编码和SQL方面做得很好。然后,我们能够在这些类别中在开源模型中达到最高的基准,同时效率极高。我们训练Tastic的成本大约是类似模型的八分之一。这意味着,当我们为客户训练自定义模型时,我们可以非常非常具有成本效益,同时提供非常高的质量。
如果这些是你不愿透露的商业秘密,我理解。但是,你是如何计算出如何更有效地训练模型的呢?
- 我们实际上非常自豪于我们的开放性。我们发布了我们的食谱,不仅包括模型权重,还包括研究见解以及我们的数据食谱。- 哦,太棒了。好的。- 所有这些都是可用的,我们也分享了一些这些见解。这归结于拥有一些最优秀的研发人员,他们早在以前就开创了MOE模型(专家混合模型)。
以及一些VLLM的原始团队成员,所有这些成员都一起工作来构建架构。- 太酷了。再说一次,对于那些可能不熟悉的人,我熟悉,但我并不完全理解它是如何工作的,所以我将提问。
什么是专家混合方法?这是什么意思?它包含什么?为什么它与其他方法不同,更好?是的。我们看到两种主要的架构。一种是所谓的密集模型。在密集模型中,所有参数都是活动的,并且在进行推理时都在使用。因此,在训练期间,所有这些参数都是活动的。专家混合模型,
具有更大的参数集,但只有一部分参数被使用。因此,您实际上有不同的专家来回答一个问题。这往往非常高效。好的,明白了。因此,您可以磨练您正在寻找的准确性,但它也更有效率,因为您可以根据需要打开和关闭某些东西,而不是只让所有灯都亮着。它在训练方面效率很高,在运行推理方面效率也很高。所以它往往会满足你。
因为它具有较少的活动参数。明白了。Snowflake在你任职期间推出的其他特定产品或创新,你特别兴奋的是哪些?我对我们最近宣布的Cortex Analyst产品感到兴奋。正如我所暗示的那样,有很多数据宝石被锁定在非常大量的资料中。以及带来……
允许更多人轻松访问这些数据非常重要。到目前为止,数据团队必须运行SQL分析才能从这些数据集中获得见解。
大型语言模型令人兴奋地看到,嘿,我们可以将语言转换成SQL吗?事实证明,这是一项非常非常困难的任务,因为数据的世界往往非常庞大。您有数万个表,数十万列,以及非常复杂的列名缩写等等。因此,我们非常努力地获得了世界上最好的文本到SQL体验。
然后我们做到了。因此,在文本到SQL方面,我们拥有最先进的技术。这现在可以提供给业务用户,他们现在可以使用自然语言提问。然后我们将它转换成SQL。我们运行该SQL并生成答案。因此,诸如“我的收入在这个地区的这个产品中是如何增长的”之类的提问,现在对于业务用户来说就很容易了。好的。太棒了。
我今天的嘉宾是Baris Gultekin。Baris是Snowflake(人工智能数据云)的人工智能主管。我们一直在讨论,好吧,数据的作用。我们总是在这个节目中谈论数据的作用,因为数据是人工智能的燃料。但特别是Snowflake的方法是,从微调客户数据到解锁结构化和非结构化数据,以便
客户、开发人员、Snowflake方面的员工可以将数据转化为洞察力和应用程序。然后还有Snowflake在微调模型、构建模型、将文本转换为SQL(我们刚才谈到的)方面采取的一些创新方法。Baris,如果可以的话,让我们换个话题,谈谈你在谷歌甚至谷歌之前的人工智能背景。
你一直都是数据迷吗,这么说吧?你一直对数据、计算机科学感兴趣吗?你的旅程从哪里开始?是的,实际上,在我说人工智能很酷之前,我就开始了这段旅程。很久以前,我在谷歌开始了这段旅程。大约在2010年或2011年左右,我们开始构建Google Now。
这是谷歌的传统20%项目,我们基本上认为,我们的手机应该比现在做得更好。他们应该能够在我们需要的时候提供我们需要的信息。所以这是一个主动式助手。我们构建了这个产品,尽管当时技术还不够成熟。好的。
现在我们能够提供有用的信息,例如“你的通勤路上有交通堵塞,你应该走另一条路”或“你的航班延误了”,所有这些信息都感觉很神奇,因为将上下文与预测结合在一起,对吧,即使是一组启发式方法,也感觉像是“这里有一些智能的东西”,这就是开始,我喜欢,是的,是的,然后在那之后,我
我从事Google Assistant的工作,Google Assistant同样令人兴奋,因为它理解语言。它可以用自然语言回应。早期,它只是一系列逐一编码的用例,对吧?现在我们已经到了计算机最终能够理解语言的地步,你不需要一次又一次地编码每个用例。好的,好的,好的。没错。
当你在你现在的规模上从事你所从事的所有工作时,好吧,你在谷歌是这样做的,现在你在Snowflake也是这样做的。你有多信任生成式人工智能模型给出的答案?以及你自己的想法是什么,我不知道这是否是一个工作流程,而是一种思维方式,比如,你会回顾并验证你不确定的结果吗?你是否已经习惯了,你知道,你是否能够感觉到某些东西是基于事实的还是幻觉?这更像是一个,嗯,
也许是一个形而上学的问题,而不是其他问题。但我只是想知道,像你这样拥有如此丰富的经验,并且每天都与这些东西打交道的人,你对这些系统目前的感受是什么?我试图了解我们所处的位置,这种生成能力,创造力,在某种程度上是一种特性,对吧?因此,非常适合的用例是当你要求……
语言模型生成某些东西,生成内容。如果我的问题是一个事实性问题,那么我知道要小心。但如果它更像是一个“帮我集思广益”、“让我们考虑一下这个问题”、“你如何用不同的方式表达这一点”之类的,那么这些
你正在利用创造力,利用幻觉作为一种特性,如果你愿意的话。好的,好的,好的,好的。那么,这如何转化为与之合作的企业客户呢?我想象一下,他们从非常兴奋与之合作的人开始,也许你有一些客户比较犹豫,但觉得他们应该
他们是如何看待幻觉是交易的一部分的呢?我认为非常重要的是要知道,现在,技术发展到什么程度,我们需要构建系统,而这些系统需要有基础。因此,我们努力提供技术来帮助我们的客户使他们的系统、产品、聊天机器人更加扎实。
与他们提供的数据相结合。如果向LLM提供基础,如果向LLM提供数据,它就不会产生幻觉,对吧?只有当缺乏信息时,它才会有时编造一些东西。因此,我们努力解决这些问题。我们与客户合作。我们还想确保我们的客户能够评估这些模型。我们最近收购了一家名为Truera的公司。Truera是一家专注于ML、LLM可观察性的公司。
能够评估构建的聊天机器人是否扎实,质量是否正确,成本是否符合他们的要求。因此,这些是我们希望向客户提供的技术和工具,我们与他们密切合作。
好的。因此,沿着这些思路,所以这是一次收购,显然,但是Snowflake正在合作,你提到了贵公司的开放性和透明性。而且似乎有一种精神。也许是因为每个人现在都非常关注这项前沿技术,我们都在某种程度上弄清楚它,无论是作为用户还是开发人员。
其他一些合作伙伴的性质是什么?或者说,Snowflake在与其他在人工智能和机器学习前沿工作的科技巨头和公司合作方面扮演什么角色?是的,我们与英伟达、Meta建立了非常密切的合作伙伴关系。
以及Mistral和Rekha,大型语言模型提供商。我们也投资了一些公司。我们基本上认为我们的平台是一种提供选择的方式,但我们与合作伙伴密切合作,帮助我们构建具体的解决方案。
在确保我们的RAG解决方案扎实,确保我们拥有世界一流的Texas SQL体验方面,这需要合作伙伴关系。我们与合作伙伴密切合作。因此,就开放性而言,开放性对我们的许多客户都很重要。了解用于训练模型的数据类型非常重要。
我们还与一些提供商合作,提供高质量的专有模型。据我了解,Snowflake是一家全球性公司,在全球拥有约40个办事处?没错,是的。好的。那么,看看……
现在的情况,但展望未来。我现在要让你当场回答问题,就像我说的那样。我们在谈话中触及到了一些这些事情,但是你是否看到了企业采用和现实世界用例中的主要趋势,你的客户,Snowflake的客户,现在正在采用?或者说,他们真的对哪些趋势和领域感兴趣,你知道,利用人工智能的力量来探索?
然后在此基础上,如果你愿意的话,你认为该行业在未来三到五年内将走向何方?我们看到了许多令人兴奋的用例。我已经提到了一些,但是我们的合作伙伴正在再次构建生产用例。其中一些是我们的核心业务,在Snowflake内部对他们的数据进行大规模分析。因此,我们看到了很多非常简单的例子,例如,
只需使用英语就能进行分类、提取信息并理解大量数据。例如,我们的一个客户Sigma,这是一家BI提供商,他们正在
他们正在分析来自销售记录、销售对话、销售电话的销售日志,并弄清楚,了解我们为什么能赢得交易?我们为什么输掉交易?好的。因此,现在能够在一个时期内对所有销售电话的大型数据集进行这种分析,就像编写英语一样简单。这太棒了。
对我来说很有趣。- 不,这太神奇了,对吧?是的。- 然后,正如我提到的那样,当然,核心业务是高质量的聊天机器人,以及能够与结构化数据对话以进行BI类型的用例。这些是我们看到的用例。我看到的是,当然,人工智能世界发展得非常快。每周,我们都会收到一个新的公告,一些新的、令人兴奋的东西。- 我知道,三到五年,我应该说几个月甚至几周。这是我的错。
此外,感觉就像一年。当然,下一个即将到来的重要阶段已经开始获得关注,那就是代理的世界。因此,我们不仅看到了通过查看文档来回答问题的能力,还看到了采取行动的能力。
这些代理,这些代理系统正在到来,这种推理能力,这种自我修复能力,采取行动的能力,代理相互交谈,协作。这是技术的下一个发展阶段。
好的。Snowflake上是否有客户可以访问的代理框架?很快就会有。目前,我们构建的代理系统是在幕后进行的。Text2 SQL BI体验使用一系列工具来交付产品。明白了。我们将向我们的客户提供这些工具。好的。太酷了。回顾你在Snowflake的工作,
更早之前,我不会在这里规定时间范围。我吸取了教训。有没有一个特别的故事情节、时刻,或者一些让你想到的东西,你知道,一个重要的、也许是意想不到的教训,它真的影响了你对今天工作的看法和格局?也许是一个问题,你知道,解决方案结果是意想不到的,或者你认为很难的事情结果很简单。
所以我会举两个例子。一个是在我们构建Cortex的早期,我们与一位客户进行了交谈。这位客户是Snowflake的长期客户。他们构建了一个管道,将他们的数据取出,然后由在其他地方运行的LLM进行处理,然后将其带回。当然,构建这个管道需要两个月左右的时间,而且维护成本相当高,他们对此感到担忧。而我们的早期原型是,
能够用一行代码替换整个东西。所以我们找到了方向。
当您带来计算,当您将人工智能直接置于数据所在的位置时,它使一切变得简单得多。当它变得简单得多时,它只会解锁大量用法。所以我对易用性和简单性感到非常兴奋。另一个例子是意识到演示很容易构建,但生产系统很难。
你知道,尤其是在处理结构化数据时,生成SQL是很困难的。所以我们非常努力地研究如何构建一个能够一起创建非常高质量响应的系统。当你实际上是在问收入问题时,仅仅80%的准确率是不够的,对吧?所以这是我们关注的另一个重要领域。好了,进入总结环节。
我总是问这个问题,但我有一个孩子,他似乎每年都在长大,现在他在高中,对计算机、计算机科学、物理科学感兴趣。你会给那些即将毕业的年轻人,或者年纪稍大一些,也许是大学毕业的人,什么建议呢?
或者,也许是那些年纪较大,只是对人工智能感兴趣,并且一直在听到我们一直在谈论的事情的人,那就是事情变化如此之快,但与此同时,我们现在也可以做一些事情,并且仍然有很多问题需要解决。
那么他们应该去哪里呢?学习计算机科学仍然是一条可行的道路吗?是直接进入职场开始工作更好吗?正如你所说,原型设计是一回事,构建生产规模的系统是另一回事。你会给那些想要进一步深入人工智能的年轻人或老年人什么建议呢?
我认为每个人都有自己独特的道路,每个人都被某些事物所吸引。能够与你所被吸引的事物联系起来是很重要的。对不同的人来说,这将是不同的。但我只是专注于此,倾听内心的声音,这有时很难做到,尤其是在外面有这么多噪音的情况下。但我要说的是,即使人工智能听起来很吓人,哦,这是一种非常复杂的人工智能原型
人工智能听起来非常复杂。当你开始深入研究并开始进行研究时,它确实很复杂。然而,人工智能的使用将会解锁,它非常容易。所有这些系统现在都只需一个API即可使用,而且它们非常强大。所以我想,创造力将决定
接下来将要构建各种超级有趣的技术。所以我想说,不要被技术吓倒,直接跳进去。它非常易于使用,并且非常期待未来两三年会发生什么。喜欢。喜欢这种乐观的态度。更多的是音频,这很可惜,因为你的脸亮了。
当你谈到这一点时,你的笑容变大了。Baris,你之前提到了Snowflake提供的食谱和其他资源。也许我们可以把它分成两部分。想要了解更多关于Snowflake做什么、产品是什么以及如何与你互动的信息的潜在客户。然后是那些……
在人工智能领域工作的从业人员想要了解更多关于Snowflake一直在做什么、研究以及我们讨论过的一些技术的信息。人们可以在哪里在线学习更多信息?我们的网站,snowflake.com。如果你想弄清楚如何在几秒钟内使用人工智能并处理我的数据、分析我的数据,我们有一个解决方案。很好。所以snowflake.com是这个地方。完美。
Barash,谢谢你。这太棒了。像现在许多这样的谈话一样,我觉得这只是一个热身,我们以后必须再次联系,才能真正深入了解事情的发展方向。但是Snowflake的故事,你知道,是一个伟大的故事,而且它似乎才刚刚开始。所以祝贺你迄今为止的工作。祝你未来一切顺利。而且,如果你在校园里看到我之前提到的那个未具名朋友,请留意一下。听起来不错。谢谢你邀请我,Noah。♪
*音乐*