We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
S
Swix
Topics
Swix: 本期节目与Practical AI播客合作,探讨了AI领域的最新趋势,特别是大型语言模型的应用和挑战。Swix强调了Practical AI播客在AI领域的长久历史和丰富的资源,以及其提供的AI领域口述历史的价值。 Alessio: 介绍了Dan Whitenack及其播客Practical AI,并简要介绍了Dan Whitenack的背景和职业经历,特别是他在SIL International的工作以及他专注于低资源AI场景。Alessio还提到了Dan Whitenack目前在PredictionGuard的工作。 Dan Whitenack: 介绍了Practical AI播客的创立过程,以及其宗旨是实用性,目标是让听众学到有用的知识。Dan Whitenack还介绍了PredictionGuard项目,旨在帮助企业以合规的方式使用生成式AI技术,解决合规性和结构化输出的问题。他分享了他个人最喜欢的几期Practical AI播客节目,包括那些深入探讨特定AI模型的节目和关于AI在非洲应用的系列节目。他还讨论了从MLOps到LLMOps的转变,以及大型语言模型评估的挑战,特别是基准测试与实际应用之间的差异。Dan Whitenack还介绍了Masakane项目,这是一个由非洲NLP研究人员组成的基层组织,关注满足非洲语言社区的实际需求。他分享了他如何关注最新的AI模型,以及他通过datadan.io网站提供的研讨会和咨询服务。他建议企业用户深入研究提示工程和LLM操作,并遵循一个层次结构来使用LLM,从提示工程到微调再到训练自己的模型。他还讨论了“提示工程”这个术语被过度炒作了,但围绕提示和LLM的工程和操作是一个真实的工作流程。他认为AI工程正在成为软件工程的一个子专业,并讨论了传统机器学习工程师和软件工程师在转向AI工程师时面临的不同挑战。他还讨论了NLP数据集的演变,特别是Label Studio等工具的出现,以及无标签数据集在自监督学习中的作用。最后,他鼓励人们动手实践,并探索各种工具。 Swix: Swix强调了Practical AI播客在AI领域的长久历史和丰富的资源,以及其提供的AI领域口述历史的价值。Swix还分享了他个人最喜欢的几期Latent Space播客节目,包括那些新闻驱动的节目,特别是关于ChatGPT插件发布的节目。Swix还讨论了AI UX在AI应用中的重要性,以及大型语言模型的通用性超出了他的预期。他认为在AI领域,英语和汉语仍然占据主导地位,而其他语言的模型性能还有待提高。 Alessio: Alessio介绍了Dan Whitenack及其播客Practical AI,并简要介绍了Dan Whitenack的背景和职业经历。Alessio还提到了Dan Whitenack目前在PredictionGuard的工作,以及他认为AI UX在AI应用中非常重要。

Deep Dive

Key Insights

Why did Dan Whitenack start the Practical AI podcast?

Dan started Practical AI with Chris Benson to create a podcast that focused on practical, hands-on AI applications, as opposed to overly hyped or theoretical discussions. They wanted to provide actionable insights that listeners could use in their daily work.

What is PredictionGuard, and what problem does it aim to solve?

PredictionGuard addresses the challenges enterprises face when implementing generative AI technologies, such as data privacy, compliance, and the need for structured, consistent outputs. It provides tools for running AI models in a compliant manner and offers layers of control for structuring and validating model outputs.

What are some of the key trends in AI that Dan Whitenack has observed?

Dan has observed the shift from traditional MLOps to LLMOps, the growing importance of multilingual and low-resource language models, and the increasing use of models to evaluate and generate data for training other models. He also notes the rise of AI engineering as a distinct skill set.

What are some of the favorite episodes of Practical AI according to Dan Whitenack?

Dan's favorite episodes include those that focus on fully connected discussions between him and Chris Benson, such as episodes on ChatGPT, Stable Diffusion, and AlphaFold. He also highlights episodes on AI in Africa and the use of AI in low-resource scenarios.

What is the most popular episode of Practical AI, and why?

The most popular episode is the one featuring Ville Tuulos discussing Metaflow, a Python package for full-stack data science developed at Netflix. The episode resonates with listeners because it addresses the challenges of moving from notebooks to production, which is a common struggle for data scientists.

What does Dan Whitenack think about the term 'prompt engineering'?

Dan believes that 'prompt engineering' as a term is overhyped, but the engineering and operations around large language models are very real. He emphasizes the importance of understanding how to structure prompts, chain processes, and fine-tune models to achieve practical results.

What are the unique challenges for engineers transitioning into AI engineering?

Engineers transitioning into AI engineering face challenges with non-deterministic systems and the lack of control over model drift, as well as the need to explore the latent capabilities of models. They also need to adapt to the new workflows required for working with large language models.

What does Dan Whitenack think about the role of AI UX (User Experience) in AI applications?

Dan believes that AI UX is crucial and can make or break the adoption of AI technologies. He gives the example of ChatGPT, where the UX innovation played a significant role in its success. He also mentions GitHub Copilot as an example of how UX can enhance the integration of AI into software development.

What are some of the trends in NLP datasets that Dan Whitenack has observed?

Dan has observed trends towards using augmented tooling for fine-tuning models with human feedback and the increasing use of models to generate data for training other models. He also notes the challenges of data quality and the need to filter and curate datasets to improve model performance.

What is something that has already happened in AI that Dan Whitenack thought would take much longer?

Dan is surprised by the generalizability of large language models beyond traditional NLP tasks. He found that these models could be applied to tasks like fraud detection without needing traditional statistical models, which he thought would take much longer to achieve.

Chapters
This chapter introduces the crossover episode between Latent Space and Practical AI podcasts, highlighting the significance of exploring the history and trends in AI. It emphasizes the value of podcasts offering a comprehensive overview of the AI field.
  • Crossover episode between Latent Space and Practical AI podcasts.
  • Focus on AI history and trends.
  • Recommendation of podcasts with longer backlogs for comprehensive learning.

Shownotes Transcript

再次问好,我是 Swix,又回到了我们的交叉剧集的第二部分。这次是与 Practical AI 的朋友们一起,他们在 AI 领域深耕多年,正如我们经常说的那样,甚至在 AI 流行之前就已经涉足其中。Alessio 和我每次拿起麦克风都会特别注意的一点是,我们在这个领域算是比较新的播客,而这个领域背后有着更悠久的历史和传承,以及许多我们可能永远都无法触及的领域和细分市场。因此,我一直很喜欢推荐这些拥有更长历史积淀的播客,它们实际上可以让你追溯到 AI 的历史,这非常罕见且宝贵。这些都是实时生成的片段,就像我们现在为当前这波 AI 趋势所做的那样。因此,我

我们所做的,作为播客对播客,我一直喜欢与其他播客交谈,因为他们知道是怎么回事,我们浏览了各自的统计数据,挑选出观众最喜欢的剧集以及一些个人精选。我必须指出,这期节目是在我们 George Hotz 剧集之前录制的,很显然,这现在是我们所有播客中下载量最高的剧集,也是我们新推出的 YouTube 频道。如果你还没有订阅,请务必订阅。

但无论如何,如果你正在寻找优秀的 AI 播客,这些人已经持续很长时间地报道了这个领域,并且涵盖了很多主题。一定要看看。请欣赏我们与 Practical AI 在演播室录制的特别交叉剧集。

欢迎收听 Practical AI。如果您从事人工智能工作,或者渴望从事人工智能工作,或者好奇人工智能相关技术如何改变世界,那么本节目适合您。感谢我们的合作伙伴 Fastly,他们以超快的速度将我们所有的播客发送到您收听的任何地方。请访问 Fastly.com 查看他们的信息。如果您是新听众,欢迎收听 Practical AI。

以及我们的朋友 Fly,将您的应用程序服务器和数据库部署到靠近用户的地区。无需运维。访问 fly.io 了解更多信息。

好吧,大家好。我们今天为您准备了一期非常特别的节目。我有机会与来自 Latentspace 的 Swix 和 Alessio 在旧金山坐下来聊聊。他们很友好地让我进入他们的播客录音室,我们有机会谈论我们各自节目中最喜欢的剧集以及从这些讨论中获得的一些总体收获。我们涵盖了一些我们在 AI 领域看到的趋势,

他们甚至有机会就我对提示工程的看法对我进行提问。所以,请欣赏节目吧。大家好,欢迎收听 Latent Space 播客。我是 Alessio,Decibel Partners 的合伙人和常驻 CTO。我的联合主持人是 Swix,Latent Space 的撰稿人和编辑。

今天,我们非常高兴地欢迎 Dan Whitenack 来到演播室。欢迎,Dan。大家好,很高兴来到这里。这是一个播客交叉节目。如果您认出这个声音,Dan 是 Practical FM 的主持人。我最近一直在听他的节目。

过去五年来,他一直在报道 AI 领域最新和最伟大的成果,甚至在 AI 流行之前。是的,是的,是的。在 AI 炒作之前,在那些奇怪的数据科学时代,无论那现在是什么。是的,一切都在融合和汇聚。所以我会简单介绍一下你的背景,然后我们可以谈谈你个人方面的一些情况。你获得了数学和计算物理学博士学位。

然后我做了 10 年的数据科学家,最近在 SIL International 工作,我实际上认为这是一家农业科技公司。然后我访问了他们的网站。它实际上是一个非营利组织——国际非政府组织,是的。所以他们在世界各地从事与语言相关的工作。所以在过去的五年里,我组建了一个团队,一直在研究 AI 的低资源场景,如果大家熟悉的话。比如在尚未支持的语言中进行机器翻译或语音识别之类的工作。——是的。

是的,我们稍后会谈到这一点,但我认为 Practical AI 的第三集就已经介绍了 AI 拥有的全球社区以及它所解决的问题。是的,是的,是的。这在整个过程中,在 200 多集中一直是一个重要的主题。是的,是的。你最近离开了 SIL,开始从事 PredictionGuard 的工作,我们可以更多地谈谈这个。你也是 NT Candle Co. 的临时高级运营发展总监。是的,是的。

是的,还有什么人了解你吗?是的,我的意思是,从介绍中可能可以看出,我喜欢从事各种项目,并且喜欢同时做很多事情。但是,除此之外,是的,我

住在印第安纳州。我告诉你们,我正在尝试创造“大脑草原”这个词。所以让我们看看它是否会流行起来。可能不会。你是连续第二个来自印第安纳州的嘉宾了。来自 Notion 的 Linus 也来自印第安纳州。我们当时正在讨论那里有令人惊讶数量的国际学生。是的,非常正确。普渡大学是一所……

强大的大学。是的,是的,非常强大的大学。这是一个度过美好时光的好地方。在那个地区也发生着许多有趣的事情。所以我也很喜欢音乐,但不是任何流行音乐。我会演奏曼陀林、班卓琴和吉他,演奏民谣音乐。低资源。是的,低资源音乐,低资源语言。是的,所有这些东西。任何低资源的东西都在我的领域内。

也许我们可以谈谈 Practical AI 的故事。你是如何开始它的?告诉我们早期的情况,并向大家介绍一下。是的,这是一段曲折的旅程。有些人可能熟悉 ChangeLog 播客,我认为他们现在已经运行了 11 年或 12 年了。它在……

非常流行,我认为最初是围绕开源的。现在它已经涵盖了通用的软件开发,但他们现在有一个播客网络,在 Go 大会上也是如此。所以我是 Go 编程语言的粉丝。这是另一个有趣的事实。但是

但在 GopherCon 上,我认为是在 2016 年左右,我遇到了 Adam Stachowiak,他是 ChangeLog 的主持人之一。当时,我正在做一个关于数据科学的演讲,一些我忘记了的事情。但他向我推销说,他说道:“我们一直在考虑做一个关于数据或数据科学的播客。”当时,他有一个名字,叫做 Harkin。

我认为是硬数据之类的,由于显而易见的原因,它从未流行起来。但我把它记在心里。并没有真正采取任何行动。但在接下来的几年里,我遇到了 Chris Benson,他是 Practical AI 的联合主持人。

并帮助他在会议上做了一些演讲。我们也是通过 Go 社区认识的。最终,他当时在另一家公司工作。现在他是洛克希德·马丁公司的一名战略家,从事 AI 工作。但他联系我说:“嘿,你是否考虑过做一个联合主持播客的事情?”那时,我想起了我和 Adam 的谈话。所以我再次联系了 ChangeLog 的 Adam。然后

然后我们开始着手这个想法。我们希望它实用。所以当时,好吧,现在很多人都在用 AI 做事情,比如动手实践。那时,有一些播客确实对 AI 大肆宣传,根本不实用,这就是我们最终选择 Practical AI 的原因,它实际上会对人们有所帮助。这是一件很棒的事情。

从人们那里听到,当他们收听节目时,他们确实学到了一些对他们的日常生活有用的东西,这是一种很棒的事情。这就是目标。是的。很好。我认为这是我们播客的共同点之一。你知道,有很多内容可以通过……

对 AI 的恐惧,你知道,以及所有这些不同的东西来获得很多点击量。我认为我们都专注于更实用和日常的使用。是的。告诉我们更多关于 PredictionGuard 的信息,你知道,这符合使 AI 变得实用和可用的目的。是的。是的,当然。感谢你的评价。所以,是的,PredictionGuard 是我从大约圣诞节前后就开始从事的工作。

最初,我一直在思考大型语言模型的评估和模型选择,但它已经演变成其他东西。我意识到市场压力、公司内部压力迫使人们将这些生成式 AI 技术……

版本的模型集成到他们的工作流程中,因为企业意识到他们可以从中获得的好处。但在实践中,当他们使用 ChatGPT 时,他们输入一些内容,结果令人惊叹。然后,我们如何在我们的企业中做到这一点,我们可能对数据隐私或合规性问题有规定?

而且我们还希望自动化某些事情,或者我们希望进行数据提取,但我只是从这些模型中得到文本输出。我该如何处理这些?它是基于结构化文本的。我如何从不一致的文本输出中构建一个健壮的系统?

因此,PredictionGuard 真正关注这两件事。一是合规性,以合规的方式运行最先进的 AI 模型。然后在其之上添加控制层以构建输出并验证输出。因此,有些人可能熟悉 Guardrails、Guidance 或这些项目。所以我们已经

将其中一些最好的东西集成到平台中,以及一些轻松进行自一致性检查、事实性检查和其他大型语言模型输出检查的方法。很好。我们确实邀请了来自 GoRails 的 Shreya Rajpal 作为嘉宾。是的,是的。所以,是的,这也是人们非常喜欢的一集。是的,也许,你知道,只是为了让大家了解 Practical AI 作为播客是什么样的,你想谈谈也许是两三集?

我们最喜欢的剧集。我们可以轮流说,你知道,就像我们最喜欢的剧集一样。我们为这一集做了一些准备。是的,是的,是的。所以这有点像,我认为我们的构想是,对于新听众来说,无论是我们任何一个播客的新听众,这都是一个回顾,让他们回顾一下最喜欢的剧集。是的,是的。我认为我可以谈谈我个人的一些最爱,然后也许是观众的最爱。我认为我个人的一些最爱实际上是

我们称之为“完全连接”的剧集,其中 Chris 和我实际上一起详细讨论了一个主题,没有嘉宾。说实话,这些剧集对我来说很棒,就像让我学习一些东西一样,就像有一个学习借口一样。我们最近做过这样的事情,比如与 ChatGPT 和指令微调模型。我们用 Stable Diffusion 和扩散模型做过。我们用 AlphaFold 也做过。所以所有这些都是我们一起做的剧集。只是讨论一下……

你如何才能实际地形成一个关于这些模型是如何训练的、它们如何工作以及它们输出什么的思维模型?这些是我的一些最爱,因为我学到了很多东西,因为我做了一些准备。我们讨论了所有这些细节,这有助于我形成自己对这些事情的直觉。

我们另一个个人最爱是,我们做了一系列关于非洲 AI 的节目。那真的很酷。你提到了全球 AI 社区。我们实际上做了一系列这样的节目。它们都被标记为“非洲的 AI”,重点介绍了 Masakane 等内容。人们没有意识到,像……

我们在西海岸或其他地方开发的一些模型,它们并不适用于世界各地的所有用例。并且有很多蓬勃发展的草根社区,例如 Masakane 和突厥语中间语以及其他社区,他们正在为自己构建模型。机器翻译、语音识别、

适用于世界各地他们语言的模型,或者农业,你知道,适用于世界各地他们用例的计算机视觉模型。所以这些是我方面的一些亮点。我们是否要谈谈我们个人最喜欢的剧集?是的。

请说。我认为你已经选了一个了。是的,我认为我的绝对是与来自 Databricks 的 Mike Conover 的那集,他是那里 Dahlia 项目的负责人。我认为内容显然很棒,Mike 非常聪明且准备充分,但我认为他对这些事情的热情,你知道,红色睡衣数据集在我们录制的那天早上发布了。

我们都在有点像书呆子一样,是的,为什么这如此有趣?他对此如此兴奋。看到人们对他们正在从事的工作如此兴奋,这很棒。你知道,这在某种程度上是一种激励,让我们也这样做。是的。

我认为就我个人而言,我倾向于推动新闻驱动的剧集,比如事件驱动的剧集,在 AI 中会发生一些事情,然后我会迅速决定我们会在一期 Twitter Spaces 上录制一集,然后会有很多人收听。我认为最突出的一集是 ChatGPT 应用商店、ChatGPT 插件的发布,当时大约有 4000 人收听。这太疯狂了。我们只做了大约一小时的准备,对吧?是的,

我认为作为一名“记者”,最重要的是要率先报道一些重大事件,并对一些重大事件提供视角,同时也要捕捉人们当时反应的音频记录。

因为这是我们在准备工作中谈论的事情,ChatGPT 插件与我们当时的预期相比已经令人失望了。但我们捕捉到了它。我们捕捉到了当时的兴奋。我们可以比较和对比一下我们认为事情将如何发展以及事情的实际结果。这是一件非常好的,我想,音频新闻报道。是的。是的,我的意思是,这只是去年发生的事情。我提到了 Stable Diffusion 和所有这些。我们当时正在讨论这个。就像,

我一直认为,哦,一切都将转向图像生成。我是否应该放弃 NLP 并开始考虑图像?现在我做的只是 NLP 和语言模型。但当时,这就是我们想到的。同样的情况。我当时正在为 Stable Diffusion 制作一个 Web UI,就像其他一千名前端开发人员一样。昨天是我六个月来第一次打开 Stable Diffusion。

并且发生了很多变化,它仍然是一个正在发展的领域,但它不是,是的,它目前并没有推动思维过程。是的。好吧,尤其是因为我认为,这取决于你想要做什么。我绝对更少关注视觉方面。我更喜欢文本驱动的人。所以我自然而然地倾向于 LLM,比如 NLP。是的。嗯,

我可以谈谈听众最喜欢的剧集。是的,大众最喜欢的剧集。所以我们有一个明确的最爱,我认为这对我来说是一个惊喜。不是因为嘉宾不好或者其他什么原因,而是因为,所以主题是 Metaflow。我不知道你是否听说过 Metaflow。这是一个 Python 包,

用于 Netflix 开发的完整堆栈数据科学建模工作。我们邀请了 Ville Toulouse,他是该包的创建者。这已经有了如此……它的收听量比任何其他剧集都多大约 30%。我认为标题……所以我们将其命名为……我认为是从……我认为是从笔记本到生产之类的。是的。所以这是……

从笔记本到生产,有很多事情会阻止你从这些方法中获得价值。我的猜测是,谈论这一点可能是该剧集的关键特征。Metaflow 真的很酷。人们应该看看。这是一种做到这一点的方法,包括版本控制、编排和部署以及所有这些非常重要的东西。但我认为对我来说一个收获是……

比如实际地引入,有些人可能会称之为完整堆栈数据科学或模型生命周期之类的东西。模型生命周期之类的东西让大家如此感兴趣。所以,除了进行单次推理或进行单次微调之外,

机器学习或 AI 项目的生命周期是什么?我认为这确实让大家着迷,因为它就像在实际使用这些模型时日常生活中遇到的困境。去 Hugging Face 尝试 Hugging Face 空间并创建一些很酷的输出,甚至只是下载一个模型并完成输出,这是一回事。

但我如何在我的基础设施中处理模型版本控制和编排?我如何将我自己的数据集与之关联并以相当健壮的方式进行操作?我如何将这些使用所有奇怪工具的数据科学家整合到一个处理 DevOps 和非 AI 软件等的组织中?我认为这些是人们一直在努力解决的问题。是的。

是的。这与基础模型的趋势有点冲突,基础模型的主要吸引力在于你只需训练一次,然后就再也不需要碰它了。或者你将其作为一个版本发布,人们只是根据它进行提示。我觉得这种演变是从本质上来说的 MLOps 时代……

进入,缺乏更好的词语,LLM ops。你对此有何感想?不,我认为你是完全正确的。我认为这些模型总会在特定任务的组织中占有一席之地,比如 scikit-learn 模型或解决特定问题的任何模型。因为像金融组织或其他组织总是需要可解释性或其他任何东西。

但我确实认为我们正在进入一个时期,我不得不重建我作为数据科学家的许多直觉。

从考虑收集我的数据、创建我的训练代码、输出我的模型、序列化它、将其推送到某个中心或其他地方、部署它、处理编排,到现在考虑,好吧,我选择哪些预训练模型,以及我如何设计我的提示和链?也许会进行微调,这仍然是一个非常相关的主题。

但我认为我与 PredictionGuard 一起研究的一些事情在 ML ops 中具有并行性,但它们略微……只是味道略有不同。我认为这是……

ML ops 如何毕业到其他东西,而不是像人们仍然关注 ops 一样,就像你说的那样,这是一种不同类型的 ops,是的,我认为这反映在我们最受欢迎的剧集中,所以我认为……

我认为第一集是与 Reza Shabani 的那集,我们讨论了他们如何训练 Replit 代码模型以及他们用来确定模型是否良好的 Amjad vibes。我认为,你知道,这对我们的社区来说是有意义的。它主要是软件工程师和 AI 工程师。因此,代码模型显然是一个热门话题。是的,那真的很棒。我认为这可能是我们第一次超越仅仅关注传统的基准测试,你知道,这就是为什么我们专门做了一期关于 Amjad 的节目。

我是 Judd Eval。很多公司都在使用这些模型,并且他们使用现成的基准测试来做到这一点。那么,你知道,在我们将要讨论的其他剧集中,比如与 MosaicML 的 Jonathan Frankel 的那集。他还提到很多基准测试是多项选择题,但大多数生产工作负载都是开放式文本生成问题。那么你如何协调两者呢?是的。

你们是否都参与了,你知道,整个评估 LLM 的领域,以及某种程度上,这是我们在最近一集中与 Llama Index 的 Jerry 谈论的内容,就一方面而言,生成问题,就像你谈论的那样,来评估 LLM。

LLM 或使用 LLM 来查看上下文和响应并提供评估。我认为这绝对是一件我认为很有趣的事情,并且最近在我们的几集中都出现过,人们都在努力评估这些东西。所以,是的,我们在……

一个方向上考虑基准测试,另一个方向上考虑这种即时或基于模型的评估,这种评估已经存在一段时间了,比如在机器翻译中,这很常见。所以 Unbabel 使用一个名为 Comet 的模型,

这是最流行、性能最高的机器翻译评估器之一,它是一个模型,而不是一个指标,诸如此类。所以是的,我们看到的趋势是评估,特别是 LLM 的评估,这可能会变得棘手。是的,我们做了一期“基准测试 101”的剧集,也很受欢迎。

我们讨论了基准测试驱动的开发的概念,你知道,基准测试每三四年就会发展一次。现在模型每六个月就会赶上。所以基准测试创建者和模型开发者之间存在一种竞争,寻找,好吧,最先进的基准测试在这里,GPT-4 在很多基准测试中都获得了大约 98% 的结果。所以,你知道,GPT-4 不是 AGI。因此,为了达到 AGI,我们需要更好的评估来推动这些模型的边界。是的,我认为很多人都在尝试使用模型来生成这些东西,但我认为还没有明确的答案。我认为我们非常……

惊讶地发现的是,特别是在 Hello Swag 中,基准测试不是手动生成的,而是对抗性生成的。然后我对我们的,我的意思是,这有点像过渡,我们在这里并没有真正按顺序进行,过渡到我们第二受欢迎的剧集,这是关于 RoboFlow 的。

它涵盖了 Meta 的 Segment Anything。我认为你们也讨论过这个。是的,它在节目中被提到过。我认为我们没有专门为此做一期节目。好吧,当你阅读论文时,最令人惊讶的发现是,大约……

不到 1% 的他们发布的掩码实际上是人工生成的。很多都是 AI 辅助生成的。所以你本质上是模型评估模型,模型本身是用模型生成的数据训练的。此时此刻有很多层。是的。是的。

我知道最近有一些论文是关于用 LAMA 和其他模型围绕模型生成的输出和数据集所做的事情。这将很有趣。我认为这还处于早期阶段。所以我认为至少,所有这些案例都表明,模型,无论是评估模型还是使用模拟数据,我认为……

几年前,我们可能会称之为模拟数据,对吧?我认为这个术语现在不太流行了。增强?是的,或者增强,数据增强,模拟数据。所以我认为这是一个存在一段时间的话题,但我们看到这个被使用的规模现在令人震惊,并且令人鼓舞的是,我们可以通过将模型组合在一起做一些非常灵活的事情,既

在推理时,也用于训练目的。好吧,你有没有遇到过“模式崩溃”这个术语?我担心的是,特别是作为关心低资源问题的人,将模型堆叠在模型之上,你只是优化了中位数用例或众数用例。是的。是的,我认为这可能……所以是的,这是一个担忧。我会说这是一个合理的担忧。我确实认为……

这些大型模型,这会涉及到,我想,更多的是多语言和这些 LLM 的各种数据集的构成。我们越能在这 些 LLM 中体现语言多样性,我知道,我认为 Cohere for AI 刚刚宣布了一项社区驱动的努力,以增加 LLM 数据集中的多语言性。

但我认为我们做得越多,我认为它对下游的低资源语言和低资源场景越有利,因为我们仍然可以进行微调。我的意思是,我们都喜欢现在使用预训练模型。

但在我的先前工作中,当你查看阿拉伯语方言而不是标准阿拉伯语时,数据集中有很多标准阿拉伯语。如果在……

LLM 数据集中包含阿拉伯语,那么从标准阿拉伯语过渡到阿拉伯语方言要容易得多,因为你可以从这些数据集中进行微调。所以这令人鼓舞,因为这种情况会越来越多。仍然存在一些重大挑战。尤其因为从模型中生成的绝大多数内容都不是用中西伯利亚尤皮克语或这些语言中的任何一种,对吧?所以我们不能

我们不能完全依赖这些,但我希望随着时间的推移,更大的基础模型会看到更多的语言多样性。然后是 Masakane 等草根组织、草根努力,它们会在另一端出现,并说:“好吧,我们将与我们的语言社区合作,开发一个可以根据这些模型进行微调的数据集。”希望在这方面能双向受益。所以

既然你几次提到了 Masakani,我们会在节目说明中添加链接,以便人们可以找到它。但他们到底在做什么?他们产生了多大的影响?是的,我想说,如果人们不熟悉,如果你访问该链接,你会看到它。他们将自己描述为非洲 NLP 研究人员的草根组织,为非洲创造技术。我们作为研究人员有自己的偏见。

在一个英语驱动的识字世界中,什么技术对其他人有用。对听众来说,这么说可能更有意义,

嗯,如果我们可以将维基百科翻译成所有语言,那不是很棒吗?也许吧,但实际上,现实情况是,许多语言社群并不希望将维基百科翻译成他们的语言。这不是他们使用语言的方式。或者他们不识字,属于口头文化,所以他们需要语音,对吧?文字对他们没有任何好处。这就是为什么 Masakane 作为一种草根组织开始……

由了解其工作领域背景的 NLP 从业人员组成,他们能够创建在这些背景下工作的模型和系统。还有其他一些,你可以在我们关于非洲人工智能的节目中听到他们讨论农业用例。

美国的农业用例可能看起来像装有摄像头的约翰迪尔拖拉机。我不知道人们是否知道这一点,但约翰迪尔拖拉机或这些大型拖拉机,它们实际上装有 Kubernetes 集群。有些甚至在……

拖拉机上。它就像一个边缘 Kubernetes 集群,运行这些模型。例如,当你施用杀虫剂时,摄像头会识别并喷洒单个杂草,而不是喷洒整个田地。所以这就像在……,你知道的,也许在非洲有用的水平。也许更有用的事情是围绕疾病或干旱识别,或者……

救灾或其他类似的事情。因此,在这些环境或领域工作的人们了解这些领域,并为这些案例生产技术。我认为这非常重要。所以是的,我鼓励大家查看 Masakane。还有其他类似的组织。如果你在美国、欧洲或其他地方,并且想参与其中,他们张开双臂欢迎你,说:“嘿,来帮助我们做这些事情。”所以是的,也请参与进来。

你的前三名还有什么?哦,是的。最近 Raj Shah 来自 Hugging Face 的一个。有些人可能在 LinkedIn 或其他地方看过他非常酷的视频。他制作关于 AI 模型的 TikTok 视频,这太棒了。是的。

他的节目叫做《LLM 的能力》。我认为这是一种帮助我理解大型语言模型的格局以及它们所处各种特征或轴线的好方法。因此,一个轴线是语言。

例如,封闭或开放,对吧?我可以下载模型吗?但除此之外,还有一个轴线,那就是它是否可用于商业用途?然后还有其他轴线,例如我们已经讨论过的多语言性,但还有任务特异性,对吧?例如,有代码生成模型和语言生成模型。当然,还有图像生成模型等等。

所以是的,我认为这一集确实有助于为语言模型奠定良好的基础(双关语),以了解它们所处的位置。因此,当你访问 Hugging Face 时,那里有多少个模型?现在可能有 200,000 个模型?也许有,我不知道有多少模型。我该如何浏览该空间并了解我能够下载什么?或者我是否适合那些使用案例之一,这些案例对我来说连接到 OpenAI、Cohere 或 Anthropic 是有意义的?

有助于定位自己。所以我认为这就是为什么这一集如此受欢迎的原因,因为他以一种易于理解的方式阐述了所有这些内容。你个人如何掌握模型?你知道,有排行榜、Twitter、LinkedIn。是的,我认为我的信息来源有点分散。作为播客主持人,我认为这是……是的,这是我们的工作。是的,这对我们来说也是一个好处。我认为如果我没有……

每周三,我都会谈论这个话题,无论我是否计划考虑某件事。它可以帮助你提示并查看正在发生的事情。所以我认为这是内容创作者的一个优势,它是一种责任,但它也是我们可以利用的优势,可以借此每周与人们进行精彩的对话。

但是是的,我认为 Twitter 现在有点奇怪,正如每个人都知道的那样,但它仍然是查找信息的良好场所。然后有时,说实话,我会去 Hugging Face,我会搜索模型,但我也会搜索并查看模型下载量周围的统计数据。

因为通常当人们发现某些有用的东西时,他们会一遍遍地下载它。因此,有时当我听说某个模型系列时,我会去那里,然后查看 Hugging Face 上的一些统计数据,并尝试一些东西。是的。我看到一些分支的下载次数,但我从未在 Hugging Face 之外听说过它们。是的,这是真的。这是真的。是的。有些,比如会有一个分支或……

比如微调或其他什么。而且,你确实需要做一些挖掘,比如许可之类的,但这很有用,比如那里有很多人在做令人惊叹的事情,但并没有像 Falcon 或 MPT 那样得到认可,但很多人都在做很酷的事情,他们正在 Hugging Face 上发布模型。也许他们只是发现有趣。是的。

你最近发现的任何不寻常的吗?嗯,我会重点介绍一个,我认为它很酷,因为我不知道你们是否都看到了 Meta 发布的这个。六模态模型。是的,是的。这很有趣,因为当我在 SIL 工作时,我们与 Masakane 合作做了这项工作。我们与 Masakane 和 Koki(一家语音技术公司)合作,用六种非洲语言创建这些语言模型。

而且,嗯,我想,好吧,这很酷。就像我们那样。我们形成了数据集。这令人满意,但我现在正在学习,然后 Meadow 在 Hugging Face 上找到了这些数据。这被整合到……

Meta 发布的这些新模型中。所以看到完整的循环发生是很酷的,草根组织看到了对模型的需求,收集数据,做基线。现在,这种功能以某种更有影响力的方式扩展了,我想,在更高的层次上。是的。

是的,我认为,我的意思是,谈到开放和封闭模型,当我们开始播客时,它看起来像一个大教堂式的市场,我们有连贯的、熵的、OpenAI、稳定性,以及……

这些都是最热门的公司。我认为现在,正如你提到的那样,你访问 Hugging Face,就像我现在刚打开那里一样。刚刚发布了 Sutter 的新闻研究,130 亿参数模型,在超过 30 万条指令上进行了微调。模型就像到处都在出现,这很棒。是的,正如我提到的那样,我们与 Jonathan Frankel 和来自 Mosaic ML 的 Abhinav 有一集节目,介绍了 MPT 7B 以及他们在那里做的一些工作。我……

我认为他们的动机之一是尽可能保持空间的开放性,让任何人都可以轻松地(理想情况下在几乎 HMOS 平台上)转换他们自己的模型等等。这是人们非常喜欢的一个。我认为它非常技术性。所以我一开始真的很担心。我想,它会不会超过大多数人的理解能力?但是……

它实际上受到了非常好的评价。MARK MANDEL:不,我们更注重技术。FRANCESC CAMPOY:没错。现在这是一个很好的教训。MARK MANDEL:倾听。FRANCESC CAMPOY:没错。MARK MANDEL:Jonathan 对开源非常热情。他在节目中途发表了一篇关于为什么保持模型开放如此重要的长篇大论。实际上,我将观众的掌声……

编辑到播客中,我非常喜欢。我喜欢为收听节目的听众提供一些小的音频奖励。我认为 Changelog 的人做得非常好,尤其是在他们较新的节目中。是的,我们需要一种方法来整合其中的一些内容。是的,就像音效板一样。我们从未深入研究过它。我需要与 Changelog 的 Jared 合作看看。它只是让它更精彩。没错,没错。你只能进行如此多的关于 ML 的长达一小时的对话。是的。

我们,我们,是的,我,我一直这么认为,但我们一直在继续。对,对,对,对。对不起。我不是那个意思,我不是那个意思,不,它只是改变了它,并使它在音频上更有趣,以增加多样性。酷。我不知道。我不知道我们是否还有其他亮点要为……

我只会再重点介绍一个。Kirsten Lum 参加了节目,她有一集节目是关于小型组织的机器学习。我认为这是一个很棒的节目。如果你是一名数据科学家、从业人员或工程师,在创业公司或中等规模的公司中,我认为她强调的一点是,我们考虑到的这些不同的任务,例如……

无论是策划数据集、训练模型、微调模型还是部署模型。有时在大型组织中,这些本身就是职能。但是当你处于这种中等规模的组织时,这就像你所做的任务一样,对吧?因此,将这些任务视为你的角色的任务,并为它们分配时间,并了解如何……

如何做好所有这些事情,而不会被其中任何一件事情所吞噬。这是一个我发现对我日常工作非常有用的见解,也是为了开始对……有点敏锐的感知,嘿,我花了很多时间做这件事,但这可能意味着……

我就像陷入了太多……我让我的 MLOps 太复杂了,无法跟踪版本并像将所有这些东西联系在一起一样,也许我应该只做一件简单的事情,比如……

将数字粘贴到 Google 表格中并继续进行。我认为这是一个很好的过渡到你的其他工作。你运营 datadan.io 网站,这是一种不同类型的研讨会和咨询。我认为许多创始人尤其好奇公司是如何考虑使用这项技术的?Twitter 上有很多演示,有很多兴奋,但是当创始人将他们想要销售的东西组合在一起时,他们会说,好吧,

企业有哪些实际问题?他们有哪些限制?我们谈到了商业用例等等。你能否谈谈你从这些研讨会中学到的两到三个高级经验教训,例如这些模型是如何真正被引入公司以及它们是如何被采用的?是的,我认为关于这一点,一个更高的评论是……

即使我们看到所有这些演示都在发生,每个人都在使用 ChatGPT。企业中的现实情况是,大多数企业仍然没有在其技术堆栈中集成 LLM,对吧?所以这对某些人来说可能是一个打击,哦,它并不像看起来那么普遍,但我实际上发现它可能令人耳目一新,因为我们中的一些人觉得事情每周都在发生。这……

让人筋疲力尽地跟上,哦,如果我不跟上这些事情,那么我就会被甩在后面,但是这些事情需要时间才能逐渐渗透,而且并非所有事情都像我们讨论的稳定扩散用例和其他类似的东西一样,目前炒作的并非所有事情都会永远成为你日常生活的一部分,对吧,所以你可以从中得到一些安慰……

我认为对于那些对这些模型感兴趣的人来说,真正深入研究不仅仅是这些模型的单个提示非常重要。使用生成文本模型或 LLM 的实际方面实际上围绕着一些人可能称之为提示工程模型的东西。

但要理解诸如在你的提示中提供示例或演示、使用诸如防护栏或正则表达式语句或预测防护来构建输出、为公司的数据进行微调等内容。这些事情之间存在某种等级关系。我认为……

我认为你们都认识 Travis Fisher。他是 Practical AI 的嘉宾,并谈到了从提示工程到数据增强再到微调,最终到……

训练你自己的生成模型的这种等级关系。我确实试图鼓励企业用户和我一起参加研讨会的人考虑这种模型的等级关系,例如动手操作,进行提示。但是,如果你没有立即得到你想要的答案,我认为人们倾向于说,哦,它不适用于我的用例。

但是下面有一个非常丰富的环境,其中包含诸如链接链和 llama 索引以及,你知道的,数据增强、链接、定制、微调等内容,这些都可以组合在一起。

这是一种有趣的新体验,但我发现企业用户还没有探索到最浅显的层面之外。所以我认为,是的,就我在研讨会上看到的趋势而言,我认为人们已经转向了 ChatGPT 或这些模型之一。他们看到了那里的价值,但他们很难将这些模型连接到他们可以用来解决问题的流程中。在我们所有人都有直觉之前,例如……

我将收集我的数据。它将具有这五个特征。我将训练我的 scikit-learn 模型或其他什么。我将用 Flask 部署它。现在我有一个很酷的东西。现在所有这些直觉都已经被打破了一点。因此,我们需要围绕这些事情开发一个新的工作流程。我认为研讨会的重点是将这种直觉重建成一个实用的工作流程,你可以通过它来思考并实际解决问题。

你有一个现场提示工程课程。提示工程被高估还是被低估了?是的,我认为提示工程作为一个术语可能被过度炒作了。我认为工程……

大型语言模型周围的操作是一件真实的事情。这正是我们正在过渡到的事情。现在,你想说多少是,这个术语在各种不同的上下文中都被使用。它可能仅仅意味着,哦,我写了一个很好的提示,我将把它卖到 Twitter 上或其他什么地方。

提示库。提示的市场。老实说,我不知道他们做得怎么样,因为他们在几乎每一篇关于提示工程的文章中都被引用。他们获得了非常非常好的公关。是的,是的。我的意思是,如果人们可以出售他们的提示,那么我完全赞成。这很酷。我这里有提示。你知道的。

但我认为它就像有些人可能只是这样认为。我认为在我看来,这可能被夸大了。但我确实认为,围绕提示、链接和数据增强,存在整个级别的工程和操作,这是一个可以用来解决问题的真实工作流程。这就是当我提到……无论你如何组合工程这个词时,我的意思更多的是……是的。

与提示和语言模型。是的,我一直称之为 AI 工程。AI 工程,这很好。与 AI API 纠缠,知道如何使用它们。这是一种正在发展的技能,是软件工程的一个子专业。是的,是的。就是这样。我认为我真正试图探索的部分内容是……

这是 AI 从传统 ML 空间的溢出,就像你需要机器学习研究人员或机器学习工程师一样,它正在溢出到软件工程空间。并且有一类正在兴起,我称之为 AI 工程师,他们专门从事研究、工具、对话和主题。你认为来自后一组的人,例如正在晋升到这个 AI 工程师职位上的工程师与……

可能更像我的背景,我在数据科学领域工作了一段时间,现在我正在转向这个世界,你认为这两组人的独特挑战是什么?哦,我的意思是,我可以谈谈软件方面,你可以谈谈数据科学方面。这仅仅是因为我们中的许多人第一次处理非确定性确定性系统,顺便说一句,我们并不完全控制它,因为……

关于 GPT-4 在其质量上的回归存在这种说法。我们不知道,因为模型漂移不在我们的控制范围内,因为它来自 OpenAI 的黑盒 API。但除此之外,还有一种感觉,即能力的潜在空间尚未完全探索。模型中有 1750 亿或 1 万亿个参数。我们可能只使用了 200 个。

这就像那个梗,我们只使用了我们大脑的 10%。我们可能只使用了模型中 10% 的能力。解锁它需要一些独创性。是的,我认为从数据科学的角度来看,可能有一种愿望,那就是快速跳到围绕微调或训练你自己的模型的这些其他事情上,如果你真的认真对待……

提示链接数据增强。你可以用现成的模型做很多事情,不需要立即跳到训练。所以我认为这是我们方面的膝跳反应。就我所知,微调将在可预见的未来存在。但是数据科学家可能有不同的看法……

因为我们已经处理不确定性或非确定性输出一段时间了,并且已经对它产生了一些直觉。但这主要是在我们控制数据集、控制模型训练等等的时候。所以要抛弃一些东西,但仍然要处理它,这对我们来说是一种不同的挑战。我刚刚想起了我们在 Latent Space 社区开发的另一件事,那就是 AI UX 这个概念。

在屏幕上显示某些内容并使其易于被人们使用、易于使用,这可能与模型的实际训练一样有价值。老实说,我不知道这是否是一种夸张的说法。显然,你正在花费数亿美元来训练模型并将其放入某种 React 应用程序中。这不是世界上最大的创新。但是许多来自 OpenAI 的人说 ChatGPT 主要是一个 UX 创新。是的。

是的,我认为在聊天之前,当我看到 ChatGPT 的输出时,我不认为我与其他人有同样的惊天动地的体验,他们相信,哦,这个输出来自这样的模型。当然,它来自一个模型。

但是对该界面的接受以及对话中的人为因素,那是……所以也许两者兼而有之,对吧?如果你没有底层创新、建模、数据集策划等等,你将无法获得这种体验。

但它完全可以被 UX 毁掉。我通常会举一个例子,有一天在 Gmail 中,我登录并输入我的电子邮件,然后出现了灰色的自动完成。对。我没有收到弹出窗口,说,你想让我们用 AI 开始撰写你的电子邮件吗?就像它非常流畅地发生了,并且它……

它立即为我创造了价值,对吧?所以我认为这确实有意义,尤其是在这个领域,人们对这项技术本身有很多疑虑或恐惧。我们将让 Alex Gravely 在未来的节目中出现,但是 GitHub,当他们从 OpenAI 获得最初的 codex 模型时,他们花了六个月的时间来调整 UX,只是为了将 Copilot 调整到一个它不是单独的面板、它不是单独的文本框,它在你编写代码时就在你的代码中的程度。

对我来说,这更像是传统软件工程的领域,而不是 ML 工程师或研究工程师。是的。是的。我会说这可能是,是的。为了回到我们正在讨论的内容,对进入这个领域的工程师与进入这个领域的数据科学家的独特挑战。

我认为数据科学家根本没有考虑过这一点。最多,他们考虑过数据可视化,对吧?而工程师,通常,除非你只是一个非常纯粹的后端系统工程师,否则考虑 UI、UX 对该组来说可能更自然一些。是的。

你提到了一件事,那就是关于数据集策划。我们正在准备这集关于数据集 101 的长期未完成的节目。对自然语言处理和 NLP 数据集发生的演变有什么看法?是的,好问题。我绝对喜欢,我认为,你们都熟悉 Label Studio 吗?这是最流行的开源数据标记框架之一。我认为他们一直在……

我们让他们参加节目。我们试图每年都让他们作为数据标记专家参加节目。也许是时候了。这只是提醒我。他们刚刚发布了。因此,Erin McHale 位于 Latentspace Discord 中。我认为你在 ODSC 上让她参加了节目。是的,她在 ODSC。是的,那是对的。因此,他们刚刚发布了用于微调生成式 AI 模型的新工具。没错,是的。这是一个好时机。我认为这可能是一个例子,这可能是我们现在看到的趋势……

我们正在看到的是围绕增强型工具或真正面向……

一种易于使用的方法来使用人类反馈或自定义数据微调这些模型。所以我知道对于 Label Studio 来说,最近的许多版本都与在标记过程中将 LLM 与人类结合起来有关,类似于……我认为 Prodigy 一直在这样做,它来自 Spacey。

因此,这种在循环中进行人类标记和模型更新,他们引入了一些这样的内容。但是现在,像围绕模型的特定指令微调的这种新型工具,我认为之前也许人们和我看到过这种误解。我与一位客户进行了一次咨询电话,他们真的很难理解……

好吧,我们的公司一直在训练或微调模型。现在我们想创建我们自己的指令微调模型。这与我们过去所做的有什么不同?我试图帮助他们看到的是……

是的,围绕来自人类反馈的强化学习发生的一些工作流程是独一无二的,但强化学习并非独一无二。其中包含训练元素。其中包含数据集策划。在整个过程发生之前,已经进行了预训练。因此,你熟悉的元素是其中的一部分。它们只是没有以你之前看到的方式打包。现在有这个……

明确的预训练阶段,然后是人类反馈阶段,然后发生强化学习。因此,我认为我们越能将这个概念和这个工作流程带入工具中,例如 Label Studio 正在做的事情,使其更容易让人们使用,而不是像这样奇怪的……来自人类反馈的强化学习听起来对人们来说非常令人困惑,例如 PPO,以及帮助人们理解强化学习是如何工作的。这非常困难。

因此,工具越能围绕该过程拥有自己的良好 UI UX,我认为越好,并且 Label Studio 和其他公司可能正在引领这一方面。我当时在想,所以标签是一回事。顺便说一句,好吧,我会在这个关于标签的方面题外话,然后我会回到主题。我实际上假设规模会赢得一切。是的。而且似乎他们没有。

是的。对不起,有 Scale、Snorkel,还有这一代出现的标记公司。像以数据为中心的 AI 公司。对,对。发生了什么,为什么仍然有新公司出现?有 Labelbox、Label Studio。我不了解如何看待这些公司。显然,标签很重要。是的。是的,我认为在此之前,甚至还有……

至少来自云提供商或其他类似的工具,例如自动机器学习,在此之前,例如上传你自己的数据,创建你自己的自定义模型,所以我认为这可能是这样的,即想要创建这种自定义模型的公司,这只是我个人的观点,我将对此进行说明,也许他们不想要……当他们考虑这个问题时……

他们并没有考虑,哦,我需要一个完整的平台来使用我们的数据创建自定义模型。他们更多地考虑的是,我如何使用这些最先进的模型以及我的数据?所以如果这些陈述非常相似,但如果你注意到,一个更侧重于模型,一个更侧重于数据。

所以我认为企业仍在考虑以模型为中心,并使用他们的数据对其进行增强,无论是通过增强还是通过微调或训练。他们不一定会考虑像 AI 的数据平台。他们正在考虑将他们的数据带到 AI 系统中,这就是为什么我认为像……

Cohere、OpenAI 等提供微调作为其 API 一部分的 API。这有点像人们喜欢它。这是有道理的。好吧,我可以上传一些示例,它使模型更好。但它仍然是以模型为中心的,对吧?是的。我感觉 OpenAI 不再想鼓励这种情况,因为他们没有 3.5 和 4 的微调。然后,关于数据集的最后一件事,我们可以进入闪电轮,我实际上是在考虑无法使用的……

用于无监督学习或自监督学习的数据集,对吧?就像,我们正在努力理解这一点。例如,Common Crawl、Stack Overflow Archive、书籍,你知道的,例如,我不知道你对这方面有什么看法,例如,这里出现的趋势,最佳实践。而且,例如……

据我所知,没有人能直接回答数据组合是什么。每个人都只是在尝试。是的。我认为这部分原因是,最流行的模型,你并没有真正了解数据组合是什么,对吧?所以那些试图重现这一点的人并没有达到那种性能水平,对吧?那么他们考虑的事情之一就是,所有不同的数据源是什么?

我可以尝试并尝试复制一些正在发生的事情的混合选项。对。所以我认为这部分原因是,我们并不完全知道幕后是什么样的数据组合,比如Open AI或其他公司。是的。

但我认为有一些趋势,我想你已经强调过了。一个是,我该如何混合所有这些公共数据集并以独特的方式过滤它们以使我的模型更好?所以我听了一个演讲,我相信是在去年的ACL会议上。

他们对公共爬虫进行了这项研究,对吧?他们发现公共爬虫的很大一部分实际上到处都被错误标记了,对吧?就像垃圾一样。是的。所以,我认为100%的数据被标记为拉丁字符阿拉伯语。所以用拉丁字符写的阿拉伯语不是阿拉伯语,100%都是这样。

而且还有各种各样的其他问题等等。所以我认为有一群人,

或者你可以考虑的一组实验,就像,我如何利用这些现有的数据集,我知道这些数据集存在数据质量问题,或者其他数据偏差或问题,我想过滤掉,比如不适合工作的数据,等等。那么我该如何创建我自己的特殊过滤混合这些并训练模型呢?所以这是一种类型。

然后还有另一种类型,那就是也许采用这些方法,但用来自模型的模拟或增强数据来增强它们,比如GPT模型或类似的东西。所以我认为你可以以各种独特的方式组合这些。我认为这有点像狂野西部,因为我们并不完全掌握获胜策略是什么。所以我认为这就是我鼓励人们尝试各种模型的地方。

所以这可能是基准测试的一个问题,对吧?就像你可以看到一样

Hugging Face上的开放大型语言模型基准测试,这些模型排在最前面。你可以从中得出结论,说,除了前三名之外,我甚至都不会使用。但现实情况是,每一个模型在引擎盖下都有独特的某种数据风格,这实际上可能非常适合你的用例。所以我最近在

在一些工作中使用的一个例子是来自Writer的骆驼50亿模型。你知道,它对很多事情都不太有效,但在营销文案和其他方面,它做得非常好。它是一个我可以在本地托管和运行的小型模型。嗯,

如果我加入一些工作流程和结构,我可以从中获得良好的输出。但我不会将其用于其他案例。但这与数据有很大关系。我猜想Writer专注于文案生成等。

所以,是的,我鼓励人们特别关注这个话题,也许考虑一下引擎盖下发生了什么,并尝试一些模型,比如获得你自己的直觉,关于模型行为如何根据它的训练方式和输入的数据组合而改变。太棒了,让我们进入闪电轮。我们有三个问题要问你。

这是闪电轮,但你可以花30秒来回答。好的,很酷。所以第一个问题是关于加速的。在AI领域已经发生的事情中,你认为哪件事会花费更长时间?是的,我在这里想到的是这些大型语言模型在传统NLP任务之外的通用性。所以,也许它们可以做情感分析,甚至像NLI之类的,这并不让我感到惊讶。这些都是长期以来一直在研究的事情。但事实上,我可以,比如在ODSC,我参加了一个关于欺诈检测的研讨会,他们使用了一些,我忘了他们使用的模型,一些统计模型来进行欺诈检测。我想,我想知道如果我只是,

做一些链接,并将这些保险交易的一些例子插入我的提示中。如果我能让大型语言模型检测到欺诈性保险客户,嗯,

它似乎像,我做得相当不错。所以,你可以用这些模型做这样的事情,它们在传统的NLP技术之外具有普遍性,我认为这让我感到惊讶。太棒了。探索。AI中最有趣未解决的问题是什么?是的,我认为仍然非常关注英语和普通话。就像,

如果你看看大型语言模型,在超过英语、普通话、德语之后,性能下降了,

某种程度上是西班牙语,但德语实际上比西班牙语更好,因为在NLP中对它的研究很多。当然,普通话有很多数据。西班牙语仍然表现良好,但即使在世界上最常用的前一百种语言中,也有数百万、数百万的人说这些语言,但这些语言

在这些模型中的表现并不好。所以这是第一件事,但即使是模式方面,我知道研究界正在进行大量关于手语的工作,但就像所有这些不同的语言模式一样。书面文本并不等于交流,对吧?书面文本是将交流合成到书面形式,一些人会阅读,但就像,

所有这些模式的组合以及所有这些语言,还有很多空间可以探索,还有很多挑战有待探索,我认为最终这将帮助我们了解沟通的本质以及这些模型的局限性,但这一个令人兴奋的领域。这绝对是一个挑战,但也是一个令人兴奋的领域。太棒了,伙计。所以

所以最后一个要点,你有什么想让大家今天记住的信息吗?是的,类似于你问我的研讨会时,我认为我会鼓励人们实际操作这些模型,并真正深入研究现有的新工具集。有很多好的工具可以从简单的提示开始,

注入你自己的数据,形成查询索引,创建处理链,甚至尝试代理等等,动手尝试一下。这是你建立这种直觉的唯一方法。所以,是的,这就是我的鼓励。太棒了。谢谢你过来。是的。非常感谢你们,这太棒了。