We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

OpenAI's Competition: Free Open Source ChatGPT Alternative Challenges Status Quo

2024/3/28

Shownotes Transcript

ChatGPT显然是一个非常强大的工具，但是话虽如此，如果有人发布一个本质上是开源的ChatGPT，ChatGPT会消亡吗？

其想法是，任何人都可以获取这个开源的ChatGPT模型，用他们自己的数据训练它，或者也许是它已经训练过的股票数据，然后能够将其用于商业用途。如果出现这样的情况，会扼杀ChatGPT吗？所以今天我们将找出答案，因为Databricks刚刚发布了Dolly 2.0，这是一个文本生成AI模型，可以为任何聊天机器人、文本摘要和基本的搜索引擎提供动力，它是第二个版本，Databricks在3月份发布了Dolly的第一个版本。这里真正重要的是它是开源的，并且它的许可证允许独立开发者和公司将其用于商业用途。

所以你不必支付版税，你可以用它来赚钱。其他的模型也已经问世，但仅供研究人员和AI研究用途。现在，为什么Databricks（一家非常喜欢它的公司，所有收入都来自数据分析）要开源一个AI模型呢？CEO Ali Ghodsi说，这纯粹是为了慈善事业，他被引用说：“我们普遍赞成市场上更多开放和透明的大型语言模型，因为我们希望公司能够使用他们自己的专有数据集来构建、训练和拥有AI驱动的聊天机器人和其他生产力应用程序。”

这很有趣，因为他表示我们可能是第一个，但我希望不是最后一个。所以他甚至不希望，你知道，这是一个大项目。他只是想树立一个先例，让人们开始构建这个。

这非常有趣，因为显然，随着OpenAI获得微软的100亿美元投资，这个领域竞争激烈。许多大型科技公司都在进入这个领域，大量的资金正在流向这里。

所以看到一家公司完全开源这样一个项目，这真的很有趣。所以，嗯，这听起来非常慈善，我想你可以这么说，对于他们来说，要制作这个免费的开源模型，你也要考虑一下Databricks的优势是什么，或者为什么。

你知道，构建、微调和制作这个模型需要花费大量资金，那么他们为什么要这样做呢？与CEO交谈时，他最近在一篇文章中提到，他希望使用Dolly 2.0的开发者用它构建更好的应用程序，使用的是Databricks，但回到他最初的观点，它是第一个无需主要使用限制即可使用的类似ChatGPT的模型之一。所以你不必使用Databricks来构建工具。

显然，这是希望。我认为不，他们不可能强迫人们这样做。我只是认为他们希望，由于他们创建了这个强大的模型，人们会使用它，因此会产生善意。

所以这是，你知道，第一代模型之一，像我们一样。第一代模型问世的时候很疯狂，这是第二代。但真正有趣的是，第一代模型，实际上很多这些不同的AI模型最初都是用OpenAI的输出进行训练的。

甚至谷歌也卷入了这场争议，它使用OpenAI的输出训练模型，这明显违反了OpenAI的服务条款。所以，Databricks发布的Dolly的第一个版本就是这样做的。他们现在有了第二个版本，当然，他们必须开源和免费的另一个原因是，如果，你知道，最初是用OpenAI训练的，那么对他们来说，监控它是违法的。现在它不是用OpenAI训练的。

他们说，这个新版本是用他们自己的专有数据创建的，他们说，他们在一个包含大约15000条记录的训练集上创建了它，这些记录是由数千名自愿贡献文件的Databricks员工生成的，并且知道使用了15000个SAT来指导他们称之为GPT-j-6B的开源文本生成模型，它是由一个名为LLaMA的非营利研究小组发布的，而这一切都是由此产生的，所以Databricks的CEO承认Dolly 2.0有一些局限性，很多局限性，因为它是全新的，其中一个局限性是它只支持英语，而且它的回应可能会具有攻击性和冒犯性，这是另一个非常有趣的方面。他们训练了这个模型，它就像AI的开箱即用的库存模型，显然OpenAI。

已经做了大量工作来使它的回应更政治正确，或者你知道，不要说它不应该说的话，无论如何。这本身就受到了很多批评，因为根据你所处的政治光谱的哪一边，你可能喜欢或不喜欢ChatGPT会给你的不同回应。话虽如此，Dolly 2.0没有收到很多不同的微调，它更像是野生的，你得到的东西有点粗糙。

有些人对此表示批评，就我所知，这很危险。有些人说他们更喜欢库存AI模型。这真的很有趣，但这就是现在正在发生的事情。我看到了一些在线例子，他们问它一些问题，你知道，他们试图获得那里的政治内容。他们问它关于女性在职场的状况，它提供了一些错误信息，一些虚假的统计数据。

总体而言，它对女性就业持积极态度，但数字是错误的。无论如何，人们批评它，它还被问到关于唐纳德·特朗普的问题，以及他是否应该对1月6日事件负责，它只是编造了一堆关于他入狱、与伊朗发生第三次战争以及在美墨之间修建隔离墙的事情，这并不准确，所以显然，你知道，它像OpenAI一样会犯一些错误。看看开源它是否能让它被微调并变得更好，或者新的版本问世时，是否能让它更准确，这将是一件很有趣的事情。它有很多OpenAI早期遇到的相同问题。

但它确实令人难以置信地令人印象深刻。我认为人们绝对忽视了拥有这样一个开源的语言学习模型有多大的意义。虽然它确实有一些局限性，但这些局限性可以在未来或未来的更新中被公司和其他人微调，但并非没有局限性。

任何公司都可以开箱即用地获取它，并使用他们自己的专有数据集构建他们自己的内部AI模型，这对于在这一点上实现AI的民主化，以及不将AI掌握在少数几家强大的公司手中（尤其是微软和谷歌）来说，是令人难以置信的强大。但这很有趣，因为开源可能会打开一个潘多拉魔盒，对吧，当你让人们获取你的代码、分叉它、更改它和修改它时，在开源中会发生什么，你不会获得像封闭源项目那样多的安全性。所以，你知道，人们实际上可以在其中引入危险的代码，黑客和其他人员可以将其用于恶意活动。

所以这是缺点，有些人说这会吓跑不同的企业，让他们远离。然而，一些企业正在使用它，电信巨头First Orion正在测试Dolly，让他们的工程师询问存储在Confluence（协作平台）上的文档，用于入职和规划，你知道，Databricks市长说，我们免费提供Dolly，因为我们相信开源模型是前进的最佳方式。它使研究人员能够自由地审查模型架构，帮助解决潜在问题，并使AI民主化，这样用户就不会依赖于昂贵且专有的大型模型。

这真的很有趣，对吧，一个方面是研究人员能够自由地审查该模型。这是OpenAI一直受到批评的事情，因为你知道，它本质上是一个黑匣子，你可以理解为什么，对吧？他们不想让人们去了解他们是如何构建它的，因为它是一个专有信息，他们不想让人们克隆他们。

但是，拜托，每个人都在克隆他们。现在它是开源的。每个人都能够弄清楚，所以我不知道这是否仍然是一个充分的借口，因为人们真的想知道，你知道，什么是AI，以及工程师或开发人员可能引入的偏见是什么。

你知道，他们使用了什么数据集，采取了什么安全措施，可能添加了什么偏见。所以，我们现在得到这些开源模型，这真的很令人兴奋，你基本上可以绕过这些问题。

所以基本上，通过开源，我认为Databricks也试图免除与之相关的责任，对吧，因为如果你开源，你就好像，你知道，每个人都可以监控它，每个人都可以对代码库进行更改和调整等等。所以有些人说，对，这对企业来说吸引力较小，但这可能是Databricks方面的一个聪明举动，因为如果他们试图实际创建一个与ChatGPT竞争的内部模型，他们将无法做到这一点。但也许制作一个开源模型，很多人可以为其做出贡献并进行改进。

如果公司获取它并将其添加到他们自己的代码库中，并且它是开源的，那么这些公司将更有动力来帮助维护和改进该软件。所以，如果它获得广泛采用，看看会发生什么，这将非常有趣。

我认为你将能够看到这些东西的真正改进。甚至Databricks的CEO都说，你应该预期对开源的持续投资，以及有助于加速将AI应用于关键业务挑战的创新。所以Databricks似乎正在继续致力于这类项目和未来的这类项目。如果这个项目真的成功，这将是对OpenAI的强大挑战。这可能会让他们面临谷歌或其他公司目前正在努力应对的挑战，所以观察这个领域并看看未来会发生什么，这将非常有趣。

OpenAI's Competition: Free Open Source ChatGPT Alternative Challenges Status Quo 11:04 Share

No Priors AI

Shownotes Transcript

OpenAI's Competition: Free Open Source ChatGPT Alternative Challenges Status Quo