OpenAI 向ChatGPT添加了一个新模型,即GPT 4.1模型。这是一个全新的模型,他们刚刚发布或推出。它实际上是在4月份发布的,但他们从未将其添加到ChatGPT平台。所以在今天的播客中,我将分解这个新模型的功能,以及他们为什么之前没有发布它。围绕此次发布的一些争议,一些人推测是由于安全原因和其他因素。它现在正式上线了,我们将深入探讨所有这些。
在我们开始之前,我想说一下,我的初创公司AI Box已经正式推出了我们的第一个产品,即AI Box Playground。这本质上是一个你可以在一个平台上访问所有顶级AI模型的地方,你可以每月支付20美元来测试所有这些模型。因此,你不再需要订阅20到40家不同的顶级AI公司。你可以每月支付20美元,访问所有内容,并根据需要使用它们。
我们可以访问像11 Labs这样的音频模型,访问像OpenAI这样的顶级图像模型,当然还有许多你可能没有使用过或听说过的,实际上非常令人印象深刻的模型。我们还有一个叫做媒体存储的东西。这是一个存储你创建的每个文件的地方。你可以回顾并轻松找到你曾经进行的所有对话。
你进行过的对话以及你用来生成不同内容(如图像或音频)的提示,你可以点击媒体存储中你创建的任何媒体上的一个小按钮,然后查看用于生成它的实际聊天记录。这里有很多很酷的功能,比如在不同的AI模型之间进行比较,
例如,让多个AI模型运行相同的提示,并进行并排比较。所以我们在这里添加了很多非常酷的功能。如果你有更多想法,我们正在快速开发和添加新功能。所以我们很乐意听取你对你想看到什么的意见。你可以在描述中查看它。它是AI box dot AI。好了,让我们来看看OpenAI的这个新模型。
我发现这里真正有趣的一点,我将直接公布消息,本质上这个GPT 4.1是专门为数学和编码设计的。这似乎是OpenAI真正——我不想说“苦苦挣扎”的领域,但这实际上是他们正在逃避的一个领域。他们的主要竞争对手Claude凭借Claude Code正在超越他们。每个人都在使用它。甚至谷歌Gemini也取得了一些重大进展,他们最近刚刚发布。
宣布新的谷歌Gemini聊天机器人现在可以更轻松地集成和分析GitHub项目。因此,它正在直接构建到GitHub中,而GitHub由微软拥有,微软大力投资OpenAI,但Gemini正在该领域取得一些重大进展。所以这个代码领域非常非常有价值。许多公司都在关注它。以至于OpenAI实际上即将以30亿美元收购一家顶级
AI编码公司,名为Windsurf。它几乎是最受欢迎的一家。Cursor可能是第二受欢迎的,根据其最后一轮融资,估值约为10亿美元。但OpenAI似乎要以30亿美元收购Windsurf。他们在这里采取了一系列行动。现在,
我认为Windsurf的收购及其时间表可能是促使他们在ChatGPT上启用这个新的GPT 4.1模型的原因。所以如果你去ChatGPT,你可以点击下拉菜单。有趣的是,它实际上并没有显示在其
优先AI模型中,你必须点击他们的更多模型部分。在那里你会看到GPT 4.5,这是一个所谓的“研究预览”。然后你会看到GPT 4.1和4.1 mini。现在,很多人问的是,好吧,当我可以使用GPT 4.5时,我为什么要使用GPT 4.1?4.5不比4.1或4.1 mini更好吗?这实际上很有趣。OpenAI明确表示,对于编码任务,GPT 4.1将比
GPT 4.5更好。这正变得有点奇怪,我们推出了所谓的更新模型,或者说是更先进的模型,它们在某些任务上的表现不如旧模型。所以就像他们得到了,你知道,这个旧模型可以很好地完成X、Y和Z,但新模型可以做得更好,只是不是这个特定的事情。所以对于OpenAI来说,这有点奇怪,你混合搭配你拥有的模型。这就是为什么他们的下拉菜单中有四个不同的模型可供选择。然后在他们的更多模型部分,你还有三个。所以说真的,如果你在聊天中,你有七个选择可以与之交谈。我已经详细讨论过这是一种糟糕的营销方式,以及其他模型、其他公司做得多么出色。例如,XAI的Grok,你可以使用旧版本的Grok,也可以使用Grok 3。现在他们在Grok
3中添加了新功能,例如进行深入研究或类似于“思考”按钮,它会提供更多计算能力,并且它会真正思考,我发现这方面取得了很好的结果,这更是我想从OpenAI看到的,即使它完全切换了模型,我只想要一个简单的UI。现在他们在搜索框内创建了一些UI,但我认为有点荒谬,他们有一个用于互联网的搜索按钮,这很好,他们有一个深度研究
功能,如果你想要一个非常详尽的文档。我理解这一点,我认为应该保留它。然后他们有一个创建图像的功能。在我看来,如果你来这里创建图像,并且你知道你可以创建图像,
你应该直接说明你想要它创建什么图像,它应该知道并自动生成。它实际上确实做到了,但也许他们只是试图提示新人告诉他们可以创建图像,他们可以直接在这里输入。所以也许这是一种营销手段。但无论如何,它并不是非常有用。我的意思是,它是多余的。你可以直接与模型交谈并告诉它创建图像,你不需要一个专门执行此操作的按钮。但无论如何,如果你点击创建图像按钮,它只会自动添加文本。
到聊天中,内容为“创建图像”。现在你就可以开始了。实际上,也许告诉人们你可以创建图像并不是一个坏主意。我实际上可能会把它偷到AI Box中。所以,呃,你知道,对于我所有的火焰甜甜圈,不要生我的气。如果你去AI Box并看到我在我的搜索栏中添加了它。好了。这就是嵌入的内容,以及这个新的GPT 4.1模型的有趣之处。所以这个
这个模型是在4月份发布的,但它只对API平台上的开发者发布,这意味着chatgpt.com上的普通用户无法使用它。只有当你拥有一个带有OpenAI API访问令牌的开发者帐户时,才能将其嵌入到你正在构建的软件或项目中。这仅适用于开发者。你可以说,好吧,这很好。这是一个代码工具。只有开发者需要代码工具。开发者知道如何访问。但实际上,我认为很多人,甚至开发者都在使用……
可能直接使用像Clot或其他平台,他们可能不想为了在一个他们可能创建的特殊门户上使用它而经历那种麻烦。它只是被嵌入到软件中。现在,他们为什么要这样做?他们为什么不把它像其他人一样直接部署到ChatGPT.com上?这就是争议的来源。所以有些人说,
这是由于安全问题,他们没有发布适当的安全报告。所以他们基本上为此受到了很多批评,他们声称开放了一些谈论此事的研究人员,声称OpenAI正在降低其AI模型开放方面的透明度标准。OpenAI辩称,尽管如此。
GPT 4.1比GPT 4.0更快,但该模型并非前沿模型,因此不需要与一些更强大的模型相同的安全报告。所以OpenAI的回应是:“是的,我们没有像你批评的那样发布安全报告,但这仅仅是因为这并不是我们的前沿模型。它就像我们的辅助模型。我们只是让开发者使用它。它不需要那么多审查。”现在,
如果我完全说实话,我实际上并不主张对这些代码生成模型进行更多安全审查。我不太担心这个问题。那不是我的专业领域。我宁愿更快地获得模型,而不是过多地关注安全性。那只是我个人的想法。
但归根结底,这很有趣,那是OpenAI的回应。那么它究竟能做什么呢?根据Sheki Amdo的说法,这个新模型将帮助使用ChatGPT编写或调试代码的软件开发者。这两种情况是
具体情况。它在指令遵循方面实际上比GPT-4.0更好。它也比O系列推理模型更快。它不一定是推理模型。它快得多。它在代码方面更好。这很有趣,因为有些人喜欢用于代码的推理模型,显然他们在这次特定更新中已经放弃了它。我认为这绝对是一个有趣的事实。所以
这就是他们明确所说的。他们说GPT 4.1并没有引入新的模式或与模型交互的方式,并且在智能方面并没有超过O3。这意味着安全考虑虽然很重要,但与前沿模型不同。这是他们的安全主管解释为什么他们没有对这个模型进行大量安全测试的原因。
正如我提到的,这个模型的发布时机非常有趣,因为我们有很多竞争对手。当然,OpenAI现在正试图推动其30亿美元收购Windsurf的交易。但是我们也有
许多其他参与者正在推出编码工具。我们有Cursor,据称我认为OpenAI也可能试图收购它。但没有成功。所以它选择了Windsurf。有一些传闻,但我们当然也有Gemini与GitHub更深入地连接。我们有Claude code,它
已经超越了大多数开发者,并且越来越受欢迎。所以我认为竞争非常激烈,看看谁将成为这个领域的最终赢家将会非常有趣。好了。非常感谢您的收听。如果您有兴趣,请务必查看AI Box平台。
获得一个平台,让你在一个聊天中与所有文本、图像和音频模型聊天,在同一个聊天中切换所有模型,使用擅长不同事情的不同模型。就像我们今天在播客中讨论的那样,有些模型擅长代码。甚至一些旧的OpenAI模型也擅长代码,而有些则不擅长代码。在AI Box平台上,你可以启动一个新的聊天。我们专门有
我们在本集中讨论过的GPT 4.1和4.1 mini以及4.1 nano。我们这里都有这些。如果你对编码感兴趣,你可以测试所有这些,或者你可以使用所有其他Chatship团队模型、Anthropic、DeepSeek、谷歌、Meta、微软、Mistral和NVIDIA,所有这些。好了。所以去看看吧。AIbox.ai。非常感谢您收听今天的播客。我们将在下一集中再见。