We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP 474: GPT-4.5 hands on - What it can do and how you can use it

2025/3/4

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript

People

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

我作为Everyday AI节目的主持人Jordan Wilson，在体验了GPT-4.5后，认为它比之前的模型更易于理解和更可靠。虽然很难对AI的情感智能进行基准测试，但GPT-4.5在与人类互动方面表现出色，更像是在与人交谈，而不是与机器交谈。GPT-4.5的知识截止日期为2023年10月，比GPT-4.0(2024年6月)早，因此访问ChatGPT搜索功能至关重要。GPT-4.5在LM Arena中排名第一，成为最受欢迎的通用模型，尽管它没有打破所有基准测试。在非推理模型的IQ测试中，GPT-4.5得分最高，达到人类平均水平。GPT-4.5的回答比GPT-4.0更简洁，有时更自信。在扮演个人生活教练、治疗师、内容撰写者、商业策略师和创意伙伴等角色时，GPT-4.5表现出色。GPT-4.5在处理需要情感智能的任务时，例如撰写慰问邮件，表现出比GPT-4.0更强的同理心和情感共鸣。GPT-4.5在内容结构和写作风格方面也比GPT-4.0更好，避免了过度使用复合句和破折号。总的来说，GPT-4.5在增强人际关系和联系方面表现出色，并且能够在基准测试中取得好成绩。

Deep Dive

Shownotes Transcript

这是《日常人工智能秀》，一个简化人工智能并将其力量带到您指尖的日常播客。每天收听实用建议，以提升您的职业、商业和日常生活。GPT 4.5正式成为世界上最好的大型语言模型。但我们该如何使用它呢，对吧？

自从OpenAI发布其两年多以来的第一个重大更新基础模型以来，很多人都在谈论这个话题。因为今天我们要讨论的两个事情，我们还将进行一次现场演示，关于这个新模型，它更具可关联性和可靠性。但这确实引出了一个问题，好吧，

这对我们实际使用它意味着什么？它实际上在哪些方面更好，对吧？当我们谈论一个模型在情感智力方面表现出色时，我的意思是，你真的无法基准测试这一点。那么你如何知道何时真正想要利用这个新的GPT 4.5模型呢？

好的。我们希望今天在《日常人工智能》中回答这些问题以及更多问题。大家好，我是Jordan Wilson，我是主持人。《日常人工智能》是为您而设的。这是您的每日直播播客和免费的每日通讯，帮助我们所有人不仅理解人工智能，还能利用它来真正发展我们的公司和职业。所以是的，当所有这些新模型似乎每周都在推出时，

您可能会想，这适合我的部门吗？这适合我的公司吗？好吧，希望至少在今天的节目结束后，您对GPT 4.5，OpenAI最新模型会有更好的了解。好的，如果您是新来的，感谢您的收听。

这是现场直播。它是即兴的。它是未经编辑的。所以，您知道，我试图为您带来一些真实的人工智能内容，我认为这在当今是罕见的，对吧？每个人都在创建这些超级精致的模型和使用人工智能的总结，

甚至是头像，甚至是对吧。这是真实的。所以，如果您在播客上收听，感谢您的收听。请确保订阅该节目，给我们留下评分，那将是很棒的。并加入直播，对吧？是的。我们有其他真实的人在这里的直播中聚会。所以感谢所有加入我们的人。Max Holman在芝加哥，YouTube机器上的大脸，Douglas，Woozie，Sandra，

让我们看看还有谁。Christopher，Brian，Marie。感谢你们的加入。好的。我需要你们的帮助。好的。我不知道这些评论是否在YouTube上发布。也许发布了，也许没有。好的。但我列出了13个不同的问题。

我希望你们能浏览一下。我在这里的屏幕上有它们。我稍后会展示。它们非常小。只需写下您想要的数字。好的。只需说，嘿，我想看看第5个。您知道，我想看看第7个。好的。所以直播观众，我需要你们的帮助。如果你们滚动评论，希望你们能看到。我这里稍后会有一张幻灯片。它非常小，但让我知道你们实际上想听哪个。

好的，让我们开始吧，大家。如果您想要每日人工智能新闻，抱歉，请查看通讯。

老实说，今天早上没有时间把所有内容整理好，因为我在这个节目上投入了很多工作。如果你没有注意到，直播观众可以通过看我来知道，我睡得不多。我确实让人工智能做了很多我的作业，但这很多。所以如果您想要人工智能新闻，我们将在通讯中提供，不用担心。这也是作为一个FYI，这是第二部分。所以我特别注意到，我听到了很多你们的反馈，对吧？就像你们说，嘿，这些节目太长了，对吧？对。

我不需要一个小时10分钟的播客来讨论一个新的人工智能模型。所以我们实际上将一个更大的节目分成了两个部分。所以如果您想听第一部分，我们讨论了更多的技术细节，我们讨论了一些基准，我们讨论了OpenAI的新GPT-405模型的许多其他内容。所以如果您想要那个，请收听第472集。您可以向后滚动两集。

那一集的标题是《OpenAI的新GPT 4.5，新的内容和谁能受益最多》。但今天我们将真正进行比较。我们将进入并实际使用这个模型，希望能得到一些反馈和建议，来自我们的直播观众。但

让我先讲讲一些基础知识。我们在之前的节目中已经覆盖了一些内容。有些内容我们没有覆盖。所以这是OpenAI的一些讨论要点。他们重申，GPT 4.5是一个研究预览。它是他们最大的、最好的聊天模型。

好的，针对聊天。它是在预训练和后训练方面向前迈出的一步。通过扩展无监督学习，GPT 4.5提高了其识别模式、建立联系和生成创造性见解的能力，而无需推理。

好的。早期测试者的早期测试显示，与GPT 4.5的互动感觉更自然。它更广泛的知识基础、改善的用户意图跟随能力和更高的情商（EQ）使其在改善写作、编程和解决实际问题等任务中非常有用。他们还预计它的幻觉会更少。

好的。这是我在第一次节目中提到的一些要点。你知道，这是OpenAI开发的最后一个非推理模型。所以OpenAI首席执行官Sam Altman确实说，未来在这个GPT-5架构下的模型将是一个混合模型。好的。所以请记住这一点。但这实际上是一个新的、基本模型。

好的。当我们谈论像01和03这样的推理模型时，对吧？所以我们可能实际上不会看到04作为一个例子，对吧？就像我们可能不会看到某些迷你版，04迷你版，对吧？它可能都在GPT-5之下。我们还不知道。他们可能会说这是GPT-5，并且使用04推理，对吧？但在未来，

您将只与一个模型合作。这就是为什么这非常重要。我认为很多人有点不满，对吧？他们说，哦，这个GPT 4.5没有打破每一个基准，对吧？这个GPT 4.5在API中非常昂贵。是的，我不知道任何公司能够负担得起在API中使用这个，价格为75,000美元。

每百万个令牌输入150个输出，这只是，您知道，比他们之前的GPT-4模型贵30倍。所以，但我在第一次节目后确实说过，人类会非常喜欢它，对吧？因为我认为我总是，您知道，每当您与任何人工智能模型“聊天”时，我不知道，对我来说，它从来没有感觉像人类。

感觉就像您在与机器聊天。GPT 4.5是我第一次感觉不同，对我来说，它并不感觉像我在与人类聊天。我不知道是什么让我这样思考，作为一个人，对吧？我知道，对吧？是的，我在与计算机交谈，但它感觉像一个真实的人类。

感觉像一个真实的人类计算机人，对吧？我知道很多人喜欢阅读人们的第一次体验。他们被GPT 4.5的对话能力和展示这些情商技能所吸引。

使人类成为人类的语气，对吧？人们总是问，嘿，是什么将人类与人工智能、与大型语言模型区分开来？而通常，这些东西通常被认为是情商，对吧？情感智力，能够理解细微的对话，对吧？而现在，至少从文本的角度来看，GPT 4.5表现得非常出色。我确实预测人类会喜欢它。果然，

人类喜欢它，因为即使GPT 4.5，再次，这是一个预览，

即使它没有打破每一个基准，对吧？这就是我认为很多人期待或希望这个模型能做到的。它在LM领域所做的事情。好的。所以我谈到这个，最简单的想法就是，您知道那些盲测，比如百事可乐与可口可乐的测试，对吧？我不知道那是什么时候，九十年代末，二千年代初，对吧？有人去，没有标签。他们喝了两者，然后说，哦，这个更好。

对吧。呃，这就是ELO排名，或者LM领域的得分。好的。所以这意味着您输入一个提示，您获得两个不同的输出。它们是盲目的。您知道，所以您不知道哪个是哪个，您选择哪个更好。所以这至少在于人类如何实际使用模型，对吧？是的。我们有数十个基准测试不同的东西，从编码到，

写作，到数学，到科学，对吧？所以您有所有这些系统化、组织和分类的基准，但总是像，嗯，人类呢，对吧？人类在乎吗？人类会注意到吗？好吧，使用GPT-4或5，答案是肯定的，对吧？因为它迅速跃升至LM领域榜单的第一位。所以想象一下，您知道，

每一个模型都在这里，对吧？当您进入这个盲测时。GPT 4.5，一旦他们获得足够的投票以在图表上排名，他们就成为了第一。因此，世界上最好的模型。我知道几个小时后，Grok的最新版本上线了。所以我认为它现在在技术上是平局。但即便如此，即使没有打破每一个基准，

这个新模型，GBD 4.5，刚刚提升了自己，我认为，可能是世界上最受欢迎的通用用例模型，这非常重要，因为，正如我所说，未来，这些推理模型将建立在此之上。好的。所以在我们进入直播之前，让我们稍微谈谈。

在直播观众中，我看到你们中的一些人投票了。如果你们能浏览一下，让我知道你们想看到哪个。我同意Douglas的看法。Douglas说Jordan需要咖啡。那是我在喝咖啡。但让我们谈谈一下模型本身以及它在chat GPT中的表现，chat GPT界面内的表现。此外，FYI，让我把这个说出来，对吧？

因为网上有些人，你知道，他们说，哦，我尝试了这个模型。它在，您知道，我想，哦，好吧。您是如何尝试的？哦，通过第三方。您不能那样做。好的。所以我确实需要谈谈访问权限，因为至少在这个小时，GPT 4.5仅对chat GPT内部的专业用户可用。好的。这确实每月花费200美元，但大概在本周或下周初，

这将向所有付费的chat GPT订阅者开放。所以即使您在每月20美元的chat GPT plus上，

您应该能够访问GPT 4.5。所以您现在可能无法访问它，但我强烈建议您。是的，确实有第三方平台。如果您在其他付费版本上，perplexity或POE或类似的东西，您可能可以在有限的情况下使用4.5，如果您在其中一个服务的付费计划上，但这不是理解模型的最佳方式，对吧？您应该在其自然环境中使用它。所以是的，还有可用的API，但那是非常昂贵的。

好的。所以如果您正在尝试找出什么对您的团队最好，很多时候我不明白为什么美国每一家财富500强公司都没有至少一个团队或企业chat GPT账户。这是

让我感到困惑，因为是的，您的公司可以有一个内部版本，对吧？也许您用于客户支持或销售或类似的东西，但您应该所有人，您知道，我不仅仅是说chat GPT，但您应该每一位员工。如果您是小型到中型公司的首席执行官，如果您是IT领导者，如果您是CMO，无论如何，您需要推动您的整个团队，无论您的人工智能操作系统选择是什么，您还需要实施。

拥有一个完整的团队或企业许可证，无论是chat gpt gemini显然是co-pilot，如果您是Windows组织的微软组织，quad无论是什么，但因为当您在聊天界面中使用这些模型时，它们带来了很多工具，对吧？

我大约一年前做过一个节目。我应该更新它。就像，嘿，我们需要发生什么才能达到某种人工通用智能？而其中一件事是第一，模型需要访问互联网。第二，它还需要具备工具使用能力，对吧？所以这种工具使用发生在ChatGPT界面内。是的，第三方有时会有一些这些工具的版本，但我的意思是，这些工具在本地界面中最好。

但现在，至少，并非所有工具和功能都与GPT 4.5兼容。所以让我们看看哪些有效，哪些可用，哪些不可用。因为OpenAI没有说这一点。我为您测试了所有内容，所以您知道。所以再次，无论您现在是否有专业账户，或者您将在接下来的几天或几周内获得GPT 4.5，以下是开箱即用的可用内容。好的，所以项目。

您可以在项目中使用GPT-445。您可以使用DALI，您知道，AI图像生成器，我不知道为什么任何人会使用它，对吧？它并不好，尽管它很快会更新。Sora确实对早期测试者具有照片功能，只是

FYI。如果您不知道项目，这基本上是您可以将聊天组织到一个文件夹中，这很好，但您还可以上传文档，该文件夹的聊天也可以访问这些文档以及特殊说明。因此，它类似于GPT，有点不同。

所以，GPT 4或5确实可以访问项目。它确实可以访问Dolly。它确实可以访问chat GPT搜索，这非常重要，因为实际上GPT 4.5的知识截止日期被回滚了。

所以它的记忆稍微差一点，或者至少在训练数据的最近性方面。GPT-4.0是2024年6月。GPT-4.5是2023年10月。所以请记住这一点。这就是为什么GPT-4.5能够访问chat GPT搜索的重要原因。

您可以将文件上传到GPT-45，这是必须的。很高兴有这个。此外，Canvas模式，我认为是任何大型语言模型公司中最被低估的工具或功能之一。Canvas是可用的。

所以现在不可用的，这是在我检查的时间，19分钟前。好的。当前任务与GPT 4或5不兼容，GPTs。因此，您可以创建的chat GPT的自定义小版本，

目前与4.5不兼容。这两件事，任务和GPTs，显然仍然与GPT-4.0兼容。好的。所以让我把这一点简化为两件事。我希望OpenAI能在他们的GPT-4.5页面上将这两个词放得非常大，因为很多人都在问。

我认为真正区分四或五之间最大差异的两件事。这是我迄今为止的经验，它更具可关联性。因此，更人性化，对吧。那种情商和更可靠。因此，我们在第一次节目中讨论了可靠性，讨论了基准、准确性、较低的幻觉等。它知道得更多。它知道得更多。实际上，有一个网站做，

抱歉，大型语言模型的IQ评分，GPT-4-5实际上获得了非推理模型的最高分，这相当令人印象深刻，因为这是第一次非推理模型在与平均人类相同的IQ水平上表现。

对吧？这相当重要，对吧？当您有一个推理模型时，它表现得更好，因为它使用了更多的计算。但事实是，非推理模型在GPT-4或5中在离线

IQ测试中得分如此之高，真的很令人印象深刻。所以它绝对更可靠，但它也更具可关联性，因为情感智力。因此，这是来自OpenAI的，但比GPT-4.0更自然的人类互动。它更擅长阅读和响应情感线索，并且用户也更喜欢它。

与GPT-4.0相比。好的。所以我们将跳入。我们将很快跳入。好的。我知道这在屏幕上很小。我不知道这些评论是否也发布到YouTube上，但我将继续尝试再次发送它们。所以直播观众。我知道你们中的一些人已经投票了。我不知道这些评论是否传达过来。希望是的。但我有13个基本示例。好的。我想现场做这些。我想也许做两个或三个。我们看看需要多长时间。我想向您展示之间的差异，

在四或五中的查询与在四中的查询之间的差异。完全披露。还没有运行这些。对吧。我运行了很多测试，但我喜欢现场做这个。这是未经编辑的即兴表演。对吧。所以直播观众，只需输入数字。对。尽量不要输入其他内容，只需输入数字。我将滚动查看评论。

在我屏幕的右侧，带入来自LinkedIn、Twitter、YouTube等的评论。那么您实际上想看到哪个？所以我还没有做这些，我将读出提示。这些都是非常简短的提示，对吧？它们应该是简短的。我不会经过整个像prime提示抛光过程，如果您想要最佳输出，您仍然应该做一些基本的提示工程。但我想向您展示，希望能看到一些简短的

提示，输入，然后输出。我们将在GPT四五和GPT，四中运行这个，并谈谈一些差异，您知道，希望我们能看到差异。谁知道呢？也许我们不会。这就是尝试在生成AI中进行即兴、未经编辑的演示和示例的缺点。所以也许如果您是chat GPT、新手，大型语言模型、生成AI，您不知道很多，那没关系。我们尽量保持简单。但让我说，生成AI是

在大型语言模型中，它们是生成的。它们不是确定性的。这意味着，例如，如果您在互联网上搜索某些内容，搜索引擎在大多数情况下是确定性的，对吧？是的，有一些个性化和本地化，但在大多数情况下，这些搜索结果每次输入时大致相同。大型语言模型完全是非确定性的。

这是掷骰子。它是生成的，对吧？它是，您知道，有一些下一个令牌预测。因此，您可以理论上将相同的提示输入10次。您可能会得到九个非常不同的答案。您可能会得到两个非常不同的答案。您可能会得到五个几乎相同的东西，但只是措辞不同。所以这也是需要记住的另一件事。生成AI是生成的，对吧？这就是为什么有时这些现场演示非常有趣。好的。我看到一些投票。

好的。我在这里查看。我看到一些最受欢迎的投票。所以我在屏幕上有13个不同的示例。呃，我真的专注于，呃，几件事。所以这些提示应该，呃，依赖于创造力和直觉，您知道，所以讲故事，呃，能够清晰地思考和写作，呃，强大和设计创造性任务，但它们也围绕这四个类别，您知道，我认为情商在大型语言模型中闪耀的地方。

对吧？所以想想，如果您将ChatGPT用作个人或生活教练。这些提示中的一些更符合这一点。如果您将其用作治疗师，如果您是工作治疗师，甚至是对吧，处理困难的问题，困难的议题。我该如何发送电子邮件？对吧。这些事情。内容创作者。内容创作者。

商业战略家和创造性合作伙伴。所以这就是我认为一些类别，普通人将真正看到四或五的好处的地方。所以让我重复一下。如果您将其用作个人生活、商业教练、治疗师、内容创作者、商业战略家和创造性合作伙伴。

还有其他一些事情，它实际上会表现得很好。我知道很多人说，哦，4.5在编码方面不太好。它实际上在各个方面的编码方面都表现得很好。在LM Arena测试中，它在几乎每个类别中都击败了所有人。因此，它在几乎每个您会使用大型语言模型的类别中表现得更好。但我希望我们能在一些这些领域看到最大的改进。好的。

所以让我们继续。让我们看看我们能否做到这一点，直播观众一如既往。请让我知道您何时可以看到我的屏幕。我们将进行这个直播播客观众。我会尽量不让这个太长。我会尽量简洁一些。好的。作为提醒，

如果您有一个正常的chat GPT plus计划，并且今天登录，您将不会看到这个4.5。好的。但当您这样做时，呃，我猜在几天到一周或两周内，呃，这应该会向大多数付费用户推出。呃，所以chat GPT plus，呃，chat GPT团队，chat，

以及企业。我认为企业可能会稍晚一些，对于那些雇佣我们来培训其大型团队的公司，您可能不会在您的PPP业务中获得企业，您知道，培训，至少在三月。好的。所以我们需要在下拉菜单中选择GPT 4.5。好的。去年，让我知道您是否可以看到这个。我在查看哪些是我们最受欢迎的。

好的。您是否仍在兜圈子，试图弄清楚如何真正利用人工智能来发展您的业务？也许您的公司已经在大型语言模型上摸索了一年或更长时间，但无法真正找到ROI。嘿，我是Jordan Wilson，这个播客的主持人。

像Adobe、Microsoft和NVIDIA这样的公司与我们合作，因为他们信任我们在教育大众关于生成AI方面的专业知识，以便走在前面。一些国家最具创新性的公司雇佣我们来帮助他们的人工智能战略，并培训数百名员工如何使用生成AI。因此，无论您是希望为数千人提供chat GPT培训，

还是只是需要帮助建立您的前端人工智能战略，您也可以与我们合作，就像世界上一些最大的公司一样。请访问youreverydayai.com/partner与我们的团队联系，或者您可以直接点击我们网站的合作伙伴部分。我们将帮助您停止在这些人工智能圈子中兜圈子，并帮助您的团队领先，建立通往生成AI ROI的直通车。好的，我看到相当多的人...

再次，在LinkedIn和YouTube上，看起来，还有一些在Twitter上。好的，所以我看到很多三。我看到一些六和十三。让我早些时候上去。五，12。好的。

9，11，7，12。好的。所以我看到相当多的12。好的。让我们继续抓取第12个，好吗？好的。直播观众，我们能看到屏幕吗？好的。让我们看看第12个是什么。好的。人们想要幽默。我写了这个并笑了。好的。所以第12个是。人们想要看到这个。

它说你在微软工作，写一份有说服力的备忘录，说明为什么微软 Zune 应该被恢复。大家还记得微软 Zune 吗？好吧。实际上我们要做的是，首先用四来做这件事。哦，我要读取响应。然后我们将用四或五做同样的事情，我们看看它有多长。

好吧，现在我会尽力描述发生了什么。因此，不幸的是，ChatGPT 现在非常慢。所以这将会很有趣。好吧，GPT-4.0 给我们提供了一份备忘录。它使用了很多表情符号，这我不太喜欢。而且，我故意让这些提示保持开放式，因为我...

我是在为普通人做这件事，对吧？普通人写一个超级简短的提示，他们希望能从中得到很多。我认为，我希望这可能是 GPT-4.5 发光的地方。好的。以下是 GPT-4.0 的说法。这是一份有说服力的内部备忘录，倡导恢复微软 Zune。

我真的很想在 Zune 首次发布时使用它。好的。正如我所说，有很多表情符号。它给微软领导团队提供了一个日期，您的名字，您的职位，主题，恢复 Zune 的理由。因此，

到目前为止，它的内容相当长。进展有点慢，所以如果我们想进行两到三个快速的例子，而不把这变成一个小时的节目，我们可能需要在这里停止。所以它以执行摘要开始。它说，

鉴于复古科技怀旧的复兴，专用音乐设备的兴起，以及对硬件特定集成的重新关注，微软在重新推出 Zune 作为现代 AI 驱动、云连接的音频体验方面具有独特的优势。

这份备忘录概述了 Zune 复兴如何与当前市场趋势及微软在 AI、硬件和消费者参与方面的更广泛战略相一致。因此，到目前为止，4.0 的执行摘要似乎相当不错，有点啰嗦。

我不知道我们是否需要说这样的内容，比如这份备忘录概述了，您知道，这取决于您如何在内部与同事沟通。我不会在内部备忘录中放这样的内容说这份备忘录概述了。但除此之外，还是不错的。让我们继续。这里是第一点。它说市场机会。

第二点，它说 Zune 2.0 的愿景。同样，我们看到了一些表情符号，大多数情况下，我认为我们在内部备忘录中不会看到这些。

但这没关系。因此，它涵盖了 Zune 重启的关键特性，包括 AI 驱动的音乐策划、无损和空间音频支持、微软 365 和 Xbox 集成、云同步和 Zune 社交 2.0 的离线播放。我知道我们有一些来自微软的听众。所以，你知道，让我知道这是否会很快上市。

竞争优势。第四，财务可行性和市场进入策略。所以相当不错。它有一个启动计划，一个营销方法。结论，一个战略吸引力。

好吧，我将为两者都读取引言和结论。因此结论，Zune 品牌仍然具有强大的情感价值。如果有合适的愿景，它可以重新作为微软消费硬件和 AI 产品组合中的强大差异化因素被重新引入。通过整合 AI、卓越的音频技术和云能力，下一代 Zune 可以重新定义人们探索音乐和内容的方式。让我们把 Zune 带回来。

回来，不是作为智能手机的竞争者，而是作为 AI 驱动时代的智能音乐伴侣。好的，所以还不错。我不一定会使用这个，但我的背景是在内容写作方面，对吧？我曾是一名记者，或多或少我已经被支付写作二十年，所以我不会使用这个。我相信有些人看到这个会觉得，哦，足够好了。是的。

不一定。好的，但让我们继续切换模型。因此，是的，如果你不知道，在任何提示的底部都有这些小图标，对吧？所以一旦你获得 4.5 的访问权限，并且你正在尝试查看哪个模型应该成为我的日常驱动程序，我鼓励你进行这样的测试。您也可以在 ChatGPT 的后端游乐场中执行此操作，但这会在 API 方面花费您一些费用。因此，如果您不想支付那些费用，我可能会等一下。

超级昂贵的价格。好的。所以我们现在将用四或五做同样的事情。因此，我刚刚点击了四或五。有趣的是。好的。这太棒了。四或五似乎聪明到知道我可能想使用画布模式。所以，它是，爱这个，爱这个，对吧？

超级聪明，顺便说一下。因此，它开始在画布模式下回答，即使我没有告诉它。4.0 没有这样做，因为它可能知道，对吧，作为备忘录，它可能知道我会想来回切换，就像我说的那样，我不会使用这个。它可能知道，嘿，你会想更新这个。所以让我把它放在画布中，即使你没有让我这样做，对吧？然后它在这里有一个选项，可以选择在聊天中回答。

好的，让我们来看一下。我们将读取引言和摘要，更加简洁。

所以就个人而言，我喜欢这样。也许是因为我使用 AI 太多了。我认为，你知道，让我在这里稍微讲一下。大型语言模型被训练成有用的助手，对吧？这在他们的系统提示中。通常，如果你不经过这个过程，你知道，我们教的那种，像是精炼队列的过程，对吧？

对。因此，当你让一个大型模型变得更聪明、更小、更具体时，对于所有参加过我们的 PPP 课程的人来说，模型通常并不一定知道它想要知道的所有内容，以提供答案。因此，这是我在四或五中看到的，我个人对此表示赞赏，但这可能是偏好问题。

GPT-4.5 更加简洁，对吧？而 4.0 和之前的模型，它们变得超级冗长，对吧？这是大型语言模型经常做的事情。如果你不给它很多细节，如果你不经历本质上与 4.0 或 4.5 进行对话的来回过程，关于 Zune 和我的角色是什么，我的理由是什么，我的论据是什么，很多时候它只会吐出一堆过于一般化的内容。

而且它会尝试从太多不同的领域来处理事情，但不会非常强大。因此，这是我在使用 GPT-4 或 5 的过程中注意到的，我不会说是重度使用，但我已经相当频繁地使用它。我知道它刚刚在星期四发布，对吧？今天是星期二。所以，你知道，周末的很大一部分时间我在尝试睡觉，已经一个星期没睡了。但自从它发布以来，我已经使用它非常频繁。这是我注意到的。答案更加简洁，有时更自信，这可能是好事或坏事。你真的必须关注输出，但它的内容要短得多，对吧？另一个事情是，我没有看到表情符号，这我个人喜欢。好的，所以让我们继续。因此，这里是内部备忘录。

因此，它说给高级领导团队，从您的名字，战略产品开发日期主题。因此，让我们至少阅读概述、结论，然后讨论这里还有什么。嘿，直播观众，让我知道您认为哪一个更好。

因此，概述给定当前市场趋势和对早期数字媒体设备日益增长的怀旧情绪。我提议微软战略性地恢复 Zune 产品线，该产品线最初于 2012 年停产。Zune 自那时以来获得了忠实的粉丝基础和标志性地位，成为简单数字时代的象征。好的。然后它涉及市场机会。

它概述了战略利益，与我们从 4.0 看到的很多相似的事情，对吧？因此，品牌强化、生态系统扩展，谈论与微软 365、Xbox Game Pass、Azure 云服务的整合。那很酷。差异化，实施方法，进行初步市场研究和验证，现代产品开发、市场营销和发布策略也一样。然后是结论。

因此，恢复微软 Zune 是一个具有重大潜在好处的战略决策。它将微软置于一个有利可图的复古科技复兴的前沿，重新激发消费者的兴趣并增强品牌亲和力。我期待进一步讨论这一点并获得您的见解。所以我不知道在这种情况下，是否有一个明确的赢家和一个明确的输家。对我而言，我个人的口味会更倾向于第二个，对吧？一份内部备忘录。我的意思是，4.0 的版本，超级长，对吧？因此，如果我在画布这里退出，如果你不知道，

在底部，你会看到现在一二和二二，因为我使用了那个小模型切换图标。因此，我可以左右切换并比较不同的输出。所以对我而言，我更喜欢第二个版本。让我们看看，似乎其他一些人想要第一个。所以让我们做第一。我认为这个也可能是一个不错的例子。

好的，所以我们将启动一个新的聊天，我们将从 4-0 开始，我们将先做 4-0，然后我们将做四或五的第二部分。好的，所以这个有几个你投票的写一封电子邮件给因家庭紧急情况错过截止日期的同事。好的，所以我们先做 gpt 40。

主题行希望你一切都好。

嗨，同事的名字。我只是想检查一下你过得怎么样。我听说了家庭紧急情况，并希望你那边一切都好。如果我能做些什么来帮助或支持你，请随时与我联系。我理解截止项目名称受到了影响，我完全理解。家庭优先。让我知道你是否需要任何帮助来赶上，或者我们是否应该讨论一个向前推进的计划。保重，期待在你准备好时听到你的消息。最好的祝愿，您的名字。

相当不错。

我并不一定看到，再次，我不，我会诚实地说，我不是最有同情心的人，对吧？我不是，你知道，我会说我的智商可能高于我的情商。因此，我不觉得这封电子邮件有什么问题。也许是，我不知道，也许是在你心中设置了一堆红旗。好的，让我们继续。让我们切换到 GPT 4.5，看看我们能否发现四或五处理此事的不同之处。假设它可能会。

我希望它会更好，对吧？因为，您知道，4.5 应该更能与人类建立联系。好的。所以这里也是一样。4.5 在画布中启动了这个，我喜欢，因为然后你可以使用画布功能，对吧？作为示例，你可以突出显示某些内容。您可以建议编辑。您可以调整长度。您可以更改阅读水平。您可以添加润色。您可以添加表情符号，对吧？我永远不会这样做。但好吧。

在画布中启动，再一次，小事情，超级聪明，但是四或五假设，对吧？我们看到它两次。模型说，哦，好吧，您可能想添加一些自己的见解。这里有一些占位符，对吧？如果您想完成工作，我们将在画布中启动这个东西。好的。主题行，检查并提供支持。嗨，同事的名字。我想联系你，让你知道我一直在想你。

好的。我立刻看到一个不同之处。对吧。再次，我不知道这是否是好事或坏事。对吧。但四或五说，像，想到了你。好的。我正在努力记一些笔记，因为我实际上不能在画布模式下轻松比较它们。我听说了你的家庭，我真的很抱歉，呃，我真的很抱歉。你正在经历一个困难的时期。好的。

请不要担心错过的截止日期。好的，有趣。不要担心错过的截止日期。你的家庭和个人幸福是现在的首要任务。如果我能在此期间支持您或协助处理任何待办任务，请随时告诉我。我们都会在这里帮助您应对这一切。请花尽可能多的时间，并在方便时与我保持联系。

好的。所以实际上现在我在阅读这个时，我看到了些微妙之处，对吧？一些小事情，对吧？

对。再次，这不是我的专业领域。我不会很快被雇为任何人的人力资源主管，但我确实看到了一些在四或五的回应中的事情，我在我的另一屏幕上将它们加粗，现在，但，让我知道，直播观众，哪个更好。你知道，你在四哦和四或五之间看到的有什么你喜欢的，或者四或五和四之间，告诉我，是否有一个更可取的。

好的，所以这是我注意到的一些事情。因此，让我们回到四。哦，至少对我而言，四开始说，

再次，我在阅读四和五的回应之前并没有认为四的回应有什么问题。当我阅读四或五的回应时，我想，等等，好的，这里有些事情更好。因此，4.0 的回应，第一件事它说的是，想要检查一下，对吧？是的，它说想要检查一下，看看你过得怎么样。

我认为即使你阅读那封电子邮件，对吧？如果你处于家庭紧急情况中，有人说想要检查一下，听起来有点商业，对吧？听起来，我想，有点冷，而四或五说的第一句，我想联系你，让你知道我一直在想你。好的，就这一点，我希望你能看到情商的提升。

对吧？我想也许这也是，我的脑海中，我也在试图实时描述气氛。4.0 信件给我的感觉是同情的，你知道，有一点，嘿，让我们推动这个项目前进。而 4.5，我认为可能更具同情心。

并谈论共同合作以推动某事向前发展。这就是我得到的。4.5 说，请不要担心错过的截止日期。对吧？而 4.0 说，你知道，我理解截止日期受到了影响。4.5 说，请不要担心错过的截止日期。好的？4.0 说，

你知道，为了推动项目向前发展说，如果你需要任何帮助来赶上，或者我们是否应该讨论一个推动事情向前的计划。好的。所以，再次，当我单独阅读这个时，我并不一定像，哦，这是坏的。好的。然后四或五说，如果我能在此期间支持您或协助处理任何待办任务，请随时让我知道。

好的。甚至只是说，请随便 versus，你知道，四。哦，只是说，让我知道这些任务。然后四或五，再次，看起来表现出更多的同情心，

对比同情，可能优先考虑家庭情况，而至少现在，当我比较这两者时，你知道，似乎四 O 只是包裹一些同情，像，哟，让我们推动这个项目前进。对吧。而我不知道。你们觉得怎么样？Denny 说，

四或五听起来像这人真的很关心。而四，哦，听起来像我需要写这封电子邮件来表明我关心。这是 Denny 的一个很好的观察。Max 说，任何一个都会有效。四。哦，是我通常会期望来自普通办公室人员的。四或五在情商和同情心上优于通常的办公室人类。是的，这就是我所说的。

对吧？就像当我第一次看到 4.0 时，我觉得这没什么错。对吧？但当我说 4.5 时，突然我想，哦，好的。是的。

我可以看到在，您知道，人在这方面可能有一些可以改进的地方在这个 4.0 中。Michael 说，我更喜欢接收 4.5。我觉得我会写得更接近 4.0。我的天，Michael，我们是一样的，对吧？我们是一样的。我在阅读这些时，我想，哦，是的，我喜欢那个。但我完全，我完全会个人写一些像 4.0 的东西。

是的，Sandra 说 4.5 更具同情心。Jonathan，怎么了，Jonathan？Jonathan 说 4.0 减去希望你一切都好，听起来更像人力资源友好，而 4.5 只是听起来友好。是的，我同意。是的，我确实认为也许...

4.0 可能更符合人力资源的指导方针，而 4.5 可能是更能引起接收它的人共鸣，我认为，这要多得多。Cecilia 说 4.5 版本省略了推动截止日期的需要，并暂停了它。4.0 清楚地表明我们需要在错过的特定截止日期上推动事情。是的，所以我想这最终取决于

什么是最紧迫的事情，对吧？如果这个截止日期没有达到，公司会关闭吗，对吧？所以很好的观察。我喜欢这样做直播，大家，因为你们发现了很多事情。来自 Twitter 的 Robert 说 4.5 具有更多的同情心。好的。我想我们可以再做一个。所以在这里滚动查看人们投票的一个。好的。让我引入这个。

所以很多人想要第六个。所以让我们试试。好的。所以我们现在要开始一个新的聊天。我们将从四开始。哦，这是第六个。好的。所以它说起草一条每日激励信息，鼓励个人成长并提供明确的基于事实的提示。没有太多的指导。我们看看会发生什么。好的。所以我们先运行四。哦，

很多表情符号。所以如果你个人受到表情符号的激励，你可以已经知道 4.0 是你的模型，对吧？这是我也注意到的。没有得到很多表情符号来自 4.5。好的。所以我们可以阅读这个。

所以这是四 O 的每日激励信息，鼓励个人成长并提供明确的基于事实的提示。好的。直播观众，让我知道在我阅读这两个之后，哪个让你振奋，哪个让你准备好面对这一天。好的。所以每日动机，小步骤，大成长，火箭表情符号。好的。每一天都是变得 1% 更好的机会。个人成长并不是关于巨大的飞跃。它是关于一致的小行动，随着时间的推移累积。

基于事实的提示。好的。我们甚至在这里标记它。研究表明，设定具体可实现的目标可以将您的成功机会提高多达 42%。哈佛商业评论。我显然会谷歌一下看看这是否真实。好的。确实如此。

好的，所以至少 4.0 没有产生幻觉。好的。所以研究表明，设定具体可实现的目标可以将您的成功机会提高多达 42%，而不是模糊的意图，比如变得更健康，尝试每天走 10,000 步或在睡前阅读 10 页。这实际上是一个很好的提示。行动步骤。

选择一种小习惯，今天改进，无论是多喝水，写下你的想法，还是练习深呼吸以集中注意力。小胜利带来大转变。继续前进。你的未来自我会感谢你。表情符号标签，对吧？抱歉。我讨厌阅读这个。这是社交媒体上现在的一切，对吧？作为内容写作者，我想呕吐。

我讨厌这个。我讨厌任何从大型语言模型中一口气写出的东西，因为大多数它总是看起来像这样，对吧？你可以让写作，聊天 GPT 写作或 AI 写作听起来非常人性化，但你，你不在乎，对吧？哦，人们会说，哦，云三、五或云三、七的十四行诗听起来如此人性化。GPT 四，哦，GPT 四、五听起来如此人性化。

不，就大多数情况而言。不，它听起来像这样。这是我在社交媒体上、在 LinkedIn、在 Twitter 上阅读的内容，我想在我嘴里呕吐。实际上，提示没有问题。只不过是，内容写作让我感到晕眩，就像晕眩的罗杰斯。好的，让我们去四或五。因此，再次，起草一条每日激励信息，鼓励个人成长并提供明确的基于事实的提示。好的。有趣的是，我已经看到一个表情符号。

而四、五，我认为四有像，让我们看看四有多少，技术上有两个，三个，四，五。好的。所以在四中，我们有四个表情符号和两个标签，然后在四、五中，我们有两个表情符号，没有标签。因此，稍微好一点。好的，准备好了吗？

这是四或五。今天的动机，拥抱你的成长。成长不是一夜之间发生的。它来自每天采取的小而一致的行动。这里是您今天个人和职业成长的简单基于事实的指南。第一，学点新东西，即使只是 10 分钟。研究表明，每日学习可以建立神经连接，提高记忆力和认知能力。

第二，练习感恩。每天写下三件你感激的事情已被科学证明可以增强整体幸福感并减轻压力。第三，稍微走出你的舒适区。小挑战通过心理韧性建立信心，使您更有效地应对更大的挑战。今天向前迈出小步。你拥有一切可以成长、学习和成功的能力。

哪个让你振奋，观众？哪个让你准备好像 Kool-Aid 人一样撞墙？哦，是的。任何这些 GPD 四哦，呃，GPD 四五。让我们快速谈谈一些区别。因此，

令人惊讶的是，在这个例子中，4.0 有点简洁。它在表情符号上有点重，在标签上有点重。我对此不是很喜欢。另一件事是，即使我们只是看内容写作的质量，我认为 4.0 有点差。

没有节奏或句子结构的变化。是的，我有点，您知道，戴上我的旧写作帽子，对吧？你总是想让你的书面内容有节奏。这意味着，我试图在我的播客中加入节奏，对吧？我不会总是单调地说话。我不会总是进入，您知道，15 到 20 个单词的句子。我会尝试暂停。有时我慢慢说。

有时我说得很快，长句子连在一起，没有句号，没有标点符号。我说得很兴奋。这就是节奏，对吧？所以 4.0 没有节奏。它实际上落入了这个复合句，对吧？是的，我们现在在谈论内容写作，但这是我认为在 4.5 中显著改善的事情。4.0，我知道你可能没有，如果你在播客中收听，这可能不太担心或重要。

但 4-0 在内容结构上有点像看油漆干燥。是的，我曾是一名记者。我写了很多。大多数情况下，这些句子看起来在 12 到 20 个单词之间。而且它们中的大多数是复合句，带有破折号。

好的。所以是的，所有那些说，哦，你知道，破折号绝对是，您知道，AI 写作的标志。不完全是。对吧？我在 2002 年或 2003 年在 Freeport Journal Standard 的记者时期就使用破折号。对吧？喜欢破折号。喜欢复合句，但这里来自 GPT-4.0 的巨大过度依赖。因此，让我们看看。一。

二，三。所以在大约六个句子中，三句是复合句，带有破折号。不好。我们只看到，看看，我们有零个我会认为是短句的句子，五个单词或更少。好的。所以如果我们看看 GPT 四或五，我们只看到一个复合句，带有破折号。因此，这更好。好的。我们至少有一个复合

简短的句子。好的。所以在内容结构方面好一点，好一点，你知道，有一些节奏，一些变化，但仍然不算很好。如果我们只是看内容的话，对吧。我知道这更多的是关于激励信息，但我确实想花一点时间看看内容是如何产生的，因为我认为这是4.5版本实际上做得更好的另一个小细节。

所以是的，不像，哦，人们总是说，哦，这是AI内容，对吧？你技术上无法分辨，尽管有很多明显的迹象，对吧？

大量的表情符号，标题中双倍的表情符号，你知道，随机的标签，就像我说的，过度依赖或很大比例的句子，呃，由em短横线分隔的复合句。所以总的来说，我认为4.5版本的内容写作要好得多。好的。在我们结束的时候，你们大家怎么想？但就像我说的，

这些都是领域。我认为你可能在中间的例子中看到了，可能是最好的，电子邮件的例子，我们如何真正地拥有一些EQ，一些情商，并像人类一样容易相处，对吧？你们很多人说了同样的话。我也说了同样的话。我想，我想收到我们讨论过的第二封电子邮件，也就是4.5版本发的那封。它感觉更人性化。

它可能比我写的更人性化，对吧？这太令人印象深刻了，对吧？这确实令人印象深刻。我认为这就是为什么这个新模型GPT-4.5在

人类的偏好方面，对吧？是的，4.5并没有打破每一个LLM基准测试。它几乎改进了从4.0到4.5的所有基准测试。但人们却说，哦，OpenAI已经撞墙了。OpenAI要破产了。OpenAI是垃圾。它并没有打破每一个基准测试，对吧？我认为大多数公司，我们也看到了Claude 3.7 Anthropic的情况。

好的。来自Claude的Sonnet 3.7。它并没有打破每一个基准测试。它在……方面确实表现出色，

扩大他们在任何领域的领先优势，软件开发，任何方面的开发方面。对。但我认为现在我们将看到公司可能更关注ELO分数，对吧。在聊天机器人领域。对。他们说，是的，我们希望我们的实际基准，你知道，我们的STEM，我们的数学，我们的推理，对。所有这些所谓的更基于科学研究的类别基准都能改进。但我认为最终我们已经超越了这一点。

我认为我们已经超越了这一点。对。这具有代表性。事实上，GPT 4.5并没有在人们所说的纸面上打破每一个基准测试，哦，这些很重要。

但与此同时，它立即跃升成为世界上最受人类欢迎的模型。这说明了一些问题，对吧？大型语言模型中存在一个人的方面，我认为在大多数情况下，你知道，我们在2023年之前忽略了这一点，对吧？一切都与过度拟合模型有关，对吧？

达到某些基准。我认为随着时间的推移，我们看到，好吧，这对基准测试来说很棒，但它不是使用这些模型的基准测试。是人。是人试图解决实际问题。是人试图向其他人推销东西，试图改善客户关系，试图提高准确性和可靠性。

我认为GPT-4.5在这方面做得很好。所以在网上听那些随机的网红说，哦，OpenAI已经撞墙了之前，我会说恰恰相反。我会说恰恰相反。如果我们说实话，对吧？我们在日常生活中做的很多事情都是为其他人创造沟通。作为一个……

你们，我赢得了国家写作奖。我做得不错。我曾是普利策奖学金获得者。有些电子邮件比我写的还好，对吧？如果我不得不写一些这样的电子邮件，因为它考虑到了人，并且试图更易于相处。它确实在发挥其情商技能，我认为这正在开启一个新时代，不仅仅是大型语言模型的构建方式，而且

而且它们最终应该如何以及可以用来加强人与人之间的关系和联系，同时也能，你知道，希望在所有这些基准测试中表现出色。但最终，这就是问题的关键。我希望这个对你们有帮助，各位。如果有帮助的话，请访问我们的网站，访问youreverydayai.com，注册免费的每日简报。也要分享这个，对吧？我知道很多人告诉我，

哦，Jordan，我不会告诉任何人这件事，对吧，我公司里的每个人

都认为我很聪明，对吧？我收到了很多，很多信息。我喜欢这些联系。如果，如果，你知道，如果你有这样的故事，我一直都很乐意听到。这使得漫长的夜晚和清晨非常值得。我喜欢听到人们说，嘿，我刚刚找到了一份工作。我在AI领域的第一份工作。感谢，感谢，你知道，你的播客。感谢你带来的这些嘉宾。对。人们告诉我，我不会告诉任何人这件事。这是我的作弊码。这是我的秘密。

请分享它。人们总是说，我该如何帮忙？你如何免费提供所有这些信息？这是因为你们这些确实分享了这些信息的人。所以如果你在收听播客，谢谢你。我很感激。呃，请订阅。呃，请给我们评分。这在播客上会很棒。呃，也请访问youreverydayai.com，注册免费的每日简报，也请阅读每日简报。每天，我们都会分解你在播客中没有听到的独家见解。我们将更进一步，

以及让你随时了解你需要知道的关于AI的所有其他信息。所以感谢你的收听。希望明天在Everyday AI中再次见到你。谢谢大家。今天的Everyday AI就到这里。感谢您的收听。如果您喜欢这一集，请订阅并给我们评分。这有助于我们继续前进。更多AI魔法，请访问youreverydayai.com并注册我们的每日简报，这样你就不会落后。去打破一些障碍，我们下次再见。

EP 474: GPT-4.5 hands on - What it can do and how you can use it 59:02 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

EP 474: GPT-4.5 hands on - What it can do and how you can use it