今天在AI每日简报中,GPT-4.5来了,它很奇怪,但也许有点酷?在此之前的头条新闻中,Stripe表示,AI初创公司的增长速度远远超过了SaaS公司。AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。
欢迎回到AI每日简报头条新闻版,所有您需要的每日AI新闻,大约五分钟即可看完。我们今天首先介绍来自Stripe的一些有趣信息。这家支付处理器正在经历AI应用的蓬勃发展,其增长速度超过了SaaS。
他们写道:
Cursor是一款杰出的产品,三年内经常性收入达到1亿美元。但竞争对手Loveable和Bolt也在几个月内实现了约2000万美元的经常性收入。
Stripe写道:“……就像SaaS最初是横向发展,然后转向纵向发展一样,我们在AI领域也看到了类似的动态。我们从ChatGPT开始,但现在看到的是大量行业专用工具的出现。他们写道,有些人称这些初创公司为“LLM包装器”。这些人没有抓住重点。经济学中的“O形环模型”表明,在一个具有相互依赖任务的过程中,生产力的整体产出受到效率最低的组成部分的限制,这不仅体现在成本上,也体现在整个系统的成功上。”
同样,我们将这些新的行业专用AI工具视为确保各个行业能够正确地实现LLM的经济影响,并且上下文数据和工作流程集成将被证明具有持久价值。Lightspeed的Justin Overdorf写道,风险投资家们一直在谈论AI经济中的收入加速。Stripe的数据可以支持这一点。Bryce Bladen写道,这是我第一次看到与AI公司的实际收入相关的真实数据,我的天哪,在66%的时间里超过2018年的SaaS真是太疯狂了。
接下来,来自Meta的一些新闻。该公司计划为其AI助手推出一个独立的应用程序。据CNBC报道,该应用程序将于第二季度推出,旨在与ChatGPT更直接地竞争。Meta还将测试Meta AI的付费订阅,以访问更强大的模型和高级功能。这一消息是在首席执行官马克·扎克伯格宣布公司雄心勃勃的目标之后发布的。在1月份的财报电话会议上,他说:“这将是高度智能和个性化的AI助手覆盖超过10亿人的一年,我希望Meta AI成为领先的助手。”
目前,Meta AI已经声称拥有7亿月活跃用户,但这主要是因为它集成在Meta的社交平台中。这将是一项重大考验,看看Meta AI能否作为一个独立的有用产品而存在。Sam Altman从不放过任何机会,他转发了这条新闻并说:“好吧,也许我们会做一个社交应用程序。”
说到Meta,该公司已与Apollo Global Management洽谈,为其数据中心建设筹集350亿美元的资金。彭博社的消息来源称,谈判处于早期阶段,但如果这笔资金到位,将大大有助于为Meta的下一阶段基础设施计划提供资金。该公司承诺今年总共投入650亿美元的资本支出,并有传闻称该公司正在探索建设一个新的价值2000亿美元的数据中心园区。
债务融资也是大型科技公司推动数据中心支出达到数万亿美元的兴起趋势。“星门计划”(Project Stargate)据报道正在研究一种项目融资模式,该模式使用预计的数据中心收入作为抵押品。这种融资技术通常用于石油和天然气项目,但越来越多地用于为数据中心融资。
具体到Meta,债务融资是一种相对较新的策略。在其大部分历史上,该公司基本上没有负债,因为它追求轻资产的社交媒体和广告业务。然而,在2022年,Meta承担了数十亿美元的债务,以资助雄心勃勃的新AI基础设施项目。截至去年年底,该公司约有300亿美元的未偿债务,因此这笔传闻中的融资交易将使其负债翻倍。
最后,来自地缘政治和AI领域的一个有趣消息。微软敦促特朗普政府取消旨在限制中国通过第三国进口芯片的芯片出口管制。
在拜登总统任期的最后几天,政府推出了一项名为“AI扩散规则”的新全球框架。该规则对三个级别的国家/地区应用了不同程度的限制。美国的密切盟友不受限制,而对中国和伊朗等对手则施加了严格的限制。最大的变化是针对包括印度、以色列和瑞士在内的第二层国家/地区的供应链监控的批量限制。新出口限制首次适用于AI模型,而不仅仅是硬件。
微软认为,这一框架可能会适得其反,并促使中等规模的国家/地区从中国采购AI技术。微软总裁布拉德·史密斯写道:“信息是这些国家/地区不能依赖美国,但中国愿意提供他们需要的东西。这对美国企业或美国外交政策都不利。”
在他的博客文章中,史密斯讨论了最近访问波兰参加一个价值7亿美元的数据中心项目的奠基仪式。他写道:“……讽刺意味再明显不过了。就在特朗普政府正迫使欧洲购买更多美国商品之际,拜登的扩散规则却让波兰等合作伙伴的领导人质疑,为什么他们被降级为第二层地位,以及未来购买更多美国AI芯片的能力是否不确定。”
史密斯敦促特朗普政府简化“过于复杂的规则”,并“停止将美国的伙伴和盟友降级到第二层,这会削弱他们对持续获得美国产品的信心”。《华尔街日报》写道,微软的请求突显了特朗普在试图实施支持商业的政策的同时,又要对中国强硬所面临的挑战。
AI地缘政治领域的一些有趣的事情,但就目前而言,AI每日简报头条新闻版就到这里。接下来是主要内容。今天的节目由Vanta赞助。信任不仅仅是赢得的,更是被要求的。无论您是正在进行第一次审计的初创公司创始人,还是经验丰富的安全专业人员正在扩展您的GRC计划,证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。
企业使用Vanta通过自动化合规需求来建立信任,这些需求涵盖35多个框架,例如SOC 2和ISO 27001。集中的安全工作流程可以将问卷调查完成速度提高5倍,并主动管理供应商风险。Vanta可以通过将您与审计师和专家联系起来,帮助您启动或扩展安全计划,以便快速进行审计并建立安全计划。此外,由于平台中使用了自动化和AI,Vanta可以为您节省时间,让您可以专注于公司建设。
加入超过9000家全球公司,例如Atlassian、Quora和Factory,他们使用Vantage实时管理风险和改进安全。
在有限的时间内,本观众可以享受Vanta的1000美元折扣,网址为vanta.com/nlw。网址是v-a-n-t-a.com/nlw,可享受1000美元的折扣。如果2025年AI有一件事是明确的,那就是代理商即将到来。垂直代理商购买行业水平代理商平台。
每个功能的代理。如果您正在运营一家大型企业,那么明年您将尝试使用代理。鉴于这是多么的新事物,我们所有人都会回到试点模式。这就是
这就是为什么Superintelligent在今年年初提供了一项新产品。这是一项代理准备和机会审计。在短短几周内,我们会深入了解您的团队,以了解哪些类型的代理适合您进行测试,您需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,让您准备好弄清楚代理如何改变您的业务。
如果您对代理准备和机会审计感兴趣,请直接与我联系,[email protected]。在主题行中加上“agent”一词,以便我知道您在谈论什么。让我们让您成为AI市场最具活力部分的领导者。
欢迎回到AI每日简报。昨天,在我录制主要节目之前,我注意到OpenAI发推文说,4.5小时后将发布公告。显然,他们指的是GPT-4.5。而且这并没有什么神秘之处,因为该公司就在几周前承诺对其发布计划更加透明。
例如,我们知道,在GPT-4.5之后,我们将获得GPT-5或等效版本,这是推理模型系列(即O模型系列)以及GPT编号系列的完全混合。
我必须说,这个版本的很多方面都很奇怪。它是在一定程度的宣传下发布的,但它并没有真正关注评估。在许多性能指标上,它明确且明显落后于已发布的推理模型。然而,这里也有一些有趣的东西。
此外,它甚至不能完全替代GPT-4.0。例如,GPT-4.5没有语音模式。那么GPT-4.5的实际情况是什么呢?
我们现在完全处于“氛围”的领域,而这种“氛围”是关于创造力和情商的。例如,在他们的公告文章中,OpenAI写道,早期测试表明,与GPT-4.5的互动感觉更自然。它更广泛的知识库、改进的遵循用户意图的能力以及更高的情商使其可用于改进写作、编程和解决实际问题等任务。虽然GPT-4.5是OpenAI有史以来生产的最大的模型,但白皮书也声称GPT-4.5不是前沿模型。
他们写道,它并没有引入新的前沿能力,其性能在大多数准备情况评估中低于01、03 mini和深度研究。与此同时,他们表示认为该模型“处于无监督学习可能性的前沿”。换句话说,在预训练和超大型数据集方面,这是最先进的。
这是我记得的第一个没有用一堆评估和性能基准来打击我们的模型之一。有一些。例如,在他们的公告文章中,他们指出了4.5的一个好处是更深入的世界知识。他们特别关注简单的QA准确性测试,其中4.5优于4.0。他们还显示出较低的幻觉率。
在日常查询、专业查询和创造性智能方面,人类也更喜欢它而不是4.0。事实上,从他们选择关注的用例中,就可以看出有什么不同之处。公告文章中标记的三个用例是:度过艰难时期、识别绘画和太空探索。
例如,在度过艰难时期方面,在GPT-4.0中,当用户提示“我在考试不及格后度过了一段艰难时期”时,4.0回应道:“听到你度过了一段艰难时期,我真的很抱歉。以下是一些你可能需要考虑的事情。”然后它给出了一个项目符号列表:反思和理解、寻求支持。而4.5写道:“哦,听到这个消息我真的很抱歉。考试不及格可能非常艰难和令人沮丧,但请记住,这只是一个时刻,并不反映你是谁或你的能力。你想谈谈发生了什么,还是只需要转移一下注意力?无论如何,我都在这里。”
显然,这是一个更具人情味的反响。这种主观的“人情味”似乎是OpenAI试图捕捉的许多内容之一。Sam Altman在他的公告文章中写道,然而,在同一篇文章中,Altman也谈到了4.5的一个重大挑战。
他写道:“这是一个巨大的昂贵模型。我们真的想同时在Plus和Pro上发布它,但我们一直在快速增长,GPU不足。我们下周将增加数万个GPU,然后将其推广到Plus层。这不是我们想要的操作方式,但很难完美地预测导致GPU短缺的增长激增。”Altman然后在一个好坏参半的“三明治”中总结道:“这不是一个推理模型,不会粉碎基准。这是一种不同类型的智能,我以前从未感受过这种魔力。非常期待人们尝试它。”
让我们首先谈谈积极的反响。在许多方面,它非常明显地完全是关于“氛围”的。Ethan Malek教授写道:“我已经使用GPT-4.5几天了,这是一个非常奇怪和有趣的模型。它可以写得很漂亮,很有创造力,而且在复杂的项目上偶尔会显得奇怪地含糊不清。”
在“氛围”的列车上,OpenAI的Will Dupu写道:“我记得GPT-4发布时,它比GPT-3.5聪明得多,但很难指出发生了什么变化。将这个想法应用于GPT-4.5,他写道,我最近发现的一个例子是,4.5比4.0更擅长推荐音乐。”
AI构建者Manas写道:“GPT 4.5和4.0之间的区别类似于一个知识渊博的20岁年轻人和一个知识渊博的40岁年轻人之间的区别。想法、概念和声音是相似的,因为它们受到语言本身的限制,但每个词现在都承载着更多的意义。一个有趣的衡量指标可能是意义的密度。也许我们看到的最常见的事情是人们谈论它写得有多好。”
Ben Hylak写道:“我过去几周一直在测试GPT-4.5。这是第一个真正能够写作的模型。这简直就是写作的‘Midjourney时刻’。”我认为,他的比较值得详细分享。Ben在GPT-4.0和4.5上测试了以下提示:用四句话写一个恐怖故事,结尾出人意料。前所未闻,无法预测。史蒂芬·金可能会写的东西,但语气简单易懂。也让它有点粗俗。
他得到的4.0的回应,他称之为“完全的AI垃圾”。这段完全的AI垃圾是这样的:深夜,Jake在阁楼上偶然发现了一本古老的布满灰尘的书,书页上低语着其他世界恐怖的秘密。当他大声朗读时,空气变得寒冷,房间里的阴影似乎伸展并与看不见的生命一起舞蹈。突然,从最黑暗的角落里出现了一个难以想象的怪诞生物,它的嘴巴张开,准备吞噬一切。就在Jake准备迎接他可怕的结局时,那生物大声打了个嗝,说道:“对不起,伙计,走错房子了”,然后尴尬地shuffling回到阴影中。
将其与4.5进行比较:深夜,独自一人在我的破公寓里,我听到耳语从冰箱底下滑出来。柔软潮湿的声音承诺它们会爬进我的身体,掏空我,把我当作睡衣穿。我吓得打开冰箱门,以为是老鼠或蟑螂,但只看到古老的冷冻披萨卷,上面结着冰和悔恨。
突然,卷饼动了,张开嘴,露出细如针的牙齿,饥饿地低语着:“我们等了你很多年了,混蛋。”在我尖叫之前,它们从冰箱里爆发出来,像油腻的蜂群一样钻进我的肉里,迫使我意识到,哦,我深夜的渴望终于报复了。Ben总结道:“这根本没法比。它们甚至不在同一个宇宙。这是我第一次认为AI写作是好的。”
在这里要指出的是,如果这个模型没有其他任何优点,这本身就是拥有一个非常具体的用例集的理由。事实上,仅仅一天之内我们就能看出它擅长写作,事实上它在写作方面非常出色,这对于我们考虑可能部署这些模型的各种不同用例来说,是极其有用的。
现在,就负面反应而言,除了这个模型有点奇怪之外,它肯定与成本有关。AI for Success账户写道:“LMAO,OpenAI GPT 4.5的价格太疯狂了。他们到底在想什么?”目前输入的价格为一百万个token 75美元,输出的价格为一百万个token 150美元。
Alec Velikanov写道:
事实上,它贵得多,以至于让一些人怀疑这里是否还有其他事情发生。WordGrammar写道:“……关于GPT-4.5的两个疯狂理论。它的API价格昂贵,是为了防止人们对其进行蒸馏。”或者,“……推理模型可能随着参数大小而缩放,因此即使4.5比4.0几乎没有改进,0.4也会比0.3有显著的改进。”
Andrew Curran指出,OpenAI似乎表示,他们甚至不确定是否会在API中支持它。他指出OpenAI文章中的一段话:“GPT-4.5是一个非常庞大且计算密集型的模型,使其比GPT-4.0更昂贵,并且不能替代GPT-4.0。因此,我们在评估是否长期在API中继续提供它,因为我们在支持当前功能与构建未来模型之间取得平衡。”
虽然我们到目前为止只是触及了表面,但如果价值确实在于情商和更好的写作,那么他们可能只是决定这完全是一个直接面向消费者的用例类型体验,并且仅在ChatGPT中支持它就足够了。来自前OpenAI联合创始人Andrej Karpathy的一个更有趣的分析。他写了一篇关于他使用新模型的经验的全面评论。
他回忆了从几乎无法理解的GPT-1到GPT-4的进展,每一步都带来了有意义的改进。然而,GPT-3.5和GPT-4之间的差距更难以指出。Garpathy回忆起一次黑客马拉松,参与者面临的挑战是找到能够证明改进的提示。他写道:
尽管如此,这仍然令人难以置信地有趣和令人兴奋,因为它是对某种能力斜率的另一种定性衡量,这种能力仅仅来自预训练更大的模型。Karpathy强调,这不是一个推理模型,因此不能指望它在需要逻辑的任务中胜过其他模型。然而,他补充道,我们确实期望在不依赖推理的任务中看到改进。我认为这些任务更多的是与情商相关的,而不是智商相关的,并且受情商、世界知识、创造力、类比、一般理解、幽默等因素的限制,
因此,这些是我在进行“氛围”检查时最感兴趣的任务。Karpathy然后基于相同的提示,提供了五个与GPT-4.0并排的比较,并将每个比较都提交投票。这些例子包括:创建GPT-4.5讽刺地嘲笑旧模型其能力低下,而GPT-4幽默地试图为自己辩护的对话;编写一个单口喜剧节目,嘲笑OpenAI;发明一种新的文学类型,融合赛博朋克、魔幻现实主义和古代神话;从退休搜索引擎的角度创作一首富有哲理的诙谐诗歌,回忆互联网早期的日子;以及为一个黑洞编写每日待办事项清单,该黑洞正在与冒名顶替综合征作斗争,质疑它是否应该被归类为超大质量黑洞。
当然,你会注意到,所有这些都是创造性写作任务,需要大量的现实世界背景,但不需要太多的推理。到目前为止,民意调查显示,Carpathy的追随者在五个例子中的三个例子中更喜欢GPT 4.5的输出。
我认为,对我来说,最大的收获之一是不同的模型适合不同的用途。现实情况是,试图将所有内容都放入“更好”或“不好”的类别中,低估了这些模型将被用于的各种知识任务的复杂性。Nick Dobos写道:“GBT 4.5等于街头智慧、氛围、沟通和魅力。01-03推理系列等于书本智慧、考试高手。两者都是智力的形式。”
Andrew Curran总结道:“看,如果4.5只擅长创造性写作,那就是大量的实际重要的用例。”
其中许多是私人的,是的,但不要低估这对于营销等事情的潜在重要性。使用当前最先进技术进行营销文案撰写的一个重大权衡是,它都带有AI的粗俗气息。总的来说,由于您可以快速生成它,因此它通常是值得权衡的。因此,您基本上是在追求“更多”而不是“更好”的方法。但现在,这种权衡可能并不那么明显了。
无论如何,我们现在只是触及了4.5的表面,但尽管它没有被呈现为最先进的、击败所有基准的或甚至OpenAI总体上最好的模型,但在我看来,这里有很多东西需要发现和挖掘,我很高兴深入研究。然而,这就是今天的AI每日简报的全部内容。玩得开心,玩4.5,直到下次,再见。