cover of episode EP 493: ChatGPT’s groundbreaking image update, Google’s chart-topping Gemini 2.5 drop, Microsoft’s new reasoning agents and more AI news that matters

EP 493: ChatGPT’s groundbreaking image update, Google’s chart-topping Gemini 2.5 drop, Microsoft’s new reasoning agents and more AI news that matters

2025/3/31
logo of podcast Everyday AI Podcast – An AI and ChatGPT Podcast

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript
People
J
Jordan Wilson
一位经验丰富的数字策略专家和《Everyday AI》播客的主持人,专注于帮助普通人通过 AI 提升职业生涯。
Topics
本周AI领域发生了翻天覆地的变化,发布了世界上最强大的大型语言模型和最灵活的图像模型,这将彻底改变创意产业。微软发布了一系列功能强大的AI代理,能够处理复杂问题,并与基于规则的自动化相结合。OpenAI即将获得400亿美元的融资,显示出巨大的发展和投资潜力。苹果公司正在开发AI驱动的医疗保健工具,而马斯克的XAI公司则收购了推特,以增强其AI发展。OpenAI更新了其GPT-4.0模型,使其在大型语言模型排行榜上排名第二。法院允许《纽约时报》针对OpenAI的版权诉讼继续进行。Anthropic的研究人员在理解大型语言模型方面取得了突破,为更安全可靠的AI系统铺平了道路。OpenAI发布了其新的GPT-4.0图像生成功能,而谷歌则发布了Gemini 2.5,这是其迄今为止最先进的AI模型,具有100万个token的上下文窗口,能够处理大量数据集。

Deep Dive

Shownotes Transcript

这是 Everyday AI 节目,一个每天播出的播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。

这是 AI 发展史上最大的一周之一。我这么说并非轻率之言。我已经做了两年半了,但让我们先来看看本周 AI 新闻中发生了什么。好吧,我们发布了世界上最强大的大型语言模型。

我会告诉你为什么我认为它比你想象的更重要。我们获得了有史以来最强大、最灵活的图像模型,我认为这将彻底改变创意产业。世界上最大的公司之一发布了一些突破性的多智能体流程,也许是迄今为止最大的。

有人谈论某个 AI 实验室筹集了 400 亿美元,另一家公司进行了 300 亿美元的收购。这太疯狂了。这一切都发生在一周内。如果您像挠头一样,不知道发生了什么,请不要担心。我将帮助您了解情况,并向您介绍重要的 AI 新闻。

大家好!我是 Jordan Wilson,欢迎收听 Everyday AI。我们是您的每日直播播客和免费每日新闻通讯,帮助普通人不仅学习 AI,而且学习如何利用 AI 来发展我们的公司和职业。因此,如果这听起来像是您正在做的事情,那么您来对地方了。所以它从这个直播/播客开始,但它还在继续

我们的网站。如果您还没有,请务必访问 youreverydayai.com,注册我们的免费每日新闻通讯。此外,如果您不知道,我们的网站上现在已经有近 500 集了。因此,您可以学习 AI 世界中任何您想学习的内容,无论是营销、代理还是伦理。我们已经采访了数百位世界领先的专家,您可以在线访问所有这些内容。

在线免费访问我们的网站。这是一个免费的生成式 AI 大学,所以请务必去看看。好了,欢迎来到我们每周的“重要的 AI 新闻”环节。我们几乎每个星期一都会这样做。我们剔除所有废话、谎言和新闻稿,只为您带来重要的 AI 新闻。所以它是现场直播和即兴创作的,嘿,直播观众,帮我个忙。

我的声音好吗?我晚了幾分鐘才開始這個節目。有一些麥克風問題。所以是的,希望你們都能聽到我的聲音。請在評論中告訴我。很高興看到大家都在收看。來自芝加哥的 Max、Marie、Colby、Pedro、Brian 和其他人。很多人都在 YouTube 上觀看。Sandra 正在使用橢圓機。希望我不會讓你們等太久。好了,閒話少說。

讓我們來談談 AI 新聞世界中正在發生的事情。首先,幾乎沒有人談論這個,我不知道為什麼。

因此,微軟發布了一堆新的、非常有能力的代理。而且我認為其中特別有兩個是讀者和聽眾真正會喜歡的。因此,微軟通過向其副駕駛工作室平台發布重大公告來鞏固其在企業 AI 中的領導地位,這些公告包括深度推理能力和代理流程。所以,

微軟宣布了副駕駛工作室的兩個關鍵新增功能,即用於解決使用您自己數據的複雜問題的深度推理能力,以及將 AI 靈活性與基於規則的自動化相集成的代理流程。所以,呃,我們確實有微軟 AI 副總裁 Ray Smith,呃,

在,呃,抱歉,週五在節目中擔任 AI 代理副總裁。因此,如果您對此感興趣,請務必收聽第 492 集。我們向你們提供了完整的分解,就像世界上第一批人一樣,直接從微軟那裡獲得信息。因此,請務必收聽該集。我認為 Ray 的觀點很好,只是展望了 AI 代理的未來以及微軟正在使用這些新代理進行的所有工作。呃,但是,呃,呃,

今天實際上是 Agent Flows 發布的日子。是的,今天是 3 月 31 日。所以,我的意思是,這非常新。因此,如果您是一個大型 Microsoft 365 副駕駛組織,請務必查看今天應該發布的 Agent Flows。

微軟還宣布,僅上一季度,Copilot Studio 就創建了 40 多萬個 AI 代理,這表明企業用戶的快速採用。

所以有很多新的代理。我提到了其中兩個,但另一個,新的分析師代理,我認為是一個突出的功能。因此,它充當個人數據科學家,能夠處理 Excel 文件、CSV 和嵌入式表格,通過 Python 代碼和可視化生成見解。

深度推理,我認為這正在吸引很多媒體關注。因此,深度推理代理具有一些新的和改進的功能,使其能夠執行有條理的分析,從而實現諸如生成 RFP 響應或對併購進行盡職調查等用例。我的意思是,無論您可能將其用於什麼目的。然後是 AXA。

Agent Flows 應該在今天發布。因此,它結合了,這一點非常重要,確定性業務邏輯與 AI 推理,滿足從欺詐預防到運營優化的各個行業的客戶需求。

這就是它重要的原因以及整個確定性部分,對吧?所以這意味著這個新的代理流程的一部分不是生成的,對吧?所以我談論過,我過去也經常談論過筆記本電腦 LM,以及它是如何基於您自己的數據的。如果您問它數據中沒有的東西,它就會說,伙計,我不知道。所以這是新的代理流程的一個特點。它是確定性的,並且僅存在於您的基本數據中。

基本上是您的 Microsoft Graph 集成。您在 Microsoft 365 Copilot 中的任何實時動態數據,這就是這個新代理所依賴的數據。幻覺的可能性大大降低了。

因此,包括 Google、OpenAI、Salesforce 和 Amazon 在內的其他行業參與者正在加劇其自身代理平台的競爭。但微軟的方法優先考慮可訪問性,為技術和非技術用戶提供工具,通過自然語言界面和低代碼環境創建自定義代理。這才是這裡的重要事情,夥計們。我剛說的一切,自然語言,對吧?

您不必是開發人員。您不必了解 Python。您不必了解 JavaScript 或任何其他編程語言。它接受的語言是人類語言,對吧?因此,您可以構建這些非常令人印象深刻的多智能體流程,這些流程使用深度推理。因此,這使用 OpenAI 的 O3 mini 模型,你知道,

運行這個,這很瘋狂,對吧?所以我們談論的很多代理,你知道,通過

無論是 Google,還是 OpenAI,你知道,有新的 Manus,對吧?它們很棒。別誤會我的意思。但問題是,很多時候,當您設置這些代理時,它們並不一定與您的動態數據一起工作。因此,您可能會上傳一些數據,但這些數據會發生變化,對吧?該文檔、該報告、您知道的、您正在更新的大型文檔的季度草稿,該文檔可能會發生巨大變化。

每月、每周,它可能會每天都發生變化。如果您使用的是一些不是微軟並且無法訪問您最新的數據和信息的代理流程,那麼這是一個缺點或缺點之一。我認為微軟發布了很多新代理,但我認為很多人沒有關注這些新代理,這就是為什麼我週五邀請 Ray 來參加節目的原因。請務必收聽第 492 集以了解詳情。

好的。我取笑的那個 400 億美元的數字是什麼?好吧,據報導,OpenAI 接近獲得一輪規模空前的 400 億美元(帶有 B)的融資,這表明了顯著的增長和投資。所以這是根據彭博社的說法。

據報導,軟銀領導這輪 400 億美元的融資,最初投資 75 億美元,隨後由投資者集團追加 25 億美元。據預計,今年晚些時候的第二筆資金將看到軟銀再貢獻 220 億美元,以及來自其他投資者的 70 多億美元。據預計,今年晚些時候的第二筆資金將看到軟銀再貢獻 220 億美元,

據路透社報導,OpenAI 必須首先在 2025 年底之前完成向營利性實體的轉型,才能獲得由軟銀領導的 400 億美元融資的全部資金。所以,

這太大了。如果未能達到該截止日期,軟銀可能會將投資減少到僅 200 億美元,從而嚴重影響 OpenAI 的增長計劃。因此,這輪融資緊隨 OpenAI 去年 10 月的上一輪 66 億美元融資之後,該融資規模很大。

由 Thrive Capital 領投,當時該公司的估值為 1570 億美元。因此,隨著這輪新融資,OpenAI 的估值預計將飆升至 3000 億美元,這顯示了其在 AI 行業的快速崛起。

所以是的,這個顯然會變得非常有趣,呃,特別是埃隆·馬斯克和 XAI,呃,似乎正在盡其所能,呃,試圖減緩 OpenAI 的計劃,呃,從非營利組織轉型,它最初是在 10 年前作為非營利組織成立的。他們一直在努力轉型為營利性組織,呃,已經有半年多了,呃,

但埃隆·馬斯克和其他人正在試圖推遲他們的計劃。因此,現在風險極高。我們談論的是可能損失的 200 億美元,如果他們沒有及時轉型為營利性組織,他們可能無法獲得這筆資金,這是根據報導得出的。所以,呃,

哇。哇。我的意思是,談談高風險。對吧。我們都認為我們每天都在做的事情風險很高。別誤會我的意思。是的,對吧。如果您正在拯救生命,您知道,幫助人們。但是,伙計,我很高興我不在 OpenAI 的首席財務官的位子上。就像,是的,是的。

如果無法及時完成向營利性組織的轉型,則談論的是數十億美元的融資,這是根據報導得出的。所以,哎呀,我不想擔任那個職位。

您還在兜圈子,試圖弄清楚如何實際上利用 AI 發展您的業務嗎?也許您的公司已經使用大型語言模型一年或更長時間了,但無法真正獲得牽引力以找到生成式 AI 的投資回報率。嘿,我是 Jordan Wilson,這個播客的主持人。

像 Adobe、Microsoft 和 NVIDIA 這樣的公司已經與我們合作,因為他們相信我們在教育大眾了解生成式 AI 以取得領先地位方面的專業知識。一些美國最具創新性的公司聘請我們來幫助他們制定 AI 戰略,並培訓他們數百名員工如何使用生成式 AI。因此,無論您是為數千人尋找 ChatGPT 培訓,

還是只需要幫助構建您的前端 AI 戰略,您也可以與我們合作,就像世界上一些最大的公司一樣。訪問 youreverydayai.com/partner 與我們的團隊聯繫,或者您可以點擊我們網站的合作夥伴部分。我們將幫助您停止在這些 AI 圈子中奔波,並幫助您的團隊取得領先地位,並為生成式 AI 的投資回報率建立一條直線路徑。接下來,這家在 AI 方面略微落後的公司名為 Apple。

對。他們面臨著很多。我的意思是,在過去幾周裡,他們面臨著集體訴訟,因為,你知道,他們一直在宣傳這種實際上並不存在的 Apple intelligence。好吧,現在有一些關於 Apple 的 AI 新聞,據報導他們正在開發一款 AI 驅動的醫生和改進的健康應用程序。所以。

據彭博社報導,Apple 正在通過 AI 驅動的醫生、重新設計的健康應用程序和名為 Project Mulberry 的個性化健康教練來推進其醫療保健技術。我不知道為什麼他們總是使用這些代號,但是。

我不知道。無論如何,Apple 正在創建一個 AI 電力工具,該工具將分析來自 Apple Watch 等設備的健康數據,以提供量身定制的醫療保健建議,例如針對顯示高血壓跡象的用戶的飲食建議。

因此,目前重新設計的健康應用程序將非正式地命名為 Health Plus,它將具有食物跟踪功能,這對 Apple 來說是第一次,這使其與 MyFitnessPal 和 Noom 等平台競爭。

因此,該應用程序還可以通過使用 iPhone 的攝像頭來訪問鍛鍊技巧並建議改進來充當私人教練,並可能與 Apple 的健身加服務集成。據報導,Apple 正在與其內部醫生合作,並計劃擴大其團隊,增加專家來製作教育內容,可能還包括一位名醫以提高參與度。這正是我們需要的。呃,更多的名醫,呃,

因此,Apple 首席執行官蒂姆·庫克在過去五年的大部分時間裡都強調了 Apple 對健康和健康的承諾,稱其為該公司“對人類最大的貢獻”。

我們上週的“重要的 AI 新聞”環節中也有一個故事說,據報導,Apple 正在嘗試將一些 AI 驅動的攝像頭塞入其 Apple Watch、Apple AirPods 中,基本上試圖將攝像頭……

無處不在,對吧,不僅僅是在你的手機上。現在,當我們看到 Apple 真的只是試圖準備一個 AI 醫生,並且真的只是試圖在 AI 健康領域進行更大的投資時,這可能更有意義一些。直播觀眾,你們對此有什麼看法,對吧?你們想要 AI 驅動的攝像頭嗎?

在你的 Apple Watch 或 AirPods 上?你們想要所有這些 AI 技術在每一個其他東西上嗎?對我來說,我很矛盾。我有一個 Apple Watch,我有一個 AirPods。我不想在裡面安裝攝像頭,因為我認為這非常奇怪,而且可能具有侵入性。但我喜歡 AI 醫生的這個想法。

對。所以,你知道,這是我們必須不斷努力應對的事情之一,你知道,不僅僅是作為消費者,而且是作為商業領袖。對。我們想要提供多少數據來換取,你知道,為了提高生產力,為了潛在的收入增加,為了健康的提高?對。這很有趣。這是我個人一直在努力應對的事情。對。

Marie 說,看起來 Apple 正在爭取勝利。Marie,你的觀察很敏銳。是的,Apple 一直在,你知道,在大型語言模型競賽中被擊垮,將人工智能功能帶入其 iPhone,這在最近的推出中非常糟糕。

我確實認為有一天必須拍一部電影來講述 Apple 如何因為嚴重搞砸了 Apple intelligence 而損失數萬億美元市值的事件。所以,是的,它應該……它應該很有趣。是的。大多數人只是說不。YouTube 上的 Richard 說要恢復氧氣水平。

LinkedIn 上的 Max 說,AI 醫生很酷。更多的攝像頭。我不知道。是的。同樣的事情。對。是的。就像我們都想要這些功能,但是是的。我們都想要,你知道,10 個攝像頭,對吧?如果你有一個智能戒指,你想要一個攝像頭嗎?你想要一個 AI 驅動的攝像頭在你的運動鞋裡嗎?我不知道。好的。

這是幾乎沒有人談論的價值數十億美元的故事。是的,本週有很多 AI 新聞。其中一些故事並沒有得到真正的關注。但埃隆·馬斯克的 XAI 以 330 億美元的價格收購了 Twitter 或 X,以加強其公司 XAI。是的,令人困惑,對吧?

因此,埃隆·馬斯克的 AI 公司收購了 Twitter,現在稱為 Axe,這也是他的公司。所以這更多的是一些文檔工作,更多的是,你知道,一些正式的收購,你知道,法律術語。但是,你知道,基本上現在,

埃隆·馬斯克的 AI 公司是社交媒體平台 Axe(前身為 Twitter)的官方新所有者。埃隆·馬斯克的人工智能公司 Axe AI 以 450 億美元的全股票交易收購了 Axe(前身為 Twitter),其中包括 120 億美元的債務。

據路透社報導,該社交媒體平台本身在此次交易中的估值為 330 億美元,你知道,我相信埃隆·馬斯克最初以 440 億美元的價格收購了 Twitter。但我們之前看到有報導稱其估值已降至約 100 億美元。所以這實際上是一些……

至少對我來說,一些,一些令人震驚的,呃,你知道,這裡的報導,我們看到估值從最初的 440 億美元價格下降。我們看到有報導稱,今年早些時候它的估值僅為 100 億美元,呃,但在這項收購中,這是一種收購,一種不是收購,但絕對仍然是一種收購。我知道這很奇怪,呃,但我們看到它的估值為 330 億美元。呃,所以,呃,

然而,這筆交易使馬斯克能夠整合 XAI 和 X 之間的資源,整合數據、計算基礎設施、分銷渠道和人才,以增強 AI 開發。因此,馬斯克強調將 X 與 XAI 整合

將改進其聊天機器人 Grok 的訓練數據,從而可能加速 AI 模型和功能的進步。因此,此次收購緊隨 XAI 最近的融資成功之後,當時它以 750 億美元的估值籌集了 100 億美元,鞏固了其作為 OpenAI 和其他全球 AI 公司主要競爭對手的立場。

因此,合併可能允許 X 作為 XAI 產品的分銷平台,同時利用來自 X 的實時用戶數據來提高 AI 訓練能力。我的天哪,太多的 X 了。我仍然喜歡稱它為 Twitter。

以增強 AI 功能。XAI 一直在擴展其基礎設施。其位於孟菲斯的超級計算機集群 Colossus 據報導是世界上最大的,旨在訓練 Grok 3 等下一代 AI 模型。我不知道。你們想要一個熱門話題嗎?我知道這是一個新節目,但是……

要讓任何人實際使用 XAI 或 Grok 產品,需要的不仅仅是數十億美元和,你知道,所有這些收購。所以我並不一定理解這一點。對。這個問題,這個合併和這個,你知道,這個,你知道,

美麗的,你知道,XAI/Grok 和 Twitter 之間的合作夥伴關係是,好吧,Twitter 在許多最近的研究中被證明是錯誤信息、機器人活動等的頭號最差平台。因此,當許多公司在使用大型語言模型時,最大的擔憂之一是,

它是,你知道,對他們正在使用的模型有信心。所以,你知道,我一直在公開說這一點,我不知道,從 Grok 1 開始,就沒有人會使用它。它有多強大都沒關係,對吧?

我們看到 Grok 3 在上個月早些時候發布。從基準測試的角度來看,它的表現相當不錯。然而,我實際上不知道有任何一家企業公司將其用作其主要大型語言模型驅動程序。我也不認為任何一家企業公司

呃,對。它還不能通過 API 使用。因此,您只能在 grok.com 或,你知道,在 Twitter 平台上使用它。所以我並不確定埃隆·馬斯克和 XAI 的長期,呃,盈利計劃是什麼。是的,那就是我。呃,

我只是認為,對於企業公司來說,使用一個現在與具有最高錯誤信息、虛假信息和機器人活動實例的社交媒體平台更加緊密整合的模型,並不是一個明智的主意。這已經在多項研究中得到證明。所以,你知道,隨你便。

正如你可能知道的,Marie 說信任加上透明度等於信任等於更多客戶。是的,那裡有一個很好的等式。但是是的,我的意思是,如果你的訓練數據沒有更多的信任和透明度,人們就不會想使用它。所以,是的,從企業的角度來看,我仍然不會碰 Grok 或 XAI,即使是 100 英尺的杆子。我不在乎 330 億美元的估值。

更多大型語言模型新聞。因此,OpenAI 已更新其之前的旗艦模型 GPT-4.0,它已躍升至 LM Arena 排行榜的第二位。所以

是的,另一個實際上相當大的小故事。因此,OpenAI 宣布了其 GPT-4 模型的更新版本,突出了編碼、指令遵循和創造能力方面的重大改進。然而,最令人印象深刻的是,這個

GPT-4.0 版本從第五位躍升至第二位,僅次於 Google 最近發布的令人印象深刻的 Gemini 2.5 Pro。

此外,您可能想知道,是的,這意味著現在更新的 GPT-4.0 模型已經超越了 OpenAI 的最新模型 GPT-4.5,至少在人與人之間的偏好方面是如此。這就是 LM Arena 衡量的指標。我認為這是一個非常重要的衡量指標。

一種排行榜或衡量標準,用於討論,你知道,所有這些大型語言模型,尤其是在最近,我認為它們過擬合了,對吧?所以這意味著我認為構建這些模型的工程師,呃,你知道,尤其是在 2023 年和 2024 年,真的調整了它們,以便在某些行業基準測試中表現出色,但它們並不一定,呃,

被人類認為更好。所以我認為重要的是要查看傳統基準測試和來自 LM Arena 的這些 ELO 分數,這基本上是,你知道,你輸入一個提示,你看到兩個輸出,你不知道這些輸出來自誰,你選擇哪個更好。所以它是百事可樂與可口可樂的盲品測試,但這個新版本,更新版本的 GPT-4.0 已經飆升,而且實際上非常好。

因此,更新被描述為使 AI 更直觀、更靈活,一些用戶將其響應稱為不受約束,因為它能夠生成限制較少的內容。所以是的,OpenAI 首席執行官 Sam Altman 在公告中

表示新版本的 gpt 4.0 在編碼指令遵循和自由方面尤其出色,所以是的,很多人都在談論這種低調的“不受約束”模式,我也稍微測試了一下,但新 gpt 4.0 的護欄下降了一點,這並不是在談論新的圖像模型,它實際上是呃,與

在週末變得更加嚴格,我們很快就會談到。但對於其實際的基於 GPT-4.0 的模型,它實際上限制較少。

此外,OpenAI 保佑,他們談到了其中的一些更新,更好地遵循詳細的說明,改進了處理複雜技術和編碼問題的能力,改進了直覺和創造力,並且保佑。最後,默認情況下表情符號更少。所以也許我們可以停止查看所有帶有 42 個表情符號的社交媒體帖子和電子郵件。謝謝。是的。

我知道我有時會謹慎地使用表情符號,但我厭倦了在我的屏幕上看到十幾個表情符號。就像你們一樣。所以謝謝 OpenAI 去除了它,因為這就是現在每個人寫作的方式。

好的。所以下一條 AI 新聞也是關於 OpenAI 的,但在法律方面。因此,一位聯邦法官裁定,紐約時報 2023 年 12 月對 OpenAI 提起的訴訟可以繼續進行。

該訴訟指控 OpenAI 未經許可或付款就竊取了時報的文章,據稱有數百萬篇,用於訓練其 GPT 模型,違反了版權法。所以這是根據

根據紐約時報的說法。因此,時報的律師聲稱該報的內容是構建 ChatGPT 的受版權保護的文本的最大來源之一,並聲稱 AI 有時會逐字逐句地重複文章。

因此,法官駁回了 OpenAI 的駁回訴訟的請求,但至少對 OpenAI 來說是一個小小的勝利,它縮小了範圍,允許主要的版權侵權索賠繼續進行,同時承諾很快會發表詳細意見。因此,OpenAI 辯稱其數據收集做法受到“合理使用”的保護,理由是研究和創新,但合理使用。

時報聲稱其報導既沒有被轉變也沒有被合法地重複使用。一個關鍵的法律問題是市場替代這個術語,出版商擔心聊天機器人總結新聞可能會將讀者從他們的網站上轉移走。

這顯然會影響他們的廣告收入。OpenAI 聲稱時報操縱提示以強制逐字逐句地輸出,它表示這對 ChatGPT 的普通用戶來說是不尋常的。審判前的聽證會現在將開始收集證據,預計證詞將保密,同時解決關於證據的公開爭端。這個可能很大,夥計們。

我從 2023 年 12 月起就一直在談論這個問題,呃,

這個案件的另一個小細節是紐約時報在訴訟中實際上要求銷毀 GPT 技術,對吧?這不是誇張。這是他們實際上要求做的事情,因為他們說,好吧,紐約時報和我們所有付費文章都是這個數據集中的一個重要組成部分。所以我認為這不會發生,但看看

實際上會發生什麼將會很有趣。這可能是一個具有裡程碑意義的,呃,可能影響數百萬,呃,

全球數百萬家企業,對吧?因為現在有數億商業專業人士像我們一樣每天都在使用 AI 模型,對吧?而且這不僅僅是 ChatGPT,因為可能還有數千個其他使用 GPT 技術的 AI 應用程序。所以在,我認為非常罕見的情況下,你知道,我不

想在上面加上百分比,但他们说 GPT 技术必须被摧毁的可能性必须小于 1%,我甚至不知道这是否可行。它已经存在于现实世界中了,对吧?它已经被用来提取其他模型了。所以你不能把它拿走。但我的意思是,这对每个人都会产生巨大的影响,尤其是在美国。所以这绝对是一件需要关注的事情。

好的。另一件需要关注的事情是 Anthropic 的这项新研究。Anthropic 的研究人员在理解大型语言模型的工作原理方面取得了重大突破,这可能为更安全、更可靠的 AI 系统铺平了道路。在一项新发布的研究中,Anthropic 创建了一个类似于 FNC 的新工具,

AI 的 MRI 扫描,使研究人员能够追踪大型语言模型如何处理信息并做出决策。是的,这很酷。这真的很令人感兴趣。如果你想更好地理解大型语言模型的工作原理,我强烈建议你去阅读 Anthropic 的这项研究。我们上周在我们的新闻通讯中分享了它。所以他们在这项研究中详细介绍的这个新工具被称为跨层转码器。

或 CLT,它识别与特定推理任务相关的 neuron 电路,这为 AI 模型的内部逻辑提供了新的见解。是的,本质上是生成式 AI 和大型语言模型。我的意思是,人们通常称它们为黑盒,对吧?人们并不一定理解它们是如何工作的。所以 Anthropic 的这篇新论文,非常非常,

有意义。因此,这项研究还表明,像 Anthropic 自己开发的 Claude 这样的多语言模型在语言之间共享概念推理。因此,该模型不是为每种语言分别进行推理,而是使用共享的神经电路来处理通用概念并将输出翻译成所需的语言。想想看,这太疯狂了,对吧?

并不是说他们创造了自己的语言,而是根据 Anthropic 的这项新研究,大型语言模型本质上是在说,当它以多种语言进行思考时,它不像,哦,比如说它使用英语、西班牙语和法语。对。无论出于什么原因,也许你正在进行翻译。对。对。

它不是每次都来回翻译,对吧?而是它使用这种神经电路来处理通用概念,对吧?所以它正在做这项工作,

几乎超出了正常的语言能力,这也很奇怪,也很疯狂。关于这种 CLT 方法的更多信息。它允许研究人员追踪神经网络各层之间的推理过程。这对 AI 系统的审计至关重要,这对于安全问题非常重要,并有助于

制定更好的防护措施,以防止幻觉、越狱或错误输出。但是,目前这项技术有一些局限性,包括它无法捕捉大型语言模型中动态的注意力转移。注意力机制在模型生成响应时如何优先处理输入方面起着至关重要的作用,而 CLT 并没有完全解决这个问题。

因此,为更长的提示扩展该方法仍然是一个挑战,即使是分析只有几十个单词的提示的电路,更不用说数百、数千或数百万个单词了,分析只有几十个单词的提示的电路需要几个小时的专家工作,这让人们对使用这种 CLT 方法进行更复杂输出的实用性产生了疑问。

但这一突破可能会鼓励企业更自信地采用 AI,因为大型语言模型的内部工作原理更加透明,公司可能会觉得将 AI 集成到其运营中更安全。是的。Sandra 说这让我大开眼界。是的,我也是。就像我,我已经多次阅读过它,每次我都会沉默片刻,然后想,嗯?

这很奇怪,对吧?就像你使用大型语言模型越多,对吧?我还记得在 ChatGPT 之前使用 GPT-3 技术的早期版本,在 BERT 之前,对吧?在 Gemini 之前,看看它们改进了多少,看看现在的这些推理模型,然后阅读这项研究。

这真是令人大开眼界。我只想说,对吧?我不想把所有,所有的好东西都拿走,让你自己去阅读。所以,呃,我们会在今天的新闻通讯中再次分享链接。所以,呃,如果你还没有,请务必在 youreverydayai.com 上注册。好的。毫无疑问,本周互联网上关于 AI 新闻讨论最多的事情是新的,呃,

OpenAI GPT-4.0 图像生成。是的,新名称。所以 DALI 死了。嗯,从技术上讲,DALI 仍然存在于一些旧模型中,如果你真的想使用它的话。我从未真正使用过 DALI。它什么都不擅长。但 OpenAI 已经正式推出了其多模式 GPT-4.0 模型的原生图像生成功能。

供 ChatGPT 用户使用,标志着 AI 技术的一个重要里程碑。所以这个名字就叫 4.0 图像生成。好的。

我相信一些非官方的名称会流行起来,人们会这样称呼它。但现在,就像我说的,这不是 DALI 的新版本。这不是 Sora Photo。现在,它只被称为 4.0 图像生成,而且它很疯狂。所以他们的新多模式 GPT-4.0 模型现在能够处理文本、代码和图像。

目前仅供付费用户使用。最初,它也应该向免费用户发布。但在周末,该公司宣布对免费用户的访问将被推迟。他们还在付费账户上对图像生成实施了速率限制。正如他们所说,新功能是,“引用”融化了他们的 GPU,因为需求量巨大。

所以新功能迅速走红,整个互联网都在争先恐后地创建宫崎骏风格的视觉效果。对。我不太理解。对。但它是一种类似动漫的风格,每个人都在,你知道,拍摄他们的全家福并上传,然后,你知道,得到这些宫崎骏风格的输出。我没有这样做。我不关心那种东西。但我的意思是,从字面上看,一切。

每一个 AI 媒体渠道,每一个社交媒体,甚至 LinkedIn 都被 OpenAI 的 4.0 图像生成的所有宫崎骏风格的东西淹没了。

与旧的 DALI 3 模型不同,GPT-4.0 的图像生成直接集成到同一个系统中。是的,GPT-4.0,O 代表 Omni。所以它是一个真正的多模式大型语言模型,对吧?而之前当它只是 GPT-4 或 GPT-4 Turbo 时,

即使我们在谈论文本转语音或语音,技术上也有多个模型在幕后工作,对吧?现在有了 GPT-4.0,现在我们有了新的图像生成模型,所有这些都在这个 Omni 模型下,使其在解释提示和生成详细逼真的图像方面更加准确。是的,我很想知道,直播观众,你们中有谁在周末使用过这个吗?我很想知道你们的看法,嗯,

我个人感到震惊,但还有一些细节。用户可以通过对话式编辑实时细化图像。这很重要。与之前的模型相比,它实现了更高的精度和灵活性。这个新的 4.0 图像生成的关键特性包括图像中准确的文本渲染。这很重要。

因为很多,嗯,除了,呃,你知道,像 ideogram 这样的模型,它在文本方面做得很好,呃,对。所以早期版本的像 midjourney、呃,你知道,显然是 Dolly、谷歌早期的,呃,想象一下,呃,

AI、照片应用程序,它们在文本方面都非常挣扎。这就是很多人,你知道,有时想做的事情,无论他们是想创建一个带有文本的照片,还是想创建信息图表,如果他们想创建,呃,你知道,带有品牌和标志以及文字的东西,

你知道,混合在这些图像中。我的意思是,在 2024 年底之前,这非常糟糕,但这个新模型,新的 4.0 图像生成在处理文本方面非常非常出色。这确实扩展了其功能。

因为它现在可以处理复杂的提示。它可以支持不同的艺术风格。对。但现在它有一些很好的实际应用。对。所以很明显,像使用社交媒体图形、邀请函、食谱、教育、创建科学工具的营销一样。

图表、信息图表、游戏开发,具有始终如一的角色设计,对吧?具有始终如一品牌、标志和广告的东西。这真的很令人印象深刻。另一件事是它确实提高了上下文理解能力。例如,您可以上传 10 张不同的照片

然后说,嘿,把这些混合在一起。对。您可以上传背景图像。您可以上传,你知道,三个人图像。您可以上传,你知道,六个,你知道,六个产品,然后说,嘿,把所有这些结合起来。它做到了。

再说一次,这是一个早期版本,但它非常令人印象深刻。你们,我不是一个容易被感动的人。是的,我每天都报道 AI。我已经做了 500 集节目。我很幸运能够与微软、Adobe 等大品牌合作。我甚至在它们公开发布之前就能使用很多这些 AI 工具。如果说实话,我不容易被感动。

我对这个新的 GPT-4.0 图像生成印象非常深刻。现在仍然存在一些局限性,对吧?它显然并不完美。据广泛报道,存在裁剪问题、纵横比问题、非拉丁系字体和脚本的挑战,以及在保留小文本细节方面仍然存在困难。

OpenAI 首席执行官 Sam Altman 将此次发布描述为“引用”创造自由的新高点,该公司正在根据用户反馈积极改进该模型。此次发布使 OpenAI 能够与新的以及同样令人印象深刻的多模式功能竞争。

谷歌 Gemini 的两个闪光模型,本月早些时候引入了类似但不太强大的多模式功能。是的,佩德罗。是的,我喜欢这个。佩德罗只是说它非常好。道格拉斯。道格拉斯,你好吗?道格拉斯说我上传了我的头像,并让它制作了一个南方公园版本的头像。结果非常准确。

是的,我认为有很多有趣的事情,你知道,可爱的事情,你可以用这个模型做,对吧?但是……

作为一个在,你知道,MarTech 和通讯领域工作了 20 年的人,对吧?我很幸运能够在我的职业生涯中相当长的一段时间里与,你知道,不仅仅是耐克和乔丹品牌的营销和通讯部门合作,还与世界上数十家最大的创意机构合作,对吧?所以我真的看到了很多幕后工作。

大型品牌如何,你知道,基本上创建他们的营销,创建他们的广告。你们,我无法低估这现在所做的工作。任何拥有 20 美元/月 ChatGPT Plus 账户的人,

任何知道如何操作电脑的人都可以制作出与世界上最大的数十亿美元广告和营销公司不相上下的广告和营销活动。我开玩笑的,与世界上最大的数十亿美元广告和营销公司不相上下。对吧?这非常令人印象深刻,就像周末以来发布的个人工作室一样。

已经发布了一些关于他们如何创建这些活动的幕后花絮。而且,它们令人难以置信的好,对吧?特别是对于产品广告,那些,你知道,非常直观的东西,但这个新模型能够准确地,你知道,获取你上传的多个

图像与税收一起工作,但也与上下文窗口一起工作。我认为现在大多数人没有利用这一点,对吧?当我玩这个的时候,我上传了,你知道,

我上周的一次采访的完整记录。我说,嘿,给我做一个信息图表,解释一下这些更复杂的话题,对吧?它做到了,对吧?而之前,如果你使用的是 midjourney 或 stable diffusion 或其他一些基于扩散的 AI 模型,那可不是这样工作的。你必须用提示语言来描述事情,并且要精确地描述。不,你可以只丢弃一堆上下文,只是一堆文本,然后说,嘿,给我做点什么,对吧?而且

如果不够好,你可以用自然语言与它交谈。这就是这里的承诺和这个新更新的强大之处。非常非常令人印象深刻。Sandra 说,你能做一个节目向我们展示如何做到这一点吗?我不知道。你们想要吗?请在直播中告诉我。是或否,直播观众。如果你想了解更多幕后花絮,你知道如何做这一切。就像我说的,我的背景,我已经做过这个了。我知道这是如何工作的。

我个人感到震惊。我不知道你们是否想要这样的东西。请在直播中告诉我。只是,你知道,说“是”。做一个视觉效果。如果你知道,如果你在收听播客,我总是把我的电子邮件放在我的 LinkedIn 上,所以你也可以联系我。

好的。我们本周的最后一个故事。我认为我将最好的留到了最后,尽管人们并没有谈论谷歌 Gemini 的这次发布,只是因为,你知道,OpenAI 的 GPT-4.0 图像生成的强大功能和病毒式传播性质。但实际上,世界上最强大的大型语言模型在本周发布,几乎没有人谈论它。这说不通,但是。

谷歌推出了 Gemini 2.5,这是其迄今为止最先进的 AI 模型。

Gemini 2.5 具有 100 万个令牌的巨大上下文窗口,使其能够处理大量数据集,包括文本、音频、图像、视频,甚至代码库。预计很快就会升级到 200 万个令牌,进一步扩展其功能。如果你不是技术人员,你可能会说,好吧,这是什么意思?理论上,假设你有一本 PDF 书。

Gemini 2.5,你可以复制粘贴,你可以把它放在那里,它将能够浏览并回答你提出的任何问题。即使是像 ChatGPT、Claude 这样优秀的模型也有一个不错的 100,000 个上下文窗口。但很多时候,你使用大型语言模型越多,它一开始可能就非常好。

就像,嘿,这太棒了。这个大型语言模型记住了所有东西。你使用它越多,它就越开始变得有点笨。这是因为很多时候,呃,你分享的一些信息,或者如果你试图改进提示,呃,它会丢失,对吧?最终它,它,它,呃,

你知道,你分享的初始信息超出了上下文窗口,这就是为什么有时当你使用,呃,你知道,AI 聊天机器人时,它一开始很好。然后它就开始变得糟糕了。这是因为上下文窗口。所以这非常令人印象深刻。Gemini 2.5 pro 的 100 万个令牌上下文窗口,呃,也,呃,

它立即在 LM Arena 排行榜上占据了第一名,而且差距很大。我相信它在 ELO 分数上领先了近 40 分。通常情况下,当一个新的大型语言模型发布时,哦,它是 LM Arena 中最好的模型,它可能只领先一两分,也许三分。

新的 Gemini 2.5 模型,Gemini 2.5 Pro,比其最接近的竞争对手高出近 40 分,而其最接近的竞争对手现在是 OpenAI 更新版本的 GPT-4.0。此外,也许更重要的新闻是,

与这相关的,周末,谷歌再次默默地,谷歌停止了,我对这一点印象深刻,对吧?你知道,他们最初的 BARD 推出并不顺利。你知道,我不会深入讨论这个问题。我已经多次报道过这个问题。但是,你知道,在过去的六个月里,我喜欢谷歌正在做的事情。他们不是……

他们没有大力投资营销。他们没有把它变成一场大秀。他们只是在发布。他们只是在发布巨大的版本,发布令人印象深刻的更新。另一个令人印象深刻的更新是在周末,谷歌也将其提供给免费用户。所以你甚至不必进入 AI Studio。所以谷歌,他们有他们的 AI Studio,这更适合开发者。

然后是他们的前端谷歌 Gemini 聊天机器人。所以你现在可以使用,因为之前在谷歌 Gemini 的第一年左右,他们没有将他们最强大的模型放在谷歌 Gemini 中。你必须进入谷歌的 AI Studio,这不会保护你的数据,对吧?不幸的是,但如果你是一个付费用户,谷歌 Gemini 在前端会这样做,但是

现在即使你是免费用户,你也可以访问 Gemini 2.5 Pro。此外,非常重要的是,该模型现在具有思考模式。所以它更像是一个混合模型,Gemini 2.5 Pro,因为它允许模型在提供响应之前推断其思维过程,这可能会再次越来越接近不断变化的目标,即通用人工智能或 HEI。

所以很明显,除了 ELO 分数或人类偏好(谷歌 Gemini 2.5 在这方面表现出色)之外,它在所有正常的基准测试中也表现出色,这并不令人惊讶,包括最新的流行基准测试,即人类的最后一次考试,这是一个具有挑战性的数据集,旨在测试类人推理和知识的极限。

大型语言模型之前的最高分是 OpenAI 的 03 Mini,得分为 14%,DeepSeek R1 得分为 8.6%。然而,新的 Gemini 2.5 Pro 在此项测试中得分为 18%。是 DeepSeek R1 的两倍多,并且舒适地领先于 OpenAI 的 03。

所以,就像我说的,Gemini 2.5 Pro 现在可供 Gemini 聊天机器人前端的日常用户以及 Google AI Studio 内的开发者和企业使用。计划在未来几周内推出 Vertex AI。

根据谷歌的说法,该模型在推理、个性化和编码方面的进步可能会显著影响从软件开发到研究的各个行业,为企业和开发者提供更快、更有效地创新的工具。我个人对 Gemini 2.5 Pro 最印象深刻的一件事是它能够一次性完成任何与编码、软件开发相关的事情,

非常令人印象深刻,对吧?并不是说你应该一次性完成任何事情,对吧?你应该总是回头改进一些东西。但我做了什么?只是为了看看它的能力,我制作了一个横向运行的 2D 游戏,芝加哥深盘披萨在城市中奔跑,或者类似的东西,一次性完成。它做对了。这非常令人印象深刻。但我真的认为

我们应该关注 Gemini 2.5。好的,就是这样,你们。让我快速回顾一下本周最重要的 AI 新闻故事。首先,微软在 Copilot Studio 中发布了一些相当具有突破性的新代理功能。所以无需代码,能够只与

Copilot Studio 交谈,使用其新的推理模型和确定性功能。接下来,据报道,OpenAI 即将完成一轮由软银牵头的 400 亿美元的融资,尽管它……

如果 OpenAI 无法在年底前成功从非营利组织转换为营利组织,则可能少于此数。据报道,苹果正在开发一款 AI 驱动的医生和改进的健康应用程序

埃隆·马斯克的 XAI 以 330 亿美元的估值收购了社交媒体平台 X(前身为 Twitter),从技术上讲,由于它包括 120 亿美元的债务,所以股票价值为 450 亿美元。

OpenAI 更新了其 GPT-4.0 模型,这实际上使它超过了 GPT-4.5,在 LM Arena 排行榜上排名第二。一位联邦法官允许《纽约时报》针对 OpenAI 提起的版权诉讼继续进行。Anthropic 发布了一项新的突破性研究,帮助每个人更好地理解大型语言模型的黑盒模型

及其新的工具和技术,称为跨层转码器或 CLT。

OpenAI 发布了他们新的非常流行的 GPT-4.0 图像生成。最后但并非最不重要的是,我们还有世界上最强大的 AI 模型也在本周发布。我的天哪,在这么短的时间内要涵盖这么多内容。你们,AI 世界正在燃烧。发生了太多事情。所以如果你认为 AI 正在达到极限,如果你认为能力接近天花板,

甚至还差得远。AI 又迎来了激动人心的一周。我希望这对你们有所帮助。如果是的话,请告诉我,如果你正在收听播客。如果你在 Spotify 或 Apple 上收听,我很感激你给我们留下评论。如果你在社交媒体上收听,请告诉我你想听到更多什么内容。但也要点击转发按钮,如果这对你有帮助的话。很多人告诉我 Everyday AI 是他们的作弊码。我说,伙计,别把它藏起来。把它分享给

某人,对吧?如果你这样做,我会很感激。另外,如果你明天和每天都收听更多 Everyday AI,我会很感激。谢谢你们。今天的 Everyday AI 就到这里了。感谢您的收听。如果您喜欢本集,请订阅并给我们评分。这有助于我们继续前进。更多 AI 魔法,请访问 youreverydayai.com 并注册我们的每日新闻通讯,这样你就不会被落下。去打破一些障碍,我们下次再见。