We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode An Apple Intelligence Wish List

An Apple Intelligence Wish List

2025/1/19
logo of podcast AppStories

AppStories

AI Deep Dive AI Chapters Transcript
People
F
Federico Viticci
J
John Voorhees
Topics
Federico Viticci: 我希望在iOS 19中看到一个更会话式的Siri,它能像ChatGPT一样进行持续的自然语言对话。虽然苹果在AI方面落后于竞争对手,但我认为他们必须推出Siri LLM。苹果的优势在于拥有平台和生态系统,Siri和快捷指令可以访问我的应用数据,例如Obsidian和Apple Mail。我认为苹果可能会推出多个版本的Siri LLM,甚至可能将快捷指令重命名为代理。总的来说,我认为苹果的AI是重新思考我们如何使用电脑的机会。 John Voorhees: 我认为Apple Intelligence有很多值得期待的地方。Apple Intelligence整合ChatGPT的解决方案并不好,因为它没有持久性和记忆性。苹果的Siri将成为操作系统的另一个界面,系统本身也会整合AI。我希望看到一个专门的调研和写作工具整合,它能支持现有的生产力应用。我也希望看到更多系统方面转化为快捷指令的操作,尤其是在Mac上。我认为苹果有机会做得比其他公司更好。

Deep Dive

Shownotes Transcript

*吱吱作响*

大家好,欢迎收听App Stories。我是John Voorhees,和我一起的是Federico Viticci。嘿,Federico。你好,John。你好吗?我很好。快乐星期五。我们在星期五录制这个节目。这是节目的幕后花絮,我认为。你知道的,我不知道我是否告诉过你。你们美国人把13号星期五作为你们的倒霉日,对吧。在意大利,我们把17号星期五作为倒霉日。

哦,仅仅是因为你想在意大利有点与众不同。是这样吗?你想做你自己的……我们在意大利说,Venerdì 17。那是17号星期五。那是我们国家的倒霉日。我不太相信这些东西,但很多人相信。你会看到……你实际上会看到很多人在星期五不做某些事情。例如,不开始旅行。例如,不坐公共汽车。

不骑自行车。只是待在家里。是的。我今天什么也不想做。我不太相信这个。显然,你知道,我说的是,但比如,敲敲木头,还剩下几个小时。是的。是的。现在还早。好吧,Federico,在外小心点。我们希望不会发生任何事情。

人们认为黑猫是不幸的象征。但我认为黑猫很漂亮。所有猫都很漂亮。当然还有狗。话虽如此……

我们在App Stories Plus会员的节目预告中讨论了Android和一些与Apple相关的特定内容。我们在主节目中有一个完全不同的主题,那就是我们正处于年初。所以也许,你知道,是时候开始考虑我们在6月份将会看到的东西了。我有一个Apple Intelligence愿望清单。

我想分享一下。很好。很好。我认为有很多事情需要对Apple Intelligence许愿,因为我们已经走得很远了,你知道,只是表面的东西。我认为最重要的东西还没有到来。我认为我们应该添加到这个最重要的清单中。

我认为我们每个人都列出了我们想看到的东西,我们将以循环的方式连接它。我将从第一个开始,那就是我希望今年在iOS……

19?是的,今年是19。我希望在iOS 19中,我们将看到一个更具会话性的Siri,从一个可信的用户角度来看

以Siri应用程序的形式提供ChatGPT替代方案,允许您使用大型语言模型与Siri进行持续的对话,就像您可以用自然语言与ChatGPT进行对话一样。我希望Apple能够展示,我认为他们今年不会发布它。我认为这将是2026年的事情。但我希望我们能看到这种体验。我认为这很复杂,因为……

一方面,我认为对于Apple来说,即使是匹配两年前ChatGPT的功能也是一项艰巨的任务。我们知道,你知道,已经基本确定Apple Intelligence落后于竞争对手大约两年。你知道,你看ChatGPT,你看Gemini,你看

Claude。很明显,我们今天拥有的Apple Intelligence基本上是2023年,甚至可以说是2022年其他行业所处的位置。对。现在,它一点也没有融入Siri,因为就在昨天,我问Siri,两小时后的天气会怎么样?它没有告诉我两小时后的天气,而是告诉我下午2点的天气,那是我问的时间之前的三个小时。为什么不呢?为什么不呢?

为什么不呢?为什么不呢?所以我将把它与我列表中的下一项合并,这显然是我在彭博社的Mark Gurman的报道中提到的这种体验。Siri LLM的想法,允许您与Siri进行更长时间的持续对话的Siri大型语言模型的想法,用自然语言进行持续对话。我认为……

尽管我说对于Apple来说做到这一点将是一项艰巨的任务,但事实是,我相信Apple必须做到这一点。你看ChatGPT,你看App Store,ChatGPT始终是App Store上下载量最高的五个免费应用程序之一。对。我敢打赌,到处都是这种情况。我看美国App Store,我认为到处都是一样的。ChatGPT,ChatGPT应用程序已经成为一种

风靡全球的现象,我如今在每个人的iPhone上都能看到它。是的,事实是,Apple Intelligence整合ChatGPT目前并不是一个好的解决方案,因为它不具备您所说的应用程序所具有的那种持久性、记忆性和连续性。

而且它并不流畅,对吧?它是为这种临时请求而构建的,您问一个问题,Siri意识到,哦,不,我不知道如何回答这个问题。你想去ChatGPT吗?你去ChatGPT,但这不是完整的体验。在那时……

我认为您最好实际在手机上打开ChatGPT应用程序,并在那里进行更全面的对话,拥有更多功能和更快的速度。所以这有很多潜在的影响。首先,如果Apple正在开发大型语言模型,

它会是什么样子?看看其他AI行业。看看OpenAI,看看Google,看看开源领域,看看来自中国的Llama和Quan。所有这些公司都在发布闭源或开源模型,它们通常会发布一系列模型。模型,我在这里要简化一下,

包含一定数量的参数,并支持各种上下文窗口。上下文窗口是指可以在大型语言模型的同一对话中存储的文本量。OpenAI、Google、Anthropic,它们有不同的

它们模型的版本,ChatGPT、Gemini和Claude。通常会有一个更大的模型,它包含大量参数,经过大量参数、大量文本的训练,并支持非常大的上下文窗口。众所周知,Google的Gemini是目前唯一一家提供我认为目前为一百万个令牌上下文窗口的公司,这与ChatGPT和Claude相比要高得多。现在,

我在想,如果Apple要这样做,那么假设Apple要出来说,我们有一个Siri LLM。首先,

他们是否会效仿其他行业,拥有多个版本的Siri LLM?是否会有……因为我能想象这样一种情况:Apple遵循他们自己完善的、被复制的(如果你看看Dell的话)命名模式。我能想象这样一种情况:Apple会推出Siri LLM Mini、Siri LLM、Siri LLM Pro和Siri LLM Pro Max。是的,也许吧。也许吧。我……

我认为他们会拥有多个模型。他们只是不会告诉你,因为我认为……啊,很有趣。因为这会更简单。这是一个营销问题。迷你版会在你的手机上。它将是本地的,并且会在尽可能的情况下用于快速获得答案。然后是更大的模型,它将进入网络,进入Apple正在实施的云计算。是的,我认为你是对的。我认为你是对的。我认为我们可以看到这样一种情况:一个,我不知道,1.5……

呃,1.5 GB的模型。迷你模型存储在手机的离线状态下。对。而且,呃,那可能是Siri Mini。它可以在离线状态下工作,并处理基本请求。但对于其他更大的模型,它会转到私有云计算机。因此它需要互联网连接。呃,

我认为我们距离这种模型还有数年之遥。我认为这将是2026年的事情。更不用说推理模型了,我认为如果Apple最终要拥有推理模型,那至少要到2027年。对。但是,

其他问题。他们是否会支持多种模式?模式是指您希望与Siri LM进行的输入类型、交互类型。您能否像使用Gemini或ChatGPT语音一样实时与它交谈?他们是否会支持文本?这似乎是理所当然的。他们是否会支持图像附件?他们是否会支持本地文档附件?我还有另一个重要的问题,

与竞争对手相比,Apple拥有的明显优势是它拥有平台。它拥有生态系统。它拥有我们使用的设备。这意味着Siri和快捷指令,整个Apple Intelligence都可以访问您的应用程序,访问来自您应用程序的数据。

ChatGPT无法做到的是查看我的提醒事项、查看我的Apple Notes、查看我的Obsidian。理论上,这是Apple Intelligence可以做到的事情。这是Siri大型语言模型可以做到的事情。当我想到这一点,并想到Apple推出Siri LLM的潜在场景时,我对与Siri聊天关于我的Obsidian内容或与Siri聊天关于Apple Mail内容的想法感到非常兴奋。

是的,你看,我认为我们正在朝着这样的方向发展:对于Apple来说,Siri将成为OS本身的另一个界面。我们将拥有应用程序,将会有大量整合Apple的应用程序。

你知道,人工智能,但系统本身也将整合它。所以它不仅仅是去你的Siri AI应用程序。它将是去地图并向它提出一个更像你向LLM提出的问题,并找出你周围位置的信息。或者你在笔记、提醒或任何应用程序中做同样的事情。这与我的第一件事有关,那就是,

我想看到一个专门的科研写作工具集成。我现在可以想象这将是一个单独的应用程序,有点像Google的Notebook LM。类似的东西,你可以用多种方式将文档、音频和其他东西添加到项目的集合中,然后用它来挖掘信息进行研究。

但我也可以想象它只是像在Pages或Freeform之类的应用程序中的侧边栏一样,在那里,你知道,你创建了其他信息,无论是文本还是。

或思维导图,或可能是Numbers中的电子表格,并且你想整合大型语言模型有用的其他信息。所以我认为作为一个支持现有生产力应用程序的研究工具,这将非常强大。是的,当你提到这一点时,我想到了潜在的

能够拥有一个超级大脑,你可以像深度链接你与Siri LM进行的多次对话的特定点一样。例如,假设你正在做一个项目。对。这是一个很好的观点。

你正在做一个项目,你正在撰写你的下一个macOS评论,你想参考,也许在某些时候你与Siri进行了一次关于Apple使用哪些不同的名称来命名macOS版本的对话?然后在另一个时间点,你问,嘿,Apple是什么时候添加了新的macOS Yosemite设计?但是你进行了多次对话,并且能够在同一个项目中引用这些多次对话的要点,这是……

像那种即时和完全回忆的东西。这是人脑实际上并不支持的东西,除非,我的意思是,John,你还记得你生活中每一次对话的经过吗?不,显然不记得。对。你记得要点。你可能记得一些想法,但显然我们不是,人脑不是,不会那样扩展。对。因此,能够拥有这种基于你的数据的研究工具,我认为这就像终极辅助AI工具。是的,我认为是的。因此,你还希望它也集成到Safari中。我的意思是,就在前几天,我为俱乐部写了一篇关于……

相机的文章,关于iPhone SE将配备4800万像素摄像头传感器的传闻,我试图比较不同传感器在哪些Apple设备上以及在哪些日期整合,无论你是说iPad还是Mac的FaceTime摄像头,还是iPhone的后置或前置摄像头,都有大量的摄像头传感器和所有这些设备,

并绘制4800万像素部分何时出现以及这些平台上的发展方向,这根本不在我的大脑中,因为有太多不同的因素和不同的型号需要记住

记住,在一个地方。所以我当时用ChatGPT来做这件事,它非常适合做这件事,因为然后我可以获得链接,我会直接去Apple的技术规格页面确认它没有编造任何东西。但这只是一个非常简短的、非常快速的研究方法,而不是像滚动浏览一页又一页的技术规格页面

首先找到技术规格页面,然后逐一浏览并进行比较,我可以非常快速地获得摘要,点击这些链接,验证一切都是正确的,然后继续我的写作,这比传统网络搜索要快得多,是的,是的,我认为……

如果Apple只想复制ChatGPT,并提供一些你可以与之交谈并询问有关网络资源或一般知识的问题的东西,我认为这很好。但我认为真正的潜力在于类似于ChatGPT和微软正在做的Rewind功能的混合体,它有点……

现在可用。它就像一个非常糟糕的发布,就像一个隐私噩梦。然后微软为此重新回到了绘图板。但是这个想法

能够私下安全地访问你计算机上的数据并与应用程序交互,因为这是另一件事。我真的很想看看Apple将如何处理这些应用程序意图,以及这种无需先组合快捷指令就能要求Siri代表你执行第三方应用程序中操作的能力。我过一会儿会谈到快捷指令。但我……

我对Apple真正赶上竞争对手,并以只有他们和Google才能做到的一种方式超越竞争对手的想法感到非常兴奋,因为显然Google拥有Android。我能想象Google会在Google I/O上用类似的功能抢先一步,比如在5月份有一个框架将Gemini插入到你的所有Android应用程序中。Chrome OS也是如此。Chrome OS也是如此。

是的,我能想象Google。我的意思是,Google几乎已经说过,我们将在Google Chrome中使用代理。但是是的,我认为这是一个令人兴奋的领域,值得关注今年的情况。我希望我们能够超越,你知道,我们看到了图像游乐场和照片清理、图像魔杖,像这样……

Apple Intelligence功能的第一波中相当基本的工具。我希望我们能够超越这一点。是的,我希望它也超越语音,因为我认为语音是这方面的一个重要方面,也许这与你将要讨论的快捷指令有点关系,但我认为对于一次性操作,要求Siri代表你使用你的计算机或iPhone上的应用程序和数据来做事情,是有一个位置的。但我认为

Siri和作为AI的Siri实际上可以帮助创建可重复使用的自动化,你知道,这是多步骤的事情,你不想一遍又一遍地要求它去做。它实际上,我的意思是,因为我一直在用ChatGPT做的事情是,它是一个非常好的工具,可以帮助你完成快捷指令ID。

你知道,告诉你操作是什么。我认为它在快捷指令方面有很多幻觉,因为它是一种视觉应用程序

但我认为Apple可以很好地利用快捷指令,将其作为帮助人们、引导人们完成查找操作步骤的工具,无论它们是内置操作还是第三方操作,无论是来自某人已经安装的应用程序,还是它知道的操作,因为它拥有整个App Store数据库以及可用的快捷指令操作,从而为人们提供有关

关于他们可能想要使用的应用程序以支持其自动化的建议。是的。我认为我之前提到过这一点。我相信,这只是我个人的理论,Apple将对现在每个人都在做的AI代理进行的宣传,Apple的宣传将是快捷指令。我相信在某些时候我们将能够创建一个代理,它基本上是一种花哨的新型……

个人自动化,本质上。代理的整个想法是使用自然语言和大型语言模型来为你执行

后台的事情。我们在IDE和网络浏览器中看到了这些类型的代理,你告诉代理做一件事,比如为我在这家餐馆预订一张桌子。它实际上是一个大型语言模型,使用图像识别和UI脚本在网络浏览器中四处点击并为你做事,然后向你请求确认。

我认为Apple在这里有可能真正执行本机操作,因为它们拥有应用程序和框架,即快捷指令和应用程序意图来执行任务,在你的常用应用程序中做事情。但是界面很笨拙,个人自动化甚至更笨拙,而且它们在不同平台上的支持并不完善。它们仍然仅限于iOS和iPadOS,并且它们不同步。

我能想象这样一种情况:Apple会说,“你可以使用Apple Intelligence创建代理。它们基于快捷指令。

我可以看到Apple甚至在其努力赶上并摆出一副好面孔并说“我们做AI”的过程中将快捷指令重命名为代理。我可以看到Apple将快捷指令重命名为代理。就在那里的Apple代理怎么样?我们有Apple Intelligence,我们有Apple代理,对吧?我们有Apple代理。

呃,呃,我能看到这种功能成为基于快捷指令和基于应用程序意图的功能,你比如说,呃,我想要一个代理,呃,这显然需要更多的应用程序意图和更多目前在快捷指令中不存在的触发器和功能。现在,对。例如,一个代理说,呃,每当我收到John的电子邮件时,呃,

将其标记为重要。或者每当我将PDF保存到此文件夹时,使用当前日期重命名它。类似这样的东西,比如一个代理,你可以将其应用于照片、Safari、邮件、日历,或者任何你想要的东西。我认为任何与快捷指令集成的内容都是成为一个小代理的主要候选对象,它存在于你的设备上,由Apple Intelligence和Siri大型语言模型提供支持。

是的,我认为这是一个伟大的愿景。我认为我也很想看到这一点。我现在的问题是,系统的许多方面还没有变成操作,尤其是在Mac上。我的意思是,这些代理将在任何地方都很强大,但我感觉快捷指令在macOS方面仍然停滞不前。是的,是的。

所以我关于代理的愿望清单的第二部分是,我希望我们能从Apple Intelligence中看到越来越多的

多任务处理和生产力。进行对话很好。拥有与照片相关的AI功能很好。我认为潜力很大。同样,Apple非常适合做这种事情,因为它们制造计算机。OpenAI不制造计算机。Google制造。所以我认为Google实际上是Apple在这个领域的主要竞争对手。但例如,

让我少花时间管理我的文件、重命名文件、将它们整理到文件夹中。允许我使用大型语言模型来,我不知道,为我组装一个工作区。是的,我知道极客们总是想要手动排列他们的窗口,四处移动它们。你知道,John Siracusa会疯掉的。但我知道,我可能仍然想仔细排列我在Stage Manager中的窗口。但比如,

助手,当我坐下来工作时,打开窗口让我浏览网页并做笔记,并在旁边显示日历。而不是每次都必须重新创建那个工作区。我认为Apple将要做的,我认为整个Apple Intelligence的事情以及Apple将在未来几年进行的所有AI追赶会议是

我认为这是一种新的燃料,将使Apple能够考虑系统中新的功能。过去几年,如果你想想看,我们在iOS和iPadOS中真正看到了什么,除了自定义之外还有什么?你可以自定义的东西是有限的。现在我们有壁纸,我们有锁屏。过去几年,大多数实际的操作系统创新都发生在自定义方面。我认为与AI相关的这整件事是Apple从根本上重新思考我们如何操作计算机的机会。所以我希望他们能够超越Genmoji和Qt C,

对我来说很糟糕的图像,并真正拥抱生产力,人们实际上是如何使用他们的计算机的。

是的,我同意你的观点。我的意思是,事情是这样的。我的意思是,我知道你说也许极客们会想要把事情安排得井井有条,但我认为AI也可以在这里提供帮助,因为你应该能够按照你想要的方式精确地安排屏幕,然后告诉你的Siri AI,这就是我每次在Safari和Obsidian中想要工作的方式。创建,你知道,

为我保存它,然后能够启动它并重复它,并使其每次都能重复。这基本上是人们在Mac上使用Keyboard Maestro和Better Touch Tool之类的东西所做的事情。所以我认为这很有意义。我还觉得

有很多机会可以处理你设备上已经存在的数据。但我还想看到这个AI能够处理互联网上的数据。所以我想能够说,你知道,我想去一个网站查看一个巨大的信息表,然后说,你知道,Siri,使用这个网站上这个表中的数据为我创建一个电子表格。你知道,那种事情,无论是,你知道,

网页上显示的信息,无论是网页上链接的文件,无论是什么,都能做到这一点,为我创建这些东西,或者告诉它,去这个网站,那里有API文档,并向我解释如何将其与快捷指令集成。因为我认为这些事情将非常强大。另外,

这里还有一个开发者角度,那就是我知道我交谈过的许多开发者并不太热衷于Swift Assist,它是添加到Xcode中的LLM,你知道,Swift代码的自动完成。所以我认为那里有很多工作要做,因为我们看到了像Cursor这样的应用程序,它非常强大,也很受欢迎,

所以我认为,正如Apple在大型语言模型方面总体上有点落后一样,它在代码方面也落后了。这对让开发者满意很重要。所以我希望看到这一点也能快速发展。是的,开发者工具正在发生变化。这是一个事实。你只要看看人们用Cursor做了什么。太疯狂了。说到开发者,这里有一个问题要问你。

是否会有Siri LLM API?因为我认为,就像现在一样,实际上并没有Apple Intelligence API。我认为至少应该有一个本机API供应用程序处理数据。而且,你知道,看看有多少iOS应用程序具有ChatGPT集成,它可以让你以自动的方式改写文本。对。

我认为应该有一个Siri LLM API。这里还有一个后续问题。是否会有一个Web API?你是否能够向Siri LLM发出Web请求?是的,这将很有趣。我认为我可以看到这方面的一些方面。一个是……

以一种针对Siri LLM优化的方式来构建你的应用程序的数据。只是让它对数据类型以及它如何使用可用于LLM的不同操作有一些初步了解,无论是通过快捷指令还是

应用程序意图或其他方式。这部分内容。这基本上是他们对现有的应用程序意图模式和域所做的工作。对。但我认为这需要扩展,因为现在我们可能有十几个类别。我认为他们有12个类别,是的。是的,所以这需要扩展。但你是对的。问题不仅仅是构建应用程序中的数据。问题是第三方是否可以使用

Siri本身可以作为优化事物或在其应用程序内使用的方式。因为,你知道,App Intents更多的是关于事物之间的共享。这更像是一个用于处理应用程序中已有数据的API。所以,我的意思是,我们会看到的。我们会看到的。是的。我的最后一点,它只是一个更简单的事情。

我希望看到某种Pixelmator或Photomator风格的功能,通过一些新的AI功能进入照片应用程序,例如它们拥有的超分辨率功能,以及Pixelmator和Photomator中拥有的机器学习调整。我认为这些将成为照片应用程序中非常不错的补充。

我真的很想看看苹果今年对他们现在拥有的那些应用程序会做什么。是的。是的。我认为照片已经内置了一些这样的功能,但你是对的。我认为Pixelmator,特别是Pixelmator Pro,在分辨率以及其中烘焙的一些其他工具方面更进一步。因此,看看它如何融入其中将会很有趣,你知道,苹果可以做的事情。也许,我不知道,扩展标签的工作方式。这是,

这是一种不同的自动化方式,可以消除管理照片库的繁琐工作,基本上就是这样。是的。所以这就是我的愿望清单。而且,你知道,看着这些都没有发生,苹果反而做了图像游乐场。所以。

是的,我们会看到的。我们会看到的。我的意思是,还有很多事情要做。我认为你是对的。我认为这是为了设定期望。我认为这不仅仅是2025年的事情。我认为我和你将在未来两三年甚至更久的时间里讨论这个问题。所以它并没有放缓。希望苹果能够赶上。

但也进行创新,做一些其他公司尚未做过的事情。我认为现在是时候了,特别是,我认为苹果特别有能力摆脱聊天机器人的束缚。我认为聊天机器人在这些系统中占有一席之地,但是

但我认为聊天机器人不一定是所有LLM的UI的解决方案。通过访问操作系统本身,苹果有机会做得比我认为的任何其他公司都好。有一个想法,一款可折叠的iPhone,它可以借助AI自行打开。好的,Federico。

它在浏览器中启动Vivaldi。它通过AI打开和关闭。这是一个机器人iPhone。然后你告诉它在自身上安装Android并成为一部Pixel手机。我不知道。

好了,我们最好结束它。Federico,我认为我们最好在这里结束它。你可以在MacStories.net上找到我们俩。我们也在Club Mac Stories。这是我们的订阅服务。俱乐部会员可以获得各种各样的东西。他们会收到每周、每月的通讯。取决于你的……

你的等级。你可以加入我们的俱乐部discord。我们为我们的播客Mac stories unwind plus以及这个节目的plus版本做一些特别的事情,它会提前发布,并且是扩展的和无广告的。所以那里有很多很棒的福利。查看plus.club上的所有详细信息。当然,你也可以在我们的其他节目Mac stories unwind和NPC next portable console上找到我们。下周再聊,Federico。再见,John。