谷歌在其最近的 Google I/O 大会上发布了许多有趣的东西,其中一些我认为并没有像其他一些那样受到关注。因此,我想谈谈我在 Google I/O 大会上参加并亲身经历的一些我最喜欢的公告。
分享一些我认为将在人工智能和行业中产生最大影响的观点。所以让我们开始吧。在此之前,我想提一下,我的初创公司 AI Box 正式推出我们的第一个产品 AI Box Playground,它基本上允许你使用所有不同的顶级 AI 模型并在同一个聊天中与它们进行聊天。因此,我们有 Anthropic、Cohere、DeepSeek、谷歌、Meta、微软、Mistral、英伟达、OpenAI、Quen,
XAI,大量的图像模型,文本转语音和语音转文本模型。很酷的是,你可以在同一个聊天中与它们全部聊天。它们理解先前模型的上下文。如果你想
爪子做一些你认为睁眼没有很好语调的事情。你可以在模型之间切换。你也可以问它一个问题,让两个模型生成回复或四个模型生成回复,然后点击一个小小的比较按钮,并逐一比较所有回复,看看哪个最符合你的喜好。我认为这对于图像来说尤其酷,因为我们有很多很棒的图像模型。你给出一个提示,
并让三个不同的图像模型生成图像。然后你可以很容易地选择最喜欢的那个。不同的模型与其他模型相比有很多有趣的细微差别。非常酷的平台。每月 19 美元。你不需要订阅所有前 20 个平台。每月支付 19 美元。你可以访问这里的所有内容。
它是 AIbox.ai。描述中有一个链接,我希望你能尝试一下。我们刚刚将其作为测试版推出,我对此感到非常兴奋。好了,让我们来看看谷歌在做什么。我想首先谈谈谷歌发布的一个重要公告,那就是嵌入到 Google Meet 中的自动语音克隆和翻译功能。他们展示了一个演示,其中基本上是,你知道,有人参加了会议语音会议,在其中,
你知道,他们正在说话,他们基本上会说些什么,他们会说话,他们启用了这个功能,然后他们会暂停一秒钟。然后它将成为他们自己的语音克隆,用他们正在与之交谈的人的语言说话。这使得它非常有用,无需
基本上不需要翻译人员。我可以想象这对于几乎任何与其他语言的人进行业务往来的企业都非常有用。你甚至可以想象,你知道,有时我觉得即使在 AI Box 中,我的同事也来自其他国家,英语是,你知道,不是他们的母语。英语有点困难,但他们在他们所做的事情上非常有天赋。因此,当我们打电话时,你知道,有时我们有,例如,来自日本的开发人员,英语对他们来说是一场斗争。他们是不可思议的开发人员。
因此,当我们讨论需要完成的工作时,有时我们会误解事情,你知道,它并不那么清楚。所以这是我们最大的问题之一。现在,如果我们有这样的工具,我们可以讨论需要在项目中完成的工作,它会直接翻译成例如日语的母语。当他们回复时,它是英文的。我们非常清楚发生了什么。我认为这是一个绝对的改变游戏规则的东西。我认为它实际上……
像这样的工具将解锁。这看起来像是一件小事。就像,哦,酷。Google Meet 中内置了一种翻译功能。我认为这个工具本身将能够以前所未有的方式解锁在其他国家招聘人才的能力。不再需要英语了,你根本不需要
说英语就能在许多小型初创公司工作。我知道像大型公司一样,这不是问题。也许谷歌有一个完整的日本总部,他们甚至不说英语,没关系,因为那是他们在那里做的事情。我觉得你需要在大多数组织中,尤其是在小型企业或中型企业中,以特定语言进行跨部门协作。所以我认为这对在其他国家招聘说不同语言且才华横溢的人来说是一个真正的改变游戏规则的东西
这个特殊的工具。我认为另一个真正有趣的公告是谷歌在其 Gemini 应用中内置了全新的视频体验,基本上使用 Gemini,但这就像一种视频模式。现在,ChatGPT 推出了类似的东西。
但很高兴看到谷歌以更大的方式推出它。但基本上,你可以四处走动,将你的相机对准物体,并与它进行语音通话。你问它你看到的东西。这太棒了。你知道,他们将其演示为,哦,这对盲人来说真的很酷。他们只需指向相机,然后说,嘿,我看到了什么?它就像,哦,这是一个乐谱架。如果你在找架子,架子就在那里,这个人可以使用它来做事情。但我认为它实际上对日常事物非常有用。我用
图像这样做。所以我拍下某物的照片,然后我说,grok,我在看什么?这个位置在哪里?或者我需要更改的部件在哪里,以便进行我的汽车修理?这些 AI 模型擅长此项工作。我认为视频将其提升到了一个新的水平,因为你可以在视频中看到许多在图像中可能无法很好地看到的细微差别和细节。话虽如此,我的意思是,这有点像每秒拍摄数十亿张屏幕截图。这就是这些
视频模型的工作方式,但他们能够推出这一点确实令人印象深刻。所以这是一个我非常非常期待的功能。另一个让我非常兴奋的是……
我的意思是,不太兴奋,但我只是认为它真的很令人印象深刻,那就是谷歌的 Gemini 应用拥有 4 亿月活跃用户。我认为这里很重要的一点是,我们还有其他参与者,对吧?Meta 就像,是的,我们的 Lama 模型有 5 亿用户,或者其他什么,但他们没有具体说明,如果你只是在 Instagram 上搜索某些东西,从技术上讲,那就是 Meta AI。因此,从技术上讲,那就是 Lama 模型。因此,他们并没有真正说明所有这些用户来自哪里。他们将其嵌入到我认为的其他服务中
混淆了实际尝试使用 Meta AI 的人数。有了这个,情况就不同了。他们在实际的 Gemini 应用上表示,他们拥有 4 亿月活跃用户。所以这是一个非常大的数字,因为我认为 ChatGPT 约为 6 亿。因此,就实际尝试下载该应用并使用该应用的人数而言,它并没有落后太多。这就是我兴奋的原因。当然,他们还有令人难以置信的新
视频模型,这确实令人印象深刻。我认为总的来说,谷歌一直在做很多事情,这确实提高了其产品的可用性和可行性。最后我想提一下,当我在 Google I/O 大会上时,我实际上看到了谢尔盖·布林。他在那里。
有点像测试实验室,还有很多其他人。他正在进入并测试新的 VO3 视频创建工具,让它做一些事情。我确实认为谷歌的情况要好得多,我对谷歌比以往任何时候都更加看好,仅仅是因为他们拥有一位最初的创始人
重返行动。显然,他非常关注每一个细节,他们发布的每一个产品。他亲自测试过,尝试过。我认为这需要创始人拥有高度的自主权才能真正对公司进行新的指导。我认为他正在对谷歌施加非常强烈的指令,以做出一些重大改变。例如,当他们宣布时,你知道,他们
在这个会议上,他们正在向搜索添加 AI 模式,他们基本上拥有一个完全独立的类似 ChatGPT 的困惑体验,它消除了过去的所有蓝色链接。你知道像谢尔盖这样的人必须在那里才能真正推动他们,例如,说,看,这可能会蚕食我们的一些广告收入,但我们必须这样做,因为这是未来,否则谷歌将面临严重的破坏。为此,我……
对谷歌正在发生的事情感到非常兴奋和乐观。我会随时向你更新他们推出的所有最新内容。他们正在使用自动驾驶 Waymo 和他们在会议上发布的以及正在推出的许多其他有趣的公告做很多事情。所以我会随时向你更新所有这些信息。非常感谢你今天收听播客。请务必查看 AIbox.ai。如果你想查看我自己的初创公司,
我们的第一个产品 A-Box Playground 非常棒。如果我说的话,我对此感到非常兴奋,但我真的希望它首先能为你节省大量资金,而无需订阅前 20 个顶级模型,还能让你通过测试比以往尝试过的更多模型来学习更多关于 AI 的知识,因为你会惊讶于某些模型在某些任务上的表现要好得多。图像、音频、文本,所有这些都在 AIbox.ai 上。非常感谢你的收听,我们下次再见。