欢迎收听来自播客《AI Unraveled》的深度解读,该播客由Etienne Newman创作和制作。他是一位资深的软件工程师,也是来自加拿大的热衷足球的父亲。如果您喜欢这些对人工智能的探索,请花一点时间在Apple上点赞和订阅播客。这真的对我们很有帮助。
所以今天我们要深入探讨人工智能领域最近发生的一系列事件。我们的新闻涵盖了人工智能在新闻业中的作用,你知道,人工智能的创作以及有时与之相关的挣扎,人工智能的伦理和营销,以及一些在理解这些复杂的人工智能模型的工作原理方面取得的非常酷的进展,你知道,引擎盖下发生了什么。像往常一样,我们的目标是分解这些关键见解,看看它们对你的意义。好的。是的,让我们开始吧。
彭博社,他们在金融新闻领域是家喻户晓的名字,对吧?他们最近尝试了人工智能生成的摘要。我想他们的想法可能是效率,快速地发布信息。是的,这绝对是目标。但是用户体验,好吧,一开始并不顺利。反馈强调了一些准确性和写作方面的问题。
感觉有点别扭,不太人性化。我想这表明,生成可靠且可读的新闻,对于人工智能来说并不像我们想象的那么简单。让你思考是什么让写作好的新闻对人工智能如此艰难。这不仅仅是吐出事实,对吧?这是解释,是背景,甚至是重要的叙事流程。没错。人工智能擅长处理大量数据,但将其转化为引人入胜、准确且可读的故事,仍然需要人类的专业知识。
这些错误不仅仅是小问题。它们确实影响了这些摘要的可信度。这表明,人为监督对于保持新闻的完整性是多么重要。
好的,现在让我们转向时尚。H&M想使用那些人工智能生成的模型,基本上是数字克隆。对此的主要反应是什么?它绝对引起了轰动。人们担心真实性。就像一个品牌用非人类的东西来代表自己,这到底意味着什么?提出了关于代表性和消费者如何看待它的问题,尤其是在一个完全围绕人类理想的行业中。对。
对。时尚蓬勃发展,依赖于渴望,与人类形象的联系。因此,人工智能模型可能会让人感觉虚假。人们期望透明度。H&M的举动引发了关于使用人工智能创造这些可能不切实际的美丽标准的更大辩论。这让你想知道看到人工智能生成的完美与在广告中看到具有其缺陷的真实人类模特相比的心理影响。绝对的。这是一个棘手的问题。与伦理道德,
以及消费者的需求不断变化。让我们更技术化一些。在弄清楚大型语言模型(LLM)如何理解语言方面取得了进展。我听说过这个新的视觉指南,它试图解释嵌入,以使其更容易理解。是的,这是朝着使这个关键的人工智能概念更容易理解迈出的重要一步。这是一个交互式指南,它关注的是LLM嵌入。将其视为数值表示,即捕获单词和短语含义的向量。
它们是LLM处理语言和连接不同文本片段之间联系的基础。因此,与其仅仅是抽象的数学,
本指南使用视觉效果来帮助我们实际看到这些单词和想法是如何以LLM理解的方式相关的。没错。想象一下意义的地图,其中含义相似的单词在一个非常高维的空间中更靠近在一起。本指南使用视觉效果和示例来说明它,以便我们能够掌握LLM如何理解上下文并执行文本相似性或类比等操作。这种清晰的解释至关重要。它帮助更多人理解人工智能。喜欢它。
它。我们对基础知识了解得越多,我们就越有能力应对这项技术,对吧?说到学习,有关于信息神经元的研究试图让人工智能更像真正的大脑一样学习。那里的核心思想是什么?这是最前沿的东西。
信息神经元是一种新型人工神经元,旨在比传统人工智能神经网络更密切地模拟我们的大脑如何处理和传输信息。目标是创造人工智能,使其学习速度更快,适应能力更好,更像我们。现在,事情变得非常酷了。因此,如果我们可以构建更像大脑一样学习的人工智能,
未来会意味着什么?可能性巨大。通过复制生物学习的工作方式,我们可以拥有使用更少能量和数据的人工智能系统。它们可以更具适应性,并且在新的情况下不太容易崩溃。想象一下在机器人、医学诊断,甚至理解智能本身方面的突破。它可以改变我们设计神经网络的方式。哇。这是一个深刻的思考。我们正在稍微改变方向。哦,
OpenAI似乎正在吸引大量投资,另一轮大规模融资正在进行中。是的。报告称,OpenAI即将获得高达400亿美元的融资。这对他们的潜力来说是巨大的信心,这肯定会推动他们在快速发展的人工智能领域的研究和开发。他们也预计收入将出现惊人的增长。我们正在谈论一些巨大的财务数字,对吧?
前景如何?OpenAI认为他们的收入今年将增长两倍,达到127亿美元。再往远看,他们预测,就是这样,到2029年可能达到1250亿美元。但要实现这些目标,他们需要继续大力投资。
2024年,他们遭受了巨大损失,因为你知道,构建和训练这些先进的人工智能模型以及所需的基础设施,这并不便宜。例如他们参与Stargate AI基础设施合资企业,这是一笔巨大的成本。对。因此,即使潜在收入巨大,领导人工智能发展的初始成本也很巨大。这笔资金似乎是他们保持竞争力并继续突破人工智能能力的关键。没错。它使他们能够吸引顶尖人才。
投资最佳基础设施并进行突破性研究,使他们保持在全球人工智能领域的领先地位。好的,现在让我们谈谈Anthropic。他们一直在做一些引人入胜的工作,试图弄清楚他们的AI模型Claude实际上是如何思考的。感觉像是朝着使这些系统不那么神秘迈出的一步。确实如此。感觉黑盒AI,好吧,有点可怕。
了解这些先进的人工智能模型的工作原理对于我们信任它们并确保它们得到负责任地开发至关重要。明白了。Anthropic一直在使用一些非常复杂的技术来窥探Claude的决策过程。一个惊人的发现是,Claude似乎使用了一种普遍的思维语言。
思想,超越了英语或汉语等特定的人类语言。这表明比仅仅处理单词更深刻的理解。哇,等等。一种即使在不同语言之间也能共享的概念表示方式。这太疯狂了。这表明存在更深层次的认知结构,而不仅仅是语言处理。他们还发现了Claude用于创造性文本的一些很酷的策略,例如它提前计划以在诗歌中包含押韵。
而且它具有这种内置的倾向,除非它非常自信,否则它会避免猜测,这是防止人工智能有时出现幻觉的关键因素。- 因此,通过了解Claude的工作原理,我们可以,好吧,不仅了解它能做什么和不能做什么,而且还可以指导它的发展,使其符合我们的价值观。- 没错。这种透明度对于信任、监管以及最终确保人工智能以道德和负责任的方式发展至关重要。
让我们从人工智能大脑转向人工智能工具。微软刚刚为他们的人工智能代码编辑器推出了这个深度研究功能。这对开发人员来说是如何改变现状的?这就像生产力的提升。
这个新功能基本上允许开发人员直接在其编码环境中进行研究、查看文档,甚至查找和使用代码示例。无需在应用程序之间来回切换。这是关键。它简化了事情。开发人员无需在应用程序和网站之间跳转以查找信息,他们可以在上下文环境中获得所需的一切。这可以真正加快开发速度,并使难题更容易解决。任何能使开发人员保持专注和高效的事情都是胜利,对吧?
现在让我们谈谈视觉AI。阿里巴巴的Quinn团队推出了他们的QVQ Max模型。它旨在使人工智能更好地理解和推理视觉信息。它的特别之处是什么?QVQ Max旨在超越仅仅识别物体和图像。它旨在解释整个场景,你知道,找出不同事物之间的关系,并根据它所看到的内容进行推理。这是朝着更深入地理解视觉数据迈出的一步。所以不仅仅是有猫,更像是猫
猫在地图上,地图在房间里。没错。它具有这种很酷的可调节思维机制。研究表明,让它有更多步骤来处理视觉信息会使其更加准确,例如分析蓝图、解决几何问题,甚至对草图提供反馈。阿里巴巴甚至提到他们想有一天构建一个完整的视觉代理。
一个可以与设备交互并玩游戏的人工智能。这对于自动驾驶汽车、先进的医学成像,甚至真正理解周围世界的人工智能助手来说都可能意义重大,对吧?绝对的。这是朝着具有强大视觉感知能力的真正通用人工智能迈出的重要一步。现在,人工智能的所有这些进步也带来了一些成长的烦恼。OpenAI最近不得不限制ChatGPT的使用,对吧?
那是为什么?好吧,似乎ChatGPT变得如此流行,如此多的人都在使用它,以至于他们的系统无法跟上。甚至有报道称他们的GPU(图形处理单元),即为这些模型提供动力的芯片,实际上过热了。这仅仅表明运行这些人工智能服务需要多少计算能力。
需求正在将硬件推向极限,这直接影响用户。还记得那些临时限制和免费用户的图像生成被延迟吗?是的,起初将图像生成限制为付费用户甚至不足以缓解压力。他们正在努力提高效率,希望很快解除这些限制。免费用户最终也应该获得图像生成,但可能会有使用上限。这表明人工智能算法A和D的硬件都需要不断改进。
绝对的。我们需要更具可扩展性和能源效率的硬件来满足需求。让我们回到Anthropic,他们开发了一个很酷的工具,他们称之为AI显微镜。
它有什么作用?这是一个帮助研究人员查看和使用LLM(如CLAWD)的推理过程的工具。基本上,它允许他们看到这些模型如何得出结论。他们发现的东西令人惊叹。他们看到CLAWD进行了多步骤推理,按顺序激活其神经网络的不同部分。当它创作诗歌时,它实际上会提前计划以确保押韵适合。对于数学,它似乎像我们的大脑一样使用并行处理。这难道不酷吗?
甚至还有一项单独的谷歌研究发现,在对话过程中,人工智能模型和人类之间存在类似的大脑活动模式,尽管它们的处理方式仍然非常不同,当然。因此,这个AI显微镜向我们展示了这些模型的工作方式,这是我们以前无法看到的。它对于构建更可靠和值得信赖的人工智能一定非常有价值。完全同意。通过更好地理解这些模型,像这样的工具使事情更加透明,建立信任,并最终帮助我们以更安全、更负责任的方向引导人工智能的发展。
好的,让我们稍微改变一下方向。WhatsApp现在是iPhone上通话和消息的默认应用程序。这是移动领域的一大变化。确实如此。看起来是从欧盟法规开始的。是的。但苹果现在已通过iOS 18.2在全球范围内推出了这项功能。因此,对于更新的iPhone用户来说,WhatsApp取代了苹果的iMessage和FaceTime,成为首选应用程序。有趣的部分是这可能会如何改变整个移动格局。
想想用户隐私、应用程序如何与操作系统集成,甚至这些科技巨头之间的竞争。这对苹果和Meta(Facebook的母公司)来说都是一大举动。是的,肯定值得关注。是的。是的。
回到那些资源压力,听起来ChatGPT的图像生成功能再次给他们的系统带来了很大的压力。是的,那些融化的GPU。对图像创建的需求巨大,这确实突显了这些生成式人工智能任务的计算密集型程度。他们仍在研究更高效的硬件和算法。这再次强调,随着人工智能变得越来越强大和多功能,基础设施必须跟上。现在,在教育领域,哈佛大学的一位教授创建了他自己的AI复制品,作为个性化导师。
这是一种非常独特的方法。这是一个了不起的实验。这个AI复制品可以全天候与学生互动,为每个人提供个性化的学习支持。这就像扩大了教授的可用性。因此,学生们可以在需要的时候随时从他们教授的虚拟版本那里获得一对一的辅导。
这确实可以改变教育的可及性。是的,它可以使个性化学习民主化并改变传统的教学方式。但正如我们在其他领域看到的那样,它也引发了伦理问题。教育中的人际互动呢?我们是否会过分依赖于一个重视人际关系的领域的人工智能?绝对的。潜在的好处很多。但我们也需要考虑缺点。
现在,一个更严重的话题。报告称,朝鲜的新型无人机可能使用人工智能来寻找目标并进行打击。这是一个很大的升级。这非常令人担忧。如果属实,这将是自主武器系统的一大进步。
人工智能自己选择和攻击目标,这会为全世界带来巨大的伦理和安全问题。这肯定会加剧关于规范战争中人工智能的讨论。这是一个严峻的提醒,人工智能可以用于善或恶,我们真的需要直接解决这些伦理和安全挑战。
另一方面,开源开发人员开始反击未经许可就获取其代码的人工智能网络爬虫。是什么驱使着这一切?开源开发人员中出现了一个越来越大的运动,旨在阻止人工智能爬虫未经请求就从存储库中抓取他们的代码。他们希望保护他们的作品,控制其使用方法,并确保获得认可。
因此,这是人工智能需要大量数据与开源社区知识产权规则之间的冲突。没错。这种抵制表明了人工智能训练数据周围的紧张关系。这可能会导致关于人工智能如何使用公共数据的新的规则甚至法律。
现在,在一次重大的商业举动中,埃隆·马斯克的人工智能公司xAI刚刚以高达450亿美元的价格收购了社交媒体平台X(前身为Twitter)。这是一笔巨大的投资。这太大了。似乎是一种战略策略。目标是将xAI的人工智能(例如他们的聊天机器人Grok)与X庞大的用户群集成在一起。他们想构建一个全能应用程序,
有点像中国的微信,通过引入人工智能驱动的功能。这里的潜力非常令人兴奋。X拥有用户和影响力,而xAI拥有最先进的人工智能。这确实可以促进xAI在人工智能竞赛中的发展,并将X转变为一个更侧重于人工智能的平台,这也是马斯克一直在谈论的。它肯定改变了人工智能社交平台的格局。它还在这个全能应用程序领域创造了一个非常有趣的参与者。
好的,让我们谈谈一些更有创意的东西。OpenAI的图像生成工具最近有一个,我们应该说,吉卜力工作室时刻。发生了什么事?人们弄清楚了如何使用OpenAI的工具来创建吉卜力工作室(著名的日本动画工作室)风格的图像。它在网上疯传,人们用那种立即可识别的吉卜力风格制作各种场景和角色。
我敢打赌它看起来很棒。但我认为这可能会引发一些版权问题,特别是吉卜力工作室的联合创始人宫崎骏对人工智能生成的艺术持怀疑态度。对。艺术风格不受版权保护,但OpenAI的工具如此出色地模仿吉卜力工作室,提出了一个问题。它是否未经许可就在吉卜力工作室的电影上进行了训练?
法律专家正在争论这是否属于合理使用或侵权。当人工智能能够如此出色地复制艺术家和工作室的外观时,这表明了棘手的法律基础。因此,即使它没有复制确切的图像,复制风格的能力也产生了一系列新的版权问题,可能会导致新的法律或对现有法律的解释。是的,随着这项技术的不断改进,这绝对是需要关注的事情。现在,让我们更深入地探讨一下OpenAI的财务预测。我们谈到的数字非常
非常令人震惊。他们将2025年的收入增加了两倍,达到127亿美元。这是巨大的增长,然后到2029年超过1250亿美元。这简直太疯狂了。看起来ChatGPT专业人士做得很好,加上越来越多的人使用他们的API、企业工具和团队计划。但正如我们之前提到的,即使有所有这些收入,他们也预计到2029年之前仍将亏损。为什么?因为他们正在对先进的计算硬件、训练人工智能模型和扩展整个基础设施等方面进行大量投资。
处于人工智能的最前沿非常昂贵。这就像运营一个大型云计算业务,但增加了推动人工智能极限的成本。高风险,高回报。如果他们的预测正确,回报将是巨大的。
说到图像生成,Ideagram刚刚推出了他们的3.0模型。它与其他模型相比如何?Ideagram 3.0是人工智能图像生成的一大进步。它因创建逼真的图像、提出创意设计、坚持特定的艺术风格以及比以前更快而受到好评。它现在也对每个人在其网站和iOS应用程序上可用。与其他模型相比,它有什么更好的地方?一个很大的改进是它如何处理图像中的文本和那些复杂的图形设计元素。您可以创建布局,包含徽标,处理排版,这些都是其他模型面临的挑战。他们甚至进行了测试,并在这些领域击败了来自谷歌、Flux和ReCraft的模型。他们还添加了这个样式参考功能。您可以上传图像以影响样式,他们还有一个大型预设样式库。而且它是免费的。太棒了。听起来Ideagram 3.0正在设定一个新的标准。
为从设计师到普通用户的所有人提供更高的逼真度和多功能性。完全正确。现在让我们谈谈汽车中的AI。宝马和阿里巴巴正在合作将先进的AI应用到在中国生产的宝马汽车中。他们计划做什么?这一切都是关于将最先进的人工智能应用到在中国制造的新宝马汽车中。
他们正在合作创建一个定制的人工智能引擎,以提升其智能个人助理(IPA)。更好的语音识别,更强的上下文感知能力,诸如此类。它将由阿里巴巴的Quinn AI模型提供支持,并计划于2026年在其新款车型中推出。很酷的一点是他们如何通过语音命令专注于实时服务。想象一下,查找餐馆、检查停车位、获取交通更新,所有这些都是免提的。
宝马还计划推出两个新的AI代理,CarGenius用于汽车诊断,Travel Companion用于个性化行程推荐。他们甚至还添加了手势和眼动追踪功能,以获得更自然的体验。他们希望使汽车更直观,更像是一个理解你的伙伴,而不仅仅是一台机器。这可能会重新定义车载技术。
一家大型汽车公司和像阿里巴巴这样的人工智能巨头合作。- 当然。现在,阿里巴巴还有一个新的多感官人工智能模型,QEN 2.5 Omni 7B。它旨在在移动设备上流畅运行,对吧?它的关键是什么?- 它完全是关于在您的手机或笔记本电脑上处理文本、图像、音频和视频,真正提升多模式功能。
就是这样。苹果和宝马显然都将在其在中国销售的产品中使用阿里巴巴的模型,他们将QN 2.5在7B开源,以便任何人都可以使用它。该模型使用这种思想家-说话者系统来实时处理所有这些不同类型的数据,专注于自然逼真的文本和语音。它在测试中实际上优于一些专门的音频模型。
阿里巴巴表示,它在移动硬件上运行效率很高,例如,想想为视力不好的人提供实时的音频描述。非常多功能。可以真正改变我们使用手机的方式等等。将其开源是一个重大举动。可能会导致大量新的应用程序和想法。
现在,比尔·盖茨做出了一个大胆的预测。人工智能将在十年内取代许多医生和教师。你对此有何看法?这是一个强烈的声明,绝对的。盖茨认为,人工智能在复杂决策和个性化学习方面将变得如此出色,以至于我们将需要更少的人类参与这些角色。这关乎工作和社会运作方式的巨大转变。我们真的需要考虑如何适应这种变化。
这对学校、工作以及我们的整个经济意味着什么?没错。我们必须为人工智能在一直以来都与人类技能和互动相关的领域中发挥更大作用的未来做好准备。回到ChatGPT,它现在有一个强大的新图像生成功能,对吧?是的,OpenAI已将GPT-4.0的图像生成直接引入ChatGPT。您可以在聊天中直接创建详细的图像。
它已成为一个多功能的创意工具,可以无缝地处理文本和图像。据报道,图像质量非常好,使ChatGPT成为人工智能图像生成领域的一个强大的竞争对手。它可以处理包含许多物体甚至疯狂抽象想法的提示。您可以仅用文字来改进图像,使整个过程更具互动性。多模式功能直接在ChatGPT中。
它在文本和图像以及那些超级复杂的场景方面仍然存在一些问题,由于需求量很大,免费用户仍在等待。尽管如此,对于ChatGPT成为这种多合一的创意助手来说,这是一个巨大的进步。对那些独立的图像工具来说,竞争更激烈了。
现在,对于一些更令人担忧的事情,朝鲜领导人金正恩展示了一些新的军事技术,包括人工智能驱动的自杀式无人机。这真是令人害怕的事情。这绝对是一个令人担忧的发展。他们还展示了一架更大的侦察无人机,以及这些自杀式无人机,它们旨在打击特定目标并自行操作。这表明朝鲜现在真的热衷于将其人工智能用于军事目的,这可能会破坏该地区的安全局势。这些类型的自主武器为每个人都带来了巨大的伦理和安全问题。
每个人。这肯定会加剧关于规范战争中人工智能的辩论。好的,让我们回到阿里巴巴的开源模型QEN 2.5 Omni 7B。
我们谈到了它的多模式能力,但它也旨在降低构建人工智能代理的成本。对。这是一个关键目标。通过将其开源并针对手机和平板电脑进行优化,他们使开发人员更容易、更便宜地构建人工智能代理。想想消费电子产品、汽车,各种各样的应用程序。它可以快速有效地处理不同类型的数据,这对于构建真正多功能的人工智能助手至关重要。
将其开源是一个重大举动,可以让许多开发人员和公司使用这项技术,而无需支付专有模型的成本,这可能会导致大量的创新。现在,谷歌也凭借其最新的人工智能模型Gemini 2.5 Pro掀起了一波浪潮。这个模型有什么新功能?Gemini 2.5 Pro是一个重大升级。它使用专家混合架构,这对于需要大量上下文(如复杂推理、数学、编码和逻辑)的测试非常有用。
据报道,它在一些关键基准测试中比GPT-4和Claude表现更好。它可供开发人员通过API使用,也可为Gemini高级订阅提供支持。听起来它针对的是那些更难的企业级任务。是什么让它如此出色?最酷的事情之一是它可以推理并仔细检查自己的工作,这对于软件开发等工作至关重要。
它还有一个巨大的上下文窗口,包含一百万个标记,因此它可以一次处理大量信息。它还在人工智能基准测试中打破了记录,显示了它的能力。听起来谷歌认真地想让Gemini 2.5 Pro成为处理复杂工作和解决问题的首选人工智能。
现在OpenAI终于为付费用户在ChatGPT中推出了图像生成功能。是的,如果您拥有Plus、Pro或Team,则可以使用GPT-4.0直接在聊天中生成这些图像。免费用户必须稍等片刻。此版本可以处理包含多个对象和那些富有创意、超现实想法的提示。您可以仅用文字来改进图像,使整个过程更具互动性。多模式功能直接在ChatGPT中。
它是一个更通用的创意工具,但也加剧了与那些专用图像平台的竞争。
Robby Barbaro:微软还在扩展其人工智能工具,为Copilot和研究人员以及数据分析师添加新的AI代理。你能告诉我们关于它们的信息吗?Amy Quinton:他们正在为Microsoft 365的Copilot添加两个新的专家。首先是Researcher,它完全是关于复杂搜索,从网络、公司文档以及各种来源提取信息。然后它可以编译报告并生成见解。然后是Analyst,它基本上是一个虚拟数据科学家,帮助用户清理、可视化和分析数据。
Researcher使用OpenAI的深度研究模型,而Analyst使用其O3迷你推理模型。两者都应该在四月推出。这表明我们正在获得更多为特定工作构建的专业人工智能工具。我们可能会看到更多这样的工具改变我们在金融、研究等领域的工作方式,随便你。完全正确。在法律领域,Anthropic刚刚在一场与音乐出版商的版权案件中获胜。判决是什么?
美国的一位法官否决了环球音乐集团和其他一些大型音乐出版商提出的初步禁令请求。他们声称Anthropic的Claude模型通过生成歌曲歌词而构成侵权。但法官表示,他们没有证明在这个阶段会遭受真正的损害,因此没有禁令。但是,案件本身并没有结束。这对人工智能开发人员来说是一个巨大的胜利,至少目前是这样。法官的裁决表明,使用受版权保护的内容来训练人工智能可能不被视为自动损害,并且可能并不总是需要
预先许可可能会改变人工智能版权的未来运作方式。这绝对是一个具有里程碑意义的案例,人工智能和音乐界的人们都会密切关注。好的,再次改变方向,谷歌的量子人工智能主管Hartmut Nevin对商业量子计算做出了相当乐观的预测。他说,我们可能会在五年内看到商业量子计算的重大突破,这比大多数人认为的要早。
他将此归功于错误校正、更好的模拟和材料科学等方面的进步。如果他是对的,那会如何改变现状?这可能是革命性的。量子计算可以从理论转变为真正强大的工具。想想药物发现、材料科学、密码学,甚至训练那些复杂的人工智能模型,这可能会改变我们计算的方式。
重大变化即将到来。苹果公司也在大力押注英伟达的AI硬件,对吧?是的,据报道,他们斥资10亿美元购买了一批英伟达GB300 NVL72服务器。具体来说,大约有250台专门为生成式AI和大型语言模型所需的大量计算而设计的服务器。他们正与戴尔和超微计算机合作,为他们的AI工作构建一个巨大的服务器集群。这很有趣,因为苹果通常专注于他们自己的苹果硅芯片用于AI,并谈论其隐私和安全优势。
看来他们现在优先考虑的是算力和可扩展性,即使这意味着使用其他公司的硬件。这些英伟达服务器是强大的工具,非常适合AI工作。这表明苹果对AI的重视程度,但也引发了关于他们如何在这种外部硬件下保持对用户隐私关注的问题。
尽管如此,这使他们在与其他大力投资AI的科技巨头竞争方面处于更有利的地位。毫无疑问,他们希望成为这一领域的领导者。英伟达也一直在展示他们对未来的愿景,看起来机器人是其中很大一部分。在他们的GTC 2025活动上,他们描绘了一幅由AI和机器人驱动的未来的图景。他们的首席执行官黄仁勋谈到了使用他们新的Blackwell芯片和AI基础模型来为下一代人形机器人提供动力。
我们看到了Agility Robotics、迪士尼,甚至波士顿动力等公司演示的案例,他们都使用英伟达的Isaac平台为他们的机器人提供支持。所以他们不仅仅提供AI大脑。他们希望为这场机器人革命提供整个基础设施。没错。他们希望成为这个新的AI驱动型机器人经济的基础。这是他们认为的下一件大事的一瞥。现实世界中的智能机器人。这是一个大胆的愿景。
另一家AI公司DeepSeq悄然发布了其AI模型的重大升级。它与知名模型相比如何?他们的新模型DeepSeq V30324旨在与GPT-4和CLAUD竞争。早期报告称,它在推理、编码和翻译等方面要好得多。而且,它使用比一些竞争对手更少的参数就能做到这一切。
DeepSeek还切换到开源MIT许可证,旨在成为开源AI的领导者,有点像Meta的Llama模型。有趣。开发人员的反馈如何?尝试过它的开发人员说它非常适合编码,可以创建几乎没有错误的复杂代码。一些人说它现在听起来更像机器人了,但凭借其开源许可证和这些改进,DeepSeek是这些西方模型的可靠替代方案,特别是对于那些需要强大、轻量级和多语言AI的人来说。AI模型领域竞争激烈,而且一直在变化。
Character.ai刚刚添加了一些家长会感兴趣的功能:家长控制。是的。他们新的家长洞察工具允许家长查看他们的孩子如何与平台上的AI机器人互动。他们可以看到孩子们与哪些机器人聊天,聊天的频率和时长。重要的是,他们看不到实际的对话内容,所以这是一个平衡,在给予家长一定控制权的同时保护孩子的隐私。好举措。
随着AI越来越普遍地被孩子们使用,家长需要一些保证。找到平衡点是关键。这是为面向年轻人的其他平台提供的模型。随着越来越多的孩子使用AI,我们可能会看到更多此类AI监督功能,以解决家长的担忧并确保安全。现在来说点不同的。
一家名为Earth AI的初创公司正在利用AI寻找有价值的矿物。真是另辟蹊径。他们没有使用传统的勘探和挖掘方法,而是使用AI分析地质数据和卫星图像,以寻找可能存在铜、锂和稀土元素等矿物的地方。是的。
这些地质AI模型帮助他们找到这些矿物的潜在来源,这些矿物对于电动汽车和可再生能源等清洁能源技术至关重要。这种方法可能比传统方法更环保,成本更低。这是气候技术、地球科学和AI的巧妙结合。这是一种创新且充满希望的方式,可以更可持续地寻找我们所需的资源。
医学诊断方面也取得了突破。一种新的AI在检测特定癌症方面非常准确。
研究人员开发了这个名为ECG-MLP的模型。它可以从组织图像中检测子宫内膜癌,准确率高达99.26%,这比人类专家和其他自动化工具都要好。哇,这精确得令人难以置信。它是如何做到的?它使用特殊的注意力机制来寻找人类可能错过的微小模式和癌细胞迹象。他们甚至在结直肠癌、乳腺癌和口腔癌等其他癌症上对其进行了测试,结果也非常好。这可能意义重大。
想象一下,对各种癌症进行早期、准确的检测。它可以挽救无数生命,并使专家级筛查服务惠及所有人。绝对的。这可能改变游戏规则。
现在,让我们回到科技巨头。苹果公司正面临对其承诺的AI功能延迟的诉讼。是的,针对他们的虚假广告集体诉讼正在进行中。人们表示,iOS和Siri的AI升级和功能已被承诺,但尚未按时推出。这表明这些公司面临着兑现其AI承诺的压力。
AI现在是一个重要的卖点,因此未能按时完成可能会严重损害他们的利益。此案可能会为公司如何谈论和规范AI功能树立先例。这提醒我们,炒作是不够的。在快节奏的AI世界中,你必须交付成果。
谷歌刚刚为Gemini发布了一些非常有趣的实时视频AI功能。你能告诉我们一些关于它们的信息吗?他们推出了实时视频和屏幕共享功能。想想实时翻译、转录、视频摘要以及视频通话期间的帮助。
他们推出了Gemini Astra,这是一个AI助手,可以分析实时视频和音频,并根据它看到和听到的内容做出回应。所以它就像一个在你视频通话中的AI助手,理解正在发生的事情。没错。想象一下在国际通话中进行即时翻译,或者获取屏幕上显示内容的信息。它可以改变我们远程协作、处理客户服务以及为残疾人提供更多便利的方式。
但一如既往,我们必须考虑使用此类视频数据带来的伦理和隐私问题。强大的工具,但我们需要负责任地使用它们。现在,南非开普敦正在考虑将AI用于交通信号灯。他们正在测试一种AI交通管理系统,该系统可以将车辆停车次数减少30%。
它使用关于交通、事故和行人活动的实时数据来调整交通灯的时间。这可能会改变人们在开普敦的出行方式。想想更顺畅的交通、更短的通勤时间,甚至更清洁的环境。