We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Ep 56: Distinguished Engineer at Waymo Vincent Vanhoucke Unpacks the Breakthroughs and Bottlenecks of Self-Driving

Ep 56: Distinguished Engineer at Waymo Vincent Vanhoucke Unpacks the Breakthroughs and Bottlenecks of Self-Driving

2025/2/26
logo of podcast Unsupervised Learning

Unsupervised Learning

AI Deep Dive AI Chapters Transcript
People
J
Jacob Efron
V
Vincent Vanhoucke
Topics
Jacob Efron: 本期节目讨论了大型语言模型 (LLM) 如何改变自动驾驶和机器人技术,Waymo 如何看待其车辆传感器数量,以及未来几年将决定该领域发展轨迹的关键技术。 Vincent Vanhoucke: 大型语言模型的进步增强了 Waymo 的自动驾驶技术,但并非完全取代原有系统。LLM 主要用于构建“教师模型”,利用大量数据训练云端模型,再将数据提炼到车载模型中,提升系统性能。LLM 为自动驾驶系统带来了“世界知识”,例如识别不同地区的警车和紧急车辆,弥补数据收集的不足。然而,对于安全、法规等方面,需要明确的规则和验证机制,不能完全依赖 AI 模型。 我加入 Waymo 的原因是亲身体验了其自动驾驶服务的便捷性和易用性。自动驾驶和机器人技术的核心问题都是感知、规划和执行,但自动驾驶更关注规模化和商业化应用。自动驾驶领域的主要挑战在于规模化,需要解决在行驶数百万英里后出现的各种长尾问题。解决这些问题需要结合仿真和现实世界数据,并通过模拟各种极端情况来提升模型的鲁棒性。可靠的物理真实世界模型是自动驾驶技术未来可能取得突破的关键。Waymo 在自动驾驶世界模型研究方面,既关注外部研究成果,也进行内部研发,并通过发布开放数据集来引导研究方向。Waymo 的自动驾驶模型在不同城市具有良好的可移植性,但仍需针对不同城市进行评估和验证,以确保模型的鲁棒性。Waymo 使用多种传感器(摄像头、激光雷达和雷达)来实现自动驾驶,这些传感器相互补充,提高了系统的可靠性。未来几年,传感器技术和模型性能的提升将共同决定自动驾驶汽车所需的传感器数量。自动驾驶领域的下一个重要里程碑是实现大规模商业化应用,并证明其在不同地理位置的可靠性。 Jacob Efron: 大型语言模型的应用为机器人技术带来了惊喜,特别是将自然语言描述转化为机器人可执行的计划的能力。未来几年,机器人技术的发展方向可能是既有通用的机器人模型,也有针对特定任务优化的模型。在机器人技术中,模拟数据和真实世界数据的应用存在争议,模拟数据在运动和导航方面效果较好,但在操作方面效果较差。大规模数据采集是机器人学习的关键瓶颈,需要探索更高效的人机交互方式来加速数据采集过程。大型多模态模型能够将视觉信息传递给机器人,从而简化数据采集过程,但仍然需要解决运动数据采集的问题。未来几年,机器人技术领域的关键问题包括运动泛化能力、机器人与其他 AI 领域的差异以及是否存在适用于机器人技术的规模化定律。计算机视觉技术在开放环境中的性能仍然有待提高,其应用前景可能与机器人技术密切相关。大型语言模型的推理能力超出了预期,其易用性将对人们的生活和工作产生深远影响。大型语言模型的测试时计算能力非常强大,但其应用范围和对其他领域的影响还有待观察。大型语言模型在需要多步骤推理和信用归属的领域具有应用潜力,例如强化学习。未来一两年,大型语言模型和机器人技术领域的关键问题包括世界模型的构建、模型架构的改进以及规模化定律的探索。大型语言模型的进步将对教育领域产生深远影响,但目前人们对此的讨论还不够充分。AI 技术在非技术领域的应用也具有广阔前景,例如食品工业。

Deep Dive

Shownotes Transcript

Waymo is an autonomous driving technology company with the mission to be the world's most trusted driver. The company operates a 24/7 public ride-hail service and provides over 150,000 trips each week across San Francisco, Los Angeles, Phoenix, and Austin, making mobility more accessible, sustainable, and safer for everyone.

In this week’s episode of Unsupervised Learning, we dive deep into the frontier where AI meets hardware — and there’s no better guide than Vincent Vanhoucke, Distinguished Engineer at Waymo and former Head of Robotics at DeepMind.

 

[0:00] Intro

[0:50] Waymo's Technological Evolution

[2:40] The Role of LLMs in Autonomous Driving

[6:02] Vincent's Journey to Waymo

[9:17] Challenges in Autonomous Driving

[11:58] Simulation and World Models

[27:44] Future Milestones and Expansion

[30:10] Broader Robotics and AI

[36:12] Future of General Robotics Models

[38:14] Hardware vs. Software Approaches in Robotics

[40:19] Challenges in Robotic Data Acquisition

[40:38] Simulation vs. Real-World Data in Robotics

[43:02] Human-Robot Interaction for Data Collection

[45:03] Advancements in Multimodal Models

[47:08] Unanswered Questions in Robotics

[52:02] Reasoning Capabilities in AI

[54:57] Future of Robotics and AI

[1:00:51] Quickfire

 

With your co-hosts: 

@jacobeffron 

  • Partner at Redpoint, Former PM Flatiron Health

 

@patrickachase 

  • Partner at Redpoint, Former ML Engineer LinkedIn

 

@ericabrescia 

  • Former COO Github, Founder Bitnami (acq’d by VMWare)

 

@jordan_segall 

  • Partner at Redpoint