We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode  #128. 计算机视觉遇上大语言模型

#128. 计算机视觉遇上大语言模型

2024/6/8
logo of podcast  牛油果烤面包

牛油果烤面包

AI Deep Dive Transcript
People
孙晨
斯图亚特
Topics
孙晨: 我在学校做科研,更注重培养学生,节奏和选题与企业不同。学校科研项目完成难度更大,但成就感更纯粹。近三年来视频生成技术取得突破性进展,生成式模型的应用令人震撼。学术界在工程能力和计算资源方面与企业存在差距,这可能会导致研究方向的调整。当前生成式模型仍存在幻觉(hallucination)等缺陷。将物理引擎与生成式模型结合,可以弥补生成式模型的缺陷,使其更符合现实世界规律。通过物理引擎验证生成式模型的输出,可以提高模型的准确性和可靠性。AI技术快速发展,使得以前认为遥不可及的目标现在已经实现。技术一旦走通,就会被快速改进和应用。自然语言是大语言模型与计算机视觉结合的关键桥梁,可以将多个模型串联起来完成复杂任务,例如生成菜谱。自然语言模型作为中心,可以整合多个领域的信息,完成复杂任务。大模型就像一个强大的计算平台,其应用取决于创意和开发能力。学术界需要寻找自身定位,适应大模型带来的变化。大语言模型是一个非常有用的工具,但其潜力和局限性仍需进一步探索。目前尚无法明确定义AI是否真正“理解”事物,深度学习模型是一个黑盒子。生成式模型学习到的是强大的表征能力,可以用于各种任务,但这并不意味着它真正“理解”了这些内容。创造能力并不等同于理解能力,生成式模型可以创造内容,但不一定理解其含义。当前的生成式模型在处理数量、概念组合等方面存在局限性。未来人们可能更多的是为AI提供数据和信息,成为AI的“辅助”。工业界对AI的研究存在同质化竞争,可能导致人才浪费。AI正在影响人们生活的方方面面,人们需要适应这种变化。AI的发展难以阻挡,人们需要适应并应对其带来的挑战。未来AI发展可能面临新的挑战,例如AI寒冬和高预期。当前AI技术应用广泛,但未来发展仍存在不确定性,例如AI寒冬的可能性。未来AI发展可能面临瓶颈,需要新的突破。AGI的实现更多的是一种信仰,其存在性和实现途径都存在不确定性。为了测试AI模型在新环境中的泛化能力,研究团队创建了一个宇航员太空行走的测试集。该测试集用于评估AI模型在新环境中的泛化能力。目前大多数AI模型在该测试集上的表现都不理想。想要进入这个领域,需要成为一名优秀的工程师,或者拥有独特的见解并进行深入研究。 斯图亚特: 学校科研和企业科研侧重点不同,学校科研更注重培养学生,节奏和选题与企业不同。以前认为遥不可及的用做菜视频生成菜谱的理想,现在已经实现。大语言模型不仅仅是一个AI技术,更像是一个指挥中心,可以整合各种信息。人工智能领域人才饱和,进入该领域需谨慎考虑。过去四年计算机视觉领域取得了显著进展,主要体现在生成式模型和扩散模型的应用。 Vindy: 无

Deep Dive

Shownotes Transcript

整整4年前,计算机视觉领域专家孙晨首次做客节目,介绍了计算机视觉领域的发展。如今,他再次做客,详细讨论了大语言模型对计算机视觉带来的巨大冲击与新机遇,并回顾了过去4年的显著变化。他提到生成式模型的崛起,使图像和视频生成技术取得了突破性进展,以及扩散模型在生成高保真度图像中的应用。孙教授分享了他的研究成果,包括一个用于测试模型在新环境中表现的宇航员测试集。他还探讨了大语言模型在医学、教育等领域的广泛应用和未来趋势,强调了工程能力在该领域的重要性,并提出了未来发展的挑战与机遇。

嘉宾:孙晨 主播:斯图亚特、Vindy 剪辑&时间线:季雨清

  • 00:01:53) 学校做科研和企业做研究的区别

  • 00:09:39) 短短4年,做菜视频生成菜谱的理想已经实现

  • 00:19:34) 学术界寻找自我

  • 00:22:37) 计算机视觉的最新进展

  • 00:29:01) AI具备“理解”能力吗

  • 00:37:16) 给AI打工

  • 00:44:41) 计算机视觉的可能未来

  • 00:51:24) 如何进入计算机视觉领域

欢迎您在每期节目下方给我们留言,和我们的主播互动交流。如果您对我们的志愿者工作有兴趣,请点击 这个链接) 看我们的招募帖;你有什么有趣的话题,想来作牛油果烤面包的嘉宾,或是对节目有任何的意见或建议,欢迎发邮件和我们联系。我们的邮件地址是:[email protected]

片头片尾音乐: Courante 1st Cello Suite Exzel Music Publishing (freemusicpublicdomain.com) Licensed under Creative Commons: By Attribution 3.0 http://creativecommons.org/licenses/by/3.0/)