We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode S6E40|从单模态到多模态,人工“智障”何时才能不鸡肋

S6E40|从单模态到多模态,人工“智障”何时才能不鸡肋

2022/11/30
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
高建清
龙海涛
Topics
龙海涛:从AlphaGo的冲击到成立认知计算实验室,再到创业公司起源世界,专注于AI决策、AI生成和AI推理,最终目标是AGI。在游戏领域,起源世界提供虚拟玩家、AI设计师等解决方案,显著提高游戏开发效率。多模态AI是未来发展方向,目前商业化处于早期阶段。 龙海涛:起源世界专注于多模态AI,并将其应用于游戏、数字人等领域,实现实时互动。多模态AI技术复杂,商业化进程较慢,但未来市场空间巨大。 龙海涛:单模态AIGC商业化进程快,因为是对存量市场的升级,而多模态AI则创造新的需求。AI技术发展成熟度影响商业化进程,目前更适合线下生成。 龙海涛:起源世界选择从游戏AIGC入手,是因为游戏是验证AI能力的理想环境,并已在多个游戏中取得成功。AI可以显著提高游戏开发效率,例如缩短数值设计和武将设计时间。 龙海涛:AI算法比行为树算法更优,因为它可以从数据和经验中学习,上限更高。AI在游戏中的应用开发周期因场景而异,数值设计和AI设计师的开发周期较短,而虚拟玩家和虚拟角色的开发周期较长。 龙海涛:AI公司面临技术研发和商业化的双重挑战,起源世界通过技术和商业齐头并进的方式来应对。AI公司需要自给自足,才能长期生存。 龙海涛:元宇宙为通用人工智能提供了很好的载体和母体,而通用人工智能反过来可以为元宇宙创造内容和体验。 龙海涛:起源世界在数字人领域专注于虚拟人的智能化,并已有一些商业应用。AI驱动的对话系统应用于电商直播等实时互动场景。 龙海涛:数字人技术中最难的部分是眼神和微表情的驱动,而口型驱动相对成熟。未来三到五年内,大部分虚拟偶像的中之人都会被AI取代。 龙海涛:AI推理能力的突破需要底层科学技术的突破,时间难以预测。AI发展速度比预期更快。未来AI发展目标是创造高度智能、高度拟人、拥有情感的数字生命体,作为情感陪伴和生活助手。 高建清:科大讯飞在语音合成和语音识别领域取得了显著进展,并开发了相应的商业化产品。AI生成播客的关键技术在于语音合成和对话文本生成,语音合成相对成熟,而对话文本生成难度更大。 高建清:语音合成模型训练成本和时间相对较低,而图片生成模型则需要大量无监督数据和较长的训练时间。AI生成高质量对话文本的难度比语音合成更大,需要考虑观点的逻辑性和连贯性。 高建清:目前先进的语音合成系统已经能够达到很高的质量,与真人语音的差距很小。无文本语言翻译的难度很大,需要大量的平行语料。 高建清:AI语音合成技术在电影领域已有应用,但其商业应用仍处于早期阶段。语音合成技术的最大商业应用领域是语音交互,其次是听书、新闻播报和短视频制作。 高建清:未来语音交互将朝着个性化、情感化方向发展,成为有情感陪伴的系统。在技术领域,语音识别和语音合成是两个重要的方向,需要解决复杂场景下的语音识别问题和提高语音合成的自然度和情感化程度。 高建清:未来语音交互应用场景将更加广泛,例如开放领域的语音交互和海量音频的转写。

Deep Dive

Chapters
This chapter explores the rise of AIGC (AI-generated content) and its impact on various industries, focusing on its application in gaming. The discussion includes the evolution of AI, from decision-making to content generation, the potential of AIGC to revolutionize game development, and the shift from single-modal to multi-modal AI.
  • AIGC is revolutionizing content creation across various industries.
  • Multi-modal AI, integrating text, voice, expressions, and actions, is expected to have the greatest market impact.
  • AIGC can significantly reduce game development time by automating content creation, potentially shortening development cycles from years to months.

Shownotes Transcript

今年火出圈的科技行业热点不多,但AIGC肯定算一个。 AIGC,AI generated content ,翻译过来就是人工智能内容生成,人工智能可以自动生成文本对话、图形图像、语音声音。我们最近总在社交媒体看到AIGC生成的绘画图,许多网红和有影响力的kol也加入到了这种分享浪潮里,乃至成为了一股流行文化,就是技术进步带来的可感改变。 但在绘画之外,其实AIGC能做的工作还有很多。本期「科技早知道」由上下两部分组成,我们分别邀请了AI公司启元世界的CTO龙海涛,和科大讯飞AI研究院的副院长高建清博士,来跟我们聊聊在图形绘画之外的AIGC成果,希望能帮助对AIGC感兴趣的听众了解更多的行业发展。

本期人物 Diane,「声动活泼」联合创始人、「科技早知道」主播 龙海涛,启元世界CTO、联合创始人

高建清博士,科大讯飞AI研究院副院长

主要话题 [01:29] AlphaGo的横空出世对做传统机器学习的同学是很大冲击 [09:00]未来的虚拟世界都需要强大的AI能力生产内容 [10:35]多模态AI being还比较早期,单模态AI是对存量市场的升级 [15:23]目前的AI计算已经可以帮助游戏行业节省很多时间 [20:43] AI公司要能自己造血,养活自己 [26:31]虚拟偶像的中之人未来三五年都会被AI取代 [35:20] AI生成播客的关键技术在于语音合成以及对话文本生成 [41:31]无文本语言之间的互译看起来简单其实很难

延伸阅读

使用音乐 For the Business-Gerhard Feng

幕后制作 监制:信宇 后期:Luke 运营:Babs 设计:饭团

关于节目 原「硅谷早知道」,全新改版后为「What's Next|科技早知道」。放眼全球,聚焦科技发展,关注商业格局变化。

声动胡同周年月 了解年度活动:声动胡同漫游指南),这一个月每周都有的玩。 11 月 12 日 跟着「跳进兔子洞」采集声音故事) 11 月 19 日 「科技早知道」带你上房揭瓦) 11 月 22 日 - 28 日 请你来当一回「声动早咖啡」主编) 12 月 1 日 这次不想严肃了的「声东击西 」,票选嘉宾结果出炉!) 12 月 9 日 串门儿线下终场派对)

现在订阅声动胡同会员计划),可以报名参与以上所有活动,还有订阅优惠 国内支付渠道 新会员订阅一整年原价 365 元立减 50 ) 老会员续订一年可享受 8 折优惠) 国外支付渠道 国外月付限时8折)

声动胡同是以声动活泼北京办公室所在的前永康胡同为灵感,为听众打造的会员计划。 我们的会员计划包含:

商务合作 声动活泼商务合作咨询)

关于声动活泼 「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。

Special Guests: 高建清博士 and 龙海涛.