We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

S7E33 | 3秒克隆声音？我们怎么面对 AI 的黑暗面

2023/11/1

What's Next｜科技早知道

AI Deep Dive AI Chapters Transcript

People

Leander

丁

丁教

Topics

丁教：深度伪造技术已造成巨大经济损失和社会影响，克隆声音和视频的难度和成本有待考证，但AI合成语音已能达到较高相似度，部分情况下可骗过亲友和机构。 Dr Adrian Kaehler：生成逼真的人声AI需要大量的声音样本，短音频难以实现精准复制，但学术研究中的AI算法，即使使用几秒钟的样本也能生成令人信服的合成语音，未来AI合成语音技术将更加成熟，普通人难以分辨真伪。引导AI说出特定的话语可以帮助判断真伪，因为AI难以完全复制说话者的个人特质和表达习惯。目前检测AI生成的文本的工具如同猫鼠游戏，准确率有限，学校不应回避AI技术，而应提高论文写作标准。 Leander：当前AI生成的文本质量已经超过80%的人类，难以仅凭文本内容判断真伪；未来AI生成图像和视频的质量也将超越80%的人类，普通人难以分辨真伪；目前大部分AI检测工具基于文本，且准确率不高，新的检测方法需要更精细的区分人工和AI生成的比例；在图像生成领域，AI生成的图像已难以与真实图像区分；AI加速了虚假信息的生成和传播，平台需要不断迭代技术和策略来应对；平台打击虚假信息的机制如同“猫鼠游戏”，AI生成虚假信息的效率和成本非常低，平台难以实时有效地应对；平台打击虚假信息的过程需要时间，包括发现问题、人工标注、制定规则、机器学习等多个步骤，存在时间差；社交平台对选举相关内容的监管非常重视，采取了多项措施，例如设立专门团队、鼓励可信赖信息源、利用社交网络追踪虚假信息等；目前各平台主要关注自身发展，缺乏合作制定统一的AI生成内容标准或检测机制；公众人物的信息泄露在AI时代难以避免，即使没有AI，信息也可能被大规模收集；AI只是降低了成本；目前AI语音生成无法做到实时高质量的交互，存在时间差。

Deep Dive

Chapters

本期节目探讨了AI克隆声音技术的难易程度、成本和所需样本量，并通过实际案例和专家访谈，分析了AI合成音频的真实程度以及如何辨别AI深度伪造内容。

AI克隆声音需要大量的声音样本才能达到真实的合成效果，仅仅依靠一小段音频难以实现真实的复制。
在学术研发中，几秒钟的样本就能合成令人信服的语音，但能否成功取决于想要说服的对象。
AI合成语音能够模拟声音失真效果，增加真实感。
未来2-3年内，高质量的AI合成音频将变得触手可及。
可以通过引导AI说出特定的话语来进行真伪判断。
AI难以准确捕捉说话者的个人特质，因为每个人有多种表达方式。

Shownotes Transcript

在 AI 深度伪造泛滥的时代，眼见不一定为实，有图不一定有真相。

深度伪造 (Deepfake) 指的是利用 AI 深度学习技术来生成或者操纵多媒体内容，包括合成某个人的图像、视频以及声音。在 ChatGPT 等 AI 大语言模型助力下，我们所面对的已经不再是一个只有假新闻、虚假消息的世界了。最近，国内外陆续出现了利用深度伪造技术进行 AI 换脸、拟声的诈骗案例，被骗金额高达上百万，成功率甚至接近 100%。

身为播客行业的工作者，我不禁思考，制作一个高度逼真的 AI 合成音频究竟有多难或者多容易？其真实程度是否足以骗过我的家人和朋友？需要多长成本、时间和声音样本，才会让 AI 合成更加准确？我们怎么去辨别 AI 深度伪造内容？为了阻止 AIGC 的滥用，AI 科技公司以及相关平台做出了哪些努力呢？在 AI 技术狂奔式的发展的今天我们又应该如何保护自己的隐私？

这次节目是我的一个不一样的尝试，欢迎大家在评论区告诉我你对这一期节目形式以及对 AI 生成内容滥用的看法。

本期人物 Dr Adrian Kaehler，AI 领域科学家，EDEXAI 的创始人兼 CEO Leander，AI 算法科学家丁教，声动活泼联合创始人，「科技早知道」主播

时间轴 [01:57] 尝试使用 AI 克隆播客主播的声音，你打多少分？ [02:58] 美国记者的 AI 拟声实验，居然成功骗过家人朋友、Snapchat CEO和银行？ [04:27] 只需 3 秒就能克隆声音，一张照片就能换脸？ [08:21] 用工具检测学生作业是否为 AI 生成的，有必要吗？ [09:47] 如何辨别 AI 深度伪造的内容？现在是道高一尺还是魔高一丈？ [14:38] 社交媒体平台怎么发现并且处理 AI 虚假信息？平台怎么应对战争、大选满天飞的假内容？ [21:58] 个人信息泄露不可避免的 AI 新世界，我们该如何保护自己？

关联链接 英国能源公司 CEO 被 AI 合成语音骗走 22 万欧元) Microsoft 发布 AI 声音生成工具 VALL-E) 10分钟被“好友”骗走430万元！如何警惕AI“深度造假”？) 华尔街日报记者 Joanna Stern 的 AI 克隆实验原视频) How to stop AI deepfakes from sinking society — and science)

关联节目 AI Agent 智能体真相和未来 | 硅谷徐老师对话英伟达、DeepMind大模型专家（上）) 贫穷限制 AI 想象？｜硅谷徐老师对话英伟达、DeepMind 大模型专家（下）) S7番外｜OpenAI创始人说教育一定会适应ChatGPT，他说对了吗？) S6E47｜年终总结3：AIGC可能改变人类未来，但它知道自己的未来在哪里吗？)

幕后制作 监制：丁教、Jecci 声音设计/配音：迪卡普里鑫运营：瑞涵设计：饭团

加入声动胡同会员计划 成为声动活泼会员，支持我们独立而无畏地持续创作，并让更多人听到这些声音。支付 ¥365/年) 成为声动胡同常住民。加入后，你将会在「声动胡同」里体验到专属内容、参与社群活动，和听友们一起「声动活泼」。

在此之前，也欢迎你成为声动胡同闲逛者) ，免费体验会员内容、感受社群氛围。了解更多会员计划详情，我们在声动胡同等你。)

商务合作 声动活泼商务合作咨询)

加入我们 声动活泼正在招聘全职「节目监制」、「节目营销」、「商业化项目管理」，查看详细讯息请点击链接)。如果你已准备好简历，欢迎发送至 [email protected])，标题请用：姓名+岗位名称。

关于声动活泼 「用声音碰撞世界」，声动活泼致力于为人们提供源源不断的思考养料。我们还有这些播客：声动早咖啡)、What's Next｜科技早知道)、吃喝玩乐了不起)、反潮流俱乐部)、泡腾 VC)、商业WHY酱)、跳进兔子洞) 欢迎在即刻)、微博等社交媒体上与我们互动，搜索 声动活泼 即可找到我们。期待你给我们写邮件，邮箱地址是：[email protected])

欢迎扫码添加声小音，在节目之外和我们保持联系。

Special Guests: Dr Adrian Kaehler and Leander.

S7E33 | 3秒克隆声音？我们怎么面对 AI 的黑暗面 26:11 Share

What's Next｜科技早知道

Deep Dive

Shownotes Transcript

S7E33 | 3秒克隆声音？我们怎么面对 AI 的黑暗面