We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Vol.94 DeepSeek AI同声传译实用性如何?视听阁郭鑫专访(上)

Vol.94 DeepSeek AI同声传译实用性如何?视听阁郭鑫专访(上)

2025/5/8
logo of podcast 制作人FM

制作人FM

AI Deep Dive AI Chapters Transcript
People
郭鑫
Topics
郭鑫:目前AI动漫在制作片段时没有问题,但制作整部剧挑战性很大。要做出精品AI动漫,还需要一两年的时间才能走向成熟。我们也在关注这个契机,因为短剧在国内很火,出海市场潜力大。

Deep Dive

Chapters
本期节目邀请到视听阁创始人郭鑫老师,探讨AI技术在小语种影视配音领域的应用。郭老师分享了其公司从传统配音转向AI辅助配音的历程,以及AI技术带来的效率提升和成本降低。同时,他也指出了AI技术在处理俚语、缩写和文化差异方面的局限性。
  • AI技术提升了小语种影视配音的效率和降低了成本
  • AI在处理俚语、缩写和文化差异方面仍存在局限性
  • 短剧市场对小语种配音的需求量大
  • 公司核心竞争力在于AI技术提升配音品质

Shownotes Transcript

AI 動漫非常火大家都知道這個非常火也很多人在諮詢我們在做 AI 動漫但是實際我們在做片段的時候是沒問題但你要做整部劇來講這個挑戰性就相當大所以要求就是說要想做精品的話在 AI 這一塊還是有一段挺長的路要走應該一兩年時間還有一兩年的時間會走向成熟

感谢自媒体时代的商务社交百科直联百科 APP 的协助

凡在制作人 FM 节目后留言的朋友们可以免费获取由直联百科 APP 提供的全功能会员联卡今天在我们制作人 FM 的节目当中我们邀请到的是来自厦门视听阁工作室的创始人郭鑫老师

郭先生是为影视剧短剧电影广告等发行商提供英语法语印尼语等小语种的翻译以及配音等一站式服务的一位专业人士郭老师你好

好 李老师你好这个非常荣幸啊咱们能够在这样一个在线的方式来进行这个节目的录制跟大家的分享制作人 FM 这个节目啊以前呢一直是用这个面对面的这种录制的方式今天是第一次尝试用在线的方式所以有时候中间如果有信息断了或者是一些小瑕疵的话也请郭老师能够谅解

好的好的感谢李老师的邀请也祝你们的团队越来越壮大好谢谢那么郭老师我想先请您介绍一下您当初的这个从业背景是如何进入到小语种的影视配音这个领域当中的我们知道英语翻译成中文

包括最早的上海电影制片厂啊 益智片厂等等是很多的但是小于总的这个领域翻配啊 这个还是非常少见的请您介绍一下当时您的从业背景以及在这个职业生涯当中的关键的转折点是在什么时候 好吗李老师你好 那个我们主要转折点是在前年嘛

像您说的那个你说的那些翻译那些都是比较传统的以前的都是笔译的嘛都是人工听译的那自从那个加 GBT 开始以后然后逐渐的这个人工 AI 的那个翻译也进入了我们的视野那我正好是因为我学的计算机对这一块还是比较敏感的

所以后面就是在前年的时候就慢慢的进入了这个行业其实我们也算新来者也不算太久那对于小一种因为我们为什么会选择短剧翻译配音这一块

这一块主要是一方面是量大然后需求也比较我们做的场景比较适合这个短剧小说类的翻译跟配音您刚才说的量大是指的主要是短剧这个市场对于小鱼种的翻配的量大是吧

对对对对然后正好是应用的场景嘛比较契合因为短距它本身就是低成本制作然后低成本推广以那种批量的形式那种低价的销售方式来占领市场但你们主要是从这种小鱼种往中文翻呢还是从中文往小鱼种去翻译呢

主要因为短距是从我们中国的前两年刚兴起的这主要是在国内的兴起之后然后慢慢的因为国内的市场越来越卷了然后大家都在想都在考虑说用一种什么方式能够出海那最早的短距出海的是属于中文在线

旗下的那個楓葉互動楓葉互動他直接在海外拍攝短劇這個平臺做了一個楓葉互動這個大家都知道

他做了一年不是很成功吗最高的时候在那个苹果的 APP 和那个谷歌的 APP 排行第一嘛下载量排行第一超过了 Facebook 跟那个跟我们说的 TikTok 这些主流的 APP 那就很了不得了

那么当时你们是跟枫叶互动来进行合作呢还是跟拍摄短剧的这些公司来进行合作呢我们主要还是以最早是没有跟枫叶互动合作到现在枫叶互动因为我们这种的低价的策略在跟枫叶互动的使用场景上面还是有点相悖的

为什么因为他们要求的我们也有跟他们有战略合作有框架但是其实合作起来难度是蛮大的他们要求基本上都是人工他们要求的高品质目前对于 AI 来说还是一个进步的过程中

現在還沒辦法達到說人工這麼完美的一種狀態包括現在幾個行業 AI 能介入的幾個行業特別是今年 AI 動漫非常火 AI 動漫非常火大家都知道這個非常火也很多人在諮詢我們在做 AI 動漫但是實際我們在做片段的時候是沒問題的當你要做整部劇來講這個挑戰性就相當大了

所以要求就是说要想做精品的话在 AI 这一块还是有一段挺长的路要走应该一两年吧时间还有一两年的时间会走向成熟所以我们也是趁着这个契机因为短距在国内还是比较火然后出海去年这两年属于比较南海的一个市场

所以我们做的这两年多口碑也还不错对也是的因为我原来都是自己剪后来我交给了我们的小朋友来帮我剪结果发现他们剪的比我还快因为原来刚开始我不太放心主要是在于内容方面我怕他们万一有时候不能够理解现在年轻人其实很厉害了

对 但是因为我是原来做新闻的然后对于内容方面来讲我其实是比较关注的他们可能更多的是在于一些形式方面后来慢慢的就我让他们先也听了一下以后逐步了解了因为他们对刚开始对于像短剧等等方面来讲其实年轻人关注的短剧和我们关注的短剧还是有所不同的

我们可能更多的在制作呀在一些专业呀等等方面去进行关注而年轻人可能更多的是关注于一些狗血呀一些剧情的一些等等的对好那么我们接下来我觉得他想是那么郭老师你们公司所在的那么郭老师您所在的公司和团队啊你们的核心竞争力你认为是什么呢

我们现在这块怎么说呢我们还是坚持于品质核心竞争力就是其实你这个也问到我了主要还是为了用 AI 来提高品质在几个方面比如说我们跟同行都有比较过配音的我们主要还是侧重于技术这一方面

配音的这个我们那个跟别人比较的话还是会感觉会好一点比方说咱们过去讲人工翻译和配音的话呢可能是靠人去听那么现在你们用到 AI 的话你觉得在准确率方面以及速度方面有什么优势吗

速度方面不用说了肯定速度快很多很多了很多倍 AI 的几个优势还有我先说一下它的几个优势和劣势一个是它优势上面交付速度相当快另外一个就是它的成本是非常低的

成本是非常低主要也是在人工这一方面因为介入了人工就会低很多然后第三个

第三个我们就是说在我们不懂他对方文化的情况下文化背景的这一块的话他 AI 是可以给出建议他是应该是怎么样来贴合他们的文化这一块是 AI 其实比人会更好其实我们过去唐诗的这个了解的配音当中

很担心的一个就是关于因为文化差异比方说我们讲欧美有自己的文化一些习惯那么东南亚呢可能也有一些自己的一些习惯甚至包括一些宗教方面啊民俗方面的一些禁忌啊一些甚至一些礼遇那么这个时候的 AI 的话它能否真正的去带你们去进行识别呢对对对这方面其实 AI 方面比人工会更好有时候人工不一定想得到

或者需要去查资料但是 AI 它不需要那 AI 的劣势是在什么地方 AI 的劣势它就是主要的问题还是在于您说的理语还有一些理解不够透彻它理语或者一些什么我们对话的过程中因为短距离我们台词翻译它基本上都是以对话为主

那对话过程中它的有些反讽这一些东西我们这就是人工思维上面的那种思维上面的这些东西 AI 是没办法理解的没办法理解它有时候就反应就会经常会错对因为 AI 的话它可能更多的是一些比方说标准的语法或者一些正常的理解就好像我们中文讲到的一些

比方说我们讲的正常的程序句反问句但是我们如果谈到了一些我们的一些笑话的时候你如果直接翻译成法语或者直接翻译成英语或者直接翻译成像东南亚的一些小语种的话那么可能因为我们对他们的不太理解不太那种了解的话我们可能直译过去就不太方便了

对对对这一些就是但是 AI 就是去年就是今年 DeepSick 是什么时候开始的 DeepSick 是尽量是今年的 1 月十几号开始上线 1 月上线的 DeepSick 出来之后对我们别家的 AI 翻译我不清楚因为对我们来讲是 DeepSick 对我们的对这个翻译提升是非常之大的比方说

因为他们那个 DeepThink 里面它不是有个推理的功能 Thinking 就是思考对它的逻辑过程那我们正好就可以利用它这个我们的那个技术里面就是利用它的这个思考的过程来总结它这部剧的里面的内容或者每一句里面它所代表的含义

之后他以这个含义再来翻译的话准确率就会提高提高挺多的能不能理解就是 DeepSick 他的思考过程给你们翻译的人员提供了一个翻译思路的一个参考而不仅仅是每一句话语言的这种执意的对对对他就可以不用执意我们可以要求他不用执意

这个就是一些我们在做技术的时候我们在思考怎么利用它这个优点来提高我们的翻译质量能不能给我们举一个例子 比方说举个例子 就比如讲直译的话我们有翻了一句比较经典的就是我们说三十年河东 三十年河西

這個屬於俚語吧 對吧俚語的話 你要直譯的話它就變成英語它就直接以 30 年式合同 30 年式合習但是我們要通過它的思考和文化背景來講文化背景來翻譯的話它就變成在英語裡面它就會翻譯成了 Dog having his day

就是狗它总有它的那一天我们自己要是直译的话我们不懂得它这个意思但是在英语里面是有这个理语的这个成语的狗总有它的那一天这是英语当中的一个成语吗是一个成语 A dog has a history 那如果你像我们最常见的一个笑话型的经常聊到说好好学习天天向上

我們講「DD study」「DD study」「DD up」「Good good study」「DD up」那麼如果是用 AI 它給你一個怎樣的一個建議和反應呢?

AI 的翻译它就会根据我们本地的我们这句话的意思它会按照我们要求的按照要求的方向去翻译它不会说直接就翻译出来那么如果你们现在去翻译这句话好好的一天向上你们可能会怎么翻我们自己

比如说我们人工来翻的话就是努力学习努力学习提升自己这样来翻对吧那如果 AI 呢 AI 这个我现在没办法演示要不像 AI 它翻译你现在会比较深刻理解了也就是它能够

相对融入到他的这个就是比方说英文就融入到英国人的这个生活当中的一些理解中一些对对会理解的一些比较好的那个他的理解方式当然这个现在那个

AI 这一块今年感觉好像还是有瓶颈在这边等下个月看 DeepSick R2 出来了看结果会怎么样那你们觉得 AI 既然有的时候是能够帮助你们去理解一些场景但是刚才又提到说 AI 有时候它在理解方面还是有一些理语不是特别懂的这种关系这个怎么去理解这句话的两面性呢

他肯定也有很多他理解不到的理解不到的特别是古时候特别是现代的特别英语里面不是有很多的缩写这些东西的他基本上是没办法理解那么多那像我们很多的有的讲话的意思有一些讲话的怎么说呢

貼近的這個意思比如說我們講的應該打個比方是什麼句子呢比如說我們就像那個之前有一個說曹操曹操道類似這種的這種說曹操曹操道可能這種還比較

在我们语境里面还比较常用 AI 能识别的出来那像类似这种的有些不常用的 AI 它不一定能识别的出来它有时候就会直译出来但是在英语上面它词汇量毕竟都比较多英语上面翻译质量还算可以了现在比较挑战性的是小语种

小一种的 AI 翻译因为本身的语料并不是太多这是语料越少的它的翻译就越不准确是因为人工训练的少呢还是大家提供的素材少呢你现在训练的基本上都基于互联网的那一个资料嘛互联网里面的资料互联网的资料就看各个国家互联网资料的体量嘛

那提量少了提量少了它里面的语料少了翻译的质量它也没办法那么精准了那你们有没有可能说自己把一些语量或者是这些给做一些训练呢我们有在做这一块我们有在做这一块

主要我们现在目前就是主要在做的就是针对针对各国语言的台词就是字幕台词嘛影视台词这一块进行那个精准到时候就会我们训练完了那个翻译的模型就会更加精准

会更加精准的翻译就是按我们比如说我们把各国的那个公开的那个字幕文件我们都采下来采下来之后各个国家的语言都在里面然后进行训练那现在的话各个公司其实都在可能做一些类似于训练的一些工作

但你觉得像这种训练完以后的成果的话是各家保留在自己的本地化的这个资料库当中还是说会有一些在平台上的共享啊嗯共享共享肯定会有一小部分会共享就比如说我们我们的计划也是这样你

拿 20 万部的台词来训练的话我们只会拿出来比如说 1 万部的语料 1 万部也不少进行分享出来分享出来一个方面

本身你看 DeepSeek 这么重磅的应该是说顶尖的技术都公开分享了对不对而且是全公开的没有像它世界上还没有大模型像它这样全公开的包括算法都完全公开了

那我们也是想公开一部分出来到时候大家可以一起共享能把那个翻译的质量一起都提高起来不单单是英语英语其实大模型现在目前翻译的已经也足够好了那相对于像大模型新出来之后相对于像

DeepLog 跟谷歌翻译他们也都在做大模型的翻译这一块他们也都有在做毕竟一方面是闭源的但是他们做的可能方向因为他们是深耕艺他们自己翻译的技术翻译的精准性但它就没有灵活性就不够没有大模型那么灵活

你们在这个翻译当中有没有遇到过比较具有挑战性的一些案例挑战性的怎么说小一种比如说现在越南语语料不是偏少吗它的这个翻译的准确性就会差那我们一般来讲像我们翻译很多都是需要人工来成交的

我们会交给越南当地的母语进行审教等于是你们把中文用 AI 先翻译成当地所需要的语言然后再请当地的母语的这些人工来进行校正就校正校正对

他们校正完我们还会看一下他人工校正的跟我们翻译出来的差距是在哪里这个是我们要学习的一个方向那能不能就在这个话题把你们用 AI 翻译的这个整个的流程大概的情况给我们的朋友们来介绍一下我可以介绍一个大概的大概的因为

翻译这个实际上有一个很关键的步骤大家目前上面市面上面不是有很多现在也有 AI 翻译都很多大家觉得这 AI 翻译是速度也很快然后基本上不要成本你比如说用 DeepSync 百万 Token 才两块钱的对不对百万 Token 才两块钱跟四块钱它是翻译部才翻译部剧基本上

我们消耗的 Token 会比较多按他们自己消耗的 Token 也才几十万几十万个 Token 就够了几十万 Token 的话对于他们的成本大概是多少呢成本就几块钱就是几块钱这个是很便宜的然后就是轻微的一些人工的介入但是他们有时候很多就是说为了降低成本来讲他这个

他們忽略了 AI 翻譯它實際上也是需要一些資料要求一個是什麼一致性什麼叫一致性比如你這個人名你在這一集是這個名字它在下一集可能翻成另外一個名字你這個要去想辦法給它解決了

对我们发现就是我们在用 DeepSync 或者用一些 AI 工具的时候我们有时候同样的输入一个问题我第一次输进去的时候他给我的和第二次输进去给我的这个答案可能他就是有区别的这个有区别这种区别是正常的它是模仿人类的思维我们比如说对于同一个问题也不可能说第一次回答的跟第二次回答的完全一样是不能不太

对但是你刚才说到了就是比方说像人民啊喝的一些具体事物的时候他可能这个时候就得必须保持一致性了就

对 这个就必须要保持一则性但是我发现很多人就是为了讲究效率效率提高了 能源介入就少了能源介入少了 它这个成本就低了然后它销售的也低所以现在 AI 翻译也是卷得厉害翻译这一块也是卷得很厉害

是你看我们现在用到的各种翻译软件包括有些翻译的一些硬件比方说

某飞呀等等那么都提出了这个有几十种语言的翻译甚至像某曼呢等等还提出了像那种耳机配合的手机翻译软件甚至能够达到红尘翻译的这种什么这种水准响应的速度还非常的快那么这种你觉得它是真的有那么快还是说呃

在快的时候在质量方面会有一些很大的差异的它这个翻译的目的它并不是说你要质量多好只是让你听懂有时候还得让你去想因为毕竟比如说这种即时翻译即时翻译的话它都是每个单词来翻译那比每一句来翻译那肯定会差一点嘛

每一句翻译我们还有道庄句啊疑问句啊前面说几个句他怎么知道后面我是疑问呢还是疑问句还是什么句对不对所以他是按逐个单词来翻译那种翻译的原理是逐个单词快速响应快速响应逐个单词或者有停顿比如说我

讲了一半他识别 200 毫秒 200 毫秒的停顿他就说明你这句话结束了我就这句话就直接翻出来那实际上有可能我没解释讲话没讲完对是有这个问题然后他这个即时翻译只是仅仅是让你听懂大概能听懂

就跟我们用谷歌翻译谷歌翻译一样的你这个句子放进去它输出来你大概能看到特别是在一些摸铃两可的或者那个摸铃两可的一些句子或者我们有比喻句什么东西的它也是直译出来那人家理解起来也就费劲对吧

大家可能就是我们重复一下可能有的朋友没有太了解或者从中间一半来听的因为我们今天谈到的不是把外语外文翻译成中文而是把中文翻译成外语这是一种道的一种思维方式像我们平时来讲的话说看外文的东西或者听外国人来讲中文他可能一个词一个词

它其实中意外跟外意中其实是一个道理都是一样的主要的场景就是像翻译其实最大的应用场景就是社媒类 社交媒体社交媒体到时候后面这个解决了以后后面量会越来越大

你像我们平时跟这个外国人要是聊天的时候他们要是跟我们说中文有时候他们可能无法完全理解我们的一些意思可能他我们听他的中文就是一个词一个词或者是一句话可能并不是那么顺溜的但是我们能够听懂

但是如果我们反过来如果把中文翻译成外语万一我们没有翻译的那么顺的话会不会让外国人也听到我们就是母语的那些人听到我们的翻译会有一些笑话的感觉呢这个就是我们机械式翻译它就会有这种机械式翻译它就是会有这种感觉包括市面上流行的像那个你说谷歌的这些

这些主流的翻译产品基本上模拟上面也是都会有这种都会有机械感不会像人类这种思维机器现在还没办法学得到这里面的一些讲话的技巧这些

另外一个就是如果你们在翻译的时候那么它最后生成的刚才我们讲的是内容的翻译那么如果在语音语调以及翻译过去的这种形式上我们讲除了翻译还有一个配音的一个过程那么这个配音的过程的话我们 AI 又如何来掌握它的这种模拟人画的这种准确性呢

准确性现在的语音这一块实际上还是在比较初级的阶段现在 AI 还没有达到人们能接受的水平

就是说你也是就就现在的语音水平就跟我们现在的那个机器翻译是一个道理他也仅仅达到了机器翻译让你能听得懂但是情感语调还是没办法完全满足就有点像我们听到的 AI 的这种中文的文生这个视频有时候听到的就是一种比较

金属感或者是冰冷感的这种声音出来对冰冷感它没办法有那种语调现在慢慢的会好一点比如说我们现在主流的英语跟中文日语这几个语种现在模型的体量也都比较大语音语料都比较多这种的它听起来声音还比较舒服

那像其他的其他地方的就不一定会那么舒服了那我们对于我们最大的挑战是什么最大的挑战是影视类娱乐类的这些翻译比我们平常讲话的这个那挑战性是更大非常之大对因为影视化娱乐本身是带有表演感的嘛感谢郭鑫老师今天的精彩分享让我们了解了 AI 影视配音和翻译这个行业领域的背后

下一期我们将继续请郭鑫老师跟我们聊聊 AI 影视易配行业的一些相关话题敬请期待这里是制作人 FM 我们下期再会