We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 20.从2024到2025,大模型浪潮的回顾、认知和预判

20.从2024到2025,大模型浪潮的回顾、认知和预判

2025/1/7
logo of podcast 卫诗婕|商业漫谈Jane's talk

卫诗婕|商业漫谈Jane's talk

AI Deep Dive AI Insights AI Chapters Transcript
People
卫诗婕
独立商业作者,曾任极客公园执行总编,专注于商业、科技和人文领域的深度报道和分析。
张海庚
李子玄
李杨
樊家瑞
Topics
张海庚:2024年大模型发展呈现出理性回归的趋势,企业应更关注用户价值和商业价值,避免盲目追求快速发展。 从技术层面来看,多模态技术成为主流发展方向,视觉模型迭代速度甚至超过语言模型。 从产品层面来看,企业应更理性地看待大模型的变革速度,回归用户价值和商业价值,聚焦于现有需求中寻找新的机会。 卫诗婕:2024年大模型发展趋势:从狂热转向冷静,从卷基础模型转向卷应用,多模态探索成为主流。 2024年大模型发展关键词:以终为始,更细分化的卷,Perplexity的指标体系值得参考。 大模型应用落地需要深入了解用户需求,满足用户痛点,并提供比替代方案更好的解决方案。 樊家瑞:2024年大模型发展关键词:多模态、认知、预判。 国产自研大模型在多模态生成方面引领世界,不再跟随美国。 多模态大模型技术门槛高,精准认知行业需求和预判技术发展方向至关重要。 大模型应用场景的三类关系:老场景下爆发的新需求、新需求与老场景切合但发展趋势不同、新需求边界小于老场景。 生数科技的技术突破:面部一致性、主体一致性、多主体一致性,并与行业场景紧密结合。 李杨:2024年大模型发展关键词:回归理性。 快手做AI的思路:务实,从零开始训练模型,先聚焦内部业务场景。 快手大模型应用方向:升级理解、做好互动、探索生成。 可灵AI的成功秘诀:快速迭代,从用户反馈和实践中学习。 大厂在组织协调和目标聚焦方面面临挑战,但具备资源优势。 李子玄:2024年大模型发展关键词:以终为始,更细分化的卷,Perplexity的指标体系值得参考。 确定目标和指标对产品成功至关重要,要让团队为一个方向努力。 智谱清言和AutoGLM的应用场景仍在探索中,尚未完全定义用户需求。 开发大模型应用需要深入了解用户故事和替代方案,并与用户进行深入交流。

Deep Dive

Key Insights

What were the key trends in the development of large models in 2024?

In 2024, the development of large models shifted from a frenzied pursuit of benchmarks to a more rational focus on application-specific optimization. A significant trend was the exploration of multimodal models, where domestic Chinese teams began leading global advancements rather than following U.S. innovations. Visual models evolved faster than language models, reflecting a more application-driven approach.

What high-value application scenarios were discovered in 2024?

Three high-value application scenarios emerged: (1) traditional scenarios where new demands exceeded expectations, (2) scenarios where new demands and old contexts diverged, such as in gaming and animation, and (3) scenarios where new demands were initially smaller than old contexts but had potential to expand, like in short films and movies.

How did Kuaishou approach AI development in 2024?

Kuaishou adopted a pragmatic approach, focusing on internal business applications rather than seeking AI-native opportunities. They set clear goals for training from scratch and applied AI to upgrade understanding, enhance interaction, and explore content generation. This strategy yielded significant benefits in platform governance and recommendation accuracy.

What are the key predictions for large models in 2025?

In 2025, the industry expects multimodal models to become more efficient and universal, fostering new product forms and content consumption methods. Applications are predicted to bloom across various verticals, driven by technological advancements and user acceptance. The focus will be on building core competencies and considering broader alternative solutions.

How did Shengshu Technology leverage its technical leadership in 2024?

Shengshu Technology, a pioneer in multimodal generative models, focused on deep integration with industries and users. They launched the world's first long-video generative model, Veedo, and collaborated with top-tier clients to create new workflows, especially in gaming and animation. Their technical breakthroughs, like facial and multi-subject consistency, were deeply aligned with industry needs.

Chapters
本期节目回顾了2024年大模型技术浪潮,总结了关键词,并探讨了多模态成为主流趋势的现象。国产自研大模型的技术演进不再跟随美国,而是引领世界发展。
  • 多模态成为2024年大模型发展关键词
  • 国产自研大模型技术演进不再对标美国
  • 多模态大模型技术门槛更高,对行业认知和预判要求更高

Shownotes Transcript

一开始的时候大家的普遍感受是我要找 AI Native 的机会我要找 Super App 的机会那两年过去了吧大家逐渐发现可能这个变革没有那么快那么一错就去年感觉没有听到快手在做大模型这件事情今年突然爆发了 CleanAI 推理此刻也是一个很昂贵的业务如果我们像传统的互联网那样模式去探索的话我们连回血的机会都没有可能就被干费了

互联网站上它有自己天然的一些流量的优势不过创业公司基于技术上的认知对于产品最终模态的一个预判我们未来在价值链上也会吃到很厚的一块豆包确实太强了这毋庸置疑但是人还有什么这人屁人还不能替人可能豆包它将来代表着我对于某一类最大体量用户的需求的满足但是不代表说其他的就没有市场空间了

从多模态生成大模型开始国产自研的团队它的技术演进历程不再是对标彼岸了都是源于此岸而非彼岸了 24 年的时候围绕桌门它有了认知和预判 25 年它可能会产生高效和通用在未来内容交互上消费上面可能是像黑天鹅一样的变

Hello 大家好,欢迎来到商业漫谈,我是诗杰。这是 2025 年的第一期节目,内容还是有关大模型这股技术浪潮。生成式 AI 这项在未来可能从根本上改变我们的生产、消费方式的技术,在 2024 年到底经历了怎样的探索和实践,2025 又会有哪些发展趋势?

我相信这个议题仍将会是 2025 年中国乃至全球科技商业领域里最重要的叙事之一本期节目的含金量很高三位嘉宾分别来自三家大模型领军企业他们分别是来自快手的

做出了去年爆火的可灵 AI 的负责人李阳以及全球范围内继 SORA 之后第一家发布长视频生成模型 Vito 的深数科技投融资负责人樊嘉瑞还有来自智普科技的战略总监李子玄本期节目录制于 2024 年 12 月 AI 产品榜的大会现场

我是本场的主持人魏诗洁今天这个场子非常的热闹我还有一位搭档主持张海根老师他也是有一个公众号叫张无常是长期去关注 AI 前沿的信息的之所以今天会有两位主持人主要是想让我们这个圆桌更有干货那我将从商业进程和行业的角度更多地去提问海根会更多地从产品的角度

那接下来呢就把时间交给我们台上的三位嘉宾分别介绍一下自己所在的公司和自己的身份好吗先从质朴的李总开始大家好我是质朴 AI 的李子权我现在是负责质朴 2C 这边的产品战略还有生态其实在座的好多我也都认识谢谢大家大家下午好

我是生数科技的投融资负责人樊嘉瑞这里代表生数科技作为全世界范围内多模态生成大模型起步最早研究最深的这样一个团队非常荣幸和大家共同探讨从模型到 AI 应用的讨论谢谢好 谢谢李扬

大家好我是来自快手大模型团队的李杨我目前主要在负责我们整体的 CleanAI 的产品和运营同时也负责快手大模型在快手内部的落地应用很高兴今天能在这个场合跟大家一起探讨一下 CleanAI 的一些落地的经验也包括我们大模型在我们快手内部应用的一些情况

今天其实都是行业里面非常头部的从业者那我呢其实在 2023 年的时候是在一家科技媒体担任总编所以我当时和我的同事们一整年的时间都在关注国内大模型的创业的进程可以说当时是非常的热情高涨但是随着从 2023 进入到 2024 我自己也是有观察到两个趋势我先抛砖引玉第一个

我感受到从 2023 年大模型非常火热的这种热情逐渐进入到一个冷静期而且从卷基础模型本身进入到了卷音用的这么一个趋势那第二个趋势就是很明显地能够感受到在技术层面多模态方面的探索成为一个比较主流的趋势和声音我不知道在座各位怎么看接下来我提出第一个问题如果我们只用一个或者多个吧

关键词来总结 2024 年的话各位觉得会是什么要不我们还是先从李总开始给一个稍微抽象一点的词我觉得是以中为始然后我也顺便分享一下我可能做产品的一些思路吧就是因为

一家公司做产品最重要的还是怎么确定你的目标还有指标当然也有一个定律就是当你的目标成为指标的时候可能这个目标本身就不重要了所以说无论你做硬件软件你其实还是要明白怎么去让你的团队为了一个方向去努力包括魏老师说到说我们在卷应用那你往哪里卷是哪一个数字让你往上去冲

我举一个例子叫 Perplexity 它的目标就是我每天的搜索量到底有多大在上一个月的访谈里它的增长的负责人其实提到了它的指标体系包括六个月的留存率是 45%

他要向多灵果学习因为多灵果其实六个月的留存率已经到 50%了第二个他想让用户在第一次对话里的搜索次数尽可能地多这个其实也是体现着他对于什么是用户心智或者说体验感的那种刻画

所以说我觉得以中为始的意思就是我们现在的从业人员可能从 23 年大家去卷 benchmark 非常单一的卷法然后要到可能 24 年甚至 25 年我要去定一个更加偏落地更加有方向感细分化的卷法这种目标这可能是今年的一个比较大的变化谢谢我想问问樊总你们是怎么看从 2023 到 2024 的进程的

对 我们认为最关键的一个词当然就是多模态了而且在多模态的基础之上衍生出来了另两个词就是认知和预判为什么是这三个词呢其实我们能很欣喜地观测到从多模态生成大模型开始

所有的国产自研的团队它的技术演进历程不再是对标彼岸了不再是美国那边有什么技术突破我们要跟随更多的我们能看到国产自研的团队主动站出来去引领世界范围内多摩泰这个行业的发展进程从一致性到速度

从七月份的面部一致性到主体一致性再到多主体的一致性再到现在全世界范围内最快的一个生成速度都是源于此案而非彼案了这是非常新喜的一个改变而为什么是认知和预判呢因为多摩泰大模型它本身技术门槛就更高也更加复杂

能够在多摩泰大模型的发展之中对行业的真实需求有精准的认知能够对于这个技术的演进发展方向有前瞻性的预判成为了现在国产字眼的视频生成团队能够屹立于世界之巅的一个基础其实是我们国内的主体性增强了是吧我们慢慢找到自己的节奏了

对 而且技术上确实是更为领先的好 那我们请李老师来说一说您的视角我刚想了一下如果用一个关键词来总结 2024 年的话我觉得我的关键词是回归理性我觉得有两个视角吧就第一个视角是

我们从技术的层面上看其实从去年大家在卷 language model 然后卷 sys 然后不断地去探索 Siging Law 的一个边界大家去卷一些 benchmark 今年我们看到的两个趋势一个就是大家说的多摩泰

包括我们本身的视觉模型的一些迭代跟演进而且我们发现我们视觉生成方向的迭代跟演进比去年我们同时期同阶段的类比下来的这种语言模型的迭代节奏更快发展速度也更快了为什么从 Language Model

多摩泰其实还是从真正的应用角度出发去推动我们这个技术发展其实我们看到语言模型也在往着深度推理的方向去迭代那这两个其实都是在比较理性地去看待模型最终会为应用产生什么样的价值的视角那另外一个在产品方面的回归理性其实去年一开始 Challenge B 出来之后其实是前年出来到现在一开始的时候大家的普遍感受是我要找 AN Native 的机会我要找 Super App 的机会那其实是

但两年过去了吧大家其实逐渐回归理性去发现可能这个变革没有那么快那么大那么一蹴而就地来到我们的身边身边的一些我们友商也好看到一些创业公司也好我们在产品应用上其实也是更理性了更理性地会表现在

会回归到本身的用户价值和商人价值上面不再是一味地去卷一些所谓发现一些新的需求更多的我发现有一些公司开始聚焦在去老的需求里面去找新机会了我觉得这个是一个很理性的一个信号

感觉 2023 年的时候我们看到一座很高的山谷我们想着说如何从我现在的这个起点一下子飞到那个高山但是呢今天大家可能在探索也许当中有几节台阶我们可以一下一下先往往那个方向去走就有一种这样的感觉

OK 感谢各位嘉宾的分享然后我是刚刚说张国常的主理人我自己是一名产品经理我个人是比较关注应用测的一些变化刚刚我们从比较宏观的角度去说过去一年用关键词去概括接下来我想请问一下各位嘉宾过去一年里或者说最近吧大家各自在应用端发现了什么样的场景

我先说首先我现在主要负责的一个是智库青岩相当于比较 G8 型的聊天机器人另一个是 Auto GLM 然后我就各举一个例子比如说智库青岩我们其实最欣赏的一个划时代的功能就是视频通话就是你能看到外面的景象然后 AI 能给你读出来这个景象然后跟这个人互动但是坦白讲我认为这个场景其实还是一个 0 到 1 的阶段我们并没有完全定义什么样的人一定会用

以及大模型其实就能解决它的需求比如说我去做体育或者练英语实际上我们整体发现用户存在这样的需求但这样的需求还没有被完全定义所以我认为其实我们在做的很多事情还是偏 0 到 1 的这种场景的探索以 AutoGLM 为例其实 AutoGLM 能做的一件事情而且是在那种宣传片里做的事情就是点外卖

但是点外卖这种场景其实是非常模糊的什么人点什么样的外卖可能有一个人我每次就只吃和和骨的公报鸡丁我就是觉得这个东西其实只要替我点了就可以那么有的人可能需要 30 分钟的时间我要去逛我进去奶茶店发现还有零卡糖你 AutoGIM 如果说你没给我弄到零卡糖我可能觉得你这个东西太不了解我了所以说

这些场景可能我们只是以比较大面的情况发现但是还没有去聚焦到真正能够解决用户痛点的场景里面所以我们其实也做了一些尝试第一就是内部的团队必须要有足够的 sense 你必须把整个的用户故事画出来以及它的替代解决方案你得保证说我这个产品即使现在不行它的终极解决方案是比这个替代解决方案好的

那么第二点就是我们也会去走近用户跟更多的 KLL 交流因为 KLL 它可能代表的不仅是他自己的观察可能更多人的观察以及我们也会做一些可能更偏下沉我们在离清华很近的环境里我们也要去走出去看看如果一个人不用苹果手机不用 Mac 或者是也不知道 Chrome 是什么他们是怎么想这些东西的我觉得这个是我们现在可能做的一些观察

谢谢 其实作为产品经理我刚刚对那一段是很感同身受的其实任何一个技术无论是大模型还是之前的移动互联网其实到最后你要走到用户的最后一公里要满足用户真正的需求以及用怎么样的方式去满足其实在这中间并不像我们可能在技术浪潮早期想象的那么浪漫 那么美好其实就是有很多大量的 dirty walk 你需要很细的去做推敲

然后我也想听听就是成熟科技这边的一些经验其实像互联网它的普及也是有一个过程的它在最初的时候可能是一小撮人去接触包括像触屏的手机其实大家的共性需求可能是一样的比如说加强信息的交互加强移动端的信息传输但是它最后落成的产品形态是在之前的市场需求下无法被覆盖的

我非常同意新的需求是从老的场景里面来不过我们看到其实现在的行业有三类这样的新需求和老场景之间的关系第一类就是老场景下爆发的新需求远超我们的想象它能够和 AI 技术更深入地结合所诞生的这种想象力是更大的比如说大家在流量平台上能看到的已经能把 AI 技术玩起来的一些用法它是传统技术做不到的第二类行业就是

新的需求和老场景是比较要切合但是我们能看到两厢的发展是在未来会有一个不同的趋势的比如说像特定的风格和细节下的一些场景假设游戏 动漫它如果能做到实时交互然后一系列的生成之后它是会和传统的形象不太一样的不过现阶段的 AI 技术却又不能完全覆盖这块的场景需求

第三类就是现在我们来看新的需求可能它的边界是小于老的场景的因为老的场景对于真实性对于可控性的要求是更高的比如说短距比如说影视但是它不排除在未来的一段时间内随着基础模型 技术的一个迭代和演进它能够创造更大的新的需求包括超脱原来老的场景的束缚

对 这是我们所看到的三个场景 OK 谢谢樊总的分享然后我其实去年也跟咱们深入科技有过交流发现咱们在一些垂直的细分的领域是一直想很深入地去做一些能解决现在场景里面一些问题的所以也期待深入科技在细分场景里面插出更多的火花待会儿多聊一些 OK 好 然后接下来我们李总

快手也是大家特别关注的我其实还是挺想跟大家分享一下我们快手做 AI 的一个大的思路其实我们从去年年初开始明确我们的大模型的战略包括我们的研发和应用战略从那个时间开始其实我们一直走的是一个比较务实的道路

这个务实可能给大家的感受是去年感觉没有听到快手在做大模型这件事情今年好像年中就突然爆发了可灵 AI 然后感觉吸引了很多国内和全球一些用户媒体的关注其实从去年年初开始我们就开始投入到我们的多种的除了语言模型我们也会有音频像图像包括大家可能知道就是我们的文生图的模型可图以及我们的 TTS 的一些大模型的能力

那我们其实给自己的一个目标是一个是在训练上我们是要做 from scratch 的训练就是我们不会去拿一个开源的框架去做就这个其实是很多公司不太了解的时候会来问快手是不是基于什么其他的框架做的二次训练对 第一个我们其实是真正地从零开始做的训练第二个是我们在应用上其实是比较明确的我们会先聚焦在快手自己内部的业务场景当中就是我们给自己定了一个应用的方向就升级理解

做好互动 探索生成其实每一个这样的大的应用战略上面其实对应的我们快手非常非常重要的几个场景第一个是升级理解其实快手作为一个全球 Top 级的短视频和直播平台它是有大量的视频 直播以及用户的评论数据的

那这些数据如何能够被我们的大模型更好地理解并且帮助我们的推荐系统更好地盖到这些信息推荐给相应的用户这个其实是在我们这一段时间的实践当中我们发现其实拿到了很多的收益包括对整个平台的治理

然后也包括我们推荐的精准性另外一个方向我们叫做好互动其实互动对于社区来说很重要但是我们是一个内容社区和用户社区我们会非常强调真实感也就是我们不会说我引入一个机器人大家跟这个机器人今天互动所以我们做得很克制我们第一个尝试是在我们的评论区引入了我们的 AI 小块

这个 AI 小块其实它更重要的一个定位是帮助用户去回答和拓展这个视频以外的一些信息这个定位之下我们的门槛其实挺高的用户想要用这个能力其实需要在评论区上 at 这个 AI 小块问他问题才能回答

在一个非常克制的做法的情况下我们也看到 AI 小快这样的功能在快手站内是非常被年轻用户所喜爱的而且我们现在的 MAU 其实也是千万级别这个我们其实是做的比较克制的一个状态然后也没有去做特别丰富的一些功能拓展我们还是要保持我们整个社区内部自己的一个健康度

那第三个方向其实是探索生成探索生成这块我们其实有一个比较典型的代表案例是在我们的商业化的一个广告素材这个场景上的落地我们通过大语言模型加我们数字人的这样的直播能力其实

带来了我们截至目前为止最新的数据我们每天给快手的广告消耗带来的是 3000 万每天而且是个均值所以这个其实也是我们想去找比较聚焦的业务应用点去撬动 AI 的一些商业价值另外一个方面想跟大家分享一下就是我们可灵 AI

可怜爱其实从今年年初发布 6 月 6 号快手的私信发布到现在其实大家的整个的感受市场对我们感受是一个非常卷的团队和公司就是我们基本上每周一个发版这个里面其实有两个事情第一个就是在我们发布之前客观来说我们没有预想到有这么大的影响力和这么多的用户和场景但我们在发布之后呢我们其实有两个原则一个是 learning from users 一个是 learning from acting

也就是第一个快速从用户的反馈当中去学习我们要做什么能力做什么工具第二个就是快速的迭代这个迭代不是无脑的我每周发个版本而是说我快速地通过跟用户的交流当中用户想要的什么样的能力我快速地在版本当中去实验验证然后再不断地反哺给模型并且帮助我们的模型明确哪个功能优先级更高怎么样去做这件事情这个功能更适合于哪个场景这个场景的痛点是什么

在这样的反反复复的过程当中我们这个平台其实从 7 月份到现在其实也就 5 个月的时间我们迭代了近 20 次这很夸张那个数字就是我自己的感受是我觉得国内大多数的大模型公司做不到这么快迭代的速度所以我觉得我们是一个比较敏捷的 AI 产品我就分享这些谢谢李老师但是我不准备让你休息因为我准备接着你的话要问我下一个问题了其实

我去年也是跟非常多行业里交流当时确实坦率说快手是相对来讲比较静态和低调的那今天我们也知道为什么当时低调了可能是在憋大招其实最近在一级市场有一个还蛮热议的话题或者说有一种新的声音出现其实在大模型浪潮来临之后我们一直都非常

期待能有一个 C 端的这种 Super App 出现以及去年大家也会开始思考说这样的一个机遇到底会花落大厂还是出现在新生代大模型原生的这种创业公司当中这件事情到现在还留有一个悬念因为今天在场的圆桌上只有快手一家可以代表大厂

快手先来讲一讲在面临这样一个新的技术浪潮的时候你们作为一家大厂是怎么去思考的有哪些优势和挑战

这个问题其实我觉得问出来好像大厂代表了相对的可以饱和式的投入但是好像动作又没有那么快可能在应用层面没有那么敏捷我没有这么说对 其实我觉得就我自己的感受包括跟友商的交流下来其实在这个阶段大厂跟创业公司我就看团队不会是那么有一个组织上的明确的分界线在的或者我聚焦一个问题吧

因为我也在大厂在字节跳动工作过我想象当中我觉得有可能会有组织和写作上面的耗损包括我们对于这件事情的决心内部在这件事情上的优先级是不是一个决定性要素首先这个坦率地说肯定是的我觉得不管在大厂还是在小公司但是大厂确实在组织上跨部门协同和多角色协同的这个难度会更高

就非常考验一个组织的韧性和这种聚焦的能力所以在这个方面其实我们的一感受是我们当时做两个事情第一个是我们把目标聚焦在一个唯一性上就是我们当时阶段性的这个阶段我们就 follow 什么事情然后交付什么结果第二件事情是我们在协同上面如何能够做到把跨部门整合的不管是底层的资源也好上层的一些公司的其他横向团队也好怎么样能让大家

目标更一致地去配合如何能在更多的场合和目标上去对齐这个其实是我们在组织上做的一些功当然这些问题确实在创业公司当中可能不太会出现因为大家比较扁平可以比较一致地去推进这些事情内部在决心上有什么体现吗

决心上其实举个例子吧就是拿我们可怜 AI 来举其实在 SORA 发布之前我们从去年年底就开始投入做视频生成了当然其实 SORA 给到我们的一个启示是快速地切换到 DIT 的架构上去快速地拿结果这个事情对其实坦率地说从去年年底我们开始做这个项目的时候

大家的态度是比较中性偏悲观的因为我们当时预计可能真正能做到视频生成可用的力度我觉得一年都是一个乐观的数字真的客观上去年年底的时候这个感受当时我们内部也是做了很多的讨论并且我们还是坚定地把这个方向作为我们的一个聚焦的方向因为视频生成本身也比较好算力数据

我们其实倾斜了这样的资源去做这件事情本身就体现了我们还是想在视觉模型和多模态模型上有些突破当然这背后有一个非常关键的点是我们自己本身是做短视频直播业务的我们对这个场景的数据然后这个场景的内容以及这个场景的应用趋势会有一个我们自己独特的判断不管是对快手内部来说还是我们对外产品这些判断帮助我们更坚定做这个事情

问一个比较直接但有一点点小尖锐的问题在短视频时代当中我所看到的快手是一个在某些阶段可能有一些被动的这么一个状态我很想知道就是大模型来临了之后有没有重新找到这种士气和热情

可灵 AI 出来了之后应该整个公司被疼了对包括我们的一些投资人这些市场上的反馈其实都应该是比较好的大家也应该能感受到因为其实坦率地说业务上这个短视频业务真的很卷我们的这个警队也是非常非常的饱和式的投入也非常的有经验而且在这个

领域的市占率也非常非常高加上视频号也是增长得非常快客观来说我们业务上是非常面临这样的压力的那我们其实从公司的视角上我们去看怎么样去用好 AI 那这块是我们要回答的问题那我们其实还是希望说 AI 能够帮助我们公司的

主要的业务和主要的场景去弯道超车可能是在一些小场景细分场景上我们能做到行业最优那另外一个方向是我们也想去帮公司布局一些高价值的 AI 应用其实可怜 AI 就是一个代表我们也在有孵化其他的产品但是目前此刻在大家的视野当中其实是我们可怜 AI 的应用所以这块来说我们也是两条腿走路吧一方面还是把公司自己内部的业务价值做出来而且聚焦在一个

细分的点上另外一个点就是我们可能有一个一边爬山一边还要航海的这样的一个阶段在这个过程当中我慢慢找到自己的目标然后去找到自己对外产品和创新产品的这个赛道这两个事情都是比较重要的 OK 刚刚的分享其实对我还挺有启发你最后提到了就是一边爬山一边航海我去年在刚刚开始看深圳 JI 特别上头的时候自己会有一个观点就是说

在 AAM 的大航海时代可能旧的经验可能是包袱

你可能需要新的东西去考虑它比如说你传统原来做移动互联网 APP 的一些思维可能在新的技术浪潮下会局限你的很多思路所以我一直会觉得你一方面要把你过去的经验利用起来但是另一方面又不被这种经验所局限你这是我觉得很重要的一个点然后你刚刚提到了快手在可灵这个事情上我觉得是去年一个标志性的一个事件大家都很熟知就创新者的炯金那本书

大家都会说大厂可能会有个整个问题然后说大象没法跳舞但其实我觉得可林完美地展现了其实快手作为一头大象其实也是有可能跳舞的然后我其实想问的就是如果现在让你复盘来看的话

这头大象跳起舞来如果让你总结最重要的一个点是什么是你刚刚提到的比如说战略上的聚焦吗还是说如果这是一个其中的点的话我可能还想再追一下比如说产品上你觉得会有哪些点或者在产品战略上或者产品的具体的一些方向上你觉得是比较关键的呢这个是我比较好奇的

首先我觉得战略一定是任何团队或者说任何产品能够走进大家视野或者说相对获得一个阶段性一些收获和成功的一个关键点所以这个其实我觉得是一个相对来说比较贡献的事情然后另外其实我特别想说的是

组织上因为我觉得我们这个团队其实是一个我自己的直观感受因为我也是一直在互联网公司尤其是互联网公司的 AI 团队卷那我自己的感受是我们这个团队战斗力非常强这个战斗力非常强表现在刚才我说到的那一系列的迭代的数字而且我们也拿到了结果因为可怜 AI 其实到现在

前段时间我们也公布了我们的财报我们可灵爱其实在几个月前我们的用户达到了 500 万然后同时首月的营收就流水就破了千万所以这个其实是给了我们很多正向的激励的那您刚才问的另外一个问题其实产品上做对了什么我觉得第一个点就是

还是能够去明确一下我们这个产品在当前的旧的产业利用当中它的定位是什么目前来说我们的这个工具还是比较聚焦在我们素材这个方面你可能之前做一个视频你要去实拍你要去版权库里购买素材

那今天可灵 AI 这样的生成能力能够去帮你解决一部分问题了此刻可能我们的模型还不够完美但是我们已经找入了这个切入点了那这个切入点之后就是技术的不断提升同时帮我们产品这边不断地去把这个渗透和应用做好我觉得这个其实是比较重要的点那还有做的比较对的两个决策一个是

商业化 快速地商业化然后我们其实从正式开放开始就开始商业化了我身边很多朋友会问我是不是太着急了怎么一开始不免费免费让大家用用用就想开始收钱了当时其实我的判断有两个第一个就是大模型的训练推理尤其是训练我觉得大家都知道大概的成本

即便是推理此刻也是一个很昂贵的业务如果我们像传统的互联网那样模式去探索的话我们连回血的机会都没有可能就被干费了然后另外一个点是这个场景有没有价值是不是要持续投入其实商业化是验证这个 PMF 的最好的方式它很快可以帮助我快速地去判断这个事情我该怎么去投入也是基于这个事情然后让我做了第二步的决策就是出海

我们做海外产品而且事实目前也印证了我们其实做海外产品能够对我们的目标包括我们的营收是有非常大的一个正向的一个反馈的对 可林的在海外的口碑应该是相当好的然后我想到两个事就是你刚刚说商业化是一个非常重要的决策其实刚刚一开始的时候李总提到的一个点就是说以中为始的那种做产品的那种思路有一个点是说你要面向最终用户去做你的模型和产品

刚刚说的时候让我想到可能如果我们从一个完整的生命周期去看的话那可能也需要从最终的商业闭环的角度再去看对于你现在产品方案的设计也是会很有指导意义的那接下来呢我就要问问我们创业公司的代表了

确实我最近在一级市场听到一种比较悲观的声音就是大家会觉得关于 Super App 或者说生成式的这个机遇最终会从哪里长出来大家会觉得创业公司可能很难跟大厂匹敌这当中有几层因素一层是因为从 2023 到 2024 我们确实是看到了一些大厂在这件事情上的坚决投入和决心比如我们刚才看到了快手是吧还有字节包括阿里

所以一方面是我们发现大厂在这件事情上的认真程度和投入决心另外一方面其实是如果要去做一个应用今天去拉薪去做增长一定绕不开要去投流量但实际上呢大厂他们手里还是掌握着流量的且流量的成本现在也非常的昂贵那第二层因素确实大厂的口袋是非常深的虽然我们现在也看到国内的非常多大模型创业公司其实融了也

挺惊人的金额的钱但是可能从口袋的深度以过去的这种经验来看确实大家很担心也许新的内容新的机遇从创业公司当中生长出来了但是可能立刻就被大厂收割了所以我想接下来的时间就留给樊总和李总你们谁先来

那我先好谢谢非常感谢其实大厂的天然的流量优势和它作为大模型市场上最强有力的竞争者这是毋庸置疑的像刚刚李总也提到说可能之前存在一些路线的不收敛的问题其实创业公司比如说 Sora 它用的底层去做多么态生成的架构就是 Diffusion Transformer 是一个融合架构

一定程度上是推翻了 23 年一直以来的说 Transformer 能够压缩一切的这么一个言论和技术路线大家可能有所不知 V2 背后的团队是早在 22 年甚至更早的时候我们就一直在坚持用 Transformer Diffusion 的这样一个融合架构 22 年 9 月份的时候是领先全世界首发的这样一个融合架构的一篇 paper 它是早于 Sauera 团队的 DIT 的

而我们其实并不是因为市场上的声音觉得今天该做原模型了今天该做视频生成了明天该做多模态了我们才选择做这件事情像刚刚李总提到的是以中为始我们一直以来的目标都是希望能够做一个

简洁的 高效的 通用的多模态大模型底座而基于此目标我们一直坚持着自己的路线并不会因为 SORA 或者其他的团队不同的技术路线提出我们就有所战略上的改变那现在这个阶段虽然说多模态是爆发的一年啊

不过我们也认为多模态是处于初期的一个阶段因为现在我们去看所有的多模态它都是貌似是模态的叠加我有了一个文本我在此基础上做一个视频我有了视频我在此基础上做一个音频它背后是两个训练参数的一个简单融合号称叫做多模态它并不是真正意义上的通用的多模态

因为文字作为降维视觉作为升维是最接近人类去感受真实物理世界包括生物所以我们希望能够做到的这种通用的多模态的底座它是不需要去进行模态的叠加的它可以作为任意模态的输入和输出的因为这个技术的前瞻性的认知和预判加之我们和用户之间的紧密结合和高优行业之间的紧密结合所产生的技术回流价值回流

并且全公司都是围绕着多摩泰技术的演进路线而去展开的所有业务所以我们认为在这个过程之中它所能够积累的用户群体创作者群体以及说现在这个时代模型边界才决定产品边界的这样一个定义

我们是更加理解模型的边界并且走在最前面去突破模型边界的所以我们总结而讲就是认为现在的互联网大厂它有自己天然的一些流量的优势不过创业公司基于它对技术上的认知对于产品未来最终模态的一个预判它是结合技术加用户加市场以用户为先以技术领先以产品领跑去深耕这个市场我们是未来在价值链上也会吃到很厚的一块的谢谢主持人

学到了我也挺认同的李老师行我就先从产品形态就是 AiChatbot 这个来说因为这肯定是国内现在整个市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场市场

之所以为什么大家一直在卷然后流存率又很像是因为可以看到我们今天的主题从模型到 AI 应用大部分的 AI 应用它只是在调模型

其实它还是没有说真正把这种个性化把差异化做出来就包括我们自己去看智普青研的时候也会发现实际上我们就是用智普青研搜它但那个搜它的结果其实跟用户想要的东西其实不太一样人还有什么这人屁人 F 人替人的所以说可能豆包它将来代表着我对于某一类最大体量用户的需求的满足但是不代表说其他的就没有市场空间了

而且我们也可以看到实际上豆包自己也有一些留存上的风险所以大家都是在探索的阶段现在的结果还不代表最终的成败

那么从第二种产品形态就是我们更偏 0 到 1 的这种 Auto GLM 来看我们实际上要面对的是像手机厂商像高德地图百度地图可能自己还有这种功能这样的大厂的竞争我们内部是有这么几个共识第一是面对这些手机厂商的竞争首先我们的劣势是没有他们丝滑因为他们可以直接调 API 直接给权限

我们要做的事情就是让我们的能力更加的泛滑比如说我们其实也跟别的厂商聊像小米像其他手机厂商他们做 RPA 他们的维护成本是非常高的因为他们需要满足多个机型的需求他们需要保证他们每一个 API 的调动是正确的以及如果说我这个 APP 更新了他可能要找到我这个按钮是不是多了一个或者少了一个

但是 AutoGLM 其实更多的是用这种视觉的方式就是为了增强我们的泛化性使得说我可能这个模型都没有见过这个 APP 我也要会用这可能是我们整个产品路线上的一个差异第二个就是可能我们在商业模式上也会有差异比如说手机厂商他推出 AI 的能力是为了卖新的手机我不会给我三代两代以前的手机去装那么可能就是对于这种

已有的市场的渗透也是 AutoGLM 的一个优势今天说的这些东西可能都算是假设因为你说是你能犯话人家手机厂商就不能犯话所以我们其实之后也是要用更快的动作更敏捷的开发来验证我们的考虑

但是比较值得庆幸的是其实大家可以通过质朴的一些新闻感受到手机厂商这边跟我们并不是完全竞争的关系其实已经有合作因为大家也是面对一个蛋糕去想好就是你吃哪一块我吃哪一块各自找到一个比较适配特定用户场景的生态位我觉得这可能是这个创业公司需要去做到的

感谢两位分享然后我想接着问李总今天李帮主有三个预测之一是未来的应用会越来越少然后今天应该是也有嘉宾在分享里面就达到了不同的意见我其实想问问李总比如说在 AutoGM 这种其实它可以完成原来可能多个 APP 才可以完成的一些动作或者说它可以跨 APP 去完成一些行为的时候你会再怎么看这样的预测呢

其实蒋老师还有李王主讲的其实不太相同因为可能李王主说的是我有更多 DAU 那种大型 APP 对吧但蒋老师说的可能就是我可能作为个人独立开发者我能做出自己的插件做出自己的小型的应用我觉得这两个趋势应该都是对的

然后我们其实也可以看到像 AutoGLM 很多人说为什么我刚才其实没有回答那个问题为什么你能打得过高德地图或者百度地图因为用户对于这些产品的粘性其实是很强的因为他们有自己的权益体系对吧饿了吗 VS 美团你的这种喜好是很难去通过说我那个 APP 上饿了吗可能多了一个自动点餐我就放弃美团的权益我就放弃比如说滴滴打车为多少的会员我去迁移过去

所以 AutoGLM 更多的是做一个串联的工作它也不会说我非要去取代你这个 APP 的这种点餐功能什么的所以这样的作为串联型的 APP 它势必是比较稀缺的它不会说根本性的说我去创造一大批像 AutoGLM 这样的 APP 去做这件事情

我想插一句来回答你刚才的那个问题因为我最近跟出海圈子交流的会比较多因为我们很多大模型的产品其实已经左手研发右手出海了可能因为我们国内的商业生态的关系我们的用户也好我们的商业叙事都非常习惯大而全的叙事但实际上海外的用户其实不太喜欢大而全的产品的

他们更希望的是在某一个细分领域能够有更细致的细分化的服务对 所以我也不太赞同说未来的应用会越来越少 OK OK 李版主今天被连续挑战了对 但刚刚大家也聊了很多其实关于繁总这边其实申书我还想再多聊一个就是你刚刚其实提到了其实申书在

技术储备和布局这一块其实是远远领先于全世界其实我之前也跟申述的 CEO 唐总聊过然后包括朱军教授但其实我有一个另外的问题是说技术领先的包括历史上很多 AI Lab 包括很多大公司所谓会成立 AI Lab 在前几年技术领先很多实验室其实都有过但是其实从技术领先到实际可商业化

到成为一个好的公司中间其实是有一条巨大的鸿沟的很多公司其实也都没有跨过去你刚刚也提到了除了技术你们有很多跟产业的跟用户的一些结合所以我其实也想请你详细介绍一下就这一块你们具体有哪些实践的经验其实我去年跟唐总聊的时候可能我接触到的一些就是比如说会跟游戏产业

包括营销产业广告产业会做一些结合但是可能在一些比较早期的 property 的那个阶段所以我想老师就是一年过去了咱们这一块有一些进展或者一些新的经验吗

这里面我先梳理一下我们的产品发展的一个脉络从 4 月份是全世界最早能够推出跟 Zorch 直接对标的一个中国第一个长视频的大模型以来 7 月末的时候这个产品面向全球上线实际上由于我们的运营增长确实也是比较薄弱就是纯靠自然增长的流量已经达到了全球范围的用户体量最大的一个视频生成软件并在这个过程之中这个属于是 C 端产品就是服务 SaaS 端的产品

我们其实最开始锚定的是专业半专业的创作者但在这个过程之中我们发现非常多普通的用户他对于 AI 技术的拥抱是远超我们想象的为此而产生的付费意愿也是远超我们想象的这个是 SaaS 端的一些观察然后在 MaaS 端像我刚刚提到的 B 端的三类客户第一类是新的需求已经超脱的老场景

比较典型的像泛互联网娱乐类的这里面其实孕育了一批的出海的产品他们能够去创作比如多个 IP 之间的交互互动它是远远的是之前的传统技术所达不到的一批的出海产品在这样的一个场景之下第二类场景像我刚刚说的可能现在的新的需求和老

已经产生了不同的一个发展趋势比如说像动漫和游戏在这一块我们会和行业最标杆的客户而且已经在打造这种全新的 GVI 技术的一些工作流然后试图去改变原有的一些生产方式

像第三类的就是我们现在目前的 AI 技术可能达不到人家的要求达不到正片里面的要求比如像短剧 比如像影视但实际上我们看到全球范围内第一例有知名 IP 授权的电影 AIGC 生成短片那就是索尼中国和生数科技合作的《赌夜最后一舞》

这个是世界范围内首例而且也是国内大模型和国际最顶尖 IP 的首次商业合作这里面解决了非常多行业之前没有解决过的问题包括也涉及到像合规法律 IP 等等的一系列的问题所以我们虽然在第三类高价值的但是现阶段可能覆盖不了正片的场景里面还需要继续探索不过

已经在像宣发在材料在素材这个方面有成熟的合作了当然这一切其实并不是纯纯基于公司在技术上的一个迭代可以看到我们推出的每一次的技术的公关的突破效果像面部的一致性实际上锁定一个人的面部用一张图片就能够做到这件事情它可以

负能向直播呀然后像广告等等行业 9 月份突破到了主体的一致性它不再是面部了像我今天所有的这个 OOTD 都可以放到这个照片里面而且也只需要一张并不需要单点的微条进一步地将人物它已经拓展到了动物商品三折叠特斯拉都可以然后包括虚拟角色动画角色这个是多主体的一致性我们最近在 11 月突破的这个多个主体的一致性包括多个角度的一致性和多个场景之间的一致性

实际上它并不是我们在夏娅塔里面去设计的一个技术方向而是真真实实能够赋能到刚刚提到的 C 端专业半专业 C 端普通用户然后包括 B 端的三类场景的不同行业的一个需求这个是我们技术演进主轴线的一个路线而且它是深深地和能够扎实落地的行业场景相结合的

OK 非常精彩我刚才听到您说的和李老师刚才提到的有一个共通点你们在真正下午池里去与用户和产业共舞的过程当中其实是发现了很多新的需求和新的机会并且做了快速的反应

再追问一下因为大家都对深数科技很感兴趣我听说 SORA 出现之后你们内部其实是迅速调整了战略并且快速地把视频生成的战略优先级往上拔到最高了我不知道这个传闻是不是真的以及您能来跟我们讲讲这个内幕吗这个可能还是要稍稍纠正一下这个

因为刚刚也提到了我们是最早去探索 Diffusion Transformer 的一个团队然后在当时其实也是二三年年末的时候就基于 Diffusion Transformer 这个架构已经有了视频生成的一个雏形了我们逐帧质量已经做到非常高了而且已经能够

生成这个 4 秒钟的视频了只不过当时可以说市场一定程度上被 Transformer 压缩一切所覆盖了所以像一直坚持自主创新的融合架构这个路线可能一定程度上它资源确实存在客观上的不足

但是在 Soura 发现之后其实大家都回过头来发现原来你一直在坚持做融合架构这件事情那好吧 更多的资源可以聚集于你而且我们也确实无愧于市场的信任和世界的信任在全世界范围内最早的做出了能够对标 Soura 的这个东西像我刚刚提到的就是很多东西从多模态大模型开始

它的原创 它的引领已经不再受制于彼岸而是原生于此刻此岸此地了我们在 4 月份中关村论坛这里发布的视频大模型加上 7 月份突破的面部移植性其实这里大厂我们也看到他们其后也推出了面部移植性相关的功能通过微调的这些方式然后我们进一步 9 月份的主题包括 11 月的多主题包括我们是全世界范围内最早的发现视觉模型它有智能涌现的能力

它有上下文理解和关联的能力这所有一切的技术突破都是源自于生数科技团队源自于中国而非是美国那边有一个新的什么技术引领然后我们再去跟随再去学习再去模仿根本上就是因为在这个架构上我们无愧于是这个世界上最了解这个底层技术路线的

朱军教授从最早回国开始就一直在做扩散模型了然后像 OpenAI 的最年轻的科学家陆晨 宋杨等等然后包括 Luma 的 CTO 宋嘉明他们也都是朱军老师的学生可以说在这一块的人才储备和技术认知及预判在东本泰这个领域我们是有信心能够屹立世界之间的但还是要感谢 Sora 的及时发布是 能够让我们聚集更多的资源让这个市场能够及时地看到

接下来我想问一下智普其实智普也是中国大模型创业公司这个梯队当中最早探索的而且你们也是最早开始服务弊端的公司之一据我所知那其实接下来也有一个稍稍有一点挑战和大家好奇的问题就是

大模型出现之后也有一个很热议的问题就是到底选做 B 端还是选做 C 端曾经其实行业里面也有非常领先的人物有提过一个观点说他不相信左手做 B 端右手做 C 端能做成

但实际上其实我们看到智普现在也是左手训练基础大模型同时也开始探索 BC 两端的应用所以一个是想听听您对这方面的看法另外一个是您作为产品战略总监我们很想知道智普怎么决定做什么不做什么先做什么后做什么好 我觉得这个问题其实特别好就是因为战略重点是略就是不做什么就是省略什么

然后因为第一个问题我觉得其实也比较有挑战性正好翻总也不在我觉得其实翻总聊这个问题可能会更好一点但是我这边给出我的一些想法因为商业的本质就是你收入减去成本对吧这个肯定是而且是要持续性的盈利甚至你对盈利都要有比较高的预期我们就是目前在大模型上其实是没有看到太多人想要动成本这一块

那就是在收入端我们把它拆成 P 乘 Q 可能去年我们认为 P 乘 Q 会一直往上涨对吧尤其是对于 B 端来讲从 token 调用的角度来说 Q 越来越多可能 P 不会怎么变对吧价格也不会跌的怎么猛但是可能

过了一年之后大家发现价格掉得太猛可能变成原来的百分之一千分之一甚至万分之一那你的 token 不可能以万倍的价格往上涨所以说并不是说弊端这块钱不好挣了而是说大家还没有找到足够的方式去

运用 token 对吧可能 O1 是一个比较典型就是说我可能生成的这个方式跟原来不一样了我可能去用更多的 token 完成一个更高质量的任务原来大家觉得生成 1000 字就要消耗 1000token 现在我可能要生成 1 万

或者像现在的 AutoGLM 生成一个操作的路线消耗了更多的这种资源它有可能会给弊端注入新的活力单纯的我生成文本生成一个简单的回答这种方式可能对于弊端而言就不是一个很好的机会所以我们其实也是希望

把更多精力放在能够制造网络效应能够轻量级去做增长这样的方向它对定非得是 B 端和 C 端比如说对于 B 端而言还有开放平台对吧像可灵 V2 其实大家都会去关注到我们能不能同时去服务 C 端的创作者还有用 API 去赋能我们的合作伙伴

对这个其实智普跟其他公司没有特别大的区别只不过说这一波的降价可能大家之前是没有想到的只不过我们要应对这样的一个现象去重新去思考怎么做是将来最能够给自己带来壁垒的对那一个相对来讲比较直接的问题就是我们因为今年经历了这个 B 端大降价然后 C 端的这个收入

可能行业里面比较有信心的是我们已经从 C 端这边挣到钱了但是也会有一种声音就是觉得 C 端收入如果说要收规模化的钱的话还遥遥无期而且大模型真的很贵那在这样的一个环境之下我们怎么熬过这样的一段时期还挺想听听知普的想法

我觉得反正最重要的事情还是用户的体验和口碑对吧就是你不能在这个产品还没有 ready 的时候赚太多的钱其实现在大家也可以发现质朴青年是有会员的但是我们做会员还是比较谨慎比如说我们其实还是把接近于第一梯队的模型以免费的方式提供给大家然后把可能最高质量的模型以一定次数的方式提供给大家

这个尝试主要还是说验证一下市场的水温去让我们保持这个状态以及我们可能更好的对用户进行一个分层去找谁是真正有付费意愿谁是没有付费意愿的但是我觉得可能更重要的一个指标是留存比如说到留存可能达到一个程度的时候我们认为 PMF 已经即将接近那么我们就可以开始收费

包括国内和海外也不太一样国内它的消费习惯也不一样我们也会去探索新的商业模式像 Proplexity 它其实已经开始做电商就做商城所以说可能这种 APP 如果它的流量到某一个程度了它可以作为一个入口作为渠道我们可能作为渠道去帮大家做一件事情像 Auto GLM

你也可以成为那些 APP 的前置一个环节你去跟它进行这样的合作反正目前而言这个商业模式肯定是没有形成闭环的但是未来我所说的这些方式应该都是我们可以去验证和尝试的

OK 谢谢然后我们进入最后的展望之前我还想再加一个问题问问李总你刚刚提到了其实可林在海外也是有一些进展而且可能是超乎原来的预期的我想起就是最近有一篇媒体的报道就写整个大模型行业的它其中有一个观点我觉得是挺有意思的一个判断它说现在整个大模型的市场是一个

半熟的技术遇上一个半熟的市场就技术本身在不断迭代它没有到一个 ready 的状态然后用户本身也在慢慢适应这个过程中其实这个碰撞是很有意思的所以我们会发现传统的所谓的 PMF 到现在也有行业的领袖提出来应该是 TPMF

就技术和小川老师对对对技术和模型需求的那个 PMF 这可能是一个新的范式除了这个以外也有我们刚刚讨论很多的包括大厂和创业公司之间的不同的

有技术领先的 AI Lab 和你需要在商业上可能需要补课的一些模式我觉得会有不同的叙事所以我其实想问一问比如说快手在这一块国内可领在这一块未来的预期是怎么样包括海外其实你刚刚提到了你出去做了之后才发现海外的市场海外的用户跟国内其实有很大的不一样那这一块 25 年的预期或者我们的目标会是什么样

半熟的技术加上半熟的市场我觉得这是目前所有在做大模型的公司所遇到的一个这个题这个题大家都是这样的只不过大家有不同的解题思路首先我觉得模型的发展今天站在这个阶段大家可能对模型其实是有很高的预期的但是在落到技术层面上来讲它能做到什么程度以及在什么时间点到达技术的那个吧我觉得是很难去预测的

那反过来我们从产品的视角来看这个事从产品的视角来看的话产品第一个就是你要判断你的技术处于什么样的水平

如果你想要满足某个需求的话你需要在产品上补什么样的工这个事情很重要就是一定有你的技术模型现在就是不适配的场景我觉得其实刚才房总也提到了一个点像我们的摄像模式模型就视觉的模型此刻在大萤幕上的这个应用说实话还离得很远即便是我们其实最近也在跟九大国内的知名导演去合作这些事情但是我们其实也看到了这个过程当中我们离真正的萤幕级的产业应用其实还有很远的距离

但是这个说明了什么首先这是一个更远的 V 人我们还是想去以效果的层面来帮助模型更好的提升但是回归到用户和商业层面上来讲我觉得我们还是要找到自己的关键路径和关键用户对我们来说我们的产品其实虽然大家都觉得我们是一个 C 端订阅加 B 端的模式但我自己不认为我们是一个 C 端产品我也稍微解释一下就是

我觉得首先我们的这个工具我们把它定为还是一个效率工具这个效率工具其实我讲的是今天这个模型替代的是什么替代的就是部分的摄像头的拍摄今天你不用出门去拍了你不用买设备了当然我觉得是部分就比如说我们已经看到了很多用户用我们的模型去生成一些空镜其实效果还不错

然后包括一些这种文旅类的也能看到其实已经能够比较好的达到了一个自媒体内容传播的一个状态那另外一个就是我觉得我们再去看我们现在的用户群体的时候我们会发现这拨人其实还是

有很多的机会能够让我们去把它们服务得更好的因为我们现在服务的这拨人他自己是有自己的要么服务工作要么服务商单要么服务其实他自己是有自己的价值属性在的也就是说他自己要先能活得好我们的产品才能活得好所以我们其实会更长地去审视这个链条而且从商业化的角度来说我们一定要有个切入点如果大家未来都想是做一个

既能向上拔高到影视创作又能向下兼容所有大众用户的话那你的切入点究竟是什么我们此刻选择的切入点其实就是我们能够看到的几类场景当中的我们全球的一些共性的创作者这个创作者大部分其实我们能看到是一些短视频平台和社交媒体平台的自媒体的用户

而且这个情况在海外情况会更好一点这个好在于说这部分的用户他不仅有技术长线的这种潜沾性的认知和主动性另外他对技术工具的使用是一个很多用户会多持的就双持好几个工具我觉得这是个好的现象就是在这个过程当中我们也能够通过用户的数据去找到我们适合的场景

所以对我们来说比较重要的两个事就是用户的需求加上数据能够帮助模型不断的去把这个场景打磨好那

对我自己来说我觉得就是场景跟用户一定要找准一定要聚焦就是我们肯定在这个阶段不会去想做这个比较大而全的产品而且同时我们此刻在做的这一波面向平台的用户和我们 B 端的用户我们认为它是有底层的需求共性的所以我们其实在做一件事情经

今天聊了非常多干货我自己也是学到很多因为现在我们来到了 2024 快要结束的这么一个时候了但我相信在 2025 年大模型的这个浪潮还会以一个实际上是很热情的但是理性的方式继续往前走的尤其是在头部梯队真正的这种呃

做实事的公司和产业的进程下所以接下来想请三位嘉宾最后再给我们 2025 年做一个预测还是可以抛出一些关键词你们觉得 2025 年整个产业发展的进程包括竞争叙事会有哪些最核心的关键词吗还是从李老师先开始好

这个问题其实还挺难回答的因为其实大家的预测我觉得也都是基于我们的一些主观判断跟我们现在此刻行业看到的一些情况吧那我自己我其实更多的是抱着期待我觉得从期待的视角去看明年我有两个点第一个是我期待技术上有一些黑天鹅事件的

我觉得这个未必是就是是好是坏我觉得不一定但是我觉得我比较期待技术上有这样的爆发另外一个在明年未来在应用上我觉得是真正是有机会做到百花齐放的就是这个词其实从去年

年底大家都说这个明年应百花齐黄我觉得从今年站在一个相对厚一点的土壤上来看此刻的土地肥力是有机会帮助我们去把这个事情更真正地把这些种子栽培好把不同领域不同垂直场景的应用做好的

而且就是我前面也说今年我已经发现很多创意公司和我们的 AI 产品开始更聚焦了而且在这个聚焦之后也拿到了一些相应的正向的反馈所以我觉得未来还是明年我觉得还是应用会非常一军突袭我只是问一下这个土地的厚度增厚了是来源于比方说我们基础能力的上升用户跟拥抱还有什么其他的要素吗

其实这也是个很好的问题就是我自己的感受首先一定是技术还在持续发展我们今天看到的我觉得技术没有停滞不管是那个强在不在我觉得大家都还在往前技术还在往前发展另外一个是

真正的用户的接受跟认知这件事情很重要今天你看到豆包已经成长为一个虽然跟互联网产品发表但是已经足够具有规模了用户的认知很重要用户的使用习惯很重要如果你不再去追求颠覆用户的某个体验的话如果只专注于某个需求的解决解决得更好的话我觉得未来这方面的应用会有更多会有更多的机会对

对我再补充一下因为其实也是刚刚看了袁敬辉老师他的分享我感觉开源的这个进步速度这种技术普惠的程度我觉得也是土壤增厚的一大关键要素我们请这个质朴的李总来预测一下 2025 年行我其实也不是预测吧我就是提两点想法就第一个呢就是企业或者是从业者一定要构建自己的护城河和壁垒就是

就是你要思考你的核心竞争力是什么我们经常提到产品要好或者技术要好但是产品它只是一个结果它不是一个能力比如说像豆包它的核心竞争力第一个它抖音的投放的渠道这个是不可替代不可被模仿的以及像 mini max 我们可以看到它里面的人其实他对于海外市场对于美国什么 gen z gen alpha 那些人的理解确实是要更高一档的

但这个可能也只是一个表象因为你怎么能不保证这些人被挖走那你可能还涉及到企业的文化企业的理念企业基地机制就像刚才张帆总讲得很好就是质朴他的理念是我们要打造 AGI 所以我在里面的人我就可能会为了这个目标去追求我

而不太在意可能其他的一些诱惑和纷扰所以产品你可能领先或者说我发现了用户一个没有被满足的需求这只是一个起点你怎么把这个点稳住无论是通过人还是资源还是关系一定要想我们的优势在哪里那么第二个点是就比较小的一点就是一定要考虑更广泛的替代解决方案

我举一个大家可能都想不到的一个例子就是因为我是法律行业的之前是法律行业的然后很多四五线的律所他们招实习生收钱的大家也可能也听说过这种付费的实习

那么就对于这样的律师我为什么要降本增效为什么要用一个 AI 我用一个 AI 我可能没收入了我裁掉一个实医生我本来能赚 200 块钱我现在没钱了就是这样更多的场景这是人性的复杂我们一定要考虑进去不要想着我们的对手只有那些科技公司或者产品人的解决方案是什么其他的更加在我们思考之外的解决方案是什么我觉得大家也应该考虑进去主要就是这几点谢谢李总 樊总

好的我刚刚回顾 24 年的时候其实用了多摩泰然后围绕多摩泰有了认知和预判就我来看 25 年的核心主题关键词还是多摩泰

然后围绕着多模态它可能会产生高效和通用这两个关键词此多模态当然非比多模态我刚刚也提到说现在多模态还在一个初期的阶段那么未来 25 年我们能预见得到的就是更多的模态真正的融合比如说为音视频或者 3D 场景视频能打开一个更长的上下文理解上下文关联的窗口然后在此基础之上我们能抽象出更多的一致性

超脱了物体本身超脱了人和物和多主体它可能是偏风格性的偏抽象性的一个东西在此基础上能实现的一个真正的多模态它会是简洁通用的而高效怎么理解就是现在虽然 V 度已经是世界范围内生成速度最快的了我们做一个 4 秒钟的视频只需要 20 秒左右的一个时间但是我们觉得还远远不够极致

对于生成时长这件事情它要结合着生成速度去看当你的生成速度能够做到小于等于生成时长的时候这个的想象力空间是无限大的因为很多我们听起来很陌生的词汇像时时交互 像永续生成它都是能做得到的

而在这样的一个技术基建和产品基建的基础之上能衍生出来我们至今都没见过的产品形态它可能是完全全新的一个品类和种类在未来内容交互上在未来内容的消费上面都会是一个新的可能是像李总刚刚说的黑天鹅一样的点对 谢谢主持人好 那我们今天本场圆桌就到这里了再次感谢三位嘉宾谢谢大家

本期节目就到这里了你有什么话想说欢迎在评论区留言我们下期再见