现在各个平台都在争夺用户的注意力我们行业黑化就是流量的货币化它在平台停留的时候一定会产生消费的我有足够多的钩子让您一直去消费视频平台它的商业目标就是说我怎么赚钱有一个段子优酷靠着这个甄嬛传能吃十几年
整個中國的流媒體的廣告市場裡面 50%的收入全部被字節一加給包攬了算法是不是現在有這種偷聽的功能我們可以通過你已有的一些信息推斷出來你的月收入為什麼我們在刷內容的同時會無意識地就下單了這個根本不需要去研究腦科學我們用四個字概括它叫做協同過濾
嗨 朋友们好 欢迎收听《赤本论》我是冰姐希望大家有没有和我一样的感觉小红书 抖音 淘宝这些 APP 能够越来越精准地猜测我们的喜好甚至比我们的家人朋友更了解我们自己一方面呢我们在这种平台间歇性的内容奖励中产生越来越多的多巴胺无法自拔但另一方面呢又苦于算法推荐希望能够找到一个能够跟算法更合适的相处的方式
那这期节目呢和我们聊天的朋友是傅聪他的身份是一名算法工程师从浙江大学博士毕业之后呢傅聪担任阿里大文语板块的算法专家后来转战电商目前在新加坡跨境电商平台虾皮就职
我们希望能够借助他的专业背景来了解小红书抖音视频以及电商平台的算法究竟是怎样的运行机制也希望能够走进算法工程师这一群体来听一听他们对于算法的判法并且分享一下算法时代的生存法则我们先请福聪跟大家打个招呼吧大家好我是福聪我毕业之后的话我是先加入到的阿里然后做了内容相关的搜索和推荐的这样的算法
然后我在 2022 年左右到了这个新加坡 shoppy 然后做的是电商相关的这个推荐和搜索的这样的算法嗯
其实今天找你聊这个算法的话题第一个呢是想听听你作为这种内行人的角度来跟我们说一下甚至是给我们透露一下就这个算法它到底是怎么运行的怎么设计的是一个什么样的逻辑你刚刚介绍的是你做的这个算法是基于平台的内容的推荐这是不是就是我们目前其实所熟知的这个算法这一块最主要的一个工作
内容相关的搜索和推荐的话其实比较容易理解常用的这样的抖音快手这样的 APP 然后或者说像是在爱奇艺腾讯视频然后优酷这样的平台他们也都是有各自的这种有自己特性的一些的搜索和推荐算法他实际上你刚刚讲到的这几个不同的平台
尽管是从我们用户端都觉得是它不断地在喂给我们同类型的这个内容但其实平台之间它那个算法的逻辑还是不一样对 是的 差异还是挺大的然后这里面主要的差异取决于不同平台它追求的这个商业目标商业价值是不一样的
能给我们展开讲一讲比如说这个小红书的算法还有抖音的它的这个算法推荐有什么特点它是基于一个什么样的逻辑和目的像小红书这样的 APP 它其实是图文类型的这样的内容推荐
那他更注重的就是说一种生活方式的这样的一个分享和展现那这种 APP 呢他追求的核心目标其实和那个抖音是比较相似的首先他们主要的商业目标一定是 DAU 更详细的说就是每日的活跃用户的数量那他是希望这个内容像钩子一样能够把他们的这个
读者来勾住然后留在这个 app 里面去进行消费那这样的话他们才有可能在这个 app 里面做一些商业化的一些选择比如说广告的变现比如说这个电商的卖货这个其实都是在你的这个停留市场里面去完成的所以从这个追求上来讲商业总体的价值目标上来讲
其实两个平台是非常相似的但是在整个 APP 的调性以及他们希望做成的形态上来讲其实是很不一样的小红书这边他的搜索请求的流量占比是高于推荐的可能达到 60%左右和抖音很不相似抖音那边显然他的推荐 Feed 流的推荐
流量占比应该是远高于搜索的所以我们可能会认为小红书的心智更接近于一种除了生活方式的分享以外还有一种高知识密集度的一个分享所以我们之前也有看到过一些商业化的判断就是说他们认为小红书正在抢走的是百度的地盘我记得在小红书早期
还没有像现在这样火的时候我就听到这个讨论就是说小红书他其实抢走的是原来的搜索引擎的位置吧对 是的
其实它搜索和推荐还有一些竞争各自都能希望抢到更多的流量到自己的场景里面去消费我们也不能就是一概而论地把小红书定性为一个工具化的搜索的 APP 它的推荐这样的内容和搜索的内容它其实是相辅相成去更加的完整地辅助到用户在这上面的一个浏览心智的比如说前段时间
我们不是都注意到了那个 TikTok 难民涌入小红书吗那股热潮之下我就看到我那个页面每次一打开虽然说我没有搜索到这个内容但是他给我喂养或者是推荐了好多这样的内容从我们的角度来看的话我们看的还是一个更宏观的一个商业目标就是当那个 TikTok 的难民涌入小红书的时候
其实运营者希望能够接住这波流量是应该去把这样的内容做一些针对性的扶持和分发的因为在我们任何一个就是推荐的场景里面新的内容和新加入的用户往往是很难去和这种头部的 IP 或者是网络红人跟他们去竞争流量的
因为他们有长期积累的数据和长期积累的受众粉丝那如果说我们在打开小红书的 APP 的当下立刻就能展现到各种流入进来的这样的内容和新的 up 主那一定是有这个官方阅营的定向扶持你刚刚说那个小红书和抖音它的算法基本上目标逻辑是一致的就是要不断地提高用户的日活度然后它需要用一些内容把用户像钩子一样勾在这个
盘上那这个东西就对于算法工程师他提出了这样的一个要求所以那实际在对于你们这个群体来说的话设计算法他
有什么样的这个方式能把用户勾住变现我们一方面在工作当中是用一些 AI 的为基础的这样的一些算法去做这样的内容的分门别类推送的这个排序策略等等的这样一些很细的东西当然我们也要配合那个整个商业平台它的目标去做一些运营机制的设计总体上来说是希望用一些优质的内容留住用户
另外一方面我们希望这个内容它本身是可以带来我们有一个概念叫做流量货币化也就是说我们每一分的流量我们都是有价值存在的
那我们一方面是说要评估内容的质量然后把更优质的内容然后用一些这种我们叫做召回排序的这样的一些机制把最优质的内容最个性化的内容送到展现到用户的这个手机端那另外一个方面就是我们还要从中去筛选更具有商业化潜质的内容
比如说他这个内容文案就是非常的巧妙的可以植入广告然后或者说他的这个内容文案非常吸引用户让他有这样的一种冲动的消费的需求
所以这个才会有这样抖音内容带货的这样一种所谓内容电商的领域发展的现在就是如火如荼的对这就涉及到你现在正在做的事情你在这个新加坡的虾皮它是一个跨境电商对于电商这一块就以你现在的工作为例的话你目前对于你要实现的这个算法它的要求是什么你的这个工作的内容
又是怎么围绕着它展开的对那电商的这个平台它的这个算法的设计也是围绕它的商业目标来展开的那这个和内容平台就完全不一样那电商平台说到底它的这个收入的核心主要来源于两个重要的部分第一个部分是它的这个商家抽优
也就是说我在这边开店的商家他每成交一笔货那我可能就从中抽取比如说 4%到 5%的这样的一个佣金然后作为我平台的一个收入然后另外一个呢就是广告的收入那就是如果说我在每个用户的这个屏幕的上面我做了重要的设计
我希望他用户打开屏幕的时候首要展现的那些坑位上面这些地方我们都是认为寸土寸金的地方就像我们去商场里面的黄金展位的这些店铺的位置这些地方都是租金会比别人更高的我们其实把手机 APP 上面的用户看到的这种不论是双蓝还是单蓝也好的这样的一些商品的列表它每个坑位的价值
都把它转换成了一个类似租金的概念那我们也是希望就是说我们的商家能够在我们的这个所谓的广告的平台上去购买我们的广告然后去竞争这个比较靠前的这样的一些展示位置那这样的话我们还从商家这边会有一个额外的这个佣金的收入主要是靠这两个方面那我们平常的这个工作其实就是围绕这两个方面展开一方面呢我们会把那种
平台里面能够通过数据的各种挖掘 AI 的算法去挖掘到的这样的一些比较优质的然后同时又是高销量符合当下消费主流的这样的商品能够尽可能的去推送到用户的面前然后另外一方面我们也是要去平衡两部分的价值一部分就是说商品里面它可能是自然去卖货也就是说并没有投放广告的这一部分的收入
我们要把它去和另一部分的收入,也就是投放的广告的这一部分的商家的收入去做这么一个平衡。然后我们需要有一部分坑位是让自然的商家能够去获得它的这个流量的。另外一方面也是希望尽可能的从中去提高这个广告的收入,然后最终也不能伤害到整个电商平台的一个大的生态。
对这就是我们一个呃整个的目的那我们所有的工作就是把这个大的目标去拆解到非常细节的各个细分的一个小的模块然后由不同的团队互相协作去完成这个目标嗯
淘宝和拼多多也是基于这样的逻辑吗对我们现在其实呢我的感觉是那个电商平台背后用的算法大同小异然后工程系统架构什么的这些都大同小异但是大家的导向其实是不一样的要我们来讲的话其实这个其实和算法已经关系不是特别大主要是商业模式的一个问题
因为我们知道这个市场本身它就是分层的有的 APP 它可能会主动选择我去服务高竞职客户然后因为这里面它买的这种高附加值的产品你的抽佣比例是更高的
有的可能就会去选择服务咱们说普通的消费能力正常消费能力的客户这样的话在一个分层的市场里面大家会去抢占自己的那部分的地盘到了现在这个阶段的话不同的平台肯定是在做一些更加激烈的红海式的内卷拼多多可能更想要去做消费的升级
淘宝 京东他们可能还要去在他的不同的用户的分层里面去抢占拼多多他所拥有的那一部分的用户的流量然后还有一些不同的点在于说大家的收入构成可能也是不一样的
淘宝它的这个广告收入占比是挺多的但是拼多多它的这个广告收入或者说我们认为它的这个毛利率会更高原因是它其实会在它的这个生态系统里面去融入更多的广告
然后所以商家在靠前的坑位的展示大比例都是在做广告的一个坑位竞争有一些数据可以作为参考就是我们浏览到这个拼多多的上面的这些商品的时候 70%看到的这些商品对应的商家他其实都投了广告了对所以他的这个占比收入占比会非常非常的多嗯你是在这个虾皮之前是在
阿里的我是在大文娱然后统筹的去负责这个优酷大麦还有淘票票这三个 APP 的算法的支持比如包含 B 站在内的他的那套逻辑是通的是吧对对对差不多都是一样的
我们还是可以去分门别类的把这个不同的这种的泛娱乐的这样的平台去做一个分类用一个最简单的分类的方法我们就看视频的时长抖音快手他们是属于一类的属于短视频平台那西瓜视频然后 b 站他们是属于中视频的平台他们的这个视频会在这个 5 分钟到 60 分钟不等的这样的一个
尤其是 B 站可能还会想要更倾向于就是越来越多的去介入到长视频的这个竞争然后传统的老三家的这个优酷爱优腾嘛这三家这三家其实是被归类为非常传统的长视频平台那不同的这样的平台其实他们那个
最终的整体的商业的结构也是很不一样的然后这也和他这个平台选的调性有很大的差别其实长视频平台来讲的话他的商业目标还是就是说我怎么赚钱吗那他的商业收入其实就包含两个部分一部分还是广告的收入那另外一个部分就是我们靠版权 IP 来去吸引到的增长
增值的部分那增值的这个部分其实就是我们说的会员的收入那你去冲这个会员续费然后免广告然后去那个抢先看一些 IP 内容其实这些平台它主要是在平衡这两部分的这个收益那这里面做算法的话其实和那个短视频的平台大家的这个整体的算法的做的逻辑是完全不一样的我们会看到就是优酷你打开这个 APP 以后它其实也会有
大量的短视频它本身它不是为了说我希望让用户来到优酷 APP 它就是希望能够我去用这些短视频去带动整个长视频的 IP 的这个收入短视频这里面和算法无关的一个部分就是一个
内容的选取的部分那这个地方其实我们行业黑化有一个讲的就是内容池那这个内容我们的选取的内容池会完全和抖音这样的短视频平台的短视频的选取的内容池的逻辑完全不一样他们会更倾向于短视频平台会倾向于覆盖品类
但我们是要去做打辅助所以你看到的是那种混减花絮后期还有各种各样的类似就是围绕长视频 IP 周边然后去做二创等等的这样的一些视频它是一个主力然后偏泛娱乐性质的视频也会去做一些重要的补充其实这些部分也就是为了能让用户不会太过于审美疲劳然后也是为了去争取它的用户的停留的时长
那最终的我是希望你在看到这个 IP 相关的内容短视频的内容以后还要去吸引到你然后去消费我这里面的这个长视频的内容那长视频的这个内容包含两个部分一个部分就是说新内容新内容我们应该去怎么样的去把它那个
在这个平台上甚至扩大平台之外把它推爆那另外一个就是老内容怎么能让这个用户呃时不时的回过来继续消费之前有一个比较呃搞笑的段子就是说优酷靠着这个甄嬛传能吃十几年
对其实说的是没错的甄嬛传单这一布局给优酷带来的收入确实超过了这个据本身它的投入的成本非常多倍了然后所以回到刚才说我们算法设计里面一方面我们会在内容里面去
想办法去把这个用户画像做的非常的精准所以画像算法在我们这个算法领域里面是一个在长视频平台里面是非常重要的一个组成部分基于这个
这个画像的话我们可以去做非常精准的这种的长视频的个性化的推荐然后把一些老内容反复的挖出来然后推送给这个新到来的用户或者说让老用户去做重温那么新内容的话其实就是一些我们会有一些这种定向的这种的扶持机制
然后让他在这个他对应的受众里面去不断的去外扩他可能一开始会找到我们所谓的一些种子用户就是这个用户我们非常确定他一定就是这个剧的粉丝或者是这个综艺的这个粉丝
那这部分人他们肯定会有一些主动的动作比如说我很早之前就预约了这个综艺的开播或者是预约了这个剧的开播那么根据这些用户我们找到他相似的用户不断的在平台内部推爆同时呢
我们会去让阅营同学去在不同的其他的外部平台去做这种的宣发包括热搜的这些的管控然后他们只要拿到了一些热搜或者说用户自动挖掘出来的一些那种的素材有可能比如说之前
早些年的那个叫陈情令当时在我们这边对然后陈情令里面的各种魂剪然后大家磕的 CP 这些热词然后我们从外面挖掘到这些就是从像微博这样的平台挖掘到的一些热门话题然后再回到我们的主站再去做不停的这样的一些的相关的二创内容的再创作然后在聚集开播的时间段里面把
用户完全吸引在这个时间里面这样的话就能实现广告收益和会员收入的一个最大化对
然后再就是我们也会根据用户的画像去预测用户的人生阶段的变化给用户推送不同的内容以及最重要的还是要把会员给卖出去所以会员频道的话我们会需要去用各种各样的方式去对用户他的消费能力去做证别
那用户有的消费能力高的就可能就会少推送一些这个会员的优惠券对然后所以就是我们会吸引这一可能的吸引用户去体会到就是这个会员的这个价值所以这些东西也是在我们算法的一部分你刚刚说到你们的这个算法可以把这个用户的画像做得非常的精准
这个精准是到了什么样的程度?这个精准就到了当然这个感觉有点接牢底了就是即使你可能他这个用户没有提供这些信息但是通过这个相似的这个用户的这种的数据的挖掘然后通过各种各样的一些因果推断的这样的一些机制我们可以通过你已有的一些信息推断出来你
处在人生的一个什么样的一个阶段然后呢同时也推断出来你的大概的职业背景然后以及
大概都能推断出来一个上下浮动不超过 20%的这么一个你的月收入然后根据这些去做推荐个性化搜索的个性化维度会非常多它的性别它的那个长居地然后它的这个就是上网习惯你是经常用流量还是用 WiFi 然后还会有用户它这个是否就是有家庭然后它是否有这种家庭式的账号然后还有各种各样的一些
用户的这个行为的历史假如说我是一个刚刚注册优酷的新的用户
我就输入了一下我的电话然后呢我也没有留下搜索痕迹那通过什么来描摹我的这个用户的画像呢又通过什么来投位给我内容首先你可能这不涉及到商业机密吧涉及到更好我们更想听这个应该不涉及商业机密这个就是大家都是这么做的
我也不代表任何平台去讲这个事情对只代表我个人的一些了解到的信息所以说你虽然说是一个新用户但是你从哪来这个很有可能是知道的比如说你是看到了其他的那个平台上面用户这个优酷投放的一些广告然后你通过广告跳转过来的
这是一种可能性然后你是同时或者说你是在微信上面有朋友给你分享了一个他看的优酷的剧集然后你通过微信小程序或者什么东西渠道过来的然后还有可能就是你是在淘宝上买了 88VIP 然后这里面带了会员你就可能想过来
虽然说你的手机号只在优酷输入过但你有可能在支付宝输入过对吧所以就是这些比如说阿里的数据是打通的对阿里内部的数据应该是打通的对所以就是可以能够拿到非常多的新用户的一些信息也是真的有这样的完全白白的用户的这样的话其实我们也不是说完全束手无策我们叫做钩子落地业你刚新用户刚注册然后过来以后我们会准备一个非常精心
构建的这么一个欢迎页面然后这里面其实就会希望能够尽可能的用优质的内容然后把这个用户给留下来我自己在生活中有一个感受我今天比如说跟朋友或者是跟同事聊到什么话题和内容可能提到了某一个衣服吧然后呢当我打开淘宝的时候
我会发现在那天首页推荐给我的内容里面就会出现跟我这几天的谈话内容涉及到的一个东西所以算法是不是现在有这种偷听的功能这个我印象里是有之前有传言是说有这样做然后被监管去那个介入过
但是我不是特别确定这个消息的来源对但是其实监听这个事情其实首先你的 App 如果你是用了苹果手机的话它其实它会对你所有的这些的接口的权限有很大的一个限制就是你不太能拿到长时间的后台监听的权限的苹果是不可能让你做这件事情的
对然后比较大的规模的互联网平台他们在收集用户信息这个层面还是非常的克制的
基本上都是满足我们网信办他们的一些要求的法规然后收集了信息能怎么用都会在他登录 APP 第一次注册的时候所谓的同意条款里面当然大部分人都不会去仔细看这些他到底要收集哪些数据了了解就是这种情况其实还没有在大范围的程度上发生而且他是受一定的法律或者是法规的限制的
对我认为监听这个事情应该是不被允许的还有一点是想跟你聊聊就是算法工程师他的这个群体是一群什么样的人在做这样的一个事情然后他每天大概是是怎么样在工作的随着好像每个人都被算法包围我们对这样的一个群体这个职业本身也是充满好奇你经历了两个平台的切换从这个阿里到跨境电商这个转换你当时是出于什么样的考虑
这里我的一个考虑可能就是纯个人的一个考虑只是想换换工作然后去尝试一些不同的商业模式下的算法的这样的一些工作其实底层的算法是相通的只要你是做推荐算法或者是推荐系统的这里面相关的工作大家最后用的方法其实是一样的
细节上来说就是用的这个模型其实是大同小异的唯一的差别就是说你到底在优化一个什么样的目标打个比方我们希望去让用户在这个平台停留的时间更久那么我们可以把这个目标去做一个拆解第一个诉求就是说我希望他在这个平台上面浏览的内容更多这是其中一个诉求另外一个诉求是每个内容上面的停留时长都更久
那这样的话我们其实可以把这个问题分解成两个问题第一个问题就是说我怎么样能够在海量的内容里面去筛选出来一个优质的个性化的一个小的集合去满足这个用户的针对性的要求然后这个集合是多种多样的不会让人产生审美疲劳的能够让他一直留在这里这是一个一种算法在背后在做支持那另外一个算法呢我们可能就会用新的模型去让在对这个用户的
对单点的一个内容它的停留市场做一个预估那我们就可以大概估计这个用户可能会在这个内容上面去消费多久
然后根据消费的时间我们就可以去做一个排序也是通过在海量的内容里面去挑出来所有这些各个品类下面用户都有可能消费最久的那些然后最后去做一个集合上的平衡和筛选然后最后把这个内容再呈现给用户
那你第一点的话我有一个疑问我能理解的是现在各个平台都在争夺所谓的用户的注意力它如果是只是在平台不断地刷内容不断地停留的话但是不产生消费那这个对于平台的意义是什么呢这个不会它在这里平台停留的时候一定会产生消费的然后这个消费的形式可能会是多种多样的比如说刷抖音的时候它会在每隔几个的这样一个频率下面会给你展现一次广告
然后这个广告的内容只要展现了它就会计费如果用户在对广告内容做了一些交互比如说他给你推荐了一个小游戏然后你点了小游戏以后进到了其他的这样的一个游戏的程序界面里面去的时候就是发生了一个新用户的转化的过程这样的话它的针对广告的转化效果不一样它其实有可能会产生不一样的价值的经济收益
然后另外就是很重要的是大部分的电商都会嵌入到那种平台里面去比如说你在抖音上面他会给你在看到一些内容的时候他是挂购物车的那另外的话还有就是像其实优酷我们之前又有卖过货那就是对于明星的这个周边如果说你看剧的时候然后他可能会给你推送一些这个周边这样的一些的
可消费的这样的一些东西这样的话其实也是能给平台带来一个额外的收入的所以这就是为什么我们在刷内容的同时会不自觉甚至是这个无意识的就下单了这样的一个行为背后它是有这样的一个操纵的对对就是我刚才有提到过的那个概念就是流量的货币化评价这个平台或者说评价这个公司它的商业价值
大部分的人都会用这个概念去做一个衡量比如说我们认为抖音的流量货币化率是非常高的因为它的每一个用户然后单位时间的流量所产生的这样的一个收益是非常恐怖的有一个统计数字就是整个中国的流媒体的广告市场里面 50%的收入全部被字节一加给包揽了
所以在这个你要争夺用户的注意力的时候为什么能让大家停留的时长更长刷到停不下来这背后是不是也有一套成瘾的机制就你们要研究比如说大脑机制啊什么能让它成瘾什么能让它脱离不了这个平台其实这个根本不需要去研究这个脑科学相关的知识你需要去用这个推荐算法去做这个事情就行了
推荐算法其实它的背后的核心思想我们用四个字概括它叫做协同过滤协同过滤对协同过滤协同就是一起做事情过滤就是我们用一个筛网把东西筛出去就叫过滤那协同的意思是谁和谁协同其实是用户和用户协同
就当我这个平台拥有了一定量的基础用户以后这些用户在他刷的这个过程当中其实无意识的就帮我去做了这个内容的筛选比如说你看一个视频看得很入迷
然后这个视频你把它完全播放完成了这个 30 秒的视频你可能甚至看两次到三次我们后台是能看到这个记录的这个时候这个视频它背后肯定会有一个标签比如说这个视频的内容的标签它是一个范娱乐代表明星花絮周边然后通告等等的这样一个标签比如说这个标签它打的是肖战打的是范澄澄然后这个时候你又是一个女性的用户
20 多岁的正式追星的一个年纪那这个时候这两个标签就会被我们的这个算法给捕捉到那如果越来越多的用户都看了同一个内容然后这个内容的玩播率都非常高那我们平台就可以或者算法就可以认为这个内容可以把它推给更多的相似的用户那这样就变成了一个滚雪球的一个效应那越多的用户去验证过以后我们对这个视频的
它的质量的评价会越来越准确我们根据大量的标签的预估用户的标签的预估也会随着用户量的增加来到了一个越来越准确的这样的一个量级所以这个时候我们就完成了一个叫做协同过滤的一个过程就是用户协同去把这些相当于在自己没有下意识的一个过程的时候把这个视频给打上了某种标签
这个视频就是说我可以推荐给 20 岁到 30 岁然后喜欢这个肖战的女性用户那这个时候呢过滤就发生在后面的这个过程就是再次推荐的时候那这里面我们可以根据你以往的这个消费的历史记录然后以及这个更精细化的准确的标签和相互匹配的这个打分我们可以根据这个分数
过滤掉一些不相关的视频比如说郭德纲郭老师他们这个相声的段子可能就不会推给一些不感兴趣的过于年轻的一些用户我们这个平台的这个用户量越大内容池越深的情况下我们就可以实现我有足够多的钩子让您一直在这里面去消费
我有一个感觉就是说我如果作为一个用户在平台或者是在算法眼中我整个人就是有一堆标签来堆砌的对你理解的非常准确在我们的这个推荐算法里面其实这个用户全部都被标签化以及这个数字化了除了标签以外我们还会做非常精细的这种特征工程
什么叫特征工程呢其实就是说我一个算法模型它其实是需要一些数据输入作为它的判断依据的那这些数据输入它必须得能够覆盖到方方面面
那我才能做出一个很准确的判断我不仅仅要知道你爱看这个肖战的相关视频那我还要知道就是你到底爱看到什么程度那比如说肖战相关的视频我把你看过的全部做了一个聚合然后发现平均玩播率达到 90%以上那这是一个程度那还有一些人他可能也看肖战的视频但他平均玩播率只有 50%
这个时候同一个肖战的视频推送给这两个不同的用户的时候它的打分是不一样的对所以就是把更多更精细的这样的数据化数字化的这种标签贴在了一个一个用户身上像抖音这样的平台描述用户的特征
这个数量其实非常庞大的最终可能会有成千这种甚至上万的这样的特征描述都是有可能的所以他们的推荐模型也是一个非常庞大的一个 AI 模型所以你们是通过这个模型来实现这一切的对我们是这个靠算法模型去实现这个过程中的一部分但是呢推荐系统它本身不是一个算法就能解决的问题
这个系统里面算法起的作用其实不是特别多剩下的部分其实要大量的人为的干预和引导之前有抖音这边有些公开的场合讲过他们评估过从他一开始就是发起这个项目然后第一次得到了 800 万的 DAU 到发展到后面至今这个过程可能他算法真正的贡献只有 15%左右
那剩下的里面有非常非常多的东西包括商业模式的设计包括运营的投入这些可能是占更大头的也就是说你刚刚提到的人为干预的引导我原来以为是这个人为的部分是要由你们也就是算法工程师算法专业人士来完成的其实也不全是还是要有其他的工种的协同
对,其实我们这种平台化的公司,核心干活的您可以理解为两大类,一类是像我们这样的那个做算法或者做数据分析的人,
另一大类是他们可能是完全没有技术背景然后专门负责运营的这样的一些同事对于算法工程师来说他基本上全是技术背景出身的吗其实也不全是我这边其实也认识有这个文科背景转码的这样的一些同事网络
网上是有很多公开资料的如果仔细去找的话任何文科背景的同学也都是可以能够把自己塑造为一个算法工程师的听下来似乎这个门槛不是特别高对门槛很高可能是大家对于算法工程师的一个误解
因为其实算法工程师还有普通的程序员他们都是做程序设计做这个计算机相关技术开发的在计算机这个领域里面大家喜欢卷开源其实就是相当于说你不太需要懂这个软件内部做了什么事情
你只需要就是知道怎么样去操作这个软件就好比我在手机上装了个 APP 我不需要知道 APP 它背后是怎么工作的我只知道我怎么样去在 APP 上刷内容用它就可以了那你觉得对于算法工程师他的能力要求上他最主要的那个要求是啥我其实并不是很喜欢把那个我们对于算法工程师要达到一个什么样的程度去做一个分文别类
其实这个东西在那个各大公司里面发展到了今天都有一些比较成型的这个我们叫做工作模型它基本上会包含就是说你的工作内容是什么然后根据这个工作内容然后我来确认你需要哪些技能
呃首先你要具备比较熟练的计算机语言能力那还有就是你对于这个算法尤其是机器学习人工智能这一类的算法有一定的了解其他的就是和普通岗位的这种招聘要求都差不多了比如说性格开朗啊这个呃
沟通顺畅等等的一些基本要求现在 AI 大模型它在不断的迅猛的发展像最近很热的 DeepSeek 你觉得 AI 领域大模型领域的突破它会对算法工程师提出新的这种能力上的要求吗算法工程师这个领域它非常的庞大
然后对于我们做这个搜索推荐广告这样系统的算法工程师他的这个门槛要求或者说他的基础的知识的这个储备在有没有大模型这个前后其实是没有变化的
那么大模型的这个爆发,它主要影响了算法工程师里面的一些子类的行当,就是我们讲就是说除了搜推广这样的算法以外,其实还有其他类型的算法工程师岗位,比如说这个负责计算机视觉这种技术的这种算法工程师岗位,那这种工程师他的常见的工作场景包括类似自动驾驶,
或者说人脸识别或者说安防摄像头的这些背后的一些智能技术然后包括无人机的这种自动跟踪等等的但凡用到的这种摄像头的要产生图片或者视频的那这种处理这样的数据的这个
就是我们讲的计算机视觉方向的算法工程师那其实这个就是看大家处理的这个数据的我们叫做模态有所不同那我们算法工程师里面搜推广的我们处理的模态其实就是这个推荐领域里面的用户和这种的内容的这样的一些数据那还有一大类就是我们说大模型这一大类那大模型这一大类最开始他们所属的领域叫做自然语言处理
也就是说这个模态下面算法工程师所要处理的数据它是人类的语言的这样的形态的一个数据所以其实在大模型出来前后对于计算机视觉和自然语言处理的算法工程师的岗位要求发生了非常大的变化 2020 年之前我们讲的都不是说现在的大模型我们讲的是 GPT-3OpenAI 的 GPT-3 级别的模型提出来之前
自然语言处理的这个行当其实很多那个算法工程师他只要能够在一些那种的常规的我们叫做小模型的这样的任务上面做过一些科研的经验然后调试过一些这样的模型做过一些这样的类似的产品或者什么样的经验都是可以的但是从 GPC3 开始大语言模型技术的这一个爆发导致这个领域的技术被大一统了
以前我们可能说机器翻译用一个模型我们把这个就是做智能问答这个客服机器人用一种模型大家领域都是这个分开的但是大语言模型这个技术出来以后所有的跟语言相关的任务全部都可以用大模型来处理那这个时候对算法工程师的要求就是说你至少有亲自调试过大模型或者是大模型相关的下游的任务
然后有相关的经验的话才可以那么为什么后面还牵扯到就是说影响到了计算机视觉相关的这样的一些从业者因为就是我们现在也看到了大模型的发展不仅仅在做语言相关的信号处理现在如火如荼在做的包括是这个文生图或者是图生视频这样的一些这种的应用它背后驱动的是多模态的大模型那它既要能够处理视觉
视觉的这样的信号也要能够处理语言这样的抽象的符号所以就是说现在也被逼到就是说这个计算机视觉相关的从业者他也得懂一些大模型的内容那比如说你会关注到这一轮这个 DeepSeek 的热门因为我看到一些分析是说之前在这个领域里面他是靠这个
算力但是他独臂其境是在算法这儿做了一个突破这个东西一出来在我们这些完全外行人的角度来看的话就把它当成是一个挺震撼的一个事件你们那个角度应该是跟我们外行人的角度不一样的对我们做算法工程师其实本质上大家做的东西都叫做
机器学习和人工智能技术然后大模型这个东西它确实也是不仅仅影响到了这个语言领域和视觉领域它其实也影响到了就是所有的算法的领域搜索推荐广告我们现在也在积极地去尝试怎么样能够让大模型去在这个
电商的这样的一些环境下面或者说搜索推荐这种泛化的一个场景下面怎么样去实现让它去提升我们的整体的效率关于 DeepSeek 的话它的创新点可能并不是大家所
理解的那种范式上的创新方法上的创新而是实践上的一个创新大模型领域其实有一个非常让人痛苦的事情 OpenAI 他们本来他们组织的创立的初衷是希望他们所研究的任何 AI 技术能够普惠到整个
人类社会但是他们其实在这个大模型出来以后他们已经不再去公开他们的技术细节了而 DeepSeek 他做的事情呢第一个事情是他们怎么去做降本然后第二个事情是他们怎么去做这个提效他可以用很低的成本去训练一个
商业级别的那种超大规模的模型第一次在开源界有人用这种技术去走通了然后第二个点就是在于说他验证了一件事情其实他在完全盲人摸象的一个状态下面他能在这么短的时间之内
去把这个强化学习应用到这个我们说基础模型之上然后得到一个类似这个 O1 这样的一个推理模型这件事情它重要在于说你可以在商业级别的这个规模上面去验证说明这个事情是有效的而不是说在像我们学术论文里面它是在非常小的一个模型上面去验证一个技术到底有没有效它会影响到你们的具体工作吗
他肯定会影响从一个宏观的层面角度来讲成本这个事情意味着什么就是意味着这个整个市面上玩家的数量当训练一次这个 GP4O 这样的一个级别的一个模型他需要比如说 5000 万美元才能做一次的话那这个时候就会把这个
很多就是中型体量的公司拒之门外对因为这里面是他不是说我有非常明确的技术方案我一次就可以把这个东西给试出来他有中间非常多试错的成本需要去承担的也就是说这 5000 万美元背后可能是几亿美元的一个试错
这个在很多中型公司都是受不了的因为很多中型公司它本身整体的市值可能也就只有几亿几十亿美元那如果说它 R1 可以把成本压缩到五千七百万左右
然后训练了一个商业级别的超大规模模型那也就是说参与到市场上的玩家会越来越多那 OpenAI 它所主导的这种架构到底是不是最优架构大家会给出不一样的答案对于我们普通算法工程师来讲这个 R1 这样的系列的模型出现以后尤其它还是有开源的这样的版本那我们一方面就是说我们可以在我们的公司内部去复现
一个类似 R1 这样的一个模型然后 R1 还有一个很大的优势因为它的这个低成本的一个架构它还提高了它的推理速度所以我们很多之前想要解决的这个高延迟的这些问题也是可以解决掉的然后还有一个很重要的事情就是它不仅仅是可以去服务客户还可以服务我们算法工程师本身去服务我们日常的工作迭代像我个人平常也会去测试
测试过 R1 它在数学推理还有证明的这些上面它其实也是几乎可以对标 GPT 它的 O1 系列了我再问几个更具体的一个问题算法工程师以你为例它基本的日常工作是一个怎么样的状态
其实我们 80%的日常工作时间都是在分析数据其实就是用户每天和我们的 APP 做交互以后它都会产生大量的这样的记录比如说它这个看什么样的视频然后看这个视频的时间对就是这些历史记录对我们会用一些这个数据挖掘的方法
去分析这里面那个有哪些推荐或者搜索结果还不够精准然后同时我们也去会去分析一下就是我们目前的这个结果它是不是能够最大化我们的这个商业的目标收益
所以我们大部分时间都是在去做数据的分析和挖掘然后同时剩下 10%的时间可能会去做另外一些事情比如说自我提升去研究更多的新的方法去帮助提升现在的效果因为其实就是学习对就是学习
因为其实我们现在的很多那个所谓的推荐模型他们的效果其实还远远不是说能够推得非常准确的它其实距离我们认为的天花板还是有相当的一个距离的所以我们会去看顶级会议顶级期刊的这样一些学术论文你们认为的那个推荐的天花板是什么样的呃
怎么说呢基本上可以保证展示一屏幕里面至少有一个你喜欢比如说我们现在这个商品的这个页面可能同时展示给用户的话一般会展示四个商品那我们至少能保证这个点击率达到 25%的话那说明我们这个做的已经非常准确了它未来有没有可能实现一个情况就是说它展示给我的页面和推给我的这个内容基本上就跟是给我私人定制的一样嗯
从我的角度来理解的话只要他获取的数据足够多然后他模型的能力我们去把它做得足够好您说的这种状态是完全有可能达到的
但这里面也有一个大家所担心的问题因为你是做算法设计的你应该也听到一种反馈就是大家越来越苦于算法推荐你会发现每天他在不断地喂给你这种同质化的内容特别特别的多包括去年在这个出国新书的这个尤瓦尔赫拉利他就着重讨论了一个问题就是信息减防就每个人
都困在自己的这个减防里面这是大家对算法的质疑你怎么看这个事儿其实我是这么看这个事情的就是信息减防这个事情是随着信息时代所诞生的一个产物在信息时代之前大家并不会觉得自己有信息减防因为你其实获取信息的手段和渠道是有限的你只能从周围的社交圈子里面获取信息那你的所在的地方本身它就形成了信息减防
所以在信息时代到来之后给我们带来的一个这么大的一个冲击主要在于说人被暴露在了海量的信息之中其实人是消化不了这么多信息的那他就是需要用有些手段去做过滤我们刚才讲的协同过滤就是其中的一种过滤的手段其实就是别的用户帮你去筛选出来的一些他觉得你可能感兴趣的信息然后给推送给你
然后还有一种因为我们人本来就有天生好奇的本能所以我们本来也是有主动获取信息的本能存在所以主动寻求信息本身也是需要一些手段或者工具的有了搜索引擎的话它本身也是一种信息的过滤就是因为信息通路被打开了我们才主动地意识到了信息检防的存在
因为我们会在网络上看到更多人的一些反馈然后这个时候才意识到我这边接收的内容的信息和别人接收是不一样的激活了我们对信息自我的一个感知才意识到了信息解放所以你不认为这个机制本身有什么问题
对我觉得整体来讲整个信息时代所有的基建基础设施从这个生产工具的角度来讲的话它就是提升了生产力它就是提高了这个世界的运行的这个效率只不过算法它有它的局限性它确实过滤了一些信息但是它并不能够完全理解这个人人和人之间它有非常非常多的细微的差别但这些细微的差别是可能没有办法
以数据的形态然后反馈到这个系统里面去那当算法捕捉不到这些细微的差别的时候它只能就是像刚才咱们聊到过的用一种标签化的体系化的方式去对这个世界做一个非常简化的抽象
它就会把人和人分成各种各样的类别然后不同的人群去给他们推送不同的信息然后从而形成了我们所说的这种信息解放为了去突破这个信息解放其实推荐系统本身也做了非常多的设计
一种设计就是我们讲做冷启动,也就是说一个新的内容,它刚刚进入到这个平台里,那我们应该怎么样去甄别它应该推送给什么样的用户,会在一部分用户身上去做这个试水,然后根据收回来的这个反馈的这个数据,然后再来确定下一步要不要给它分配更多的流量的权重。
那另外一个就是人为调控的机制比如说我希望能够留住用户然后优化他在这个平台的停留时长以及单个视频的这个消费时长那这个时候他其实只能做的一个事情就是贪婪的去把这个东西做到极致他只会把你消费最好的那一类的视频筛选出来但是平台其实是会做非常多的流量机制的一个调控然后以确保不同的那个啊
雖然是說
设计算法的但是你也是各个 APP 的用户其实你也是算法瞄准的一个对象你自己平时会有这种烦恼吗其实我个人来讲可能还稍微有点特殊因为我甚至会特别的喜欢算法去给我推送一些内容因为我知道这个算法是怎么做的
所以我会去调试这个算法的我会用用户的角度来去调试这个算法然后让这个算法去给我贴上某一类的标签然后让他把某一类的内容尽可能多的去推给我其实这个过程你这里说到的就是一个驯化算法的方法对这是一个驯化算法的方法但前提在于说你知道你很明确的知道你的目标的这个信息获取是什么样的一个信息也就是说
你有主动获取信息的诉求然后你去用这个方式去调试算法它是最有效的怎么调试打个比方我是希望有一些微信的公众号
尽可能的把最前沿的对论文的一些这种客观的解读和解析这样的一些长文推送给我那么我就会在公众号的这样的平台里面它的入口里面在这个页面去停留更长时间它推给我其他的内容我也不点我就只点
这一类别相关你感兴趣的我有一个非常明确的目的就是我想要去获取最前沿的论文相关的信息但是我也不知道最前沿的论文是什么所以你就尽可能多推给我然后我再去做一遍筛选你还提到了一个很重点的内容首先你如果是想要驯化算法的话你得清楚地知道你的那个诉求是什么
是的我觉得这可能也是未来我们如果是要能够跟算法跟 AI 共处里面所需要具备的一个能力对您说的非常对就是我们需要能够明确的辨别
算法它的能力边界是什么然后让它成为一种工具为我所用当然就是大家纯粹碎片时间用来去刷的娱乐性质视频那就随便刷自己喜欢什么就让它推什么那也是一种放松对关于这个算法工程师这个职业平台算法它是怎么保密并且避免被
离职或者跳槽的算法工程师带走的 OK 它没有太复杂的东西一方面就是核心的算法如果是核心工程师他自己做出来的那他想带走也没有人能够拦得住因为他知道这个机制是怎么设计的然后他换到一个平台他是有足够对应的基础设施他是完全能够附现这个东西但是实际上就是避免的就是公司的这些所有代码并不是对所有人开放的
一些比较核心的代码库它只针对于项目相关的开发人员才会有开放的权限也就是说你只能是你来去开发它你才可以阅读它这样的话其实有一定的保障另外刚才说的核心的这种头脑级别的人我们希望怎么样去对他们这些人做限制其实在互联网这个行业里面有一个说法或者说有一种手段就叫做竞业协议
那这个经业协议是很多核心骨干离职的时候是需要去签署的那它会限制你在下一家就业的时候的一些公司的选择去向好了非常感谢傅聪来到我们这个日本论和我们非常深入的揭露了
算法的这个基本的运行的秘密也让我们了解了算法工程师这个群体到底是怎么样工作的而且最后特别特别值得的一点我觉得也是对大家非常有启示的一点就是在我们跟算法共处的这样的一个时代大家怎样炫化算法让它能够更有力的为自己服务 OK 希望能够帮助到大家