算法驯化人类?揭秘“刷不停”背后的流量操控战
再一次,刷小红书过了零点。脑子里想的是“还早,再过半小时就睡了”,然而手停不下来,直到凌晨1点。纠结了几分钟后,理智终于抢占了上风,放下发烫的手机睡觉。
这已经是第N 次。半年前,为了摆脱刷短视频停不下来的状态,我卸载了抖音。还有同样让我停不下来的知乎。然而并没有什么用,没有了抖音和知乎,还有小红书。
一觉醒来,接下来要面对的是精神内耗:要不要请假睡个懒觉的犹豫,熬夜刷手机的愧疚,对自制力的质疑,以及对于接下来一整天是否会顺利的担忧。我把这一些都归结为前一晚熬夜带来的后果,然后再一次为自己的行为感到懊悔。
我不是不知道,这种"停不下来"的体验,是APP 利用算法刻意制造的。但问题是:我一个普通人,如何能对抗得了精心编制的算法牢笼呢。
就在这样的日夜拉扯之间,我偶然听了一期播客——“知本论”对话算法专家傅聪。这期播客提到了平台如何设计算法让用户成瘾,如何捕捉用户注意力,用户画像可以精准到何种程度,以及信息茧房是如何形成的。最后令人意外的是,傅聪提到了作为用户如何驯化算法,为自己所用。
(下文根据播客内容整理)
01 商业目标驱动的算法设计
我是一名算法工程师。从浙江大学博士毕业之后,在阿里大文娱板块,负责内容相关的搜索和推荐算法,2022 年左右,在新加坡跨境电商平台虾皮(Shopee)就职,负责电商相关推荐和搜索算法。
涉及到内容相关的搜索和推荐,既有抖音、快手、小红书这样的APP ,也有爱奇艺、腾讯视频、优酷等视频平台。我们在感知上都是“推荐同类内容”,但不同平台的搜索和推荐算法逻辑是存在明显差异的,因为他们追求的商业目标、商业价值不一样。
内容平台(小红书/抖音)
小红书主要是图文类型的内容推荐,更注重分享和展现生活方式,追求的核心目标和抖音是比较相似。
它们的商业目标是 DAU——每日活跃用户数量。平台希望展现的内容像钩子一样,把用户钩住,留在 APP 消费。只有留住用户,才有可能在 APP 里面做商业化行为,比如广告变现、电商卖货。
所以从商业目标上来讲,其实两个平台是非常相似的,但 APP 的调性以及期望的形态上来讲,是很不一样的。小红书的搜索请求流量占比高于推荐,60% 左右;而在抖音,推荐 feed 流的流量占比远高于搜索。
我们或许可以认为,小红书正在构建的用户心智已超越传统的生活方式分享社区,转向“高知识密度内容平台”——此前也有商业化研究报告指出,这种心智迁移直接体现在用户行为上:当搜索“装修攻略”“旅游路线”等决策型需求时,小红书正逐步替代百度等搜索引擎,成为新一代的“生活场景搜索入口”。
搜索和推荐,是存在竞争的,各自都能希望抢到更多的流量到自己的场景里消费。当然,我们也不能一概而论地把小红书定性为一个工具化的搜索的APP,它的内容推荐和搜索是相辅相成的。
不过,内容推荐并非完全依靠算法,官方平台也会主动设置议程。
当“TikTok难民”涌入小红书时,用户每次打开APP都能看到满屏相关内容。这实际上是官方运营对这些内容进行了针对性扶持和流量倾斜。
在任何推荐机制下,新生内容和新用户往往难以与头部 IP 或网红竞争流量——后者拥有长期积累的数据沉淀和固定粉丝群体。因此,当用户打开小红书APP时,如果能够即时看到大量新涌入的优质内容和创作者,其背后必然有官方运营的定向扶持策略在发挥作用。
在日常运营中,我们算法工程师主要通过AI算法来处理内容分类、推送排序这些具体细节,同时也要配合平台整体商业目标来设计运营机制,核心目标还是用优质内容留住用户。
另一方面,我们有个重要概念叫"流量货币化"(即每份流量都要创造价值),所以既要评估内容质量,又通过召回-排序机制,把最优质、最对味的内容推送到用户手机端。
同时我们还会重点筛选有商业潜力的内容:比如文案设计巧妙能自然植入广告的,或是能激发用户消费冲动的。这其实就是为什么抖音的内容带货能火起来,也就是我们所说的内容电商这个领域发展得如火如荼。
电商平台(虾皮/淘宝/拼多多)
跨境电商虾皮平台的算法设计,完全是围着商业目标转的,这跟内容平台根本是两码事。
电商平台最核心的收入说白了就两块:
第一块是商家抽佣。比方说商家在平台卖货,每成交一单我们就抽个4%-5%的佣金,这是平台的基本盘。
第二块就是广告收入。你看用户打开APP时最先看到的那些黄金位置,就跟商场里最好的铺位一样,那都是寸土寸金的地儿。
我们APP里这些商品展示位(不管是双栏还是单栏布局),每个坑位都搞成了类似收租金的模式。就是让商家在广告平台竞价,谁出价高谁就能抢到前排展示位,这样除了抽佣还能多赚笔广告费。
我们日常干的主要就是两件事:一方面用数据挖掘和AI算法,把那些卖得火又符合趋势的商品使劲往前推;另一方面得平衡自然流量和广告流量——总得留些好位置给没投广告的商家,但也不能耽误广告收入,毕竟整个平台的生态不能搞坏了。
其实淘宝、拼多多也是这套逻辑。现在电商平台背后的算法和系统架构都差不离,关键区别还是在商业模式。市场本来就是分层的嘛:有的APP专做高净值客户,卖高附加值商品抽佣高;有的就瞄准普通消费者,薄利多销。现在各家打得头破血流,拼多多想搞消费升级,淘宝京东又想抢拼多多的用户。还有个差别是收入结构——淘宝广告收入占大头,但拼多多更狠,他们首页70%的商品展示位都是投了广告的商家,所以毛利率高得吓人。
“内容池”策略
在虾皮之前,我在阿里大文娱负责统筹优酷、大麦、淘票票三个平台的算法支持。这些平台,包括B站等很多视频平台,都属于泛娱乐产品,但也可以分门别类再细分。
最简单的方法就是看视频时长。抖音、快手算短视频平台,西瓜视频和B站属于中视频平台(5到60分钟)。B站现在越来越想往长视频领域挤。传统的老三家优酷、爱奇艺、腾讯视频就是典型的长视频平台。
长视频平台商业目标就两个:广告收入和会员收入。会员收入靠版权 IP 吸引用户充值续费,免广告、抢先看这些权益。所以优酷APP里虽然也有很多短视频,但根本目的不是让用户来看短视频的,而是想通过短视频带动长视频IP的收入。
在长视频平台(如优酷)中,短视频的核心价值不在于算法推荐技术,而在于内容本身的选取逻辑(即"内容池"策略)。
优酷选取内容的逻辑,和抖音完全不一样。
抖音的短视频会倾向于覆盖全品类,覆盖全品类:美食/美妆/搞笑等,因此用户会刷到五花八门的内容。
而优酷的短视频主要是打辅助,都是这些围绕长视频IP做的内容,比如混剪花絮、幕后特辑、二创视频。再加上些泛娱乐内容作为调剂,主要是防止用户审美疲劳。
说到底,还是为了争取用户停留时长,最终目标是通过短视频吸引用户去消费与 IP 相关的长视频内容。长视频内容分两块:怎么把新内容在平台内外推爆,还有怎么让老内容持续被消费。
之前有个挺搞笑的段子,说优酷靠《甄嬛传》就能吃十几年——这话真没说错,光这部剧给优酷带来的收入,早就超过当初买版权的成本几十倍了。
02 用户画像算法
用户画像算法在算法领域,尤其是在长视频平台中,是一个非常重要的组成部分。
基于用户画像,我们可以做非常精准的长视频个性化推荐,把一些老内容反复挖掘出来,推送给新用户,或者让老用户重温。对于新内容,我们会有一些定向的扶持机制,让它在其对应的受众群体中不断扩散。
一开始,我们会找到一些所谓的种子用户——也就是我们非常确定一定会喜欢这部剧或这档综艺的粉丝。这部分用户通常会有一些主动行为,比如提前预约综艺或剧集的开播。根据这些用户,我们再找到相似的用户群体,不断在平台内部推广。
同时,我们会让运营同学在外部平台(如微博)进行宣发,包括热搜的运营。只要他们拿到热搜,或者用户自发挖掘出一些素材(比如早年《陈情令》里的各种混剪、CP热词),我们就会从外部平台抓取这些热门话题,再回到主站推动相关二创内容的再生产。在剧集开播期间,通过这种方式把用户牢牢吸引住,从而实现广告收益和会员收入的最大化。
此外,我们还会根据用户画像预测其人生阶段的变化,从而推送不同的内容。
当然,最重要的还是卖会员。针对会员频道,我们会用各种方式甄别用户的消费能力——消费能力高的用户,可能会少推送一些会员优惠券。我们希望尽可能让用户体会到会员的价值,这些也都是我们算法的一部分。
算法能把用户画像做得非常精准——精准到什么程度呢?这么说可能有点揭老底了。就是哪怕用户自己没提供这些信息,我们也能通过相似用户的数据挖掘,加上各种因果推断机制,从你已有的信息里推测出你处在人生哪个阶段、大概的职业背景,甚至能算出误差不超过20%的月收入范围。
然后根据这些做推荐时,个性化维度就特别多:性别、常住地、上网习惯(比如爱用流量还是WiFi)、有没有家庭、是不是用家庭账号,还有各种历史行为数据。
那假如一个刚注册优酷的新用户,只填了手机号,啥都没搜过,我们拿什么描画像?推什么给他呢?
——先说清楚啊,这不代表平台立场,纯属我个人了解的情况。就算你是新用户,"从哪儿来的"这事大概率是知道的:比如你是从其他平台点优酷广告跳转过来的,或者微信好友分享了优酷链接,你从小程序点进来的;再或者你是淘宝88VIP送的会员,虽然只在优酷输过手机号,但支付宝早就有你信息了。
当然真有完全白板的用户,我们也不慌,专门准备了叫"钩子落地页"的东西:你一注册完,立马弹个精心设计的欢迎页,里头塞满优质内容,就是想方设法先把你留住。
不管是阿里大文娱旗下的这些平台,还是跨境电商虾皮,他们的底层算法是相通的,用的模型大同小异,唯一的差别在于到底在优化什么样的目标。
打个比方,如果我们希望用户在这个平台停留的时间更久,就可以把这个目标拆解:
第一个诉求是让用户在平台上浏览更多内容;另一个诉求是让他在每个内容上的停留时长更长。
这样就能把问题分解成两部分:
- 一是如何在海量内容中筛选出优质、个性化的小集合,满足用户的针对性需求。这个集合需要多样化的,避免审美疲劳,从而让用户持续停留。这背后有一种算法在支持。
- 二是我们会用另一种模型预估用户对单个内容的停留时长,从而判断他可能在这个内容上消费多久。根据预估时长排序,从海量内容中挑选出用户在各品类下可能消费最久的内容,最后在集合层面进行平衡和筛选,最终呈现给用户。
用户只要在平台停留,就一定会产生消费,只是消费的形式多种多样。比如刷抖音时,平台会每隔几个内容就展示一次广告。只要广告展示了,就会计费。如果用户对广告内容产生交互行为——比如它推荐一个小游戏,你点击后跳转到游戏界面——这就完成了一个新用户的转化过程。这种情况下,广告的转化效果不同,产生的经济价值也会不同。
另外很重要的是,现在大部分电商都嵌入了内容平台。比如你在抖音看内容时,会发现有些视频挂着购物车。再比如优酷,我们之前也在上面卖过货——当你看剧时,平台可能会推送明星周边等可消费的商品,这也能给平台带来额外收入。
这就是为什么我们在刷内容时,会不自觉地、甚至无意识地完成下单行为。这背后其实是有意设计的操作。
评价一个平台或公司的商业价值时,大多数人都会用“流量货币化”这个概念来衡量。比如我们认为抖音的流量货币化率非常高,因为它的每个用户在单位时间内产生的收益非常惊人。有个统计数字:整个中国流媒体广告市场50%的收入,都被字节跳动一家公司包揽了。
03 成瘾机制:协同过滤
在争夺用户注意力时,为什么能让用户停留时间更长、刷到停不下来?这要追究到推荐算法背后的核心思想,可以用四个字概括:协同过滤。
"协同"就是一起做事情,"过滤"就是用筛网把东西筛出去。那么"协同"指的是谁和谁协同呢?其实是用户和用户之间的协同。当平台拥有一定量的基础用户后,这些用户在刷内容的过程中,实际上无意识地帮平台完成了内容筛选。
比如你看一个视频看得很入迷,完整看完了这个30秒的视频,甚至看了两到三次。后台能看到这个记录,而这个视频背后会有标签。假设这个视频的标签是"泛娱乐",代表明星花絮、周边、通告等内容,具体标签可能是"肖战"或"范丞丞"。如果你是一个20多岁的女性用户,正值追星的年纪,这些标签就会被算法捕捉到。
当越来越多的用户观看同一个内容,且完播率都很高时,算法就会认为这个内容可以推给更多相似用户,这就形成了滚雪球效应。随着更多用户的验证,我们对这个视频质量的评价会越来越准确。
基于大量标签预估和用户标签预估,随着用户量的增加,准确度会越来越高。这样就完成了"协同过滤"的过程:用户在无意识中协同为视频打上了某种标签,比如"适合推荐给20-30岁喜欢肖战的女性用户"。
"过滤"发生在后续推荐过程中。我们可以根据你以往的消费记录、更精准的标签和匹配度打分,过滤掉不相关的视频。比如郭德纲老师的相声段子,可能就不会推给不感兴趣的年轻用户。当平台的用户量越大、内容池越深时,我们就有足够多的"钩子"让用户持续消费。
在我们的推荐算法里,用户其实都被标签化和数字化了。
除了标签以外,我们还会做非常精细的特征工程。什么叫特征工程呢?就是说算法模型需要一些数据输入作为判断依据,这些数据输入必须覆盖方方面面,才能做出准确判断。我们不仅要知道你爱看肖战的相关视频,还要知道你喜欢的程度。
比如对于肖战相关的视频,我们会把你观看过的全部视频做一个聚合分析,发现平均完播率达到90%以上,这就是一个程度指标。而有些人虽然也看肖战的视频,但平均完播率可能只有50%。这种情况下,同一个肖战视频推送给这两个不同用户时,系统给出的打分是不一样的。
所以,我们会把更多更精细的数据化、数字化标签贴在每个用户身上。像抖音这样的平台,用来描述用户特征的数量级非常庞大,最终可能会有成千上万的特征描述。因此,他们的推荐模型也是一个非常庞大的AI模型。
我们依靠算法模型实现这个过程的一部分,但推荐系统本身不是单靠算法就能解决的问题。在这个系统里,算法起的作用其实不是特别多,剩下的部分需要大量人为干预和引导。之前抖音在公开场合讲过,他们评估过:从项目启动第一次达到800万日活用户,到发展至今,算法真正的贡献可能只有15%左右。剩下的部分包括商业模式设计、运营投入等,这些可能占更大比重。
其实在我们这样的平台化公司,核心工作团队可以分成两大类:一类是我们这样做算法或数据分析的人;另一类则是完全没有技术背景、专门负责运营的同事。
我们80%的日常工作时间都是在分析数据和挖掘。用户每天和我们的APP交互后,都会产生大量行为记录(比如看了什么视频、观看时长等)。我们会用数据挖掘的方法分析哪些推荐或搜索结果还不够精准,同时评估当前结果是否最大化商业目标收益。剩下约20%的时间会做其他事情,比如自我提升,研究新方法来优化效果。
因为目前很多推荐模型的效果还远不够精准,距离我们认知的天花板还有相当差距。所以我们会关注顶级会议和期刊的学术论文。理想的推荐系统是,保证每屏内容至少有一个是用户喜欢的。比如商品页面通常展示4个商品,如果能保证25%的点击率,就说明推荐已经相当准确了。
04 信息茧房
信息茧房是随着信息时代诞生的产物。在信息时代之前,人们并不会觉得自己有信息茧房,因为获取信息的手段和渠道有限,只能从周围社交圈获取信息,你所在的地方本身就形成了信息茧房。
信息时代给我们带来的巨大冲击在于,人被暴露在海量信息中,其实消化不了这么多信息。这就需要一些过滤手段,比如我们刚才说的协同过滤——其他用户帮你筛选出他们认为你可能感兴趣的信息推送给你。
还有一种情况是,人本身就有天生的好奇心,有主动获取信息的本能。搜索引擎也是一种信息过滤工具。正是因为信息通路被打开了,我们才主动意识到信息茧房的存在——我们会在网络上看到更多人的反馈,这时才意识到自己接收的内容和别人不一样,激活了我们对信息差异的感知,意识到信息茧房的存在。
信息茧房这个机制本身并没有什么问题。整体来看,信息时代的所有基础设施都从生产工具角度提升了生产力,提高了世界运行效率。
只不过算法有它的局限性:它确实过滤了一些信息,但不能完全理解人。人和人之间存在非常多细微差别,这些差别可能无法以数据形态反馈到系统里。当算法捕捉不到这些细微差别时,就像我们刚才聊到的,只能用标签化、体系化的方式对世界做简化抽象——把人分成不同类别,给不同人群推送不同信息,从而形成我们所说的信息茧房。
为了突破这个信息茧房,推荐系统本身也做了很多设计。一种设计就是我们说的"冷启动"——当新内容刚进入平台时,我们要如何甄别它应该推送给什么样的用户?我们会先在一部分用户身上试水,然后根据反馈数据来决定是否给它分配更多流量权重。
另一个是人为调控机制。比如说平台希望留住用户,优化用户在平台的停留时长和单个视频的消费时长。这时候算法能做的就是把用户最喜欢的内容筛选出来做到极致。但平台其实会做很多流量调控,确保不同类型的信息能以一定间隔推送给用户。这也是一种试探性操作,看看用户是否可能喜欢新类别,以此来突破所谓的信息茧房。
我特别喜欢算法给我推送内容,因为我知道算法是怎么运作的。我会从用户角度来"调试"这个算法,让它给我贴上某一类标签,尽可能多地推送某一类内容给我。
这是一个驯化算法的方法,但前提是你必须非常明确自己想要获取什么信息。也就是说,当你有主动获取信息的诉求时,用这种方式调试算法是最有效的。如果我希望微信尽可能多地给我推送前沿论文的客观解读和解析类长文,我就会在公众号平台的相关页面停留更长时间。对于推送给我的其他内容,我都不点击,只点击这一类内容。虽然我也不知道具体哪些论文最前沿,但通过让算法尽可能多地推送相关内容,我可以自己再做筛选。
我们需要明确辨别算法的能力边界,让它为我们所用。当然,如果是纯粹利用碎片时间刷娱乐视频,那就随意刷,喜欢什么就让算法推什么。
傅聪简介:
傅聪
浙江大学计算机博士,美国南加州大学访问学者,《业务驱动的推荐系统:方法与实践》作者。高性能检索算法 NSG、SSG 的发明者,知乎科技博主 “傅聪 Cong”。
前阿里巴巴算法专家,目前就职于 Shopee(新加坡)任资深算法专家。在顶会和期刊 TPAMI、KDD、VLDB、IJCAI、EMNLP、CIKM 等发表十余篇论文,同时也是 Tpami、TKDE、KDD、ICLR、AAAI、IJCAI、EMNLP、ICLR 等会议的审稿人。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
从替代到超越,禅道国产化替代解决方案2.0发布!
3月22日,由禅道携手上海惠艾信息科技、麦哲思科技共同举办的禅道・中国行北京站活动圆满落下帷幕。 除深入探究AI赋能研发项目管理外,禅道在活动现场正式发布了《禅道国产化替代解决方案2.0》,助力企业全方位构建自主可控的研发项目管理新体系! 该方案基于当前行业对自主可控、安全可靠的国产化替代工具需求迫切的现状,在原有国产化替代解决方案1.0的基础上完成功能升级,精准聚焦解决企业在国产化替代进程中面临的关键难题——如何选择兼具数据迁移、工具适配、安全合规等全方位能力的研发管理工具。 【点击上图查看详细视频】 全新升级的《禅道国产化替代解决方案2.0》将为企业呈上一站式、全流程的研发项目管理国产化替代服务,助力企业顺利达成国产化转型,在自主可控、提高竞争力的道路上稳步迈进! 为积极响应国产化替代,全力加大对国产化替代工作的支持力度,禅道特别推出了“‘移’步抵万金”活动。 体验禅道带来的便捷与高效,感受全新的项目管理模式。别再让旧工具限制团队的发展,咨询禅道落地顾问,迈出项目管理升级的关键一步。 添加阿道vx:easycorp666备注【Jira迁移】咨询活动详情 一、《禅道国产化替代解决方...
- 下一篇
Spring AI与DeepSeek实战三:打造企业知识库
一、概述 企业应用集成大语言模型(LLM)落地的两大痛点: 知识局限性:LLM依赖静态训练数据,无法覆盖实时更新或垂直领域的知识; 幻觉:当LLM遇到训练数据外的提问时,可能生成看似合理但错误的内容。 用最低的成本解决以上问题,需要使用 RAG 技术,它是一种结合信息检索技术与 LLM 的框架,通过从外部 知识库 动态检索相关上下文信息,并将其作为 Prompt 融入生成过程,从而提升模型回答的准确性; 本文将以AI智能搜索为场景,基于 Spring AI 与 RAG 技术结合,通过构建实时知识库增强大语言模型能力,实现企业级智能搜索场景与个性化推荐,攻克 LLM 知识滞后与生成幻觉两大核心痛点。 关于 Spring AI 与 DeepSeek 的集成,以及 API-KEY 的申请等内容,可参考文章《Spring AI与DeepSeek实战一:快速打造智能对话应用》 二、RAG数据库选择 构建知识库的数据库一般有以下有两种选择: | 维度| 向量数据库| 知识图谱| | --- | --- | --- | |数据结构| 非结构化数据(文本/图像向量) | 结构化关系网络(实体-关系-...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS关闭SELinux安全模块
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Docker安装Oracle12C,快速搭建Oracle学习环境