六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

一文读懂推荐系统用户画像

  本系列文章将从最简单的概念开始,逐步讲解推荐系统的发展历程和最新实践。以产品经理的视角,阐述推荐系统涉及的算法,技术和架构。本文将介绍推荐系统如何给现实世界中的用户打数字化的标签:用户画像。
  用户画像,简单来讲,就是我们给用户打上的一系列的标签。它的应用非常广泛,在互联网产品的任何一个领域,任何一种实现用户个性化的功能,都需要用到用户画像。本文只涉及推荐系统的用户画像体系。
  一、推荐系统用户画像长什么样
  用户画像这个词具有广泛性。它被应用于推荐,广告,搜索,个性化营销等各个领域。任何时候,不管出于什么目的,我们想描述我们的用户是谁的时候,大家都会用到用户画像这个词。
  比如:
  (1)产品经理定性用户分析
  设计产品功能时,会对用户是谁进行描摹。如:目标用户群体的人口属性,社会背景,使用习惯等信息。这种用户画像主要描述用户是谁,以便做好功能定位。
  如下图中的定性用户画像分群:
  (2)数据分析用户画像
  分析用户行为,用户进行聚类行为分析。如:数据分析师可能会给出,观看电商直播的男女比例,得出女性用户更喜欢看我们的电商直播这样的结论。
  (3)推荐系统用户画像
  为建立个性化功能,用各种办法给用户大规模打上几万甚至几千万个标签。这种标签不仅仅有偏好,还有偏好程度值。
  本文所指的用户画像,仅仅涉及第三种情况。一般地,推荐系统的用户画像长成这个样子:
  推荐系统的用户画像,一般包括用户基础信息和偏好信息。而偏好画像是重点,数量上占了推荐系统用户画像的绝大多数,是我们召回和模型训练的基石。
  因为机器跟人不同,一个词中国对于人来说是有意义的,对于机器只是一个汉字编码。因为用户画像,为了能让机器计算,需要带上概率值或者偏好值(权重值)等。
  我们接下来就聊一聊,在推荐系统中,这种带了一些列数字的用户画像怎么构建出来的。
  二、用户画像怎么用?
  第一章的介绍过,推荐过程分为:召回、初排和精排三个阶段。用户画像主要用在召回和初排两个阶段。
  召回阶段使用用户画像,主要是通过用户画像召回相似的物品。比如一个短视频APP上,用户海贼王偏好值比较高,就可以针对海贼王进行内容召回。
  初排阶段使用用户画像,是在模型上使用的。模型将用户画像数据作为一部分的特征值,用于模型的离线训练或者实时模型更新。
  三、用户画像的分类
  用户画像是一个比较大而全的概念,标签是用户画像最基本的单元,用户画像是有成千上万个标签组合而成的。当我们想对用户画像进行分类时,通过对用户标签的分类就可以了。每个平台有自己的用户画像体系。对推荐系统的构建来说,一般从以下维度来做标签分类。
  如下图所示:
  其中:
  (1)基础用户画像
  人口统计学标签:用户的性别,年龄,地区等信息。行为特征标签:用户在互联网平台的注册,活跃,付费,浏览等方面的行为记录产生的用户标签。性格标签:豪爽大方,精打细算,冲动消费等类型标签
  (2)偏好用户画像
  长期偏好标签:用户对较长时间内,几个月甚至是几年内,对某类事物的稳定偏好。短期偏好标签:用户最近较短时间内,七天内甚至是几分钟内,对某类事物的偏好。泛化偏好标签:众多的用户偏好中,不同的偏好之间有关联性或者相似性,就像啤酒和尿布那样。用户对啤酒有过直接的行为,但对尿布还没有,那么尿布可能是他的泛化偏好。
  以上的五小分类中,前面两类只占了用户标签数量的很小一部分。而推荐系统中,数量最为庞大的要数偏好类的标签了。平台有多少个物品标签,就会产生多少偏好标签。另一方面,偏好类的标签的产生,依赖于物品标签。因为用户对物品的偏好程度,是通过他对平台物品的曝光,点击,购买等行为计算出来的。
  四、基础用户画像的怎么来?
  那基础的用户画像是怎么产生的呢?一般可分以下几种来源:
  简单信息提取:基于实际基本事实而产生标签,如注册时间,渠道来源,用户所在地区等。逻辑或公式计算:使用简单的逻辑或公式,对用户的行为进行统计而产生标签,如用户活跃天数,用户消费金额等。算法学习:基于机器学习模型对用户的属性预测产生的标签,如性别,年龄,有车一族等。
  五、简单举例:通过模型产生基础用户画像
  国内某公司,在Kaggle举行过一个预测用户年龄和性别的比赛。他们公布了一个用户数据集,数据集中包含了手机上安装的APP列表,手机型号和GPS信息等数据用于模型训练。参赛选手通过这些数据建模,预测用户的性别和年龄。准确度高的获胜。
  一个用户的手机里安装的APP,跟他的年龄和性别存在着一定的关联。如:女性用户常用美柚,小红书等APP;而男性用户可能会装更多的游戏。
  如下图:
  这个是有监督学习,橙色部分数据是特征,蓝色部分数据是label。Label就是我们需要预测的目标。通过大量的数据和算法调优,就可以训练出较为准确的模型。
  用训练好的模型,就可以给其他的未知性别和年龄的用户做评分预测。这部分比较简单,就简单举例一下。
  六、物品标签
  物品画像,则是每个物品的一系列标签。物品画像其中一个作用就是可以作为推荐模型中的物品特征。另外一方面,在推荐系统中,物品画像是用户画像的基础:物品画像用户行为用户画像。
  举个简单的例子,一个用户点击了一系列的阿克苏苹果(物品画像:阿克苏,苹果,阿克苏苹果),这个用户就会被打上阿克苏,苹果和阿克苏苹果的偏好标签。
  物品画像的产生,不同的内容形式有不同的做法。但大体可分为两类:
  人工的方式给物品打标签;机器学习的方式给物品打标签。
  如在音乐领域,一些音乐平台是通过一组音乐专家对平台的音乐进行打标签后,再对用户进行推荐。这种人工的方式成本比较高,而且依赖于专家的专业程度。另外,不同专家之间的标准可能不一样,需要统一标准或者拉平差异。但是这也是没有办法的办法,有些场景下,物品标签匮乏,不得不依赖与人工打标的方式。
  大规模地给物品打标签,大部分还是靠机器学习的方式。如何给物品打标签不是本文重点,这里略过。
  七、偏好画像的怎么计算得来?
  偏好画像如何产生?为了直观简单,直接以图文数据的方式来讲述。假设一个短视频平台有4个用户使用,有4个视频需要被推荐。
  其中,4个视频分别为:
  整理一下,我们可以得到以上4个视频的物品画像:
  另外,为了简单一点,这里只考虑用户的观看行为,看完一次得分为1。4个用户的数据分别如下,数字代表观看次数。如下图中,用户A看了视频1一共2次。
  先说结论,一般地,用户画像的公式为:用户偏好程度行为类型权重值次数时间衰减TFIDF值。
  行为类型权重值是人为给用户行为的赋值。比如:看完1,收藏2,分享3,购买4等。我们这里只考虑看完这个行为。次数则是行为发生的次数。时间衰减则是按一定的衰减系数,随着时间衰减。一般用牛顿热力学公式来取衰减系数。TFIDF值本来是文本处理领域的算法,用来提取一篇文章中的关键字。这里用来衡量标签的对一个用户的关键程度。
  下面我们来计算用户A的用户画像和偏好值。
  第一步:列一下行为类型权重值,因为我们只考虑观看行为,权重都为1:
  第二步:统计用户A的行为次数。用户A看了视频1两次,所以视频1带的标签金融战争和做空次数都记为2:
  第三步:计算时间衰减,假设用户A看视频1是两天前的行为,看视频4是今天的行为。衰减按照天来计算,衰减系数等于0。1556,热度计算公式为:热度1exp(0。1556天数)。按照这个衰减系数,45天后热度衰减到0。5。
  按照这个计算方式,视频1的热度1exp(0。15562)0。73,今天看的视频4,热度还为1。
  第四步:计算TFIDF值。
  这步比较复杂。我们先说下TFIDF的公式,TF和IDF是两个不同的值,两两相乘可以得到TFIDF值。
  首先说TF。
  TF是TermFrequency的缩写,意思是可以理解为词频,计算公式如下:
  TF计算的是在用户的所有标签中,某个标签的重要程度。如果标签出现频率高,那么TF值就会比较高。对于用户A,每个标签都出现了一次(因为看过的视频中,没有标签重复的),标签的TF值140。25。
  而对于用户B,因为有看过两个海贼王的视频。一个视频带标签:海贼王,路飞。另外一个视频带标签:海贼王,路飞,甚平。所以,海贼王和路飞标签个数都是2,甚平的标签个数是1。
  这样,计算出用户B的TF值为:
  然后说IDF。
  IDF是InverseDocumentFrequency,意思是逆文档频率。先说怎么计算,公式如下:
  这个是为了计算一个标签的稀缺程度。如果一个标签全部的用户都,IDF值就比较小。相反,一个标签只有少部分用户有,则IDF值比较大。公式中,带该标签的用户数1部分加1是为了防止分母为0的情况。
  下表的灰色部分是每个用户行为,计算出用户的标签个数统计。如海贼王标签,因为有三个用户带了这个标签,所以带该标签的用户数为3。它的IDF值431。33,这里4是因为有4个用户。
  第五步,汇总计算出用户A的每个标签偏好值。
  如下图中,用户A对三傻大闹宝莱坞的偏好值为:1310。2521。5。
  用这种方式,我们就可以为用户打上海量的标签,只用用户行为足够多,我们就能捕捉的用户的偏好数据。
  八、总结推荐系统的用户画像主要有两种:基本画像和偏好画像。基本画像是用户的个人属性,如年龄,性别,居住城市等。用户偏好画像是推荐系统中的重点,它一般用用户偏好程度行为类型权重值次数时间衰减TFIDF值计算出来。用户画像在推荐系统中用于召回和模型训练。
  作者:菠萝王子;公众号:菠萝王子AI分享
  本文由菠萝王子原创发布于人人都是产品经理。未经许可,禁止转载
  题图来自Unsplash,基于CC0协议

冯媛为何服毒自杀汉元帝宠妃冯媛是怎么死的汉元帝宠妃冯媛为何服毒自杀?汉元帝宠妃冯媛为何服毒自杀?昭仪冯媛怎么死的冯媛(?公元前6年),上党潞县(今山西潞安)人,左将军、光禄勋冯奉世长女,汉元帝刘奭的宠妃,……夷陵之战后曹丕为什么不攻打蜀国夷陵之战,是发生在三国时期蜀国与吴国之间的战争。这两国名义上是联盟,但还是会为了各自的利益驱使,正所谓永恒的利益,说的就是这个。然而在夷陵之战以后,蜀国刘备逝世,刘禅继位,按理……晏凌羊剩女养成记晏凌羊一起做一个爱学习、愿成长的人阅读全文约需9分钟剩女养成记文晏凌羊1:hr活在我们这个年代,当一个姑娘到了该结婚却还没有结婚的年龄,就会变成别……小丽搭配简单阔腿裤穿不胖的秘密高腰的阔腿裤绝对是本季的大热。高腰的设计将再次流行。条纹与暗格的花纹都为裤子增色不少,搭配上淑女的粉色衬衫,在办公室里,你绝对是最时尚的OL女郎。黑色的麻质长裤在秋天穿着……老人要怎么补钙效果最好几乎所有的老年人都知道:我需要补充钙营养。关键是如何补?补多少量为宜?以下提供些参考意见。(1)老年人由于自身代谢能力减弱,胃肠吸收能力也相对减弱,因此现在大多建议老年人……产后脸上长斑的原因是什么如果脸上的肌肤有色素沉着现象,还是会影响到自己的形象的,尤其是产妇朋友们,本身经历过孕期之后,肌肤和身材就会发生变化,如果脸上再长斑,对她们的打击还是会很大的,不过长斑之后也要……华为智慧屏英寸正式开售高清画质元【宅秘新闻】11月25日,在华为MatePad及全场景新品发布会上,华为正式发布了华为智慧屏75英寸版本,凭借着更大的尺寸以及更加强大的硬件配置和功能受到了不少用户的关注。12……太平公主死后她的子女下场如何有后代活下来吗太平公主深受武则天宠爱,她原本要和吐蕃和亲,但因武则天极力反对,此事才作罢。太平公主某种程度上继承了母亲的政治能力,她参与神龙政变,助唐恢复国号,此后又和李隆基一起发动唐隆政变……女性最难以启齿的性问题有哪些呢女人心海底针,女人有时候是很难让人看透的,或者说,女人害羞的特点会让她们把很多事情都放在心里不敢轻易说出口,特别是有关于性的问题。然而,从医学、心理学的角度看,女性性爱具有共同……能够提高夫妻性生活的饮食有哪些结婚的目的,不仅仅是生儿育女,同时也是夫妻整个爱情生活中的一个重要组成部分。但是结婚久的夫妻大部分都会出现性生活乏味,那么能够提高夫妻性生活的饮食有哪些呢?1、鸡蛋……男人如何提高性生活有哪些方法自古以来,男人就把性当作是一种自我能力、成就的表征。如果一个男人在性福上失败、不能吸引并获得女人,就会被看作是彻底的失败者。而为了让自己性福完美,男人们可谓费尽心思,下面就跟着……庞德儿子灭了关羽满门是真的吗庞德后人灭了关羽后人最近很多人说这个庞德的儿子灭了这个关羽满门,也就是关羽的后代都被庞德的后代给杀了,那么这个说法到底是不是真的呢?又有什么证据呢?下面我们可以一起来简单的分析揭秘看看,感兴趣的可……
烟雨朦胧一泓西湖水,千年断桥梦,绵绵相思情,月华共熏香,月色朦胧,踏着露珠的气息走向又一片茶园,心中生有繁多的心绪,萦绕在脑海中幻想出无穷无尽的遐想;岁月匆匆,烟雨朦胧,一个漂流他乡的……友情是冬日里的暖阳在我们的世界里,不能没有友情。我们平时想说的心里话也会有一个倾听者。或者在我们需要帮助的时候,也会有人及时来帮忙。关于朋友,我们每个人都会关注于很多的内容。一直以来,我们也会觉……长发女生适合什么发型优雅又迷人女神发型留长发的女生真的超美,超有感觉。其实长发日常护理可不容易呢,所以当然要为自己选一款最适合最美的发型,展现出女神的气质与魅力来。那么长发女生适合什么发型呢?什么女生不适合长发?长……爱情里的剪刀石头布游戏在决定生死关头,男孩和女孩使用了剪刀石头布游戏,结果,男孩出剪刀,女孩出布,从而引发有关爱情的讨论。中午吃饭的时候,看到这么一条状态:有一对情侣,他们高中开始相识,……高利贷互联网金融狼皮下的收割之路本帖最后由jay999于20194718:33编辑据统计,国内目前的高利贷平台有上千家之多,且不算隐藏在各地级市的民间私人借贷小团体,他们披着互联网金融的狼皮,行高利贷收……大婶大婶去世一年了,但有时觉得她还活着。特别是春节要回农村老家的时候,仿佛还能见到她,在她房前的小菜园里,或是正在往家里抱点做饭的麦秸杆什么的,要不就是在她两间小草房里烤着土火炉。……金庸笑傲江湖经典台词与好句摘抄《笑傲江湖》经典台词1、心魔才是魔!2、一个人武功越练越高,在武林中名气越来越大,往往性子会变。他自己并不知道,可是种种事情,总是和从前不同了。3、你那么好,……紫贝风雷十五、集结待命12月1日,紫贝县城的大武斗打了整整一天,双方都打得筋疲力尽,最后在紫贝军代的强力制止下,两派各自鸣金收兵,撤回据点。井系旗派花了九牛五虎之力,仅占领了联总……适合大学生的发型气质成熟的女大学生造型已经上大学了,女生们离步入社会已经不远了,所以要成熟一些,这样才能更好的适应竞争激烈的社会生活呢,女大学生应该弄哪种发型好看?发型师设计的最新款大学生成熟大气的发型,清纯可人的……二十出头男生适合什么发型款款帅气撩你没商量张若昀发型二十出头的男生发型,就应该是充满青春活力风格的,张若昀的发型就是这样的款式。两边铲青刘海上扬定型的设计,帅气吸睛。张若昀发型一款休闲风十足的短……孕妇皮肤过敏怎么办孕妇过敏需谨慎一般敏感性皮肤的处理首先是避免再刺激,尽量减少蒸脸、按摩、去角质等美容措施。可选用针对敏感性皮肤设计的化妆品,其常含有维生素B5、羧甲基葡聚糖等。由于皮肤比较干燥,可使用……自己怎么编头发简单又好看两款精美编发让你爱而不舍效果图发型点评:在头顶上编织四条精美的发辫,然后再汇聚于脑后,整个造型就像一个公主头一样,是那么的唯美与仙气。在配上披散的卷曲的棕色头发,更是让优雅迷人的气质无法挡。……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网