六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

产品视角下推荐排序系统的冷启动问题一

  对做排序或者推荐功能相关的产品经理来说,机器学习不是什么陌生的概念,大家经常看到的各类产品的推荐内容也在向用户传输机器学习的概念。看过这件商品的用户也看过听过这首歌曲的用户也听过您也许认识XX您的好友也关注了XX等等这一类的推荐功能大家已经非常熟悉,排序上面应用这种方式的可能不那么明显,但是稍加留意,你也会发现许多电商平台上展现给你的列表中前面的一些内容和你曾经看过的一些东西好像有些许的关联。如果你恰好是个爱思考的人,那么大概已经猜到了这类功能的实现方式:通过用户和item(歌曲、商品、好友关系)的历史数据,(经过合适的协同过滤或其他算法)来给用户推荐Ta可能感兴趣的内容。
  这种机器学习方式的排序推荐策略效果是非常明显,根据一些公开的数据,亚马逊网站通过推荐带来的销量比例占到了20以上,而在笔者的产品实践中,也证明了根据用户历史行为对排序策略进行调整和作出推荐对提高转化率有明显的正面作用,因此在排序和推荐等产品的策略制定中,根据用户历史行为做调整也是大家经常会关注到的内容。从上面的描述中你可能已经注意到,这类策略有一个基本前提就是用户和Item要有足够的历史数据来进行计算,如果用户或Item已经有了足够的历史数据,那么只要通过推荐算法就能够给特定的用户推荐出合适的内容,但当用户和Item没有历史数据的时候,直接通过推荐算法出来的内容很可能就会成为Badcase集锦。对于这类新用户或新Item在排序推荐系统中处理,我们称之为冷启动,这个问题是数据工程师和策略产品经理经常需要讨论解决的问题。
  什么是冷启动
  冷启动研究的是在没有大量用户和产品数据的情况下,如何给相应的用户做出能够让用户能接受的推荐内容。冷启动主要分为三类:用户冷启动、物品冷启动和系统冷启动。
  用户冷启动主要解决给新用户做(个性化)推荐的问题,因为新用户在系统中还没有任何历史数据,因而很难预测其喜好并做出相应推荐。
  物品冷启动主要解决将新的物品推荐给可能对它感兴趣的用户的问题,因为新产品同样是没有和用户交互的数据,常见的推荐系统往往推荐的是数据较多较好的物品,而直接忽视这些新物品。在需要用到推荐的产品中,产品覆盖的物品众多,马太效应变成不得不考虑的问题,而推荐往往代表着流量入口,是造成马太效应的罪魁之一也是消减马太效应的渠道之一。如果考虑整个系统中销量的平衡、考虑推荐的多样性和覆盖率,我们需要给新商品一些推荐的机会,但是如果将新物品强行纳入到推荐中,产品经理不得不冒转化率降低的风险,而且最可怕的是这种风险是无法预期的。
  系统冷启动处理的问题是用户和物品都没有没有足够的数据时候的推荐,个人认为所研究的内容应该包括在用户冷启动和物品冷启动中,不做细究。
  今天主要给大家介绍常见的几种或已经确认在实践中有效的用户冷启动处理方式,至于物品冷启动,处理起来比用户冷启动更复杂,鉴于暂时还没有相应的实践经验,这部分留到有关于物品冷启动的成功实践案例之后,请大家期待产品视角下推荐排序冷启动的处理(二)。
  利用用户基础信息
  用户基础信息是指用户不在产品中有任何交互,我们就能够获得的信息,这些信息主要分为三类:一是用户注册信息,比如性别、年龄、电话、职业等等一些可以引导用户填写的客观信息;二是让用户做出喜好或分类选择的主观信息,比如在一些音乐、视频和阅读类看重推荐功能的产品上,用户在注册时需要填写一些必要的信息和选择关注喜欢的类型,这些信息很大的一个作用就是用于用户个性化内容推荐;三是可以关联外部平台获取的信息,这一类信息是在社会化登陆兴起之后可以提供给推荐的数据,比如网站通过支持微博登陆可以获取用户在微博上注册的信息和好友关系等。
  在我们确认能够获得用户的这些信息之后,就可以通过直观或数据分析的方式发现不同类型的用户的不同特征,进而进行推荐。有些推荐逻辑的判别是直观就可以做出来的,比如用户注册信息是男,那么就不要给用户推荐裙子这一类的产品。而对于一些其他信息,则可能需要复杂一些数据分析来完成,比如通过手机号分析用户常住地城市,然后分析不同城市的用户在商品选择时的价格、品类、品牌偏好是否存在差异。
  那么如何选择使用哪些信息来细分策略呢?我这里有一条简单的判别方法:不同特征的用户在主要考察数据表现上的差异情况,如果差异大,那就是值得细分深挖,反之就(暂时)没有什么必要。比如,你发现不同性别的用户在转化率体现下没有差异,那就不需要区分性别进行策略计算;而如果发现不同年龄段的用户在转化率体现上有很大差异,那就值得区分年龄做不同的策略。
  热门推荐
  用户存在着从众的心理,而且大部分人的特征是趋于相似的。因而当我们确实没法获取用户偏好的时候,我们可以采用热门推荐的方式进行推荐。新闻视频网站的浏览量、音乐网站的收听量、电商网站的销量、搜索的频次、社交网站的关注度等等都是是否热门的具体体现,热门的物品表示物品在大范围是受欢迎,研究发现,新用户更愿意接受热门的商品而不愿尝试新物品,给新用户推荐热门商品理论上至少不会犯太多错。
  在处理热门的时候,需要注意的是热门的范围,即物品在什么维度内是热门的。这个维度包括分类、时间、地域等等,需要根据产品的实际情况进行设置。比如在亚马逊上,在科技图书中的热门,但是可能在所有图书中不是热门的。又如在新闻网站中,1小时内的热门和24小时以内的热门应该是有区别的,选择推荐哪个维度的热门是需要分析试验的。在微博上,热门微博甚至直接是按多长时间内热门分Tab展示的。对于时间跨度上的热门,如果是全局情况下,一般会采用阶梯降权的方式处理,比如1小时、24小时、3天内的阅读量按权重从大到小做推荐得分计算,其他维度的也可以尝试这种阶梯降权的方式做热门处理。
  考虑item质量
  虽然手头拿不出确实的研究数据,但是根据合理的猜想,用户更倾向于选择质量较高的物品,因而当新用户接触到我们的推荐时,Ta更容易接受(至少看起来)质量更高的商品。几乎每个产品系统中的物品,都会有能够体现物品质量的数据,常见的可获取数据是评分,我们可以给用户推荐在评价系统处于前列的内容。
  如果用评分来作为质量的依据,那么我们可能会面临的一个问题就是新用户并不了解这个产品中某个具体评分的意义,比如在一个图书电商网站上,4。8分到底意味着什么?处理这个问题,除了我们要让评分系统尽量靠近用户认知之外(比如,别选个满分为7分的系统),还可以用一些辅助信息的展示来给用户说明,这里有一个大家熟悉的案例:淘宝中每个店铺的页面都会展示分维度的评分,并且在评分后面注明高于同行XX。在推荐内容的展示中,我们可以给新用户展示评分的同时给出评价的相对意义,方便用户理解我们给Ta推荐的物品到底是什么样的质量水平。
  除了评价之外,销量、浏览、收藏等等也一定程度上反映除了物品的质量,可以作为辅助参数作为选择热门物品的标准。
  合理利用上下文信息
  除了从用户和物品上挖掘尽量多可用的信息,对于新用户的推荐还可以合理利用上下文信息,有时候,这些上下文信息的重要程度甚至超过了其他信息。上下文信息是指用户在接触到推荐系统时的时间、地点、心情、场景等等,这些信息在用户做出决策中都具有决定性的作用,因而也是推荐系统需要重点考虑的内容。比如,音乐产品中对用户心情信息的把握,你不能在用户分手后给Ta推荐一首《今儿个真高兴》吧,同理给12月份进入购物网站的新用户推荐T恤也是不能理解的。
  在笔者所在的O2O产品中,用户地理信息在排序和推荐中都有着重要位置,在机器学习模型中,其重要性甚至远远超过物品质量、用户偏好所有其他特征,曾经在某个场景中,由于地理信息丢失,转化率和交易额都遭受了严重的损失。因此,一定要关注和产品紧密相关的上下文信息,才能给新用户给出相对合理的推荐内容。
  结语
  在排序推荐策略的设计中,对于那些频度较高的产品,或者任何产品中的活跃用户,机器学习的方式能够根据大量的历史数据给出用户满意的排序方式和推荐内容,但对于新用户或当数据稀疏时,机器学习往往达不到想要的效果。根据实践经验,在这种情况下,考虑了用户基础信息、热门情况、物品质量和上下文的强规则方式反而有更好的效果。但是,强规则的处理方式的前提是对业务、用户、产品有着充分的了解,而且策略本身也应该设计成可试验可对比方便迭代的以随时根据试验情况调整。
  同时,这也暗含着一个策略产品经理应该掌握的基础能力,那就是对特例的识别。在策略相关的产品中,许多复杂的内容都是工程师使用机器学习来完成的,但机器不是万能的,它只会处理我们已经考虑到的内容,而我们需要做的就是思考让机器去处理哪些内容,这也是一个策略产品经理的价值之一。

这是一个被很多人忽视但能救命的配置你有吗这些灯多数都是在晚上开,照亮前方视野,还有些是在特殊情况下(比如大雾天或汽车出故障了)开启,很少有白天也开的灯。当一辆车在晴空万里的路上开着车灯,肯定有人想:这傻X,灯不关就上……初三励志语录口号初三励志标语有哪些中考已临近,只要努力一点,就能看见胜利女神的微笑。本文整理了初三励志口号,欢迎阅读。初三励志口号1。挑战极限,无悔人生,奋力拼搏进取,谱写风华篇章。2。为了最……验房不可怕就怕不知道要验啥验房不可怕,就怕不知道要验啥!有些人验完房,房子还是那个房子,什么空鼓、漏水都不存在的。而有些人验完房,别说空鼓、漏水了,就是一个螺丝钉没拧紧他也能给你找出来。看到……国内安装算量软件排名安装算量软件哪个好这是一个有关工程造价方面的有趣的问题,是正在学习安装算量软件和大多数造价员正需要解决的问题,也是在坐的各位看官急切的给我寄刀片也要问我的问题。首先我给大家梳理了国内安装算……秋茭白的贮藏运输方法【秋茭白的贮藏运输方法】茭白是一种风味独特的蔬菜,在市场上很受消费者欢迎。但由于茭白不适于加工,必须鲜销。因此,为了延长销售时间、扩大销售范围,茭白的贮藏保鲜和运输就显得特别重……芹菜空心的原因和防治方法在种植芹菜管理技术不当时,经常会出现芹菜空心的现象,其不仅降低芹菜的品质,还导致产量下降,影响经济收益,那么,芹菜为什么会空心呢?怎样防治芹菜空心呢?下面跟随小编一起来看一下吧……羊奶果如何长期储存羊奶果是一种果汁充足的酸甜口味浆果,酸酸甜甜的羊奶果是许多人们小时候最爱的小零食,但羊奶果如何长期储存就成了许多人都比较关心的话题,而长期储存羊奶果的方法也变的多了起来。下面我……啤酒兑水喷花多久一次别再错了说到养花要想让其开的旺盛,肥料的选择更是重中之重,更有甚者用自制的肥料养植花卉,啤酒就是其中的一种,但用啤酒当做肥料养花还是有一些禁忌的,要不然用错了再贵的花草都白搭。啤……精英律师何塞和罗槟是什么关系何塞结局是怎样的每年寒暑假之前就有大量的影视作品登上荧幕,这不近期由靳东、蓝盈莹等人出演的精英律师安排上了。那么精英律师何塞和罗槟是什么关系?何塞结局是怎样的?我们一起看看。精英律师何塞……管理人员必须了解的个管理工具方法理论案例SWOT、波士顿矩阵BCG、5W2H分析法、关键事件分析法、目标管理SMART、波特五力分析、核心竞争力分析等众多管理工具,你一定用得上!amp;lt;点击标题查看文档a……如何进行职业生涯规划的基础和特征关于职业生涯规划职业生涯规划:做正确的事dotherightthings选择职业是人生大事,因为职业决定了一个人的未来。铁匠锤打铁砧,铁砧也锤打铁匠;海蛤的壳在棕黑深遂的海洋里变成,人的心灵也……实景沉浸式剧本杀和桌面剧本杀哪个更好玩众所众知剧本杀是一种49人不等的群体游戏,因其能让我们体验不一样的人生,扮演不一样的人物,拥有不一样的身份,品读不一样的故事所以很受大家的喜爱,尤其是那种实景剧本杀,下面小编就……
半路夫妻再婚前问自己个问题难道,一次失败的婚姻会令我们就此错过幸福?再婚前,我们必须弄明白哪些问题才能让幸福不再擦肩而过?1、你是否能放下思想包袱,重拾对婚姻的信心,建立对现在伴侣的信任?首……虚空岁月第二百五十二章泡菜禽兽将恶贯满盈的魏青峰狠狠修理了一番,并且整人的手段都是那么新鲜,让人难忘。不简单的男人!邹燕给刘显金下了这么一个定义,上一次他便能轻松领走……尼采自述耶稣到底是一个什么样的人救世主这一形象遭到破坏。其原因是:早期基督徒的精神层次较低,他们不断粗制滥造所有史实,甚至对自己也一无所知(他们从未进行过自我认识);早期基督教的所有教派都毫不犹豫地利用基督教……完整眉形的五个整形步骤现代生活,哪个女性都追求时尚,不仅仅是衣服,对于面部美的追求也是很高的,一起看看专家介绍切眉的步骤有哪些。切眉后通常无法直接缝合,需在切口两侧剥离。剥离时注意两侧的厚度应……我祈愿两条新闻,让我心中悲悯。《前〈花花公子〉女郎当街乞讨》《央视记者采访巴西贩毒集团》前一条新闻中,这位曾经拥有许多粉丝的女郎,在街上表演柔术,60岁的她满脸皱纹,花白……活出快乐让文字跳跃又是一个春节的过往,我一直不喜欢用文字去欢庆或祭奠任何一个节日。因为一个节日的到来也就面临着即将离去,我惊怕时光的流失,也不想有太多的留恋。人降临的那一刻就在等待死亡,天堂和地……一句话伤感唯美的句子说说心情一、古龙:有人说,女人最讨厌的动物是蛇。也有人说,女人最讨厌的是老鼠。其实女人真正最讨厌的是什么呢?女人!女人真正最讨厌的动物,也许正是女人,一个可能成为她情敌的女人,尤其是一……岁大改变助你提升个人成就许多人在20岁的时候就养成了一些非常不健康的习惯比如说周六一直睡到下午2点,把所有可自由支配的收入全花在买鞋上。但是30岁是强化习惯的绝佳时机,可以帮助你在以后的生活中提升个人……弗洛伊德和女人的关系爱弗洛姆有个花千骨的段子是这样的自从看了花千骨以后,神经病都不叫神经病叫执念谈恋爱都不叫谈恋爱叫生死劫现在,我终于知道为什么自己有时候的脾气不好了?……消逝的谦让岁月如梭,转眼之间两年的时间就这样无声无息的从我的指尖溜走了。我的思绪忽然回到了高三时老师为我们描绘大学生活那一幅幅美好蓝图时的情景,那时的我们是多么渴望脱离苦海,去大学享受那……橡果与南瓜上帝的安排是完美的。这用不着满世界找佐证,在南瓜地旁路过,就可证实这一点。有位老兄犯寻思:南瓜长这么大,但它的瓜秧却如此细,他自言自语道:这一切上帝当时不知如何想的……最大的侠这年冬天,烟霞山庄来了一名自称林白的年轻人。不出所料,林白是来拜师学艺的。和往常一样,叶羽让贴身老仆拒绝了他。谁知林白却说:我早知叶大侠收徒严格,必须闯过你亲自设计的叶门三关,……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网