六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

推荐系统体检如何评估推荐系统的健康状况

  为了自己的健康去体检,推荐系统也有自己的健康指标,不同的业务、不同的场景、不同的阶段都有不同的指标,所以选择好的评估指标以及合适的评估方式,才能让推荐系统更加健康。那么,如何评估推荐系统的健康状况?
  推荐系统从海量数据中挖掘用户喜欢的内容,满足用户的需求。要想做到千人千面的同时,又能做到精准推荐,一个健康的推荐系统是必不可少的。
  就像为了自己的健康去体检,推荐系统也有自己的健康指标,不同的业务、不同的场景、不同的阶段都有不同的指标,所以选择好的评估指标以及合适的评估方式,才能让推荐系统更加健康。
  推荐系统的常见指标
  推荐系统的评价指标,要从解决实际问题的角度来思考,好的推荐系统,不仅要保证自身的健康,还要满足服务平台、用户等多方面的需求。
  图1:推荐系统基础流程
  1。用户角度
  用户最重要的需求是更方便、更快速的发现自己喜欢的产品,为了满足用户的需求,推荐系统可以从以下几个方面评估。
  准确度:准确度更多的是用户主观感受,评估的是推荐的物品是不是用户喜欢的,比如推荐的视频,用户观看了,推荐的商品,用户加入购物车或者购买了,都可以用来衡量用户的喜好程度。
  惊喜度:推荐的物品让用户有耳目一下的感觉,可以给用户带来惊喜。比如推荐用户想不起来名字的音乐、电影,或者用户知道功能不知道名字的商品等等,这种推荐和用户的历史兴趣不一定相似,但是用户很满意,超出了用户的预期。
  新颖性:给用户推荐没有接触过的东西,推荐出的商品不一定是用户喜欢的,但是可以提升用户的探索欲望,从而获取更完整的用户兴趣。
  多样性:人的兴趣往往是多种多样的,给用户推荐多种类目的物品,可以挖掘用户新的兴趣点,拓宽用户的兴趣范围来提升用户的推荐体验。
  2。平台角度
  平台方给用户提供物品或者信息,不同平台获取利润的方式不同,有的通过会员盈利,有的通过商品盈利,大部分的平台都会通过广告赚钱。
  所以对于平台方来说商业目标是最重要的目标之一,通常来说有两类值得关注,一个是内容满意度,一个是场景转化率。
  1)内容满意度
  业务场景不同,内容满意度的指标也随之变化,主要是通过用户对产品的不同行为了来衡量,下图的例子分别说明了不同领域的内容满意度的一些衡量指标。
  图2:内容满意度评价指标
  2)场景转化率
  转化率是比较直观的指标,给用户进行推荐,是希望用户对推荐的内容有所行动,比如常见的点击行为、点赞行为等。
  pv点击率(点击量pv):比较经典的指标,能粗略的衡量转化效果,但是少数用户贡献大量的点击会掩盖这个指标的真实性。
  uv点击率(点击率uv):与pv点击率相比,该指标不会因为重复浏览某个产品而受影响,能记录用户在一个完整周期的点击效果。
  曝光点击率(点击量曝光次数):比较适合信息流这种支持上拉下拉翻页的产品,曝光次数随着用户刷屏次数增加而变大,能更真实的记录每一屏的转化情况。
  uv转化率(转化次数点击量):衡量用户的转化情况,能把多大比例的用户从一个场景转化到另一个场景去。比如视频App首页,一般用户在点击某个视频后,会进入详情页继续操作,而不是返回首页,用uv转化率更加合理。
  人均点击次数(点击量点击uv数):每个用户点击的次数,与uv转换率相辅相承,可以评价用户的深度,uv转化率评价用户的宽度。
  注:pv:访问页面的次数;uv:访问页面的人数。
  推荐系统的离线评估
  推荐系统的评价指标除了上面提到的用户角度和平台角度之外,还有推荐系统自身的评估。
  推荐系统从接收数据到产生推荐结果,再根绝推荐结果的影响重新修正自身。所以本质上是一个闭环系统,在这个闭环中,离线部分的工作主要是通过学习训练以及其他策略规则进行召回,主要的以下的评估指标。
  图3:推荐系统评价阶段
  1。准确度
  准确度的评估主要是评估推荐算法模型的好坏,为选择合适的模型提供决策支持。
  推荐系统也像其他机器学习一样,把数据划分为训练集和测试集,使用训练集学习训练模型,通过测试集来衡量误差以及评估准确度。根据推荐系统的目的不同,准确度的衡量也有不同的指标。
  分类问题:比如点击、不点击或者喜欢、不喜欢就可以看成分类问题,分类问题的指标主要是精确度(Precision)和召回率(Recall),精确度描述的是推荐结果有多少是用户喜欢的。
  而召回率描述的是用户喜欢的产品,有多少是推荐系统推荐的。当然,我们希望这两个指标都越大越好。但是实际情况,都需要平衡这两个指标的关系,所以常用的F指标就是一种常用的平衡二者关系的计算方式。
  评分预测:对产品进行评分,比如电影评分,常用的准确度指标主要有均方根误差(RMSE)、MAE(平均绝对误差),二者之间主要是计算方式的差别,都是描述算法的预测评分和产品真实评分之间的差距。
  排序问题:分类和评分预测问题,只是把可以推荐的产品筛选出来,但是并不包含展示给用户的顺序,我们当然希望把用户最可能消费的产品放在前面,这就需要排序指标。
  其中最常见的离线指标是AUC,简单的说,AUC代表的是随机挑选一个正样本和一个负样本,正样本排在负样本前边的概率。所以当算法能更好的把正样本排在前边的时候,就是一个好的算法模型。
  其他常见的算法指标,比如MAP,描述的是推荐列表中,和用户相关的产品在推荐列表中的位置得分,越靠前得分越大,MRR是按照相关产品的排名的倒数作为准确度,NDGG描述的是推荐列表中每一个产品的评分值的累加。同时考虑每个产品的位置,最后进行归一化,在同一标准上评价不同的推荐列表。
  2。覆盖率
  覆盖率描述的是推荐出的产品占总产品的比例,除了产品之外,类目、标签也可以用覆盖率来评价。
  3。多样性
  用户的兴趣不是一成不变的,而且有些产品的用户不止一个,同一用户的兴趣也会受到时间段、心情、节日等多种音速的影响。所以推荐时要尽量推荐多样的产品。在具体的多样性评价上,可以通过对产品聚类,在推荐列表中插入不同类别的产品来提高多样性。
  4。时效性
  不同产品的时效性是不同的,比如电商类需要的时效性不是很高,但是新闻、资讯、短视频这类产品,就需要很高的时效性。所以针对不同产品甚至产品下不同的类目,设置不同的时效性,也是提高推荐质量的途径之一。
  推荐系统的在线评估
  在线评估大致可以分为两个阶段:一个是用户触发推荐服务;另一个是用户产生行为这两个阶段。
  1。触发推荐服务
  稳定性:系统的稳定性对于用户的体验至关重要,怎样能针对不同的场景持续稳定的提供推荐服务,是推荐系统最重要的指标之一,提高推荐效果,也要在保证系统稳定性的前提下去进行优化。
  高并发:当某个时间点有大量用户访问,或者用户规模很大时,推荐系统能否扛住高并发的压力也是一个很大的挑战。所以设计一个高并发的系统,了解不同接口的高并发能力,做好充分的压力测试,也是推荐系统能否稳定提供服务的重要内容。
  响应时间:响应时间衡量用户是否能够及时得到推荐反馈,响应时间会受到多种因素的影响,比如网络情况、服务器、数据库等,可以通过监控请求的时长,做好超时报警。同时在生产推荐结果时优化计算方式、简化生产过程,尽可能的规避响应时间带来的影响。
  2。产生行为
  这一阶段主要是用过用户产生行为,通过收据分析用户的行为日志进行相关指标的评价。这一阶段更多的是考虑平台角度,从商业化指标以及用户行为指标等方面进行评价。
  比如转化率、购买率、点击率等都是常见的行为指标,一般用户行为符合漏斗模型(例如,推荐曝光点击阅读分享),通过漏斗模型可以直观的描述不同阶段之间的转化,提升用户在不同阶段之间的转化。
  图4:用户行为漏斗模型
  AB测试
  在线评估通常会结合AB测试,当有新的算法或者策略上线时,通过AB测试,在同一指标下,对比新旧算法的差异,只有当新算法有明显优势时,才会取代旧的算法。
  图5:AB测试流程
  1。什么是AB测试
  AB测试的本质是对照试验,其来源于生物医学的双盲测试,通过给两组病人不同的药物,来确定药物是否有效。
  在推荐系统中,AB测试也采用了类似的概念:将不同的算或者策略,在同一时间维度,分别在两组或者多组组成成分相同的用户群体内进行线上测试,分析各组的用户行为指标,得到可以真正全流量上线的算法或者策略。
  2。AB测试的常见做法
  AB测试应该怎样进行呢?其中最重要的是控制变量、分流测试和规则统一。
  控制变量:AB测试必须是单变量的,变量太多,变量之间会产生干扰,很难找出各个变量对结果的影响程度。在推荐系统中,AB测试的唯一变量就是推荐算法或者策略。
  分流测试:AB测试作为对照试验,自然有实验组和对照组。通常状况下会对用户进行分流,很多用户都会访问同一个app或者web多次。所以根据用户进行分流是一个很好的方案,在对用户进行分流时,可以通过用户ID,设备号或者浏览器cookie。
  对于未登录用户来说,跨设备访问app或者web,就会产生不同的标识。所以对于未登录用户,最好能保持实验组和对照组有相同的比例。
  不同的用户在一次浏览过程中,体验的应该是一个方案,同时需要注意不同流量之间的人数,大多数情况希望所有用户平均分配。
  规则统一:在控制变量和分流测试的前提下,针对不同的流量,应该制定相同的评价指标,才能得到准确的对比效果。

有一种体谅叫包容哐当,楼上不知是什么东西又摔了刷拉,楼上估计又在把什么东西要拖到另一个地方嘀哩啷当,楼上的弹珠又一个个掉在地上了吧我的天哪!(请脑补小岳岳的脸)我的楼上……飞向太空小时候我最大的梦想就是能飞起来到太空看看,现在也是如此。有一天,我抱着这个梦想试一试飞翔,尽管,有些人说这件事是不可能的,但我还是想试一试!在悬崖上,我猛地一跳,掉……短信改变了我的生活似乎是一瞬间,世界发生了日新月异的变化;似乎是一刹那,世界已进入新的时代。许多东西,都在改变着我们的生活。短信温暖凛冽的寒风吹着,发出很大的声音,院子里的梅花在风中……一次糊涂的尝试从小到大,发生在我身上的大大小小的事多得简直数不清,而且什么事情我都敢去尝试一下。我记忆最深的是6岁的一天,我看见爸爸手里拿着一个小东西在下巴上刮来过去的,看起来挺好玩的……美味红烧肉星期天,我到奶奶家吃饭。一进门就闻见一股特别的味道,这股香味好像在勾引我似的,让我情不自禁地跟着它,走进了厨房。一进厨房,我就看见奶奶在烧一锅金黄金黄的东西,凑近一看,原……我佩服的一个人有一个人,他聪明机智;有一个人,他喜欢折纸;有一个人,他喜欢放声大笑;有一个人,他勇于挑战新事物。他是谁呢?他就是我最佩服的一个人,他就是折纸高手吴晗。吴晗是我的同桌,他……我们这一家树是鸟儿的家。夜空是星星的家,大地是小草的家。而和谐温暖是我的家。下面就让我为大家介绍一下我的家吧。调皮的弟弟我的弟弟非常调皮,记得有一次我的爸爸和妈妈不在家,我在……就这样慢慢长大转眼,我已十三岁,回忆幼年,无数场景在我脑中环绕三岁时,我迈入了幼稚园的大门。我大大的眼睛好奇地望着四周,这个地方虽然陌生,但却牢牢地抓住了我的注意力我并不难过甚至还有几……幸福如此简单都说父爱如山,母爱似海,但由于爸爸妈妈工作忙,我一直生活在奶奶家。什么是幸福?幸福就是一个有亲人的地方!所以我说:爷爷的爱胜过父亲的爱。记得有一次考试没考好,爷爷的脸上上……吃石榴有什么好处石榴竟有这般功效石榴是很受大家欢迎的水果之一,很多小朋友也很喜欢,其实石榴有一个好东西,不仅可以养颜,还有很多药用价值,今天小编就给大家详细的介绍一下这方面的知识,感兴趣的朋友可以来看看哦。……家常薏米南瓜粥的做法南瓜粥这是许多人百喝不厌的食物,这不仅是因为南瓜粥味道好,而且还因为南瓜粥的主要原料南瓜具有非常高的营养,不仅含有丰富的维生素,而且还能通气,利便,对于女性而言不仅能保养肌肤而……山楂的好处与坏处是什么一般来说,山楂是一种老少皆宜的食物,尤其是有的朋友消化不好,吃一点山楂能过帮助开胃。有个小朋友平时饭量不大,妈妈不妨买一点山楂片给孩子吃,吃了过后,保证孩子胃口大开。山楂当中含……
新生班主任工作总结精选多篇第一篇:新生班主任工作总结为期将近一个月的新生班主任工作在9月18日就渐进尾声了,我们也可以慢慢地放手让他们自己大胆的去走自己的大学路了,去过自己想要的大学生活了。在这段……人力资源管理模式与组织绩效关系研究评述摘要:当前我国进入了深化改革阶段,随着企业数量的不断增多,人力资源管理也成为了企业加强内部管理的重要内容。本文主要探讨人力资源管理模式的差异,以及人力资源管理模式与组织绩效之间……水利工程勘测设计中电子档案的管理与利用分析【摘要】现在我国信息技术发展速度越来越快,原来的纸质档案管理已经逐渐由电子档案管理替代,电子档案管理在水利勘测设计的中的应用越来越广泛。本文主要围绕着在水利工程中应用电子档案进……受疫情影响年上半年入境日本的外国人减少受疫情影响2020年上半年入境日本的外国人减少75据日本《东方新报》10月12日报道,近日,日本出入国在留管理厅公布的最新数据显示,2020年上半年入境日本的外国人约为4……这个世界上有两个人你必须要爱文DoDo图片来自网络在我们眼里,不论你多大,都还只是个小孩子。我忽然想起妈妈说的这句话,心头不禁酸酸的。(一)几周前,妈妈在微信上问我在不在线?我知道……太虚拳功法练习流程作者:qingquan1专题分类:第一节。1。车轮手法(顺16次,逆16次)2。八极手法(16次)1。)旋掌2。)撩掌3。)挑掌……打宗门禅者的棒打打,在古代汉语里是个形声字。从手,丁声。本义:击。意谓能打唯手,所打的对象亦人亦物。并且能打所打二者必须相击,方可算是打了。否则,捏个空拳,吓煞天下,这般作家,驴嘴马嘴。宋文天……人人聚财自动投标的规则有哪些投资P2P,大家都知道可以获得更高的收益。正因为这一点,大家在投资P2P的时候,不希望自己的投资资金站岗闲置。所以不少人选择了人人聚财平台投资投资时,就会想要知道人人聚财自动投……脱隆科兰公主从前,有一穷苦的烧炭工人,他已经有了二十五个孩子。他又新添了一个孩子。于是他便出门去替孩子找一位教母和一位教父。他看见一位国王坐在华美的四轮马车里经过,就跪在地上,向国王……有关宽容的小故事宽容酿就了五彩的人生一个小学校长在他的校园里巡视,当他走到教学楼后面一条正在铺筑水泥的小路前时,他发现还没有完全凝固的水泥面上有两只玻璃球。他绕过去,尽量靠近那两只玻璃球。他想,一定是孩子们在课间……北京金价打回两年前分析师金饰投资功能不大2008年10月30日来源:北京晚报千足金每克189元!继中国黄金旗舰店上周率先将千足金首饰价格破2进1、下调至198元克以后,贵友大厦方庄店明天将刷新中金的低价纪录,每……薪酬透明度真的能提升企业的绩效吗普通员工的薪酬,有两种发放方式:一种是公开薪酬,另一种是保密薪酬。公开薪酬,是指单位的薪酬表是公开的,每个员工都可以通过公开的薪酬表,查看到同事的薪酬,了解自己的薪酬在企业中所……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网