经典系统性阐述用户画像数据建模方法
从1991年TimBernersLee发明了万维网(WorldWideWeb)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了大数据时代。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。
伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。
一、什么是用户画像?
男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟。
这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。
如果用一幅图来展现,即:
二、为什么需要用户画像
用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少?
也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况?
大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够理解人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。
三、如何构建用户画像
一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:2535岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如,判断用户偏好。短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。
数据源分析
构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。
对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。如,世界上分为两种人,一种是学英语的人,一种是不学英语的人;客户分三类,高价值客户,中价值客户,低价值客户;产品生命周期分为,投入期、成长期、成熟期、衰退期所有的子分类将构成了类目空间的全部集合。
这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。
本文将用户数据划分为静态信息数据、动态信息数据两大类。
静态信息数据
用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据清洗工作,因此这方面信息的数据建模不是本篇文章重点。
动态信息数据
用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着,广义上讲,一个用户打开网页,买了一个杯子;与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞双十一大促给力的微博消息。等等均可看作互联网用户行为。
本篇文章以互联网电商用户,为主要分析对象,暂不考虑线下用户行为数据(分析方法雷同,只是数据获取途径,用户识别方式有些差异)。
在互联网上,用户行为,可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。
目标分析
用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。如,红酒0。8、李宁0。6。
标签:表征了内容,用户对该内容有兴趣、偏好、需求等等。
权重:表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度,概率。
数据建模方法
下面内容将详细介绍,如何根据用户行为,构建模型产出标签、权重。一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,做了什么事。
什么用户:关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。
以上列举了互联网主要的用户标识方法,获取方式由易到难。视企业的用户粘性,可以获取的标识信息有所差异。
什么时间:时间包括两个重要信息,时间戳时间长度。时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950。083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度,准确度最多也只能到毫秒。时间长度,为了标识用户在某一页面的停留时间。
什么地点:用户接触点,TouchPoint。对于每个用户接触点。潜在包含了两层信息:网址内容。网址:每一个url链接(页面屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面。可以是PC上某电商网站的页面url,也可以是手机上的微博,微信等应用某个功能页面,某款产品应用的特定画面。如,长城红酒单品页,微信订阅号页面,某游戏的过关页。
内容:每个url网址(页面屏幕)中的内容。可以是单品的相关信息:类别、品牌、描述、属性、网站信息等等。如,红酒,长城,干红,对于每个互联网接触点,其中网址决定了权重;内容决定了标签。
注:接触点可以是网址,也可以是某个产品的特定功能界面。如,同样一瓶矿泉水,超市卖1元,火车上卖3元,景区卖5元。商品的售卖价值,不在于成本,更在于售卖地点。标签均是矿泉水,但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即,愿意支付的价值不同。
标签权重
矿泉水1超市
矿泉水3火车
矿泉水5景区
类似的,用户在京东商城浏览红酒信息,与在品尚红酒网浏览红酒信息,表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。
所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。
什么事:用户行为类型,对于电商有如下典型行为:浏览、添加购物车、搜索、评论、购买、点击赞、收藏等等。
不同的行为类型,对于接触点的内容产生的标签信息,具有不同的权重。如,购买权重计为5,浏览计为1
红酒1浏览红酒
红酒5购买红酒
综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识时间行为类型接触点(网址内容),某用户因为在什么时间、地点、做了什么事。所以会打上标签。
用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:
标签权重衰减因子行为权重网址子权重
如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。
标签:红酒,长城
时间:因为是昨天的行为,假设衰减因子为:r0。95
行为类型:浏览行为记为权重1
地点:品尚红酒单品页的网址子权重记为0。9(相比京东红酒单品页的0。7)
假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。
则用户偏好标签是:红酒,权重是0。950。710。665,即,用户:红酒0。665、长城0。665。
上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。
四、总结:
本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。
核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。
比如影视产品,我看了一部电影《英雄本色》,可能产生的标签是:周润发0。6、枪战0。5、港台0。3。
最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。
比如游戏产品,典型接触点可能会是,关键任务,关键指数(分数)等等。如,积分超过1万分,则标记为钻石级用户。钻石用户1。0。
百分点现已全面应用用户画像技术于推荐引擎中,在对某电商客户,针对活动页新访客的应用中,依靠用户画像产生的个性化效果,对比热销榜,推荐效果有显著提升:推荐栏点击率提升27,订单转化率提升34。
三个症状应高度怀疑宫外孕对于怀孕早期的准妈妈来说,最需要警惕的疾病就是宫外孕,因此提前知道一些宫外孕的症状很关键,以便准妈妈尽早做出准确的判断,下面,小编就告诉你,以下三个症状应高度怀疑宫外孕。……
方法培养孩子良好睡眠习惯优质的睡眠质量是婴幼儿成长不可缺少的因素之一,而优质睡眠质量的前提是培养孩子良好的睡眠习惯。很多宝宝都习惯跟着家长晚睡,这样长时间晚睡就会影响到孩子的正常发育,妈妈要引起重视哦……
最新群名字大全繁体字别、那缠绵癍斓变囮哋梦珴会给沵幸福待糘噺蓢乄愿意放弃乀痛,伤私吞涐旳心。莪湜狆蕜涺羙丽啲回忆未綄待续ay丶脸红嘞……
李易峰主演的镜双城什么时候播出这是一部玄幻剧李易峰主演的《镜双城》什么时候播出?《镜双城》是李易峰时隔十年回归古装的作品,这是一部玄幻剧,根据知名小说改编,想必播出的时候一定会特别火。《镜双城》没有定档,但据……
如何看待英雄钢笔的堕落操作方法01:hr英雄钢笔的没落是随大潮流的趋势的。在二十一世纪,不能光说是英雄钢笔没落了,其他钢笔行业也是逐渐退出写字用笔的主流行业,改走高端霸气上档次的礼品或情怀行业……
处男和非处男的十六个区别操作方法01:hr处男上厕所小便与非处男是完全不同的。急急忙忙地冲进厕所,还没有走拢小便池就憋不住了,掏出家伙就洒,小便如消防战士的高压水龙头,喷在对面的墙壁上,反……
皖系军阀为什么打不过直系军阀皖系军阀怎么没落的辛亥革命的爆发让腐败的清王朝就此灭亡,同时也推翻了2000多年的封建帝制。虽说清王朝已经灭亡了,但是革命胜利的果实却被袁世凯所得到。1912年4月在袁世凯取得政权之后,以北洋新……
作为老师如何帮助学生提高成绩作为一名老师你是否经常也有类似的问题,总是不断问自己是哪里出了问题,是教学的方式还是对学生的关爱不够?为什么有的孩子学习成绩一直比其他的好?他们是否有什么秘密呢?首先我想……
如何设计和分析数据指标【编者按】对于移动游戏的运营来说,数据指标的设计和分析必不可少。然而似乎很多人对此类工作的理解仍存有误区。有意义的数据指标并非越复杂越好,也并非越独特越好,它一定是可以明确绑定……
未来的汽车用户界面将会让人惊叹如果有一天让你来设计汽车?未来的汽车会是什么样的呢?当今我们在市面上见到的汽车大部分都有着过时的,没有吸引力的用户界面。在其它行业都飞速提升设计质量的年代里,汽车行业却一……
如何讲好用户故事你们我们他们一些有用的东西你知道如何讲述用户故事么?你是通过什么方式知道的?你确定你不是凑合应付一下?去年我在写一篇关于如何把不同的经验汇集在一个软件项目中的文章。……
温哥华房屋销售下滑但购买仍昂贵原作:龚蕾最近几个月,温哥华房地产市场降温,房屋销售下滑,但主要影响独立式别墅,而住房市场定价相对较小影响。(一)温哥华住宅价格不贵,工资上升有助于提升购买力,公寓……
周鸿祎手机和搜索是两场无法回避的战争或许在几十年后的某一天,评论家们会用这样的口吻描述周鸿祎:周鸿祎先生的一生是战斗的一生这位天性好勇斗狠、热爱兵法、打CS时喜欢一对多单兵作战的互联网老兵,迄今为止他创办的两家公……
放炮起风波刘杰在填写瓦斯牌板记录。双桥煤矿掘进二队四班班长冉龙满头大汗的狂奔而来,他一看见刘杰,立刻讨好地说:铁哥们,快去放炮,时间不等人,出去我请客,时间任你定,地点随你挑,菜酒随便点……
落花走过人性背后好的坏的大的小的明的暗的灰的亮的你的我的他的她的各种形式各种道路任你选择黑的白的黄的青的紫的绿的蓝的灰的你的我的他的她的敌不过手里这张……
伏契克我生命的果实原文及赏析一hr我的果实系晚熟之列,从地狱污水升起的浓雾中汲汁、甘甜,当雾气弥漫忧郁的草原,当初雪覆盖蜿蜒的山峦。弗克沙尔达我亲爱的古斯丁娜!我……
从虐待动物事件揭露人性本质最近炒得沸沸扬扬的虐熊事件让我们深思人性本质,我们为什么不能接受虐待。就因为人性中有一条道德的底线,同时也是起点,叫恻隐之心。一、恻隐之心,是道德的底线,人性的天良……
为什么我们会对某些事物有似曾相识的感觉每天都在重温旧梦,他这是怎么了?文byJYChen壹心理专栏科学之家当一个人不断地遇到似曾相识的事情,他就会有一种陷入时间怪圈的感觉。与大多数人模糊而又转瞬即逝的记……
等待一朵花开天空的蓝,是你眼中的泪。是未来未知的味道;是你眼中那一抹深邃,看不见底却吸引着我的目光;是你眉间淡淡的忧郁,看见阴天却没有下雨,看见忧郁却没有忧伤。神秘的像无穷的星宇,给人以遐……
陈柏霖发型图片型男帅气发型图片大全陈柏霖发型图片被称为自拍的男明星,陈柏霖,并不是大家口中的小鲜肉,而是以独特的气质让很多女生着迷,这种气质从哪里来呢?陈柏霖发型图片陈柏霖脸型比较长,并不是韩……
简单好打理女生发型懒人也可以变女神简约时尚发型设计没有丑女人只有懒女人?这句话只能听一半,没有丑女人,但是懒人也可以变美人,今天就来教大家选择简单好打理的发型!懒人变女神第一步:烫直发,同样是……
心雨微雨陪伴的清晨,独自走在校园偶然绿竹林旁我和你默然对望。当我看见你时,眼神是如此哀伤。仿佛伤害你的是整个世界。我也只是路过,……
运动减肥什么时间好呢每个女人都希望拥有迷人的身材完美的曲线,但是现在很多人,由于缺乏运动,整天呆在家里,这样下去,久而久之,身材开始慢慢地走样发胖,当这一系列问题出现之后,很多人才开始意识到应该减……
最美法式麻花辫达人轻松教会你法式麻花辫打造法式麻花辫,堪比明星般优雅时尚,一如欧美时尚名媛。法式麻花辫步骤一:将前额头发留出一片用来编织发辫,其余头发扎成马尾。法式麻花辫步骤……