猜你喜欢是怎么猜中你心思的
(文JosephA。Konstanamp;amp;JohnRiedl)如今,到网上购物的人已经习惯了收到系统为他们做出的个性化推荐。Netflix会推荐你可能会喜欢看的视频。TiVo会自动把节目录下来,如果你感兴趣就可以看。Pandora会通过预测我们想要听什么歌曲从而生成个性化的音乐流。
所有这些推荐结果都来自于各式各样的推荐系统。它们依靠计算机算法运行,根据顾客的浏览、搜索、下单和喜好,为顾客选择他们可能会喜欢、有可能会购买的商品,从而为消费者服务。推荐系统的设计初衷是帮助在线零售商提高销售额,现在这是一块儿规模巨大且不断增长的业务。与此同时,推荐系统的开发也已经从上世纪90年代中期只有几十个人研究,发展到了今天拥有数百名研究人员,分别供职于各高校、大型在线零售商和数十家专注于这类系统的其他企业。
这些年来,推荐系统有了相当的进展。开始时它们还相对较为粗糙,往往对行为做出不准确的预测;但随着更多的和不同类型的网站用户数据变得可用,推荐系统得以将创新算法应用于这些数据之上,它们迅速得到了改善。今天,推荐系统都是些极其复杂和精专的系统,常常看起来比你自己还要了解你。同时,推荐系统正在向零售网站以外的领域拓展:大学用它们来引导学生选课,移动电话公司靠它们来预测哪些用户有可能转投另一家供应商,会议主办方也测试过用它们来分配论文给审稿专家。
我们两人从推荐系统的早期开始便一直在开发和研究它们,最初是以学术研究者的身份,参与GroupLens计划(GroupLensProject)。1992年起,GroupLens通过对美国兴趣论坛网站Usenet讨论区里的消息进行排序,将用户指向他们可能会感兴趣、但自己尚未发现的话题线索。几年以后,我们成立了NetPerceptions,这是一家推荐算法公司,在互联网第一次热潮期间(1997年2000年),一直处于业界领先地位。有鉴于此,虽然这些公司极少公开谈论他们的推荐系统是如何运作的,我们的经验使我们能够深入了解亚马逊和其他在线零售商幕后的情景。(在本文中,我们的分析是在观察和推理的基础上得出的,不包含任何内部消息)。
下面就是我们所看到的。
推荐算法是怎么猜你喜欢的?
你有没有想过自己在亚马逊眼中是什么样子?答案是:你是一个很大、很大的表格里一串很长的数字。这串数字描述了你所看过的每一样东西,你点击的每一个链接以及你在亚马逊网站上买的每一件商品;表格里的其余部分则代表了其他数百万到亚马逊购物的人。你每次登陆网站,你的数字就会发生改变;在此期间,你在网站上每动一下,这个数字就会跟着改变。这个信息又会反过来影响你在访问的每个页面上会看到什么,还有你会从亚马逊公司收到什么邮件和优惠信息。
许多年来,推荐系统的开发者试过用各种各样的方法来采集和解析所有这些数据。最近这段时间,多数人都选择使用被称为个性化协同推荐(PersonalizedCollaborativeRecommender)的算法。这也是亚马逊、Netflix、Facebook的好友推荐,以及一家英国流行音乐网站Last。fm的核心算法。说它个性化,是因为这种算法会追踪用户的每一个行为(如浏览过的页面、订单记录和商品评分),以此进行推荐;它们可不是瞎猫碰上死耗子全凭运气。说它协同,则是因为这种算法会根据许多其他的顾客也购买了这些商品或者对其显示出好感,而将两样物品视为彼此关联,它不是通过分析商品特征或者关键词来进行判断的。
不同类型的个性化协同推荐系统最晚从1992年开始便已经出现。除了GroupLens计划,另一项早期的推荐系统是MIT的Ringo,它会根据用户的音乐播放列表从而给用户推荐其他他们有可能会喜欢的音乐。
UserUser算法:计算用户之间的相似度
GroupLens和Ringo都使用了一种简单的协同算法,被称为用户关联(useruser)的算法。这种类型的算法会计算一对用户之间的距离,根据的是他们对同一物品打分的相似程度。举例来说,如果吉姆和简都给《电子世界争霸战》(Tron)这部电影打了5分,那么他们之间的距离就是0。如果吉姆给它的续集《创:战纪》(Tron:Legacy)这部电影打了5分,而简只打了3分,那么他们之间的距离就变大了。按照这样的计算得出来品味相对靠近的用户,我们把他们称之为共有一个邻集(neighborhood)。
但是,这种用户关联的策略效果并不是很好。首先,形成有意义的邻集很难:很多用户两两之间只有很少几个共同评分,有的就完全没有;而仅有的那几个都打了分的项目呢,往往是票房大片,基本上人人都喜欢的那种。再来,由于用户之间的距离可以变得很快,算法必须当场就进行大部分的计算;而这可能会比一个在网站上这儿点点那儿戳戳的人下一个动作发出之前需要更久的时间。
ItemItem算法:计算物品之间的关联
因此,大部分的推荐系统如今都依靠一种物物关联(itemitem)的算法,这种算法计算的是两本书、两部电影或者两个其他什么东西之间的距离,依据的是给它们打过分的用户的相似度。喜欢TomClancy书的人很可能会给CliveCussler的作品打高分,因此Clancy和Cussler的书就共处一个邻集。一对物品之间的距离可能是根据成百上千万的用户的评分计算得出,在一段时间里往往保持相对稳定,因此推荐系统可以预先计算距离,并更快的生成推荐结果。亚马逊和Netflix都曾公开表示过他们使用的是物物关联算法的变种,但对细节都绝口不提。
用户关联算法和物物关联算法都有的一个问题,是用户评分的不一致性。当给他们机会再评一次分时,用户往往会对同一件物品给出不同的得分。品味在变、心情在变,印象也在变。MIT在上世纪90年代进行的一项研究表明,在最初打分一年以后,用户的评分会发生平均1分(满分7分)的变动。研究人员们也在一直在尝试不同的方法在模型中纳入这一变量;比如说,如果用户给某个商品了打一个分,但这个评分与推荐算法所了解的关于这个人和这个商品的所有其他信息不相符,有的推荐算法就会邀请用户再次对这个商品进行评价。
降维算法:把事物特征一般化
不过,用户关联算法和物物关联算法还存在一个比一致性更大的问题:它们太死了。就是说,它们能发现都喜欢同一样东西的人,但却忽略了爱好非常相似的潜在用户组合。比如说你喜欢莫奈的睡莲。那么,在这个法国印象派大师画的250幅睡莲中,你最喜欢哪一幅?在一群喜欢莫奈的人当中,完全可能每个人喜欢的睡莲都不相同,而基本的算法就有可能识别不出这些人都有着共同的爱好。
大约十年前,研究者们想出了一个办法,通过一个叫降维(DimensionalityReduction)的过程,把事物更一般化的表现出来。这种方法在计算量上比用户关联和物物关联算法要密集得多,因此也就没有那么快的得到采用。但随着计算机变更快更便宜,降维算法也逐步取得了一些进展。
为了弄清降维算法是怎么工作的,我们来看看你爱吃的东西,以及如何把它跟其他一百万人爱吃的东西做比较。你可以把这些信息用一个巨型矩阵表示出来,每一条竖线代表一样食物,每个人爱吃什么东西就自然形成了一行。在你的这一行上面或许会显示你给了烤牛排5颗星、红烧小排4星半、烤鸡翅2颗星、冻豆腐卷1颗星、奶酪烤蘑菇5颗星、盐水毛豆4颗星,等等。
然而,使用这个矩阵的推荐算法并不关心你给哪种食物评了多少颗星。它想要了解的是你一般而言的喜好,这样它可以将这个信息应用到更丰富多样的食物上。比如说,基于你上面给出的信息,算法可能会认为你喜欢牛肉、咸的东西和烤制菜品,不喜欢鸡肉和任何油炸的东西,不喜欢也不讨厌蔬菜,依此类推。你爱吃的食物所拥有的特点或者说维度,它的数量和符合你要求的食物的数量比起来要小得多至多可能50或100。通过查对这些维度,推荐算法可以迅速决定你是否会喜欢一种新的食物(比方说盐焗排骨),方法就是把这种食物的各项维度(咸的、牛肉做的、不是鸡肉、不是炒的、不是蔬菜、不是烤的)同你的资料进行比对。这种更为一般性的呈现使得推荐算法能准确的发现有着相似但不同喜好的用户。而且,它大幅压缩了矩阵的规模,使算法变得更加高效。
这是一个很酷的解决方案。不过,你爱吃的食物的维度该上哪儿去找呢?肯定不是去问厨师。推荐系统会使用一种称为奇异值分解的数学方法来计算维度。这种方法涉及到把最初的一个巨型矩阵分解为两个口味矩阵其中一个包含了所有的用户和100项口味维度,另一个则包含了所有的食物和100项口味维度再加上第三个矩阵,当乘以前面两个矩阵中的任意一个时,会得到最初的那个矩阵(此处已更改)。
不像上面例子中说的那样,计算用的维度既不是描述性的,也一点儿都不直观;它们是纯抽象的值。这并没有什么,只要这些值最终生成准确的推荐结果就行了。这种方法的主要缺点是,创建矩阵所需要的时间会随着客户和产品数量的增多而飞速增长创建一个拥有2。5亿名客户和1000万种产品的矩阵,需要花上创建一个25万名客户和1万种产品的矩阵10亿倍那么多的时间。而且这一过程还需要经常重复。一旦收到新的评分,矩阵就已经过时;在像亚马逊这样的公司,每一秒钟都会收到新的评论。幸运的是,就算略微过时,矩阵仍然能以一个挺不错的水平运作。研究人员们也已经在设计新的算法,为奇异值分解提供可用的近似值并显著缩短计算时间。
本文作者:ccyou;来自:果壳
英语基本对话句都是最实用的英语日常用语1。Noway!不行!2。Comeon来吧(赶快)3。Holdon等一等。4。Iagree。我同意。5。Notbad还不错。6。Thatsneat……
手把手教你如何发好微商朋友圈让客户看完就买做微商,最重要的是什么?当然是先做好一个微商基础的工作,例如学习如何销售产品,学会如何培养代理,提高顾客购买次数。学习如何打造一个客户看完就会购买的朋友圈。这些都是十分关键的。……
阳光照红丰红光实践队的我们在行动湛江7月10日电(通讯员张淑蓉冯小娜林奕彤)自古道民以食为天,每个人每天都要吃饭,吃饭就离不了粮食。常言说的好:一粥一饭,当思来处不易,从粮食自辛勤的汗水中来要节约,不要浪费。……
你见过世界上最美的石头么【1】这些简直就是世界上最美的石头!一边涨姿势一边被美哭的节奏,是大自然赋予人类的宝贵财富。下面是一场你不能错过的视觉盛宴!日落蛋白石星系蛋白石【2】海洋蛋白……
曹操的谋士荀攸病时为什么曹丕会跪在床前荀攸是三国时期曹操的最主要的谋士,为人低调而且大智若愚,给曹操出过很多计策,助他良多,曹操也经常夸赞他。可以说,荀攸的地位是无可取代的。只不过,荀攸所出很多都是密谋,既然是密谋……
女人长期玩手机竟会导致月经不调月经提前、月经推后、月经过少、月经过多等都是月经不调的症状。生活中因为月经不调而受困扰的女性不在少数。随着现代科技的发展,手机电脑等电子产品越来越让人离不开,很多人走路在玩,坐……
新婚一年会发生的种改变你会增重当他把戒指戴上你手指之前,你一直在减肥。一旦蜜月开始,这种苦行僧般的修炼立马结束了。为了在婚礼上光彩夺目,我减了几个月的肥。我甚至特意订购了一个小号戒指强迫自己坚……
北京订婚习俗一般来讲,北京订婚习俗更着重女方的礼俗,结婚的习俗则更着重男方的礼俗,不过现代大多由男女双方自由协商。订婚当天,男方将行聘礼品以二、六或十二个红木盒装盛,人数六、十或十二……
讽刺耍心机的人的句子讽刺耍心机的人的句子有哪些?生活怎样对耍心机的人,用怎样的句子去骂这种人才解气呢?下面这些经典句子一定要学会了。一、讽刺耍心机的人的句子1。倚得东风势便狂2。……
紧急避孕药什么时候吃紧急避孕药有个副作用紧急避孕药什么时候吃最好呢?紧急避孕药是一种最常见的避孕方法,不过,服用紧急避孕药也要讲究时间哦。并且,紧急避孕药对于女性来说还会有副作用是你必须要知道的哦。今天,小编就来为大……
怀孕初期女性必备美丽手记曾看过这样一句话,怀胎的十月是女人一生中最幸福的时光。生命孕育的喜悦、家人加倍而至的关怀,怎能让准妈妈们不倍觉幸福呢?但很多准妈妈都会为怀孕期间容颜的改变而担心,怀孕初期到底该……
孩子不会说话诊断出智力低下这还能治好礼拜四,康复跟踪爸爸回忆说,孩子那时候什么话都不会说,虽然会啊啊发声,但一点都听不懂说什么。不仅如此,孩子理解能力比较差,教说话的时候,凯凯也不听,总是玩自己的。……
描写江南美景的古诗有哪些描写江南美景的诗句江南的美景是名不虚传的,所以才可以吸引万千文人墨客前去观赏,甚至流连忘返。古时候有许多诗人都为江南作了许多优美的古诗,今天就让我们一起去体味一下古代诗人的江南情吧!1、《……
高逼格向配色网站推荐附本人使用体验ColorSchemeDesignerColorSchemeDesigner界面ColorSchemeDesigner后来改名成paletton,是笔者一直使用的配……
在正确的情境中向用户获取权限话说今天这篇文章,最近几日看到到处在转另外一版译文,相对浓缩一些,也挺好看的;我学我的,我做我的。文中阐述的思路和具体方法,值得各位设计伙思考与参考;术未必对所有的产品都适用,……
致敬父母什么时候把房产过户给子女最合适君子荣论剑24小时前俗话说子承父业,在不久的以前有铁饭碗之说。如果父母是工厂工人退休了儿子就顶上,是职工呢父母就争取让孩子顶上,因为进入国企这是人们说的铁饭碗,不用……
芦荟怎样种植芦荟一般都是用分株法种植,每年在4~5月翻盆换土时,从基部分离出芦荟的分株,然后喷洒药剂消毒,放在阴凉处等待伤口愈合,插入适合生长的土壤里,需适当的疏松一下土壤,等待一周分株适……
麻油别名:胡麻油(《别录》),乌麻油(《外台》),脂麻油(《近效方》),香油(苏轼《物类相感志》),生油(《本草衍义》),清油(《岭南卫生方》)。性味:甘,凉。归经:入……
面相解析何为盛囊鼻在面相中,鼻子为中岳、为土星,也为疾厄宫、财帛宫之所在,掌管人的疾病、财运、事业、理财能力,也代表人的中年时期的运势,代表人执着的程度,内心善良与否,自我的观念,还可以看女人的……
智能垃圾分类小屋垃圾量达可报警9月5日,服贸会综合展区,游客在小黄狗展台使用智能垃圾回收站。新京报记者吴江摄可回收垃圾兑换积分或环保金、垃圾桶满载后骑手须在十分钟内抵达处理、垃圾清运后直接分拣进入后端……
冬天做甜酒酿可以用电饭煲保温吗冬天做甜酒酿怎么保我们都知道,甜酒酿是比较受欢迎的一种甜汤,它的味道香甜可口,营养丰富,适量食用对身体有一定好处,很多人都会在家做甜酒酿。做甜酒酿是有一定讲究的,尤其是温度和时间的控制。那么冬天……
风车草怎么扦插在扦插风车草时,在每年的春秋季,挑选健康的风车草枝条。修短为4厘米左右,只保留顶部2、3片叶子。将风车草枝条插入在疏松肥沃的土壤中,浇透水保证土壤处于湿润状态。一个月后风车草就……
新房装修衣柜设计根据需要合理搭配根据家庭人口合理设计衣柜空间一般年人叠放衣物较多,挂件较少,而且大多数衣物可能长期都不会穿戴,因此在设计时可以考虑多些独立的层板和抽屉,把使用较少的衣物分开存放。而夫妻间……
玫瑰根头癌肿病的防治玫瑰根头癌肿病由土壤细菌性病原菌所引起,主要侵害茎部和根部,常发生于植株与土壤接触的部位,受感染的部位肿大形成瘤状物而环绕茎部,使植株生育不良而至死亡。由于根瘤病感染植株……