六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

腾讯信息流内容理解技术实践

  导读:目前信息流推荐中使用的内容理解技术,主要有两部分构成:1。门户时代和搜索时代遗留的技术积累:分类、关键词以及知识图谱相关技术;2。深度学习带来的技术福利:embedding。但是分类对于兴趣点刻画太粗,实体又容易引起推荐多样性问题,而embedding技术又面临难以解释的问题。这次主要介绍在信息流推荐中,腾讯是如何做内容理解克服上述问题的。主要包括:
  项目背景
  兴趣图谱
  内容理解
  线上效果项目背景
  1。内容理解技术演进
  门户时代:19952002年,主要代表公司:Yahoo、网易、搜狐、腾讯。互联网初期,因为数据较少,因此需要一个内容聚合的地方,人们才能够快速的找到信息。因此,门户通过内容类型对内容进行整理,然后以频道页形式满足用户需求。因为数据少,初期由人工对新闻进行分类。随着数据的增多,靠人工分类已经变得不现实,因此各大公司纷纷引入分类技术,自动化文本分类。此后,文本分类技术发展迅速。
  搜索社交时代:2003年至今,主要代表公司:搜狗、腾讯、Google、百度。随着网络的普及,数据的数量和类型的丰富,门户网站已经不能够承载信息分发的任务。于是,一种新的信息分发技术诞生搜索。搜索除了需要分类信息以外,还需要精确知道文章是关于什么的,关键词技术很好的解决了这个需求,于是也成为那个时期的研究热点。但是关键词技术有一个问题没办法克服:实体歧义问题(如李白,究竟用户是找诗人李白,还是王者荣耀英雄李白)。2012年Google提出知识图谱概念,可以用于解决上述的实体歧义问题,实体链指的问题也有了比较大的进展。
  智能时代:2012年至今,主要代表公司:今日头条、出门问问等。使用2012年来作为智能时代的开始,主要是这一年头条成立。头条定义了一种新的信息分发形式个性化推荐。虽然个性化推荐技术早有研究,但是对于信息分发这个任务有不可或缺的推动作用。
  但是在信息推荐中,我们仍然在使用分类、关键词和实体等传统的内容理解方法,那到底在智能时代下是否需要新的内容理解方案呢?
  2。推荐和搜索的区别
  推荐和搜索非常相似,都是根据已有的输入,返回跟输入相关的文章,但是对于内容理解的要求区别较大,下面仔细分析下原因:
  搜索是给定一个query后,预测doc被点击的概率进行排序。大致的处理流程如下:首先对query分词,得到amp;lt;term,weightamp;gt;的一个列表(去除停用词等不重要的词),然后根据每一个term拉倒排索引documentlist做召回,再对召回的所有文章取并集,最后做整体的排序。注意:这里排序的条件是所有term的交集(条件概率标红部分)。
  推荐是给定一个user后,预测doc被点击的概率进行排序。大致的处理流程如下:首先查询user的用户画像,得到amp;lt;term,weightamp;gt;的一个兴趣点列表,然后根据每一个term拉倒排索引documentlist做召回,再对召回的所有文章取并集,最后做整体的排序。注意:这里排序的条件跟搜索是不同的,排序的条件是term的并集(条件概率标红部分)。例如用户阅读了王宝强马蓉离婚的新闻,会把王宝强、马蓉作为两个兴趣点积累到用户画像中,而对新的文章排序时候,实际上已经丢失了王宝强和马蓉兴趣点是同一篇文章同时积累的这个信息。
  通过上述分析,我们可以得到这样的结论:搜索经过召回之后,排序有完整的上下文信息;但是在推荐中由于经过了用户画像,使用传统的内容理解方案时,排序会丢失用户阅读的上下文信息。因此,推荐对于内容理解需要保留完整的上下文,即把王宝强马蓉离婚当做一个完整的兴趣点,而不仅仅像搜索一样分别保留王宝强和马蓉。
  3。用户为什么会消费
  传统的内容理解仅仅解决了文章是什么的问题,但是对于用户为什么会消费却没有考虑。举个例子来说,如果我们的一个朋友看了一款XC60的汽车,我们会给他推荐什么内容呢?我们一定不会不停的推荐XC60,而是会猜测朋友可能是喜欢沃尔沃这个品牌,比较看重安全性,或者对于空间有一定要求的SUV。因此,如果要做好一个推荐系统,内容理解同样也需要相应的能力,挖掘用户真实消费意图。
  4。传统的NLP的技术缺陷
  以上是整个项目的背景,我们总结一下。传统NLP技术存在缺陷:
  分类:人工预定义,量级千规模;优点:结果可控性高,人工可以参与运营;缺点:粒度太粗,难以刻画用户粒度的兴趣点,推荐不精准;
  关键词:规模庞大,量级可达千万;优点:技术成熟;缺点:绝大多数词不能反映用户兴趣,需要配合兴趣白名单一起使用,不能解决歧义的问题;
  实体词:常见实体百万量级;优点:精准刻画用户兴趣,结果可控性高;缺点:推荐内容单一,容易造成信息茧房;
  LDA:量级千规模,优点:技术成熟,可以人工预先选择出有意义的类簇;缺点:规模和分类相当,粒度太粗,与分类问题相同;
  Embedding:量级不受限制;优点:研究热点,有成熟技术;缺点:难以解释。个性化推荐需求:
  推荐系统需要积累用户模型,因此需要保留完整的上下文,语义粒度要完整;
  不同的人消费同一篇文章背后原因可能不同,因此需要有一定的推理能力。因此,传统的内容理解方案并不能很好的满足个性化推荐的需求。个性化推荐不仅需要传统的内容理解方式,还需要一种能够有完整上下文,并且具有推理用户真实消费意图的能力。
  兴趣图谱
  1。兴趣点图谱
  根据上述分析,我们提出了兴趣点图谱,用于解决上述个性化推荐中遇到的问题。兴趣点图谱由四层组成:分别为:分类层、概念层、实体词和事件层。下面分别介绍各层的内容:
  分类层,一般是由PM建设,是一个严格树状的结构,一般在1000左右个节点;
  概念层:有相同属性的一类实体称之为概念,例如老年人专用手机、省油耐用车等;
  实体层:知识图谱中的实体,如:刘德华,华为P10等;
  事件层:用来刻画某一个事件,例如:王宝强离婚、三星手机爆炸等。分类层主要解决人工运营的需求;概念层推理用户消费的真实意图;实体层负责一般兴趣点的召回;事件层精准刻画文章内容。下面介绍如何构造兴趣点图谱。
  2。概念挖掘
  概念本质是一种短语,其实短语挖掘的论文非常多,像韩家炜老师团队就有很多相关的论文,但是概念有自己的独特性:
  没有训练样本,并且人工难以标注。因此只能通过弱监督方法解决冷启动的问题,然后使用监督方式提升覆盖。
  粒度问题。比如明星是一个概念,但是太泛,不能精准刻画用户兴趣,但是身材好的女明星就很合理,那如何描述粒度呢?使用UGC数据,用户真实表达需求。
  因此,具体挖掘时,我们使用了搜索数据,通过用户的点击行为进行半监督算法的学习。具体算法如上图所示:
  挖掘概念使用的是搜索数据,每一个概念都有多个点击的网页,对网页进行实体抽取,然后统计实体和概念的共现频次就可以获得较为准确的上下位关系,我们在KDD的paper中有详细的介绍,这里就不再重复。
  3。热门事件挖掘
  事件指的是热门事件。如果一个事件比较热门,网友就会有了解需求,会通过搜索引擎来查询事件,因此我们使用query作为热门事件挖掘的来源。
  一个比较常见的方法是根据事件搜索量变化趋势判断,常规的做法是BRD(BurstRegionDetection),判断时间序列上是否有爆发点。但是BRD会遇到一些归一化,甚至多point的问题,于是我们采用了上图的方式克服上述问题:
  热门识别:时序分析,识别热门query。首先定义一个热门事件的趋势模板;然后对第一步预处理后的时序数据与热门模板进行相似度计算,如果相似度很高,说明趋势一致,则为热门事件,否则就是非热门。相似度计算的方式最早用的距离是欧拉距离,但是由于欧拉距离需要严格的时序对齐,会造成一些badcase,因此改用DTW算法。
  话题检测:同一个事件会有多种表述方法,对应多个query,因此需要把相同事件的query聚类到一起,形成话题。
  事件识别amp;amp;命名:热门的话题中往往会伴随一些非事件型的话题,如热门美剧更新时,会出现一个热度高潮,上述方法会混入一些非事件,因此我们需要对热门的话题做一个分类。一个非常有效的特征是url中的一些单词,会很有区分性。4。关联关系
  个性化推荐系统中除了要满足用户当前兴趣以外,还需要探索到用户未知的潜在兴趣点,扩展用户阅读视野。因此需要对节点计算关联关系。目前我们仅针对实体做了关联关系的计算。
  大家很容易想到,如果两个实体经常会在同一篇文档中出现,应该就是高关联的;或者用户经常连续搜索,即搜完刘德华,然后会马上搜索朱丽倩,应该也是高关联的。确实这种直觉是正确的。虽然这种方法准确率很高,但是会遇到一些问题:没有共现过的,会被认为没有任何的关系;对于共现少的pair对,关系的密切度计算误差也会比较大。
  因此,需要通过实体向量化的形式克服上述问题。上述的共现数据可以作为正例,负样本采用同类实体随机负采样,正负样本比例1:3,通过pairwise的loss进行训练,得到每个实体的embedding,然后计算任意两个实体的关联度。
  内容理解
  1。文本分类
  主题分类层是PM整理的,但是PM整理的过程中可能会存在一些认知偏差。可以使用用户的点击行为对内容进行聚类,聚完类之后让PM去标注,从而总结出一些更适合的类别用于描述用户的兴趣。
  2。关键词抽取
  我们使用了比较传统的关键词提取思路,利用传统特征工程GBRank算法排序。在实际中会遇到这样的问题,如示例,Twitter出现在title中的实体,传统的方式会把Twitter分数计算的很高,但是这篇文章中却不是重点,重点是两支LOL战队的骂战。于是我们在BGRank之后,加了rerank层,为所有的候选词做一个重排序。词之间边关系使用关联关系embedding计算相似度得到。
  3。语义匹配
  对于概念和事件类型的标签,原文中可能并不会出现,用抽取的方式就没有办法解决。我们采用召回排序的方式解决。召回的逻辑分为关系召回和语义召回,其中关系召回会用到兴趣点图谱中的关系数据,召回1hop内的节点作为候选,语义召回通过语义向量召回与title近邻的节点作为候选,然后用交互匹配的方式进行排序。如果1hop内的节点数量太多,排序耗时会非常大,因此这里采用粗糙集的方式进行候选的粗排,缩小候选集合再进行排序。
  线上效果
  实验部分,baseline是仅用传统的实体和分类标签,而实验组除了实体和分类以外,同时使用概念和事件类型的兴趣点,最后线上效果提升明显。
  今天的分享就到这里,谢谢大家

愿为伊人心小寝于摇椅,轻摇折扇,寄予两份相思。秋风何事入罗裙?焉笑我秋摇折扇心浮躁!莫笑,莫笑,只愿一摇了相思,二摇了牵挂。天高云疏,瑟瑟秋风。欲将红绳系于柳枝头,一系烦心扣再系琐……爱情是现代婚姻的灵魂婚姻是爱情的坟墓吗?不,爱情是现代婚姻的灵魂。爱情能给现代婚姻家庭赋予一个安宁柔软的灵魂,不再充斥着嘈杂尖锐暴躁与不妥协。奥巴马说,米歇尔不在乎媒体怎么写我,她只关心我去……晒老照片心情短语一、明天要和阔别年的杜同学见面,已为人母的她会是什么样?心里很期待。翻开旧照片发现好多我和娟的合照,能有你这么一个真心朋友我特别知足,身边特别多的过客,亦真亦假的感情,慢慢地就……什么时候适合跳绳呢跳绳是很有效的运动减肥方式,不受场地、天气等影响,不管男女老幼随时随地的都可以进行。跳绳可以让我们的血液获取更多的氧气,对心脏机能有促进的作用,保护我们心血管系统。同时跳绳的减……美甲图片今年最流行的韩国美甲竟然是菱形,方形,三角形都是最基础最简单的图案,以往大家都爱夸张的日系美甲,如今韩式简约风已经席卷亚洲了。只画几何图案就太没新意了,做成镂空款,瞬间就前卫时髦多了!除了基……临淄石鼓的传说春秋时期,黄海边上有一个小村,名字叫仁义里村。有一天,村里一户姓王的人家挖井时,挖出一块石鼓形状的石头,上面刻着两条蟠龙,昂首翘尾,好象要腾空飞去。人们见了无不啧啧称奇。……笑蘑菇哭蘑菇下雨了,树林里的蘑菇像一把把小伞,从草丛里冒出来。小白兔挎着篮子,来到树林里,他采了一朵白白的小蘑菇,闻了闻,忽然哈哈大笑起来。刺猬爷爷,我为什么会笑呢?小白兔问知……一只不自量的狐狸一只狐狸在路上遇着一只老虎,老虎要吃它。狐狸慌忙哀求道:虎大王,你饶了我吧!您看我这么小,就是让您吃下去也不顶事!老虎道:不过,我实在饿得太厉害了。狐狸说:在那座大山背后的山洞……兰蔻粉水的主要功效是什么兰蔻粉水你真的用对了么兰蔻粉水的主要功效是什么兰蔻粉水的主要功效就是补水保湿,改善肤质。同时兰蔻粉水具有很好的收缩毛孔的功效,兰蔻粉水起到了调节水油平衡的作用,毛孔出现的根本原因就是皮肤水油失……什么发型显脸小款显脸小发型推荐9款显脸小发型推荐对于脸大的女生来说什么发型比较合适呢?这是一个非常值得研究的事情,下面我给你带来了9款显脸小发型推荐,一起来了解下。韩式空气刘海短发bobo头……球迷疯狂行为背后的心理解析赢球让球迷找到成就感Psy525。cn与归属感相伴的,是赢球带来的成就感。支持的球队赢球之后,自己有很大的成就感、满足感,因为球队实现了自己无法完成的愿望,填补了现实生活……淘宝为什么要做社区化互动为什么淘宝要做社区化互动?淘宝社区创新的思路是什么?未来的淘宝已经不能只看成交了,社区化可以说是必然的发展过程。移动互联网的发展迅速,产品需要创新和高速迭代,手机淘宝经过……
搞笑职场不公平没法说1、老总中午喝了酒,下午来到会议室开会,问身边的秘书:人都到齐了么?秘书:到齐了。老总大手一挥上菜!2、车间主任检查员工生产任务完成情况。A说:主任,我……盘点世界十大禁地美国区真相终被揭开外星人存在人们总是对于那些未知的事物感到十分的好奇,但是有些地方是你一辈子都进不去的,即使你有再多的钱,也无济于事,就像世界十大禁地,人们越是想要去探索其中的就究竟隐藏着什么样的奥秘,但……封门村太师椅为什么不能坐封门村第一邪物坐过就死导语:在网络上流传着许多关于封门村的灵异事件,其中最著名的就是封门村的那把太师椅,全村唯一一间南北朝向的屋子里就孤零零的摆着这么一把太师椅,传闻只要坐过这把椅子的人,最后都死于……长歌行涉尔为什么是小可汗涉尔结局有多惨没想到小可汗涉尔竟然会沦为全剧最惨的人物。那有朋友好奇,涉尔并非大可汗的亲生儿子,他为何会被称为小可汗呢?原因在于大可汗没儿子,涉尔是他的侄子,阿隼只是他的养子,所以从继位顺序……立春现状中华人民共和国成立之后,中国大陆地区由共产党领导,实行社会主义制度,进入了一个新时期,一般称建国以来的这个时期为当代。在这个时期,大陆和台湾的分离分治的现实在立春节日文化上也打……宋代煮茶三沸文人雅士酷爱喝茶偏爱煮茶煮茶,可修心养性。茶文化兴于唐盛于宋。宋代煮茶有三沸的说法。宋代文人雅士,酷爱喝茶,偏爱煮茶。久而久之便形成煮茶三沸这种说法;第一沸,出现鱼眼大气泡,并微微有沸腾声,此时……一个的用人逻辑决定了这个公司的天花板创业维艰,路上不仅有无数大妖小怪们拦路,也有好心指路人的误导。大浪淘沙下,成功诺曼底登陆的小初创都避过哪些陷阱,少走了哪些弯路?几个误区误区一:小初创应该专注主营业……世上最全面治疗痘痘大全aclasstaghrefwiki10408IHtA69P。html痘痘a的种类01:hr白头粉刺1、荷尔蒙分泌失调,也就是雄激素偏高;2、毛囊过度角化造成的……宝宝身上的疹子如何区分有几种疹子经常发生在婴儿和幼儿身上,而这些疹子的情况又非常相似。下面给大家说说宝宝身上的疹子如何区分?操作方法01:hr荨麻疹通常由过敏引起。急性荨麻疹通常持续数小……幼儿园关工委工作计划20192020学年度我园关工委工作将根据上级文件精神,继续坚持以人为本全面贯彻《中共教育部党组关于加强全国教育系统关心下一代工作委员会建设的意见》,紧密配合区教育局的工作,在……控辍保学工作总结共篇控辍保学工作总结(第1篇)半年来,在县委、县政府的正确领导下,在上级教育主管部门的全力指导下,在全乡干部、综合帮扶队、村两委的辛勤努力下,我乡圆满完成了上半年控辍保学工作……乡镇年上半年工作总结及下半年工作安排镇年上半年工作总结及下半年工作安排年是九台以区为治的起始之年,也是十二五规划的收官之年。上半年,我镇在区委、区政府的正确领导下,牢牢把握撤市设区及新一轮长吉创新产业示范区……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网