六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

如何通过用数据挖掘技术来分析网站日志

  收集web日志的目的
  Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。
  1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接关系,以适应用户的访问习惯,并且同时为用户提供有针对性的电子商务活动和个性化的信息服务,应用信息推拉技术构建智能化Web站点。
  2、以分析Web站点性能为目标,主要从统计学的角度,对日志数据项进行粗略的统计分析,得到用户频繁访问页、单位时间的访问数、访问数量随时间分布图等。现有的绝大多数的Web日志分析工具都属于此类。
  3、以理解用户意图为目标,主要是通过与用户交互的过程收集用户的信息,Web服务器根据这些信息对用户请求的页面进行裁剪,为用户返回定制的页面,其目的就是提高用户的满意度和提供个性化的服务。
  收集方式
  网站分析数据主要有三种收集方式:Web日志、Javascript标记和包嗅探器。
  Web日志
  web日志处理流程:
  从上图可以看出网站分析数据的收集从网站访问者输入URL向网站服务器发出http请求就开始了。网站服务器接收到请求后会在自己的Log文件中追加一条记录,记录内容包括:远程主机名(或者是IP地址)、登录名、登录全名、发请求的日期、发请求的时间、请求的详细(包括请求的方法、地址、协议)、请求返回的状态、请求文档的大小。随后网站服务器将页面返回到访问者的浏览器内得以展现。
  Javascript标记
  Javascript标记处理流程:
  上图所示Javascript标记同Web日志收集数据一样,从网站访问者发出http请求开始。不同的是,Javascript标记返回给访问者的网页代码中会包含一段特殊的Javascript代码,当页面展示的同时这段代码也得以执行。这段代码会从访问者的Cookie中取得详细信息(访问时间、浏览器信息、工具厂商赋予当前访问者的userID等)并发送到工具商的数据收集服务器。数据收集服务器对收集到的数据处理后存入数据库中。网站经营人员通过访问分析报表系统查看这些数据。
  包嗅探器
  通过包嗅探器收集分析的流程:
  上图可以看出网站访问者发出的请求到达网站服务器之前,会先经过包嗅探器,然后包嗅探器才会将请求发送到网站服务器。包嗅探器收集到的数据经过工具厂商的处理服务器后存入数据库。随后网站经营人员就可以通过分析报表系统看到这些数据。
  web日志挖掘过程
  整体流程参考下图:
  1、数据预处理阶段根据挖掘的目的,对原始Web日志文件中的数据进行提取、分解、合并、最后转换为用户会话文件。该阶段是Web访问信息挖掘最关键的阶段,数据预处理包括:关于用户访问信息的预处理、关于内容和结构的预处理。
  2、会话识别阶段该阶段本是属于数据预处理阶段中的一部分,这里将其划分成单独的一个阶段,是因为把用户会话文件划分成的一组组用户会话序列将直接用于挖掘算法,它的精准度直接决定了挖掘结果的好坏,是挖掘过程中最重要的阶段。
  3、模式发现阶段模式发现是运用各种方法和技术从Web日志数据中挖掘和发现用户使用Web的各种潜在的规律和模式。模式发现使用的算法和方法不仅仅来自数据挖掘领域,还包括机器学习、统计学和模式识别等其他专业领域。
  模式发现的主要技术有:统计分析(statisticalanalysis)、关联规则(associationrules)、聚类(clustering)、归类(classification)、序列模式(sequentialpatterns)、依赖关系(dependency)。
  (1)统计分析(statisticalanalysis):常用的统计技术有:贝叶斯定理、预测回归、对数回归、对数线性回归等。可用来分析网页的访问频率,网页的访问时间、访问路径。可用于系统性能分析、发现安全漏洞、为网站修改、市场决策提供支持。
  (2)关联规则(associationrules):关联规则是最基本的挖掘技术,同时也是WUM最常用的方法。在WUM中常常用在被访问的网页中,这有利于优化网站组织、网站设计者、网站内容管理者和市场分析,通过市场分析可以知道哪些商品被频繁购买,哪些顾客是潜在顾客。
  (3)聚类(clustering):聚类技术是在海量数据中寻找彼此相似对象组,这些数据基于距离函数求出对象组之间的相似度。在WUM中可以把具有相似模式的用户分成组,可以用于电子商务中市场分片和为用户提供个性化服务。
  (4)归类(classification):归类技术主要用途是将用户资料归入某一特定类中,它与机器学习关系很紧密。可以用的技术有:决策树(decisiontree)、K最近邻居、NaveBayesianclassifiers、支持向量机(supportvectormachines)。
  (5)序列模式(sequentialpatterns):给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。
  (6)依赖关系(dependency):一个依赖关系存在于两个元素之间,如果一个元素A的值可以推出另一个元素B的值,则B依赖于A。
  4、模式分析阶段模式分析是Web使用挖掘最后一步,主要目的是过滤模式发现阶段产生的规则和模式,去除那些无用的模式,并把发现的模式通过一定的方法直观的表现出来。由于Web使用挖掘在大多数情况下属于无偏向学习,有可能挖掘出所有的模式和规则,所以不能排除其中有些模式是常识性的,普通的或最终用户不感兴趣的,故必须采用模式分析的方法使得挖掘出来的规则和知识具有可读性和最终可理解性。常见的模式分析方法有图形和可视化技术、数据库查询机制、数理统计和可用性分析等。
  收集数据
  收集的数据主要包括:
  全局UUID、访问日期、访问时间、生成日志项的服务器的IP地址、客户端试图执行的操作、客户端访问的服务器资源、客户端尝试执行的查询、客户端连接到的端口号、访问服务器的已验证用户名称、发送服务器资源请求的客户端IP地址、客户端使用的操作系统、浏览器等信息、操作的状态码(200等)、子状态、用Windows使用的术语表示的操作的状态、点击次数。
  用户识别
  对于网站的运营者来说,如何能够高效精确的识别用户非常关键,这会对网站运营带来极大的帮助,如定向推荐等。
  用户识别方法如下:
  使用HDFS存储
  数据收集到服务器之后,根据数据量可以考虑将数据存储在hadoop的HDFS中。
  在现在的企业中,一般情况下都是多台服务器生成日志,日志包括nginx生成的,也包括在程序中使用log4j生成的自定义格式的。
  通常的架构如下图:
  使用mapreduce分析nginx日志
  nginx默认的日志格式如下:
  222。68。172。190〔18Sep2013:06:49:570000〕GETimagesmy。jpgHTTP1。120019939http:www。angularjs。cnA00nMozilla5。0(WindowsNT6。1)AppleWebKit537。36(KHTML,likeGecko)Chrome29。0。1547。66Safari537。36
  remoteaddr:记录客户端的ip地址,222。68。172。190
  remoteuser:记录客户端用户名称,
  timelocal:记录访问时间与时区,〔18Sep2013:06:49:570000〕
  request:记录请求的url与http协议,GETimagesmy。jpgHTTP1。1
  status:记录请求状态,成功是200,200
  bodybytessent:记录发送给客户端文件主体内容大小,19939
  httpreferer:用来记录从那个页面链接访问过来的,http:www。angularjs。cnA00n
  httpuseragent:记录客户浏览器的相关信息,Mozilla5。0(WindowsNT6。1)AppleWebKit537。36(KHTML,likeGecko)Chrome29。0。1547。66Safari537。36可以直接使用mapreduce来进行日志分析:
  在hadoop中计算后定时导入到关系型数据库中进行展现。
  也可以使用hive来代替mapreduce进行分析。
  总结
  web日志收集是每个互联网企业必须要处理的过程,当收集上来数据,并且通过适当的数据挖掘之后,会对整体网站的运营能力及网站的优化带来质的提升,真正的做到数据化分析和数据化运营。

探讨人力资源管理的目的和意义管理只对绩效负责一直以来,我们在讨论交流时,更多围绕的是人力资源管理的角色、定位和价值,大家普遍对于人力资源管理将成为企业发展的核心竞争优势这一结论达成高度共识。这对于从事人力资源管理的我们而……丰额头广州哪家医院好广州医院丰额头的效果是很多人都非常认可的,采用玻尿酸丰额头没有什么副作用,非常安全。变美方案01:hr广州医科大学附属第一医院广州医科大学附属第一医院不断的取得成就……年上半年第七中学工作总结2018年上半年第七中学工作总结2018年上半年,学校全面学习贯彻党的十九大精神,以习近平新时代中国特色社会主义思想为指导,按照区教体局的工作部署,以立德树人为根本,以义……安委办综合协调股工作总结综合协调股2019工作总结今年是中华人共和国70周年重要节日,做好安全生产工作,确保社会安全和谐稳定至关重要,我股室在在旗应急局的正确指导下,牢固树立安全生产底线和红线意……量化宽松难解欧洲经济困局虚拟经济和实体经济持续背离的大背景下,货币政策的传导机制基本完全失效。欧央行出人意料地宣布,自9月10日起,将所有利率全部降低10个基点。同时宣布准备启动购买银行发行的资……关于加强包头西站消防安全风险管控的思考包头西站地处京包、包兰铁路干线以及包白、包环两条铁路支线的交汇处,是呼铁局唯一的区域性编组站,共管辖6个车间、4个中间站,每日到发、解编的易燃、易爆、危险品等货物列车众多。全站……监管靴子有望落地陈小慧新版《商业银行理财监督管理办法(征求意见稿)》下发银行理财监管从来都不是新问题,自2005年以来,监管层已下发了十多项相关规章和规范性文件,但现在的市场发展显……医院行政智能部门中层干部执行力探讨摘要:从医院中层干部的个人信息剖析入手,以问卷调查法为主要研究方法,梳理医院中层干部在执行意识、执行能力和执行环境三方面存在的问题,提出三位一体的策略,一是加强执行文化建设,激……不舍我是一个恋旧的人,对拥有的人和物,乃至回忆与时光,一概不舍。物愈旧,情愈深。纠缠的时光一旦有了年头,便眷恋难舍。看着这物,便想起一切时光的痕迹,那年、那月、那时,那种种情……基于高校二级管理的责任预算【摘要】责任预算是责任会计的组成部分,是在分权管理条件下,在单位内部建立若干个责任单位,并对它们分工负责的经济活动进行规划、控制考核与业绩评价。文章以高校二级管理模式为基础,通……后创业者耿杰行动派少年成长记19岁小伙儿耿杰从来没想过要成为未来的乔布斯,或是盖茨,或是马克扎克伯格,或是马云,抑或是他全部的偶像世界中的那个谁。他只是喜欢电脑,想让自己玩得开心。在课业繁重的……三千弱水未及君许我一个后位,我便助你击退风玄。女子语气中夹杂着些微恳求。她,弱水之神,四年前的惊鸿一瞥,便认定了他,龙吟之皇,人间的王者。她对他一见倾心,然而她也知道他并不爱自己。灵儿……
姓俞女孩叫什么好听姓俞的女孩名字精选名字对于一个人来说是非常重要的,名字不仅仅只是一个人的称呼、符号,同时名字还蕴藏着这个人父母对他的祝福和希望。那么该怎么给俞姓女孩起一个好名字呢?俞姓女孩好听的名字又有哪些呢?……李世民手下五虎大将跟随李世民南征北战居功至伟唐朝是大家非常熟悉的一个朝代,不仅国家达到了鼎盛,人们安居乐业,还涌现出了许多的文人才子,而能出现这番景象和唐太宗李世民是脱离不了关系的,虽然李世民通过玄武门事变得来皇位,但其……女生陪你聊天到很晚一般来说,男人很容易自作多情,而女生的想法比较多变,有时候女生陪她聊天到很晚了,他就觉得女生是不是对他有意思。那么,事实到底是怎样的呢?女生陪你聊天到很晚的原因:1……好看花边的画法教你画一种aclasstaghrefwiki10259IFyJwbq11。html好看a的花边,再推荐几种好看的花边。工具材料绘画工具操作方法01:hr……爱爱秘籍爱抚关于女性四点性活动不但是人类繁衍生息的关键,更是夫妻生活质量优质与否的保证。掌握一些性技巧对提升夫妻感情致关重要。爱抚关于女性四点女性的四点(阴核、阴道与两个乳头)触感都很敏锐……白斑病症状有哪些白斑病症状有哪些?白斑患者一般没有明显的痛痒症状,只是在皮肤上出现白色的点或片,看看白斑病症状有哪些。白斑病早期症状1、晕痣性白斑围绕色素痣的局限性色素减退,……男人坚持多长时间射精才是正常的性生活是大家沟通交流的方式,大部分人到夫妻生活中享有不一样的快乐。尤其是近些年,男性朋友在性层面的病症愈来愈多。很多男士在性活动中有早射和勃起障碍,大部分是在完毕时。因此,男人……女生为什么会生气aclasstaghrefwiki10455IHtPFf319。html男生a和女生的逻辑思维不一样,女生生气了,男生还不知道怎么回事,那么下面我就来说一说女生为什么会生气吧。……详细了解一下硅胶乳贴的洗涤方法乳房大对女生来说是值得骄傲的,许多乳房小的女生就会买硅胶乳贴来丰胸,关于硅胶乳贴的使用方法女生都知道,但是有的女生却不太清楚硅胶乳贴的洗涤方法。硅胶乳贴有明确的标识,洗涤不当的……大国崛起字观后感大国崛起这是中国中央电视台第一部以世界性大国的强国历史为题材并跨国摄制的大型电视纪录片,看看下面的观后感,一起看看那大国吧!大国崛起1500字观后感【1】这个暑假,……哈密瓜种植之常见虫害防治【哈密瓜种植之常见虫害防治】哈密瓜常见虫害有:地下害虫、瓜蚜、种蝇、金针虫、地老虎、蓟马、红蜘蛛和aclasstaghrefwiki10003IaVJSRN。html蚜虫a等。……和倍问题和差问题差倍问题已为孩子收藏各位家长同学,大家好!我是张老师。在前几天有家长问,孩子在学习和差倍问题的时候,经常记错,有没有公式推导的汇总学习,好让孩子学会理解后再记忆。《和差倍问题》是小学奥数的重……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网