六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

基于的大数据挖掘技术分析

  【摘要】文章主要介绍了以Spark为基础的大数据挖掘,首先分析了以Spark为基础的大数据生态系统,其次介绍了分布式集群与开发环境构建,再次介绍了Apriori算法实现,最后分析了以Spark为基础的分布协同过滤推荐。
  【关键词】Spark;大数据;挖掘技术
  因为大数据具有多样性、数据量大等特点,所以在大数据分析过程中,对于数据处理效率、速度以及实时性拥有较高要求。数据挖掘主要是以海量信息为目标,通过建模算法,找到隐藏的有用信息,充分发挥大数据价值。Spark体系主属于一种低延迟分布系统,以大范围数据集合为对象进行计算分析等操作。
  一、以Spark为基础的大数据系统
  (一)SparkRuntime
  SparkCore中的相关功能包括内存管理和任务调度等内容,内含故障修复和存储交互相关子元素。通过RDD结构在Spark中传送数据包的过程中,应该率先掌握Spark处理关键数据的操作流程,相关数据信息和对象概念之间较为相似。首先全部的数据集都被分成数个子集,而每个子集还能够被传输至集群相关节点当中进行有效处理分析。其次,能够妥善保存计算得到的中间结果,基于可靠性对问题进行详细思考,能够收获相同的计算结果,并在子集节点相关文件内进行备份储存。最后进行计算解析时,如在处理数据子集过程中产生错误,则需要对子集进行重新整理,促进容错机制的有效落实〔1〕。
  (二)GraphX
  在Spark中,GraphX是重要的子项目,为此应该以Spark为基础进行创建,对大规模图进行准确计算的基础上,融入GraphX,同时添加其他组件,实施系统融合,能够提升整体数据处理能力,其中GraphX的主要功能为帮助采集运输计算过程中所需要的数据图形运行符号,由于类库存在诸多定义,通过隐性SCALE语言对特征进行合理转换的过程中,能够控制调节GraphOPS操作符。而GraphX内,需要对相关算法进行深入优化,从而为后期针对图集实施综合处理提供便利条件。GraphX主要优势便是能够进一步扩大数据规模,强化数据吸收力度。
  (三)SparkStreaming
  Spark即分布式的SparkStreaming数据处理的结构系统,对Spark原有数据处理能力进行优化拓展的基础上,使SparkStreaming能够结合相应的操作阶段对单位进行准确分割,从而构成一种RDD,通过短小的时间间隔对流式数据进行有效处理,因为受到处理延时问题的影响,从某一程度而言,还能够将其看作是实施处理结构。SparkStreaming属于一种容错结构形式,其错误恢复和错误处理水平极高,为此在错误处理方面拥有较为突出的应用优势。此外,SparkStreaming还能和Spark的生态模式实施有效对接,为此在协同处理完数据流之后,还可以对各种复杂现象进行有效处理。
  二、以Spark为基础的分布式集群和开发环境构建
  (一)硬件系统条件
  入想进一步提高系统的运行效果和兼容性,在创建Spark集群的过程中,所应用的物理主机应该选择LINUX系统。通过三台虚拟设备和一个主机设备实施环境测试,以此为基础构建分布式集群,具体包括MASTER节点和WORKER节点两个。而MASTER的核心工作任务便是对分布式Spark应用程序进行单机编制,并进行合理调节,其配置要求较高。MASTER节点区域装置设备应该配置四核处理器以及4G的内存,而WORKER节点可以配置2G的内存。每个节点的相关硬件都是在PCIE的条件下创建固态硬盘,拥有较高的读写效率,能够进一步提升工作质量和运行速度。集群的操作形式不但可以进一步缩减运行成本,同时还可以结合现实需求适当调整节点数量,进行适当的减少或增加。
  (二)构建Spark分布式集群
  设置SCALA语言,同时把各个虚拟机装置中的SLAVES文件中的相关内容修改为集群内WORKER节点主机名,此外还应该针对各个节点中的Spark安装目录,即SparkENV。SH文件进行修改。其中,环境变量JDK对系统进行配置,SCALAHOME这一安装路径会修改系统。MASTER内部相关各种节点主机名称和IP选择SparkMasterIP相关属性值,剩余内容则设置为默认值,此外还需要确保集群内的各个节点文件Sparkenv。sh能够始终和文件SLAVES的内容维持良好的一致性,在结束相关配置工作后,利用JPS命令对集群的启动状态进行详细查看〔2〕。
  (三)配置IDE开发环境
  SCALA语言在进行设计研发过程中,需要以IDEA为核心条件,同时也是重要的基础条件,因此可以将其作为对Spark结构程序进行设计、编程的基础环境。如果想要IDEA实际应用中缩减缓存数量,扩大IO资源应用,占据有效空间,应该利用SSD硬盘对相关有用信息进行合理存储,提高系统整体应用性能。结束IDEA的配置工作后,继续检测Spark程序,提高程序的实效性。
  三、以Spark为基础的Apriori算法实现
  (一)概述
  Apriori算法的中心思想是结合Apriori特性,针对频繁项集实施深入挖掘,具体包括下面两种环节:第一是对最小支持度进行定义,并将全部的频繁项集全部筛选出来,第二是結合置信度生成关联规则〔3〕。
  频繁项主要是在一块物品中频繁出现的集合,至于关联规则主要指两种物品之间存在较为明显的关系。而Apriori算法的核心任务便是查询频繁项集。
  (二)Apriori算法实现
  Apriori算法以Spark平台为基础的分布式集群,其算法主要思路如下:第一是生成频繁项集,把事务集利用RDDstring,i形式广泛分布到不同机器当中,不断积累项目数量,维持高于支持度的项集。第二是针对频繁项集所衍生出来的频繁项集,项集之间自动连接,转化为Ck1,随后对数据库进行扫描,并以Ck1为基础构建频繁项集。string,i
  Apriori算法的实现环境主要是以SparkonYARN集群为主。单机Apriori算法选择集群内的MASTER节点作为测试环境。在算法操作中,还需要按顺序将数据集路径以及文件夹输出路径输入进去。Apriori在解析数据集时,Spark集群内的全部节点全部呈现出一种打开状态,其消耗时间也远远比单机模式要低,或仅有MASTER或WORKER单一节点打开过程所消耗的时间,具体原因是随着集群内工作节点的不断增加,集群整体配置水平的提升,其处理速度也将进一步加快。Spark自身所带有的支持伸缩计算功能,也进一步提升了大数据集整体效率。通过实践发现,使用不同编程语言,会对最终的算法结果产生不同程度的影响,导致运行结果之间产生巨大差异,具体原因是Spark结构形式可以准确计算系统呢内存状况,将相关算法融入到内存计算当中,使Apriori相关计算效率能够得到有效提升,这是Spark结构优势之一。但以Spark为基础促进分布式算法和Apriori算法的协同运行,最终的运行效率小于单机运行效率。主要原因是Spark体系结构对数据集进行处理过程中,会和HFDS实施交互作用,从而针对数据实施封装和FDD分块处理,同时还包含DAG恢复相关任务。由此能够看出Spark集群模式较为适合对各种大型数据集实施处理操作。
  四、以Spark为基础的分布协同过滤推荐
  (一)MLIiB算法库
  由于机器算法整个操作流程较为复杂,为此在实施迭代计算的过程中,需要把计算全部融入到磁盘内,等待启动任务,但如此一来便会出现大量的CPU消耗。针对该种状况,可以在应用Spark的过程中,可以直接于内存中运行处理部分任务工作,将迭代计算内容之间转移到内存当中进行处理,进一步提升迭代计算综合实力和运算效率,同时在需要的条件下,还可以实施网络运行和磁盘操作。Spark应用到迭代计算方面拥有极高优势,同时还可以不断扩展,变为分布式学习平台。从通信角度出发进行深入思考,能够发现Spark十分高效,且十分出色,拥有极高的通讯效率。分布式算法学习过程中,相关资源主要在集群节点当中聚集〔4〕。
  (二)协同过滤算法
  协同算法即人们应用过程中,选择比较合理的想法,并将真实想法传递给用户。第一是系统过滤。通过面向全部用户选择拥有相同兴趣爱好的用户,充分结合用户的真实喜好,合理选择所需要的物品,将其组织起来,构建全新的序列与集合。用户还可以简单定义为邻居,但在操作过程中,需要解决的核心问题是针对存在聘问的用户以及满足具体条件标准的用户实施针对性组织和有效利用。
  第二是协同过滤的中心思想。想要促进协同过滤中心思想的有效落实,应该进通过三种环节实施,采集用户喜好,认真分析用户应用物品过程中的相似性,结合最终的计算结果进行推荐。对用户爱好兴趣的处理分析质量能够影响系统推荐效果,由于不同用户各自的喜好方式之间也存在巨大的差异,同时还会被不同场景所影响。在一般的场景环境下,需要挑选出一种用户系统,随后充分结合用户需求,划分成不同的小组,具体包括两种分组方式:第一是结合用户的行为差异,将用户的行为特点作为基础参考依据实施分组操作。第二是针对不同行为,针对用户爱好兴趣实施分组,并实施加权处理,对数据行为进行有效采集之后,针对数据实施预处理操作。以此为基础,充分联系用户的爱好兴趣,为用户推荐其所需要的物品。选择恰当的推荐方式,将协同过滤分成以物品为基础的两种类型,分别是基础用户和协同用户。实施推荐操作中,选择恰当的邻居,当下比较常用的形式是对邻居相似程度进行规定和明确邻居数量。
  五、结语
  综上所述,在分布式集群中结合MLIib和Spark构建协同过滤推荐的运行方案,同时利用大数据集进行验证,能够将其在推荐系统中广泛推广开来。同时以Spark为基础的Apriori分布式算法,能够进一步弥补MLIib关联分析算法中的故障缺陷,并辅助大数据进行关联分析。
  【参考文献】
  〔1〕梁凡,赵丽。基于中智模糊关联规则生成的大数据挖掘分析算法〔J〕。计算机应用與软件,2019(10):285292298。
  〔2〕陈春谋。大数据环境下的档案管理系统信息检索及挖掘技术分析〔J〕。电子测试,2019(14):9294。
  〔3〕李明东,陈小明。基于轨迹大数据技术的行为模式挖掘技术分析〔J〕。宜春学院学报,2019,41(06):3436101。
  〔4〕梁彦。基于分布式平台Spark和YARN的数据挖掘算法的并行化研究〔D〕。中山大学,2014。

论职场中的信任大多的职业经理进入企业后,经过不断的努力奋斗和艰苦学习,从基层做到中层的速度很快,大概两三年即可完成,但从中层做到高层的速度却很慢,三五年,甚至七八年都做不了。所以,这些职业经……女娲娘娘为什么要造人女娲造人的原因是啥女娲为什么造人:女娲,中国上古神话中的创世女神。又称娲皇、女阴娘娘,史记女娲氏,是华夏民族人文先始,福佑社稷之正神。女娲人首蛇身,一日中七十化变,以黄泥仿照自己抟土造人,创造人……爱转弯她一辆黑色奔驰在高速上疾驶,依依,东西都带齐了吗,钥匙拿了没有啊,钱妈,你烦不烦啊,没看到我在听音乐吗?说着从包里掏出了钥匙,看,不是在这嘛。身穿白衬衫的女孩摘下了耳幔,……在同与异之间德国哲学家莱布尼茨曾经向国王说:任何事物都有共性。国王不信,宫女们找来一箩筐的树叶,莱布尼茨指出了这些树叶的相同点,他又说:任何事物都有差异。国王又不信,再度找来一箩筐的树叶,……父亲给我买书的那个下午那年我高中毕业,分数低的难以启齿,连一个普通院校都没考上,当时我也想到了复读,可是我家那时很穷,如果复读会花更多的钱,再说我的成绩一般,第二年考上与否还是个未知数,我不愿意因为……购物前你会有负罪感还是羞愧感文byZXQu壹心理专栏科学之家假设去杂货店前你抓起几块饼干塞进嘴里,会因为打破了节食计划而产生负罪感或羞愧感,这两种情感有什么区别?根据JournalofConsume……自我减压的方法上班族需掌握的减压方法随着社会的不断进步,人们的生活压力是越来越大,这时就要选择一些合适的减压的方法来调节自我的状态。那么自我减压的方法有哪些呢?上班族压力大吃什么好呢?今天就教大家如何去学会减压,……樱红探春天涯也有江南信,梅破知春近。夜阑风细得香迟,不道小来开遍向南枝。玉台弄粉花因妒,飘到眉心住。平生个里愿杯深,去国十年老尽少年心。(黄庭坚《虞美人》)梅破知春近,天涯处处已芳菲,……最时尚最优雅的款韩式新娘发型每一位美丽的新娘都会成为婚礼上最重要的主角,新娘的发型以及服装这两样是最重要的元素,因此许许多多的新娘子不遗余力地把自己打造成最美的样子。在发型方面,韩式新娘发型就是新娘子们最……安信农业保险股份有限公司公司简介上海历届市委、市政府领导都十分重视农业保险工作。1991年起,就积极主动地运用保险机制来化解农业生产中的自然风险,实行政府推动、保险公司代理、积余留地方、形成农业……皮肤美白小秘方什么原因让你的皮肤越来越黑紫外线1、紫外线促成黑色素对于黑色素这个名词,大家应该都不陌生,皮肤中黑色素的过度生成是造成皮肤难以美白的一大杀手,而导致黑色素大量生成的最大原因就是紫外线。皮肤白……一把红苕根1hr狗娃,回来吃红苕稀饭喽!戏台上,一个木偶老人,一晃一晃的出来了,一边走,一边东张西望的喊,背景是一片深山老林。台下,几百双小眼睛,紧张的盯着台上。前一幕……
安全活动月总结优选篇【导语】安全活动月总结优选20篇由好范文网会员yfjnmsyfj整理投稿精心推荐,小编希望对你的学习工作能带来参考借鉴作用。【目录】篇1:安全活动月总结篇2:安全活动月总……素质教育下的初中历史教学摘要:在历史课堂教学中采用多种教学方法,激发学生学习历史的兴趣,转变学生被动接受、死记硬背的学习方式,拓展学生学习和探究历史问题的空间;培养学生正确的历史观,进而使学生学会辩证……浅议秦皇岛市农业转移人口生产生活方式转变摘要:对于秦皇岛市农业转移人口而言,思想意识形态方面和生产生活环境方面仍然存在一些问题,是掣肘其生产生活方式转变的决定性因素。面对这种情况,政府需要采取各种措施来推进农业转移人……湖北省枣阳市人社局组织参加襄阳市招聘会成果丰硕常清学简黄莉雷刚为加快构筑区域人才高地,助推汉江流域中心城市、省域副中心城市和万亿工业强市建设,3月26日,湖北省襄阳市在武汉举办智汇襄阳专场招聘会。招聘会由襄阳市委、襄……金融监管部门掀起离职潮韩复龄官员加入市场机构很正常,双向流动有助于央行官员了解市场,也有助于市场人士了解政策。一面是金融机构业绩爆发,另一面是金融反腐的深入推进,金融监管部门出现密集离职……互联网环境下安岳柠檬的品牌策划互联网应用飞速发展,电子商务已成为重要的营销渠道之一,因此农产品的营销策略之一就是利用电子商务平台,在网络上发布供销信息,进行网络销售。近年来,我国涉农电商发展迅速,阿里、京东……酒驾危害行为的刑法立法【摘要】文章主要针对酒驾危害行为的刑法立法为中心加以分析,首先分析了酒驾心理与危害,其次阐述了酒驾危害行为刑法立法的必要性,再次介绍了刑法立法相关原则,最后提出适当优化措施,目……加强社会保险档案管理的对策及建议杨丽娟程鹏【摘要】现阶段,社会保险档案管理存在重视度不足、缺乏统一管理制度、缺少专业管理人员、管理设施配置不足等问题。要想提升社会保险档案管理水平,需提升对于这项工作的重……中国光大银行数字金融部副总经理杜明洁区块链正在重1月15日,在易趣财经、一本区块链、《金融理财》杂志社主办的第十届金融创新与发展论坛破界融合区块链与数字金融高峰会上,中国光大银行数字金融部副总经理杜明洁发表主题演讲。杜……经商之道也是为人之道要学会适时放弃挪威的船王阿特勒耶伯生出生在卑尔根的一个殷实家庭,其父克列斯蒂耶伯生是当地的一个小船主,家庭经济生活比较富裕。他开始在一所教会学校读书,后就读于英国剑桥大学。毕业后,曾到奥斯陆……腾讯产品类面经从兵败实习招聘到校招获得腾讯产品经本文是作者写于2013年秋招后的文章。在文中,他分享了自己从兵败实习招聘到校招获得腾讯产品经理offer的经验。enjoy最近很多师弟师妹要去面试腾讯暑假实习了,问我面经……一条鲤鱼让我费了不少心思今年内6月的一个星期六,我和我的朋友一起去垂钓,那是一个晴朗的天气,农民朋友们地里的菜籽都割掉了,黄豆才从土里冒出两个瓣。在我们俩垂钓的这条河里,渔民们养殖了很多的珍珠(……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网