六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

网站数据分析的一些问题三

  之前的文章网站数据分析的一些问题(二)中主要整理了BI相关的问题,这篇文章主要想整理一些数据仓库相关的问题。因为最近重新在看一些数据仓库的资料和书籍,想把之前以及当前遇到的主要问题提出来(博客中有关数据仓库的相关内容请参阅网站数据仓库这个目录),同时自己也对数据仓库方面的知识进行下重新的整理和认识,而且很久没有在博客发新的文章了,不能让自己过于懒散了。
  之前看过Inmon的《构建数据仓库》和《DW2。0》,而另外一位数据仓库大师Kimball的《数据仓库生命周期工具箱》一直没有时间阅读,最近才有时间看完了大部分,就迫不及待想写点东西了。其实数据仓库领域普遍认为Inmon和Kimball的理论是对立的,两者在构建数据仓库上方向性的差异一直争论不休,谁也无法说服谁到底哪种方法更好。我的Evernote的笔记里面不知什么时候从哪里摘录过来了对两者观点的概括性描述,非常简洁明了而一针见血:
  InmonvsKimball
  KimballLeteverybodybuildwhattheywantwhentheywantit,we’llintegrateitallwhenandifweneedto。(BOTTOMUPAPPROACH)
  Pros:fasttobuild,quickROI,nimble
  Cons:hardertomaintainasanenterpriseresource,oftenredundant,oftendifficulttointegratedatamarts
  InmonDon’tdoanythinguntilyou’vedesignedeverything。(TOPDOWNAPPROACH)
  Pros:easytomaitain,tightlyintegrated
  Cons:takeswaytoolongtodeliverfirstprojects,rigid
  其实看了《数据仓库生命周期工具箱》之后,发现两者的观点没有那么大的本质性差异,可能随着数据仓库的不断发展,两者在整体的架构上慢慢趋同。基本上,构建统一的企业级数据仓库的方向是一致的,而Inmon偏向于从底层的数据集成出发,而Kimball则趋向于从上层的需求角度出发,这可能跟两者从事的项目和所处的位置有关。
  有了上面这段高质量的概括,第一个问题你更偏向于以何种方式搭建数据仓库(BOTTOMUPorTOPDOWN),分别有什么优劣势?其实就不用问了,所以下面主要提几个在实际中可能经常遇到或者需要想清楚的问题:
  Q1、数据仓库的技术解决方案有哪些,这些解决方案的优势在哪,瓶颈在哪?
  随着数据仓库的不断发展和成熟,大数据概念的风靡,有越来越多的相关产品出来,最常见的技术解决方案包括hadoop和hive,oracle,mysql的infobright,greenplum及nosql,或者多个结合使用。
  其实归纳起来就两类:一是用传统RDBMS为主导的数据库管理数据,oracle、mysql等都是基于传统的关系型数据库,优势就是有更严谨的数据结构,关系型数据库对数据的管理更加规范,数据处理过程中可能出现的非人为误差极小,而且标准的SQL接口使数据获取的成本较低,数据的查询和获取更加灵活和高效;但劣势也很明显,对海量数据的处理和存储的能力不足,当数据量达到一定程度的时候就会出现明显的瓶颈。而是基于文本的分布式处理引擎,hadoop、greenplum和nosql都是基于文本数据的处理和存储,优势是强大的数据处理能力,分布式的架构支持并行计算,并且具备超强的扩展延伸能力;劣势就是上层接口不方便,因此Hadoop上层的hive和greenplum上层的postgreSQL都是为了解决数据接口的问题,并且数据的查询和获取很难做到实时响应,灵活性不足。
  Q2、数据仓库是否就应该保存聚合数据,细节数据不应该放入数据仓库?
  其实这个问题基本已经达成共识,如果是构建企业级的数据仓库,那么对细节数据的集成和存储是必不可少的,但现实中还是存在很多直接从外部数据源计算聚合之后导入数据仓库的实例。如果对数据仓库只是轻量级的应用,仅存放聚合数据也无可厚非,毕竟没人规定数据仓库一定要是怎么样的,最终的目的无非就是满足对数据的支持和需求。
  但对于企业的长期发展来看,数据仓库中存放细节数据有两方面的好处:一方面从技术层面,数据仓库存储细节数据可以释放前台数据库的查询压力,同时对于文本类数据和外部文档类数据入库之后管理更加规范,数据仓库保留历史和不可变更的特性可以让信息不被丢失;另一方面就是从数据的使用上,数据仓库让数据的获取和使用更加简便,集成细节数据让大量的文本型数据可查询,可关联,而面向主题的设计让数据的展现和分析更有方向性和目的性,而且细节数据是支持数据分析和数据挖掘应用所必不可少的。所以,如果数据仓库要不断地催生出更大的价值,细节数据的存储是必不可少的。
  Q3、你会把数据仓库分为几层,每层的数据作用是什么?
  没有标准答案,根据数据仓库中数据的复杂性和对数据使用的需求程度,数据仓库可以有不用的层级划分。
  我一般会把数据仓库划成三层:最底层的细节数据,管理策略是优化存储,一般存储导入的原始数据,便于进行向上的统计汇总,因为数据量较大所以需要优化存储;中间层是多维模型,管理策略是优化结构和查询,面向主题的多维模型的设计,需要满足OLAP和数据查询的多样需求,同时保证查询的便捷性,关键在与维表的设计和维度的选择及组合,事实表需要关注存储和索引的优化;最上层是展现数据,管理策略是优化效率,一般会存放每天需要展现的汇总报表,或者根据多维模型拼装的视图,展现层的数据需要以最快的速度展现出来,一般用于BI平台的Dashboard和报表。
  Q4、数据仓库搭建中最繁杂的事情是什么,最容易缺失的是哪一块?

果酸身体乳去鸡皮吗果酸身体乳的作用果酸身体乳去鸡皮吗可以去鸡皮,因为含有丰富的果酸,不过这个需要时间的,有不少人表示鸡皮有所改善,为什么会有鸡皮?因为毛孔堵塞!毛孔为什么会堵塞?因为角质不能正常代谢!所以……女人出轨比男人危害更大理由一:女人出轨比男人出轨更容易引起婚姻破裂Psy525。cn男人出轨,女人可以理解,对于男人而言,有时可能对女人什么缺点都能容忍,而对给自己戴绿帽子,无法去原谅和理解。……哪些行为表明你非常尊重别人的时间生活或者工作中,很多人在和别人打交道的时候会考虑到别人,这样的人是非常有同理心的,有同理心最明显的一个特征就是在平常工作或者生活的时候,非常尊重别人的时间。接下来就跟大家分析一……年再不会干这事淘宝你就别玩了在2017年,你必须想明白一件事儿:淘宝免费的自然搜索流量获取越来越难了,不管你是基础好的大店铺也好,还是没有基础的新店小店也罢,结局都差不多一样。为什么会这样?首先,从……年淘宝年货节的时间节奏是怎么样的2018年淘宝年货节的时间节奏:阶段一:会场报名:2017年12月27日18:00:002018年1月7日23:59:00外围报名时间:2017年12月27日……人际交往才能提升业绩如何理解不解释的营销秘诀人际交往才能提升业绩,如何理解不解释的营销秘诀?今天给大家分享的是不解释的营销秘诀,顾客对我们的产品还有我们专业他不了解他没有办法也没有能力去了解,这时候我们需要跟顾客做……对不起做推广连这套底层优化逻辑都不知道你被辞退了月入2W的优化师都是怎么调账户的?你好奇吗?反正兔子是很好奇。想必那些人一定是有不为人知的调账户技巧,才能拿到那么高的工资。恰巧,近日厚昌新入职了一名优化师,自称在……看似不起眼的个偏门小生意今天给友友们分享几个看似不起眼却月入几千的偏门小生意或者兼职,以下几个案例供你参考:1、有人学了电工,月薪56K,工作时候开个快手直播,直播怎么接各种电路线,有空了再讲讲……古代中国是如何失去外蒙古的其实,内蒙古自古以来就是中国的领土,不过,在当时的内蒙古还是被瓜分出去了的,因为当时政府的无能,其实,当时的内蒙古非常想回到中国的怀抱,但是,当时因为政府的无作为导致内蒙古去了……父母在亲子游戏中的种错错误1:急吼吼地干涉宝贝对宝贝来说,生活中的任何事情都是游戏。因此,宝贝的很多做法可能让父母感觉困惑,尤其当宝贝玩一些父母认为不恰当的游戏时,有的父母会急吼吼地跑去干涉宝……钻石原石钻石原石是什么?下面我们一起去见识见识钻石原石独有的特征,教大家如何去鉴别钻石原石的真假,赶紧去看看这些鉴别方法吧。一、钻石原石钻石原石其实说白了就是一个没有任何加……小孩肠绞痛是什么原因导致的婴儿胃肠发育不成熟,造成婴儿各阶段肠道蠕动不协调,引起肠道胀气肚子咕噜咕噜响,排气多,放屁多,并频繁出现不明原因的哭闹。医学上将这种现象称为婴儿肠绞痛。那么,婴儿为何会经常发生……
痘痘怎么快速消除总是痘留这些行为不能有1、防晒不卸妆如我前面所说的,很多小伙伴并不知道涂抹防晒后需要卸妆。虽然防晒作为护肤的最后一部分,但是防晒霜的很多成分是不能被吸收的,尤其是选用了以二氧化钛或者氧化锌的物……烟酰胺身体乳对皮肤的副作用虽然烟酰胺对皮肤有很多好处,但它也有不足之处,重要的一点就是其原料中的杂质成分烟酸,会引起皮肤的刺激,一些消费者可能在用高含量烟酰胺的产品时有发红等过敏现象,也就是大家喜欢说的……韩国可爱妆容画法减龄卖萌撒娇必学妆容完成图彩妆用品这次妆容大致用到的核心产品,它是来自韩国的hopegirl豹纹女孩。我自己的化妆品其实还是韩妆居多,因为价格亲民又好用,这个牌子我是第一次用,但是前一……不要随意评价别人因为你也是别人不要评价别人的好坏,因为他们并不影响你吃饭。不要评价别人的德行,因为你不见得比他更高尚。不要评价别人的家庭,因为那和你没有一点关系。不要评价……重返暗夜读后感摘抄《重返暗夜》是一本由〔智利〕罗贝托波拉尼奥著作,上海人民出版社出版的精装图书,本书定价:58。00元,页数:272,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。……面试技巧面试注意事项面试注意问题找工作需要aclasstaghrefwiki10573I48CKAB11。html面试a,那么面试有哪些技巧呢?面试需要注意哪些问题?一起来看看吧。操作方法01:h……淘宝生鲜新规则具体调整内容最近淘宝发布生鲜新规则,每年的年底都是淘宝变动比较大的时候,下面我们就来看看淘宝生鲜新规则具体调整内容。生鲜新规主要调整内容如下:一,生鲜商品存在大小不符或腐烂情形……淘宝宝贝标题优化技巧你懂几条宝贝标题优化技巧有哪些?标题优化,就是要让你找到一个最合适的标题,能让你的宝贝展现在买家的面前,这个标题既要求有竟可能多的买家进行搜索,又要求有竟可能少的卖家在使用,今天小编带……做免费副业从收入到月入手把手教给你如何近期,看到头条上很多人都在晒收入,少则月入几千,多则月入几万,而且都是做社交电商的,不少人看到他们的收入以后都很羡慕,虽然都很想做,却不知道如何下手,今天呢,笙歌就来给大家聊一……电商小白如何从到策划一场大促电商小白如何从0到1策划一场520大促?当我们每次提到情人节、520、七夕、双十一等词的时候,我们就会知道那些商家又要开始说要做大促了,明天就是520,很多商家电商运营都……成功会议把握与潜在客户的销售机会许多企业家在开办及经营公司的过程中会面临一个常见的挑战他们与潜在客户的第一次销售会。即使日常的业务会议对你来说已是驾轻就熟,你仍会发现要想把握好与潜在客户的新推销会并且实现面对……纪伯伦边拿的新娘拉夫卡原文欣赏边拿的新娘拉夫卡这件事发生在他被人们所知道之前。那一天,我正在修剪母亲花园里的玫瑰,他在我们家门口停下。他说:我渴了,请你给我一点井水好吗?我跑着取来银……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网