皇冠新体育APP

IT技术之家

一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)_维度表雪花模型_长弓霄

发布新闻期限:2023-08-25 16:14:10 数据库 51次 标签:数据仓库 大数据
DataVault由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性) 三部分组成 ,是Dan Linstedt发起创建的一种模型方法论,它是在ER关系模型上的衍生,同时设计的出发点也是为了实现数据的整合,并非为数据决策分析直接使用。特点:设计思路自上而下,适合上游基础数据存储,同一份数据只存储一份,没有数据冗余,方便解耦,易维护,缺点是开发周期一般比较长,维护成本高。星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为一个事实表关联多个维度表,维度表再关联维度表。...

列表 写在上边 一、为一些 要对其进行数据文件库房模型制作? 二、三种种类对模型 2.1 空间维度仿真模型 2.1.1 星型模板 2.1.2 鹅毛大雪沙盘模型 2.1.3 聪明女人的星座有那些吧建模 2.2 范式3d模型 2.3 Data Vault三维模型 2.4 Anchor建模 三 统计数据沙盘模型的如何评价规范标准 写在后边 大数剧21世纪,特点模型制作不究为所有厂的趋势方案。 纬度绘图从阐述科学决策的要动身构绘图型,为阐述要售后服务。侧重点了解用户数该怎样快速的的结束信息阐述,能够更直观的症状业务部门部门模特中的业务部门部门原因,要有许多的信息预治疗、信息冗余系统,有最号的大大型更复杂检查的初始化失败性。

系列文章详见「数仓系列文章- 传送门」
一、为什么要进行数据仓库建模?

性能:良好的模型能帮我们快速查询需要的数据,减少数据的IO吞吐
成本:减少数据冗余、计算结果复用、从而降低存储和计算成本
效率:改善用户使用数据的体验,提高使用数据的效率
改善统计口径的不一致性,减少数据计算错误的可能性

二、四种常见模型
2.1 维度模型

关键点3d建模 工具制作按信息组织结构类别区划可涵盖星型3d建模 工具、雪花飞舞3d建模 工具、白羊座3d建模 工具。 Kimball老父亲方面3D建模二个步数:

选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实
2.1.1 星型模型

星型模型主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布。
2.1.2 雪花模型

星星对模特,在星型对模特的基础知识上,因素表上又关联关系了别的因素表。这对模特运营维护资金高,能力的方面也较弱,任何通常情况不提案应用。通常是对于hadoop组织体制营造数仓,增多join就会增多shuffle,能力对比会特别大。

星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为一个事实表关联多个维度表,维度表再关联维度表。
2.1.3 星座模型

星座女沙盘整治,是对星型沙盘整治的存储拓展,多张事实真相表共亨特点表。

星座模型是很多数据仓库的常态,因为很多数据仓库都是多个事实表的。所以星座模型只反映是否有多个事实表,他们之间是否共享一些维度表。
2.2 范式模型

即线下直接密切关系(ER)模式,数值车间之父Immon提起的,从全各个企业的角度设置个3NF模式,用线下加直接密切关系描诉的数值模式描诉各个企业业务量框架,在范式原理上适用3NF。此绘制方式方法,对绘制技术人员的本事标准尤其高。 优利弊:构思总体目标由上至下,对比适合中下游基本条件的数据文件源储备空间,同样三份的数据文件源只储备空间三份,也没有的数据文件源冗余系统,省事解耦,易养护,利弊是激发时间段基本对比长,养护的造价高。

详见:一篇文章搞懂数据仓库:三范式与反范式_不吃西红柿-CSDN博客_数据仓库三范式
2.3 Data Vault模型

DataVault由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性) 三部分组成 ,是Dan Linstedt发起创建的一种模型方法论,它是在ER关系模型上的衍生,同时设计的出发点也是为了实现数据的整合,并非为数据决策分析直接使用。
2.4 Anchor模型

高度可扩展的模型,所有的扩展只是添加而不是修改,因此它将模型规范到6NF,基本变成了K-V结构模型。企业很少使用。
三 数据模型的评价标准

数据库表格报告实体模型修建的还有什么样,无比依靠正规的设计,假设代码是还有什么极简风格是“两百人千面”,但是只怕一年后到地面上,的业务部整体就不会有办法看。不会有还有什么比“数据库表格报告整体”更关注“法纪”了,正规体系中不禁能服务数据库表格报告修建的同样性,也会够预防的业务部交接的具体情况,更就能为自己化尊定根本。
业务过程清晰:ODS就是原始信息,不修改;DWD面向基础业务过程;DIM描述维度信息;DWS针对最小场景做指标计算;ADS也要分层,面向跨域的建设,和面向应用的建设;
指标可理解:按照一定业务事务过程进行业务划分,明细层粒度明确、历史数据可获取,汇总层维度和指标同名同义,能客观反映业务不同角度下的量化程度;
核心模型相对稳定:如果业务过程运行的比较久,过程相对固定,就要尽快下沉到公共层,形成可复用的核心模型;
高内聚低耦合:各主题内数据模型要业务高内聚,避免在一个模型耦合其他业务的指标,造成该模型主题不清晰和性价比低。
网编有话
在传统企业数仓中,业务相对稳定,以范式建模为主。 如电信、金融行业等
在互联网公司,业务变化快,需求来来回回的改,计算和存储也不是问题,我们更关心快速便捷的响应业务需求,所以以维度建模为主流。