个推TechDay治数训练营直播回顾:企业数据智能体系搭建之数仓建设及数据建模

  • 时间:
  • 浏览:0
  • 来源:岩酷网络科技

前几日 ,2022年个推TechDay"治数训练营"系列直播课第三则则期圆满举办。个推资深大最终数据研发工程师为都知道说深入浅出地了解了最终数据仓库的前世今生便是最终数据建模的用来手段。

本文对"治数训练营"第三则则期《最终数据仓库与维度建模》的干货其他内容不采用标准了总结 ,便是也挑选了直播群体之间精彩提问会做 Q&A梳理  ,带都知道说一起疯狂回顾首期课程。

01最终数据仓库快速入门

最终数据仓库(Data Warehouse) ,简称"数仓" ,个大最终数据从业者绕不开的两个概念。"最终数据仓库之父"Bill Inmon最早要求要求数仓的概念 ,觉得 "最终数据仓库是两个面向主题的、集成的、十分稳定的、反映便是历史发生变化的最终数据集合  ,用于部分支持管理决策"

便是  ,大最终数据架构专家Ralph Kimball在《The Data Warehouse Tookit》一书中 ,也对数仓不采用标准了定义:"最终数据仓库是两个将源系统提供最终数据抽取、清洗、规格化  ,多次提交到维度最终数据存储的系统提供 ,为决策的制定提供更多查询和数据分析重要功能的支撑和已完成"

Bill Inmon对数仓的定义更强调整体呈现特性  ,Ralph Kimball不过从不采用标准流程角度看来定义数仓。抑或哪里定义  ,都知道说他们的都是从中都知道 企业中建成最终数据仓库的意义重大。企业中不采用标准建成数仓 ,便是才能将分散在各业务系统提供的最终数据不采用标准集中化管理  ,打破最终数据孤岛;才能为后续高效数据分析和应用最终数据 ,不采用标准大最终数据赋能业务发展进步奠定基于。

02数仓建成与最终数据建模

一旦 ,企业中是如何建成最终数据仓库?是如何建成两个贴合业务不能满足需求的、高效、稳定、好不采用标准最终数据仓库?那不过才能最终决定最终数据模型的选择中和最终数据建模的完美解决。

"最终数据建模"是指对实体便是实体和实体群体之群体之间群体之间不采用标准最终数据化描述和抽象的过程中。"最终数据模型"  ,不过指组织形成和存储最终数据的手段。

的话目前主流的最终数据建模手段有两种  ,一共是范式建模和维度建模:

范式建模

范式建模由Bill Inmon要求要求  ,指坐在企业中角度看面向主题的抽象  ,都知道说他们是个般而对不采用标准E-R实体群体之间模型将事物抽象为"实体""属性""群体之间"  ,来觉得 事物和事件双方关系。范式建模并非不采用标准某个要求的 业务流程中实体对象群体之间的抽象 ,它才能建模人员全面地、整体呈现地初步了解企业中的业务和最终数据 ,便是不采用标准周期长 ,对建模人员的能力不足要求要求也十分高。

维度建模

维度建模由Ralph Kimball要求要求  ,主张从数据分析决策的不能满足需求出发构建模型  ,为数据分析不能满足需求支持服务。甚至它重点关注中是如何不采用标准户更快速地已完成最终数据数据分析 ,便是始终保持较坏个大规模复杂查询的响应性能。相较为范式建模  ,维度建模建成周期短  ,部分支持敏捷迭代 ,一般而言 而对一般而言 数数会带来对数仓架构会做 多复杂的整体呈现采用标准

在构建数仓时 ,都知道说他们的要确认上述要求的 的最终数据数据分析场景和业务再处理系统提供来选择中研究相关的最终数据建模手段。或是  ,就OLTP系统提供(On-line Transaction Processing:联机事务再处理)而对  ,的话其两个方面是面向随机读写的最终数据操作模式  ,关注中事务的再处理  ,甚至都知道说他们的综合推荐不采用标准OLTP系统提供及传统性最终数据库的企业中不采用标准范式建模的手段来整体呈现采用标准最终数据模型  ,以完美解决在事务再处理中不最终数据冗余在那致性完美解决。而OLAP系统提供(On-line Analytical Processing :联机数据分析再处理)面向批量读写最终数据的操作模式  ,关注中中事务再处理一致性  ,两个方面是关注中最终数据的整合就个大最终数据查询和再处理中不性能  ,甚至一般而言 而对采用标准维度建模的手段。

要求的 是如何不采用标准范式建模和维度建模呢?都知道说他们的有机结合案例一共角度看看。

03范式建模手段及实例剖析

最小角度看看范式建模在那般 数数过程中。

在不采用标准范式建模时  ,都知道说他们在那般 要遵从不同类型 的规范要求要求整体呈现采用标准出合理的模型  ,一般而言 而对不同类型 的规范要求要求那不过"范式"。的话目前行业发展中存是个范式、二范式、三范式等不同类型 的模型建成规范。越高的范式带来哪里的最终数据库冗余越小  ,一般而言 而对在最终数据计算多个方面会更复杂。企业中一般而言 而对采用标准三范式建模  ,在可以可以保障灵活度便是最终数据计算慢便是便是  ,降低最终数据再处理的复杂度。

范式建模的过程中才能被拆解为上述四步:

1. 抽象出主体

2. 梳理主体群体之群体之间群体之间

3. 梳理主体的属性

4. 画出E-R群体之间图

或是  ,都知道说他们的要不采用标准范式建模的多种渠道整体呈现采用标准某课程系统提供提供的最终数据模型。

系统提供提供两个方面用来管理某其他学生们学生们、其他学生们和课程等研究相关系最终数据  ,涉及课程选修、考试最终成绩、学生们授课、其他学生们班级等多个方面。是吧们最小要梳理出实体  ,为学生们、课程、其他学生们、班级;多个方面梳理出实体群体之群体之间群体之间  ,便是学生们讲授课程、其他学生们选修课程、其他学生们隶属班级等;多次要罗列出各实体和群体之间的属性  ,或是"其他学生们"两个实体的属性有姓名、性别、年龄等  ,"其他学生们选修课程"两个群体之间的属性有选修把时间、总课时等;第三则步  ,不过画出E-R图  ,用矩形觉得 "实体"  ,用菱形觉得 "群体之间"  ,用椭圆形觉得 "属性"  ,以可视化的多种渠道清晰展示出主体和主体群体之群体之间群体之间。

04维度建模手段及实例剖析

相较为范式建模  ,维度建模稍为复杂  ,便是事实表和维度表两块其他内容。

事实表

最小看事实表。事实表分三种  ,便是事务性事实表、周期性快照事实表、累计快照事实表。

  • 事务性事实表一般而言 而对用下一条 记录觉得 某个把时间点已发生大事件或行为性质。或是电商业务场景中不订单支付业务  ,一般而言 而对就采用标准事务性事实表来组织形成和存储最终数据。

  • 周期性快照事实表是个条记录描述的不过两个实体在那一段把时间内的状态如何或现状 ,或是某顾客每月的积分余额就都属在下一条 都属于的周期性快照事实表记录。

  • 累计快照事实表是个条记录不过对某业务流程中已发生的多个事件的累计记录 ,一般而言 而对为了自己了自己不不能满足需求某个流程节点运转效率的统计不能满足需求。

都知道说他们的以两个事务性事实表的整体呈现采用标准过程中为例来初步了解事实表的整体呈现采用标准手段:

1. 选择中与最终数据数据分析不能满足需求研究相关系的业务过程中。"业务过程中"是指在业务流程中不可拆分的行为性质事件。或是  ,电商业务场景下  ,购物的业务流程中就便是加购、下单、支付、商家发货、所有用户确认收货等业务过程中。是吧们要数据分析销售额 ,那"支付"那不过必选的业务过程中。

2. 声明粒度。都知道说他们的要尽量选择中最细粒度  ,精要求的 义事实表的每一行所觉得 的业务含义 ,以可以可以保障事实表有最太大灵活性。或是  ,所有用户一旦在两个订单外面选择购买多个商品  ,那每一选择购买完商品那不过两个子订单  ,都知道说他们是个般而对选择中将子订单最小声明粒度。

3. 要求的 维度。维度是指业务过程中所处的生活环境各种信息  ,或是所有用户在那个把时间选择购买完某个店铺的某个商品  ,那店铺所属行业发展、商品所在类目等均才能被觉得 是维度。

4. 要求的 事实  ,即要求的 业务过程中的度量指标。或是"支付"两个业务过程中的度量指标为支付金额  ,更复杂的电商业务场景下 ,一旦还便是分摊邮费、折扣金额等指标。

才能可见不过  ,每一最终数据仓库都主要包括两个才能多个事实表  ,事实表是对数据分析主题的度量  ,它主要包括了与各维度表相双方关系的外键  ,并不采用标准Join多种渠道与维度表双方关系

维度表

维度表不过所有用户数据分析最终数据的窗口  ,记录了事实表中研究相关系事务、事件的属性及属性含义。

维度表的整体呈现采用标准过程中  ,两个方面分为上述四步:

1. 选择中维度。或是要生成两个商品维度表  ,是吧们选择中不维度那不过商品维度。

2. 要求的 主维表。或是要建商品维度表  ,那主维表那不来啦自中国于业务系统提供的商品表。

3. 要求的 研究相关系维度表。主维表要求的 多次 ,或是的研究相关系维度表那不过随之要求的 。或是商品维度表的研究相关系维度表有商品类目表、所属明星品牌表、商品所属行业发展表等。

4. 要求的 维度属性。一般而言 而对属性一般而言 而对来自中国于主维表和研究相关系维表。都知道说他们的将主维表和研究相关系维表的属性集成  ,不采用标准不同类型 属性合并(或是  ,商品类目表和所属明星品牌表中一旦都是下降属行业发展属性  ,是吧们就才能对所属行业发展两个属性不采用标准合并) ,多次将结果就能 的属性放到要生成的维度表里。

便是  ,本期个推TechDay"治数训练营"还对范式建模与维度建模在那般 数数原则、建模中不常见完美解决(或是范式建模中不传递依赖完美解决、维度建模中不缓慢发生变化维完美解决等)、数仓分层等不采用标准了要求的 阐述  ,欢迎关注中个推各种技术实践公众号  ,Get直播回放比赛比赛集锦!

综合推荐书目

当两个子公司在战略上最终决定做云计算个大最终数据支持服务后  ,是如何将该战略不采用标准逐步分解  ,结果落地不采用标准?这主要包括涉及各种技术构建、运营管理、组织形成能力不足建成等一系列组织形成时  ,有都就能什么手段论和实践可供借鉴?都都知道本书带来哪里您带来哪里灵感!

关注中个推各种技术实践微信公众号  ,后台回复"数仓"  ,获取本期直播课件~

 

猜你喜欢

持股规模创出新高公募基金拥抱科技创新

原标题:公募基金“拥抱”科技创新继6月份全球首批科创创业50ETF上市运作后,8月9日,易方达基金、华夏基金、南方基金等8家基金合作公司 旗下的8只中证科创创业50交易

2025-05-09