1、数据仓库与ETL的实现过程 1 设计数据仓库 CubeCube多多 数据集数据集 数据数据 源系源系 客客端端 数据数据 入数据入数据建建Cubes Cubes 数据数据 1 1 3 3 4 4 工具工具 表表 分析分析 数据挖掘数据挖掘 2 2 2 数据仓库的星型结构 Employee_DimEmployee_Dim EmployeeKey EmployeeID . . . EmployeeKeyEmployeeKey Time_DimTime_Dim TimeKey TheDate . . . TimeKeyTimeKey Product_DimProduct_Dim ProductKey
2、 ProductID ProduceName ProductBrand ProductCategory . . . ProductKeyProductKey Customer_DimCustomer_Dim CustomerKey CustomerID . . . CustomerKeyCustomerKey Shipper_DimShipper_Dim ShipperKey ShipperID . . . ShipperKeyShipperKey Sales_FactSales_Fact TimeKey EmployeeKey ProductKey CustomerKey ShipperKe
3、y Units Price . . . TimeKeyTimeKey CustomerKeyCustomerKey ShipperKeyShipperKey ProductKeyProductKey EmployeeKeyEmployeeKey 多个外多个外 事事 度度 3 维度与事实 一个数据仓库包括了 多个中央事实表 Fact Table 多个维度外键和多个可以分析的指标 多个维度表 Dimension Tables 可以分析的角度 4 ETL过程 数据从数据源向目标数据仓库抽取( Extract)、转换(Transform)、装载 (Load)的过程 5 ETL过程 构建数据仓库的重要一
4、环,用户从数据源 抽取出所需的数据,经过数据清洗,最终 按照预先定义好的数据仓库模型,将数据 加载到数据仓库中去。 6 抽取:将数据从各种原始的业务系统中读 取出来。 转换:按照预先设计好的规则将抽取得数 据进行转换、清洗,以及处理一些冗余、 歧义的数据,使本来异构的数据格式能统 一起来。 装载:将转换完的数据导入到数据仓库中 。 7 ETL举例 FNameLNameUnitPriceQty BarrAdam.552 ChaiSean1.13 EmpKeyName 1Barr.Adam 2Chai.Sean NameUnitPriceQty Barr.Adam.552 Chai.Sean1.1
5、3 NameTotalSales Barr.Adam1.1 Chai.Sean3.3 EmpKeyTotalSales 11.1 23.3 导入 合并 计算 查找 8 案例背景 保健品销售部门,各分部门将销售情况记录 在各自的表中,记录方式也是不一样的 要求计算出各种产品各个员工07年的销售情况 9 店面 网售 Pos DW SQL sheet1 sheet2 sheet3 10 Pos部门销售情况 EmployeeName GroupName Time ProductName ProductStyle ProductClass Quantity InformationSource SaleA
6、ddress DimProduct ProductKey ProductName ProductStyle ProductClass 店面销售情况 EmployeeName GroupName Time ProductName ProductStyle ProductClass Quantity CustomerEvaluation CustomerSources 网售销售情况 EmployeeName GroupName Time ProductName ProductStyle ProductClass Quantity ProductName ProductStyle ProductCl
7、ass ProductName ProductClass ProductStyle ProductName ProductClass ProductClass ProductName ProductStyle ProductStyle DimEmp EmployKey EmployeeName GroupName DeptName GroupeName EmployeeName GroupeName GroupName EmployeeName EmployeeName GroupeName EmployeeName 维度表的抽取 源表 源表 源表维度表 11 店面销售情况 EmployeeN
8、ame GroupName Time ProductName ProductStyle ProductClass Quantity DimProduct ProductKey ProductName ProductStyle ProductClass FactSales ProductKey ProductName ProductStyle ProductClass ProductName ProductClass ProductStyle ProductName ProductClass ProductStyle ProductKey ProductKey 事实表的抽取 源表 维度表 事实表 12 DEMO 13 14