收藏 分享(赏)

数据仓库与数据挖掘技术教案ppt(1-5章).ppt

上传人:高校张老师 文档编号:6927419 上传时间:2022-08-22 格式:PPT 页数:95 大小:1.37MB
下载 相关 举报
数据仓库与数据挖掘技术教案ppt(1-5章).ppt_第1页
第1页 / 共95页
数据仓库与数据挖掘技术教案ppt(1-5章).ppt_第2页
第2页 / 共95页
数据仓库与数据挖掘技术教案ppt(1-5章).ppt_第3页
第3页 / 共95页
数据仓库与数据挖掘技术教案ppt(1-5章).ppt_第4页
第4页 / 共95页
数据仓库与数据挖掘技术教案ppt(1-5章).ppt_第5页
第5页 / 共95页
亲,该文档总共95页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 第一章第一章 数据仓库与数据挖掘概述数据仓库与数据挖掘概述1.1.1 1 数据仓库引论数据仓库引论1.1.2 2 数据挖掘引论数据挖掘引论1.1.3 3 数据挖掘与数据仓库的关系数据挖掘与数据仓库的关系1.1.4 4 数据仓库与数据挖掘的应用数据仓库与数据挖掘的应用1.1.1.11.1为什么要建立数据仓库为什么要建立数据仓库n n数据仓库的作用数据仓库的作用 传统数据库系统的例子:超市销售系统、学生管理信息系统、图书传统数据库系统的例子:超市销售系统、学生管理信息系统、图书管理系统等。管理系统等。 随着人们对信息技术利用能力的增强,随着人们对信息技术利用能力的增强,对数据的应用也从低级的查对

2、数据的应用也从低级的查询操作,提升到为企业经营管理提供决策支持。询操作,提升到为企业经营管理提供决策支持。为满足管理人员的决策为满足管理人员的决策分析需要,就需要构建适应决策分析的数据环境分析需要,就需要构建适应决策分析的数据环境数据仓库数据仓库n n建立数据仓库的好处建立数据仓库的好处 作为服务于企业级的应用,概括说来有四个方面的优越性:作为服务于企业级的应用,概括说来有四个方面的优越性: 1. 1.减轻系统负担、简化日常维护和管理;减轻系统负担、简化日常维护和管理; 2. 2.改进数据的完整性、兼容性和有效性;改进数据的完整性、兼容性和有效性; 3. 3.提高了数据存取的效率;提高了数据存

3、取的效率; 4. 4.提供简单、统一的查询和报表机制。提供简单、统一的查询和报表机制。1.1.2 1.1.2 什么是数据仓库什么是数据仓库n n1 1数据仓库的概念数据仓库的概念 W.H.InmonW.H.Inmon在在Building the Data WarehouseBuilding the Data Warehouse中定义数据仓库为中定义数据仓库为:“ “数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。持决策制定过程的数据集合。” ” 即数据仓库是在管理人员决策中的面向主即数据仓库是

4、在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。题的、集成的、非易失的并且随时间而变化的数据集合。 数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。中理解并使用的方式。 数据仓库是大量有关公司数据的数据存储。数据仓库是大量有关公司数据的数据存储。 仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(仓库提供公司数据以及组织数据的访问功能

5、,其中的数据是一致的(consistentconsistent),并且可以按每种可能的商业度量方式分解和组合;数据仓),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(的场所,其中数据的质量是业务再工程的驱动器(driver of business driver of business reengineeringreengineering)。)。 定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组定义的共同特

6、征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供了可用来存取数据的工具。了可用来存取数据的工具。数据仓库的定义数据仓库的定义n n 综合对数据仓库的各种理解以及其特征,综合对数据仓库的各种理解以及其特征,我们可以定义我们可以定义: : 数据仓库是一种为信息分析提供了良好数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,

7、的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集新的、随时间变化的、分层次的多维的集成数据集合。成数据集合。2 2与数据仓库相关与数据仓库相关的几个概念的几个概念数据(数据(datadata)是一组表)是一组表示数量、行动和目标的示数量、行动和目标的非随机的可以鉴别的符非随机的可以鉴别的符号号, ,是对客观事物记录下是对客观事物记录下来的,可以鉴别的符号来的,可以鉴别的符号。这些符号包括数字、。这些符号包括数字、字符、文字、图形、图字符、文字、图形、图像、声音。像、声音。 操作数据操作数据 原子数据

8、原子数据 汇总数据汇总数据 特定查询响应特定查询响应数据仓库环境n n数据类型的分类数据类型的分类 n n元数据是指用来描述数据仓库数据库内容的数据。以后将详细讨论元元数据是指用来描述数据仓库数据库内容的数据。以后将详细讨论元数据。数据。n n数据库是一组内部相关联的数据集合。其中关系数据库是表的集合,数据库是一组内部相关联的数据集合。其中关系数据库是表的集合,每个表都有惟一的名字,且每个表都由一组字段(属性)所存放的记每个表都有惟一的名字,且每个表都由一组字段(属性)所存放的记录组成。录组成。n n数据库管理系统(数据库管理系统(DBMSDBMS)是用来管理和存取数据库的一组软件。该)是用来

9、管理和存取数据库的一组软件。该软件具有如下机制:数据库结构定义,数据的存储、并发、共享或分软件具有如下机制:数据库结构定义,数据的存储、并发、共享或分布的数据访问,数据的一致性和安全性。布的数据访问,数据的一致性和安全性。n n数据库系统是一个由硬件、软件、数据库和管理人员组成的复杂系统数据库系统是一个由硬件、软件、数据库和管理人员组成的复杂系统。随着信息技术不断的发展,对数据处理的技术和人们对数据的需求。随着信息技术不断的发展,对数据处理的技术和人们对数据的需求也在不断的进化,如图也在不断的进化,如图1.21.2所示的数据库系统及相关技术的演化。所示的数据库系统及相关技术的演化。n n数据集

10、市(数据集市(data martsdata marts)通常是指较为小型化、针对特定目标且建)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject datasubject data)。)。数据库系统及相关技术的演化数据库系统及相关技术的演化 n n数据仓库技术从本质上讲,是一种信息集成数据仓库技术从本质上讲,是一种信息集成技术技术,它从多个信息源中获取原始数据

11、,经,它从多个信息源中获取原始数据,经过加工处理后,存储在数据仓库的内部数据过加工处理后,存储在数据仓库的内部数据库中。为了使数据仓库用户能有效地使用数库中。为了使数据仓库用户能有效地使用数据仓库中的信息,进行深层次的综合分析和据仓库中的信息,进行深层次的综合分析和决策,决策,数据仓库系统要向用户提供一整套数数据仓库系统要向用户提供一整套数据访问和分析工具。据访问和分析工具。通过所提供的访问工具通过所提供的访问工具,为数据仓库的用户提供统一、协调和集成,为数据仓库的用户提供统一、协调和集成的信息环境,支持企业全局的决策过程和对的信息环境,支持企业全局的决策过程和对企业经营管理的深入综合分析。企

12、业经营管理的深入综合分析。1.1.3 1.1.3 数据仓库的特点数据仓库的特点1 1主题与面向主题主题与面向主题2 2数据仓库数据的集成性数据仓库数据的集成性3 3数据仓库数据的不可更新性数据仓库数据的不可更新性4 4DWDW数据的时态性数据的时态性1.1.4 1.1.4 数据进入数据仓库的基本过程与建数据进入数据仓库的基本过程与建立数据仓库的步骤立数据仓库的步骤1 1数据进入数据仓库的基本过程数据进入数据仓库的基本过程 操作数据向数据仓库的移动包括以下五个过程:提取、操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总。变换、净化、加载和汇总。2 2建立数据仓库的步骤建立数

13、据仓库的步骤1)1)收集和分析业务需求;收集和分析业务需求;2)2)建立数据模型和数据仓库的物理设计;建立数据模型和数据仓库的物理设计;3)3)定义数据源;定义数据源;4)4)选择数据仓库技术和平台;选择数据仓库技术和平台;5)5)从操作型数据库中提取、转换和净化数据到数据仓库;从操作型数据库中提取、转换和净化数据到数据仓库;6)6)选择访问和报表工具;选择访问和报表工具;7)7)选择数据库连接软件;选择数据库连接软件;8)8)选择数据分析和数据展示软件;选择数据分析和数据展示软件;9)9)更新数据仓库;更新数据仓库;1.1.5 1.1.5 分析数据仓库的内容分析数据仓库的内容操作型数据操作型

14、数据分析型数据分析型数据 的的合的,或提合的,或提的的在存取期在存取期是准确的是准确的代表代表去的数据去的数据可更新可更新不更新不更新操作需求事先可知道操作需求事先可知道操作需求事先不知道操作需求事先不知道生命周期符合生命周期符合SDLCSDLC完全不同的生命周期(完全不同的生命周期(CLDSCLDS)性能要求高性能要求高性能要求性能要求松松一个一个刻操作一刻操作一元元一个一个刻操作一人集合刻操作一人集合事事分析分析面向面向用用面向分析面向分析一次操作数据最小一次操作数据最小一次操作数据量大一次操作数据量大支持日常操作支持日常操作支持管理需求支持管理需求操作型数据和分析型数据的区别 1.2.1

15、 1.2.1 为什么要进行数据挖掘为什么要进行数据挖掘 1 1数据挖掘的作用数据挖掘的作用 数据挖掘解决诸如欺诈甄别(数据挖掘解决诸如欺诈甄别(fraud detectionfraud detection)、保留)、保留客户(客户(customer retentioncustomer retention)、)、 消除摩擦(消除摩擦(attritionattrition)、数据库营销(、数据库营销(database marketingdatabase marketing)、市场细分()、市场细分(market segmentationmarket segmentation)、风险分析()、风险分

16、析(risk analysisrisk analysis)、亲和力分析(、亲和力分析(affinity analysisaffinity analysis)、客户满意度()、客户满意度(customer satisfactioncustomer satisfaction)、破产预测()、破产预测(bankruptcy bankruptcy predictionprediction)、职务分析()、职务分析(portfolio analysisportfolio analysis)等业务)等业务问题提供了有效的方法。问题提供了有效的方法。 2 2数据挖掘的背景数据挖掘的背景(1 1)数据挖掘的商

17、业背景)数据挖掘的商业背景(2 2)数据挖掘的技术背景)数据挖掘的技术背景(3 3)数据挖掘的社会背景)数据挖掘的社会背景 3 3数据挖掘对企业的影响数据挖掘对企业的影响 零售零售增加增加直接信函(直接信函(direct maildirect mail)的响)的响率率解决方案解决方案售人售人通通数据挖掘建立的数据挖掘建立的 模型以了解哪些人最有可模型以了解哪些人最有可能能直接信函作出响直接信函作出响得的收得的收益益由于将直接信函由于将直接信函送送正确的客正确的客而增加了而增加了售售保保减少保减少保欺欺案件的案件的生数量生数量解决方案解决方案 人人通通数据挖掘建立数据挖掘建立 模型模型 出哪些出

18、哪些 要求最要求最可能具有欺可能具有欺性性得收益得收益由于减少欺由于减少欺造成的造成的用而增加了利用而增加了利金融金融改改 市市波波的能力,在金融市的能力,在金融市建模中得到广泛建模中得到广泛用用。如何采用神。如何采用神网网方法提高金融增益和在采用数据挖掘方法提高金融增益和在采用数据挖掘技技建立股票市建立股票市模型。模型。解决方案解决方案金融分析金融分析通通数据挖掘建立数据挖掘建立 模型以模型以 出出史上曾引史上曾引起起市市被被的因素所具有的模式的因素所具有的模式得收益得收益由于投由于投更加准确而增加了收入更加准确而增加了收入1.2.2 1.2.2 什么是数据挖掘什么是数据挖掘 1 1数据挖掘

19、概念数据挖掘概念定义定义1 1 G.PiatetskyG.Piatetsky Shapior,W.J.FrawleyShapior,W.J.Frawley等定义数据挖掘为从数据库的大等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。定义定义2 2 有人简单认为,数据挖掘就是数据库中知识的发现。有人简单认为,数据挖掘就是数据库中知识的发现。定义定义3 3 有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。定义定义4 4 有人认为,数据挖掘

20、就是从大量数据中提取或挖掘知识。有人认为,数据挖掘就是从大量数据中提取或挖掘知识。定义定义5 Fayyad5 Fayyad等在等在“ “知识发现知识发现9696国际会议上国际会议上” ”认为,知识发现是从数据库中发认为,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。种观点将数据挖掘的对象局限于数据库。定义定义6 6 数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。支

21、持的过程。 综上所述,我们定义数据挖掘为综上所述,我们定义数据挖掘为 在不同的数据源中包括结构化的数据、半结构化的数据和在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。出有价值的知识的一类深层次的数据分析方法。 2 2数据挖掘的分类数据挖掘的分类分分 准准按数据挖掘方法的直按数据挖掘方法的直接性接性直接数据挖掘、直接数据挖掘、接数据挖掘接

22、数据挖掘按数据分析的角度分按数据分析的角度分描述式数据挖掘、描述式数据挖掘、 式数据挖掘式数据挖掘按挖掘的数据按挖掘的数据分分关系型、事关系型、事型、面向型、面向象型、主象型、主型、空型、空型型、文本型、多媒体、异构数据、文本型、多媒体、异构数据按挖掘的按挖掘的关关 、分、分 、聚、聚 、 分析、分析、偏差分析、模式分析、特征偏差分析、模式分析、特征 、按采用的技按采用的技分分模糊和粗集方法、人工神模糊和粗集方法、人工神网网、 算法、决算法、决策策、最近、最近技技、 、可、可化技化技按挖掘知按挖掘知的抽象的抽象次分次分原始原始次、高次、高次和多次和多次次按挖掘知按挖掘知的反映事的反映事物之物之

23、的性的性分分同同共性广共性广知知、特征型知、特征型知、属性差、属性差知知、关、关型知型知、 型知型知、离群型知、离群型知、 3 3与数据挖掘相关的几个概念与数据挖掘相关的几个概念n n1 1)直接数据挖掘)直接数据挖掘n n利用可用的数据建立一个模型,模型对剩余的数据,对一个特定的变量利用可用的数据建立一个模型,模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,分类、估值、预言(可以理解成数据库中表的属性,即列)进行描述,分类、估值、预言属于直接数据挖掘。属于直接数据挖掘。n n2 2)间接数据挖掘)间接数据挖掘n n不是选出某一具体的变量用模型进行描述;而是在所

24、有的变量中建立起不是选出某一具体的变量用模型进行描述;而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚集、描述和可视化属于间接数据某种关系。相关性分组或关联规则、聚集、描述和可视化属于间接数据挖掘。挖掘。n n3 3)描述式数据挖掘)描述式数据挖掘n n以简洁概要的方式描述数据,并提供数据的有意义的一般知识。以简洁概要的方式描述数据,并提供数据的有意义的一般知识。n n4 4)预测式数据挖掘)预测式数据挖掘n n分析数据,建立一个或一组模型,并试图预测新数据集的行为。分析数据,建立一个或一组模型,并试图预测新数据集的行为。 3 3与数据挖掘相关的几个概念(续)与数据挖掘相关的几个概念

25、(续)n n5 5)数据库查询工具和数据挖掘工具之间的差异)数据库查询工具和数据挖掘工具之间的差异 查询工具能帮助用户从数据库数据中找到新的、有意义的事实查询工具能帮助用户从数据库数据中找到新的、有意义的事实。这类问题是查询所要访问的是对象是否在某一特定的位置。这类问题是查询所要访问的是对象是否在某一特定的位置。这与目前数据库系统中大部分的查询操作是相似的。通过这类这与目前数据库系统中大部分的查询操作是相似的。通过这类问题使你可以确定对象将到达的位置。问题使你可以确定对象将到达的位置。n n6 6)信息)信息n n7 7)知识)知识(knowledge)(knowledge)n n8 8)数据

26、、信息与知识的转化关系)数据、信息与知识的转化关系1.2.3 1.2.3 数据挖掘的特点数据挖掘的特点n n1 1)处理的数据规模十分庞大;)处理的数据规模十分庞大;n n2 2)由于用户不能形成精确的查询要求,因此需要靠)由于用户不能形成精确的查询要求,因此需要靠DMDM技技术来寻找其可能感兴趣的东西;术来寻找其可能感兴趣的东西;n n3 3)DMDM对数据的迅速变化做出快速响应,以提供决策支持对数据的迅速变化做出快速响应,以提供决策支持信息;信息;n n4 4)DMDM既要发现潜在规则,还要管理和维护规则,随着新既要发现潜在规则,还要管理和维护规则,随着新数据的不断加入,规则需要随着新数据

27、更新;数据的不断加入,规则需要随着新数据更新;n n5 5)DMDM中规则的发现基于统计规律,发现的规则不必适合中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则。于所有数据,而且当达到某一阈值时,便认为有此规则。 1.2.4 1.2.4 数据挖掘的基本过程与步骤数据挖掘的基本过程与步骤 1 1数据挖掘的基本过程数据挖掘的基本过程n n (1 1)数据准备)数据准备n n数据准备(数据准备(data preparationdata preparation):本阶段又可进一步细分成数据集):本阶段又可进一步细分成数据集成、数据选择和预分析。成、数据选择和

28、预分析。 n n(2 2) 挖掘挖掘n n挖掘(挖掘(miningmining):):DMDM处理器(处理器(data mining processordata mining processor)综合利用)综合利用前面提到的多种前面提到的多种DMDM方法分析数据。方法分析数据。n n(3 3) 表述表述n n表述(表述(presentationpresentation):与检验证型工具一样,):与检验证型工具一样,DMDM将获取的信息以将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。 n n(4 4) 评价评

29、价n n评价(评价(assessassess):如果分析人员对分析结果不满意,可以递归地执行):如果分析人员对分析结果不满意,可以递归地执行上述三个过程,直到满意为止。上述三个过程,直到满意为止。 2 2进行数据挖掘的步骤进行数据挖掘的步骤n n (1) (1) 问题定义问题定义问题定义主要是指利用数据挖掘可以分析哪些问问题定义主要是指利用数据挖掘可以分析哪些问题。题。 n n (2)(2)发现信息发现信息通过数据挖掘分析从其客户那里发现更多的信息通过数据挖掘分析从其客户那里发现更多的信息。n n (3)(3)制定计划制定计划n n (4)(4)采取行动采取行动n n (5) (5) 监测效果

30、监测效果1.2.5 1.2.5 分析数据挖掘的内容分析数据挖掘的内容n n1 1)直销)直销n n2 2)争取客户)争取客户n n3 3)保留客户)保留客户n n4 4)交叉销售)交叉销售n n5 5)趋势分析)趋势分析n n6 6)欺诈检测)欺诈检测1.3 1.3 数据挖掘与数据仓库的关系数据挖掘与数据仓库的关系n n用户包括偶然用户(用户包括偶然用户(casual usercasual user)、高级用户)、高级用户(power userpower user)和专家()和专家(expertexpert)。)。 n n查询协同管理包括一些访问工具和系统管理工具查询协同管理包括一些访问工具和

31、系统管理工具,为用户访问数据仓库和其他系统提供手段。,为用户访问数据仓库和其他系统提供手段。 n n数据仓库管理包括安全和特权管理,跟踪数据的数据仓库管理包括安全和特权管理,跟踪数据的更新,更新,数据质量检查,管理和更新元数据数据质量检查,管理和更新元数据,审计,审计和报告数据仓库的使用和状态,删除数据,复制和报告数据仓库的使用和状态,删除数据,复制、分割和分发分割和分发数据,备份和恢复,存储管理。数据,备份和恢复,存储管理。 n n信息发布系统即把数据仓库中的数据或其他相关信息发布系统即把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。的数据发送给不同的地点或用户。 1.4.1 1.

32、4.1 数据挖掘在零售业的应用数据挖掘在零售业的应用n n超市可以采用两种不同的方式从事信息中介,一超市可以采用两种不同的方式从事信息中介,一种方式是针对匿名客户,另一种是针对注册或有种方式是针对匿名客户,另一种是针对注册或有忠诚卡的客户。忠诚卡的客户。 (1 1)重心从商品转换到客户)重心从商品转换到客户分析特定客户群的购买模式,厂商可以了解特定的客户的购买模型。分析特定客户群的购买模式,厂商可以了解特定的客户的购买模型。 (2 2)数据分析)数据分析卖主(供应商)可以通过数据挖掘技术来增加商品的利润率,通过竞争卖主(供应商)可以通过数据挖掘技术来增加商品的利润率,通过竞争成为成为“ “种类

33、首领种类首领” ”。 1.4.2 1.4.2 数据挖掘技术在商业银行数据挖掘技术在商业银行中的应用中的应用n n在银行业,数据挖掘主要用于信用欺诈的在银行业,数据挖掘主要用于信用欺诈的建模和预测、风险评估、趋势分析、收益建模和预测、风险评估、趋势分析、收益分析以及辅助直销活动。分析以及辅助直销活动。 n n在金融市场,已将神经网络用于股票价格在金融市场,已将神经网络用于股票价格预测、购买权交易、债券等级评定、资产预测、购买权交易、债券等级评定、资产组合管理、商品价格预测、合并和买进以组合管理、商品价格预测、合并和买进以及金融危机预测等方面。及金融危机预测等方面。 n n19961996年,年,

34、银行系统和技术银行系统和技术评论认为评论认为“ “数据挖数据挖掘技术将是本年度金融服务领域最重要的应用。掘技术将是本年度金融服务领域最重要的应用。” ” n n在进行数据挖掘的银行包括美国第一银行、在进行数据挖掘的银行包括美国第一银行、HeadlandHeadland抵押公司、抵押公司、FCCFCC国家银行、联邦住房国家银行、联邦住房贷款抵押公司、贷款抵押公司、Wells FargoWells Fargo银行、银行、NationsBancNationsBanc服务公司、服务公司、N.A.MellonN.A.Mellon银行、银行、AdvataAdvata抵押公司、化学银行、抵押公司、化学银行、

35、Chevy ChaseChevy Chase银银行、美国银行公司和行、美国银行公司和USAAUSAA联邦储蓄银行联邦储蓄银行 1.4.3 1.4.3 数据挖掘在电信部门的应数据挖掘在电信部门的应用用n n19981998年,西部电信用年,西部电信用SASSAS的企业挖掘数据产品作的企业挖掘数据产品作为数据挖掘平台,开发了一项企业营销战略系统为数据挖掘平台,开发了一项企业营销战略系统。 n n19951995年年9 9月,月,DECDEC公司的公司的Evan DaviesEvan Davies和和HosseinHossein PakravenPakraven提交的一份报告对客户跳槽提交的一份报告

36、对客户跳槽造成的损失进行了量化,同时他们估计获得一个造成的损失进行了量化,同时他们估计获得一个新客户的费用高达新客户的费用高达400400美元。美元。 1.4.4 1.4.4 数据挖掘在贝斯出口公司数据挖掘在贝斯出口公司的应用的应用n n贝斯出口公司是英国最大的啤酒出口商。贝斯出口公司是英国最大的啤酒出口商。该公司选择了该公司选择了IBMIBM的智能挖掘器作为其数据的智能挖掘器作为其数据挖掘的商务解决方案。挖掘的商务解决方案。 1.4.5 1.4.5 数据挖掘如何预测信用卡数据挖掘如何预测信用卡欺诈欺诈n n对于这一问题可以有下列对于这一问题可以有下列3 3种解决的途径:种解决的途径: n n

37、1 1)使用查询工具从关系数据库中以适当的格式抽取所需)使用查询工具从关系数据库中以适当的格式抽取所需要的信息。采用要的信息。采用Brio,BusineeBrio,Businee Objects Objects及及CongnosCongnos等公等公司开发的工具将很容易构造出模型。由于用这种方法需要司开发的工具将很容易构造出模型。由于用这种方法需要将数据下载到客户端计算机中,所以能够从数据仓库中创将数据下载到客户端计算机中,所以能够从数据仓库中创建视图来表示将要挖掘的虚拟数据。建视图来表示将要挖掘的虚拟数据。n n2 2)通过从关系数据仓库中抽取记录数据,这将会受到一)通过从关系数据仓库中抽取

38、记录数据,这将会受到一定的限制。定的限制。n n3 3)通过构造)通过构造SQLSQL语句以适当格式得到所需的数据。语句以适当格式得到所需的数据。1.4.6 1.4.6 数据挖掘在证券行业的应用数据挖掘在证券行业的应用n n关于股票预测,市场上有许多采用数据挖掘技术关于股票预测,市场上有许多采用数据挖掘技术对股票进行预测的软件。如对股票进行预测的软件。如NETPROPHETNETPROPHET是神是神经网络应用公司开发的一个股票预测应用软件,经网络应用公司开发的一个股票预测应用软件,它采用了神经网络技术,将输出的结果用两条曲它采用了神经网络技术,将输出的结果用两条曲线分别表示实际股票值和预测股

39、票值。线分别表示实际股票值和预测股票值。 第二章第二章 数据仓库的分析数据仓库的分析 n n2.12.1影响数据仓库成功的因素影响数据仓库成功的因素n n2.22.2数据仓库的生命周期数据仓库的生命周期n n2.32.3数据仓库的基本体系结构数据仓库的基本体系结构n n2.42.4数据仓库的逻辑结构数据仓库的逻辑结构2.1 2.1 影响数据仓库成功的因素影响数据仓库成功的因素特征特征操作(事操作(事 理)需要理)需要数据数据 (DSSDSS)需要)需要易易性性静静通用性通用性当前的当前的史的史的暗指暗指“ “在在” ”明确的,可明确的,可的的粒度粒度原始的,原始的, 的的 的和可的和可出的出的

40、更新更新 的,随机的的,随机的定期的,定期的,划的划的任任可重复的可重复的不可不可期的期的灵活性灵活性低低高高性能性能要求高性能要求高性能通常可接受低性能通常可接受低性能决策支持系统与事务之间在数据库要求上的差异 影响数据仓库成功的因素影响数据仓库成功的因素 2.2.1 2.2.1 数据仓库计划与准备阶段数据仓库计划与准备阶段 1 1用户需求分析用户需求分析 2 2可行性研究可行性研究 3 3用户的认可用户的认可 4 4建设数据仓库的协调与阻力分析建设数据仓库的协调与阻力分析 5 5开发项目计划制定开发项目计划制定 6 6创建数据仓库所使用的关键资源创建数据仓库所使用的关键资源数据仓库的生命周

41、期数据仓库的生命周期 2.2.2 2.2.2 数据仓库的其他阶段数据仓库的其他阶段n n1 1)系统分析)系统分析n n2 2)系统设计(整体设计与详细设计)系统设计(整体设计与详细设计)n n3 3)系统测试)系统测试2.3 2.3 数据仓库的基本体系结构数据仓库的基本体系结构 n n客户应用,是供用户访问查询,并以直观方式客户应用,是供用户访问查询,并以直观方式展示分析结果;展示分析结果;n n数据仓库,是存储不同程度的数据和元数据;数据仓库,是存储不同程度的数据和元数据;n n集成器,是将从运作数据库中提取的数据经过集成器,是将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数

42、据仓库中转换、计算、综合等操作,集成到数据仓库中;n n监视器,是负责感知数据源发生的变化,并按监视器,是负责感知数据源发生的变化,并按需求提取数据;需求提取数据;n n数据源,是为数据源,是为DWDW提供最底层的运作数据库系提供最底层的运作数据库系统及外部数据。统及外部数据。2.4.1 2.4.1 数据仓库中的粒度数据仓库中的粒度2.4.2 2.4.2 数据仓库中的数据分割数据仓库中的数据分割n n数据分割的常用标准:按时间、商业行业数据分割的常用标准:按时间、商业行业、地理位置、组织单位等。这些标准都是、地理位置、组织单位等。这些标准都是由开发人员来选择,且还要选择是在应用由开发人员来选择

43、,且还要选择是在应用层上进行分割,还是在系统层上进行分割层上进行分割,还是在系统层上进行分割。在系统层进行分割在一定程度上是。在系统层进行分割在一定程度上是DBMSDBMS和系统的一种功能。而在应用层分和系统的一种功能。而在应用层分割需要应用程序代码来完成,每年的数据割需要应用程序代码来完成,每年的数据定义既可以相同,也可以不相同,同时从定义既可以相同,也可以不相同,同时从一个处理集转移到另一个处理集没有损失一个处理集转移到另一个处理集没有损失。2.4.3 2.4.3 数据仓库中的数据组织数据仓库中的数据组织n n数据仓库中有这些数据组织:简单堆积结数据仓库中有这些数据组织:简单堆积结构、轮转

44、综合数据存储、简单直接文件和构、轮转综合数据存储、简单直接文件和连续组织。连续组织。2.4.4 2.4.4 数据仓库中的快照数据仓库中的快照n n快照是为一些事件的发生而产生的。快照是为一些事件的发生而产生的。 n n本组成形式由本组成形式由4 4个部分组成:键码(个部分组成:键码(keykey)、时间单元、只和关键码相关联的初始数、时间单元、只和关键码相关联的初始数据、与初始数据或关键码无直接关系的二据、与初始数据或关键码无直接关系的二次数据。次数据。 2.4.5 2.4.5 数据仓库中的元数据数据仓库中的元数据n n元数据(元数据(metadatametadata)是关于数据的数据,)是关

45、于数据的数据,对数据的结构、内容、键码、索引等的描对数据的结构、内容、键码、索引等的描述。元数据在操作型的环境中和分析型的述。元数据在操作型的环境中和分析型的环境中具有不同的作用。环境中具有不同的作用。 n n元数据是描述数据仓库内数据的结构和建元数据是描述数据仓库内数据的结构和建立方法的数据。可按其用途的不同分为两立方法的数据。可按其用途的不同分为两类:技术元数据和商业元数据。类:技术元数据和商业元数据。n n技术元数据是数据仓库的设计和管理人员技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据用于开发和日常管理数据仓库是用的数据。 第三章第三章 数据仓库的设计与实施数

46、据仓库的设计与实施 n n3.13.1从数据库到数据仓库从数据库到数据仓库n n3.23.2面向主题的数据仓库设计面向主题的数据仓库设计n n3.33.3开发数据仓库的物理设计开发数据仓库的物理设计n n3.43.4数据仓库的实施数据仓库的实施3.1 3.1 从数据库到数据仓库从数据库到数据仓库数据数据系系数据数据 系系数据数据型型操作型数据操作型数据分析型数据分析型数据数据数据 方方式式面向面向用用面向主面向主 机制机制虚表存虚表存,只存,只存 构构 存存系系开开方方法法需求需求数据数据面向面向用用面向面向OLTPOLTP用用面向面向OLAPOLAP用用工具工具数据数据 、开、开分析和一般分

47、析和一般功能功能复复化化事事 理和理和系系的决策与分析的决策与分析索引索引有限数量有限数量完善完善构构自由空自由空需要附加数据空需要附加数据空无无更新开更新开大大无无更新操作更新操作增、增、改、改繁繁少少3.2.1 3.2.1 数据建模数据建模n n1 1)数据仓库的开发过程)数据仓库的开发过程n n2 2)基于开发过程的数据建模型的主要内容)基于开发过程的数据建模型的主要内容3.2.2 3.2.2 星型连接星型连接3.3.13.3.1数据仓库设计工具的选择数据仓库设计工具的选择 1 1数据获取工具的选择数据获取工具的选择 2 2数据工具的选择数据工具的选择3.3.2 3.3.2 物理数据模型

48、设计物理数据模型设计n n硬件平台的选择:数据仓库的硬盘容量通常是操作数据硬件平台的选择:数据仓库的硬盘容量通常是操作数据库硬盘容量的库硬盘容量的2323倍。选择硬件平台时要考虑的问题倍。选择硬件平台时要考虑的问题:是否提供并行的:是否提供并行的I/OI/O?对多?对多CPUCPU的支持能力如何?的支持能力如何?n n不同存储介质的特点比较表不同存储介质的特点比较表 存存介介速度速度价格价格主存主存非常快非常快非常非常展内存展内存非常快非常快高速高速存存非常快非常快DASDDASD快快适中适中光光不慢不慢不不微胶片微胶片慢慢便宜便宜3.3.3 3.3.3 数据仓库中数据表的数量数据仓库中数据表

49、的数量与规范化与规范化 n n在数据模型处理过程中,如果程序在很多表中跳在数据模型处理过程中,如果程序在很多表中跳转,每次程序从一个表跳到另一个,就要进行转,每次程序从一个表跳到另一个,就要进行I/OI/O变换,既要存取数据,又要存取索引找到数据。变换,既要存取数据,又要存取索引找到数据。如果许多程序需要大量的如果许多程序需要大量的I/OI/O时,性能就会受到影时,性能就会受到影响,这就要进行小计。响,这就要进行小计。n n当数据序列产生的数量是稳定的、按序列存取的当数据序列产生的数量是稳定的、按序列存取的,且数据的创建与修改在统计上是以很规律的方,且数据的创建与修改在统计上是以很规律的方式进

50、行的时候,可以采用数据数组。式进行的时候,可以采用数据数组。3.4.1 3.4.1 数据仓库的实施应注意的数据仓库的实施应注意的问题问题n n在数据仓库的实施过程中要考虑以下问题:投资在数据仓库的实施过程中要考虑以下问题:投资回报率;在具体实施时应自顶向下还是自下到上回报率;在具体实施时应自顶向下还是自下到上;在人力资源的问题上要考虑培训还是雇用;在;在人力资源的问题上要考虑培训还是雇用;在设计上要有前瞻性,把问题覆盖的范围思考大一设计上要有前瞻性,把问题覆盖的范围思考大一些,但实施从小处开始。些,但实施从小处开始。 3.4.2 3.4.2 在实施数据仓库过程中应在实施数据仓库过程中应避免的错

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 网络技术 > 后端技术

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报