收藏 分享(赏)

数据仓库与数据挖掘技术教案ppt(610章).ppt

上传人:初中学霸 文档编号:6927412 上传时间:2022-08-22 格式:PPT 页数:80 大小:514KB
下载 相关 举报
数据仓库与数据挖掘技术教案ppt(610章).ppt_第1页
第1页 / 共80页
数据仓库与数据挖掘技术教案ppt(610章).ppt_第2页
第2页 / 共80页
数据仓库与数据挖掘技术教案ppt(610章).ppt_第3页
第3页 / 共80页
数据仓库与数据挖掘技术教案ppt(610章).ppt_第4页
第4页 / 共80页
数据仓库与数据挖掘技术教案ppt(610章).ppt_第5页
第5页 / 共80页
亲,该文档总共80页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、vIstitute Of MIS And LMS,wuse () E-MAIL:BXXHSSINA.COM第6章 数据挖掘基本算法本章内容:v6.1 分类规则挖掘v6.2 预测分析与趋势分析规则v6.3 数据挖掘的关联算法v6.4 数据挖掘的聚类算法v6.5 数据挖掘的统计分析算法v6.6 数据挖掘的品种优化算法v6.7 数据挖掘的进化算法 E-MAIL:BXXHSSINA.COM6.1 分类规则挖掘6.1.1分类与估值 1 分类为了理解事物特征并做出预测使用历史数据建立一个分类模型(即分类器)的过程 。应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等 实践应用参照课本 E-MAI

2、L:BXXHSSINA.COM6.1 分类规则挖掘 6.1.1分类与估值 2 估值 估值(estimation)与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定的数目,估值的量是不确定的。 3 分类方法与步骤 方法:决策树归纳、贝叶斯分类、贝叶斯网络、神经网络。还有K-最临近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法。步骤:模型创建、模型使用 E-MAIL:BXXHSSINA.COM6.1 分类规则挖掘v6.1.1分类与估值4 评估分类方法要考虑的指标:预测准确率、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据

3、的处理能力、可解释性、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。 E-MAIL:BXXHSSINA.COM6.1 分类规则挖掘6.1.2 决策树父节点子节点子节点叶节点子节点子节点子节点根节点图6.1 一般决策树结构叶节点父节点 E-MAIL:BXXHSSINA.COM6.1 分类规则挖掘6.1.2 决策树1决策树的构造过程ID3算法应用如下:信息量算公式:I(s1,s2,sm)=- (6.1)其中,pisi占整个的概率利用属性A划分当前本集合所需要的信息()的算公式:E(A)= (6.2)信息增益公式:Gain(A)= I(s1,s2,sm)-E(A) (6.3)例

4、如:一个售的客数据( 本集合), 算机的人行分:字段:(年(取:40);收入(高,中,低);学生否(Y,N);信用(一般,很好); 算机否(Y,N) 14个,具体数据如下:X1=(30, 高,N, 一般,N);X2=(40, 中,N, 一般,Y)X5=(40, 低,Y, 一般,Y);X6=(40, 低,Y, 很好,N)X7=(30-40, 低,Y, 高,Y);X8=(30, 中,N, 一般,N)X9=(40, 中,Y, 一般,Y)X11=(40,中,N, 很好,N) E-MAIL:BXXHSSINA.COM6.1 分类规则挖掘6.1.2 决策树1决策树的构造过程决策树的构造算法: 决策树的构造

5、算法可通过训练集T完成,其中T=,而x=(a1,a2,an)为一个训练实例,它有n个属性,分别列于属性表(A1,A2,An)中,其中ai表示属性Ai的取值。CjC=C1,C2,Cm为x的分类结果。从属性表中选择属性Ai作为分类属性;若属性Ai的取值有ki个,则将T划分为ki个子集,T1,Tki,其中Tij=|T,且x的属性取值A为第i个值;接下来从属性表中删除属性Ai;对于每一个Tij(1jK1),令T=Tij;如果属性表非空,返回第1步,否则输出。 E-MAIL:BXXHSSINA.COM6.1 分类规则挖掘6.1.2 决策树2分类器 定义:输入的数据含有千万个记录,每个记录又有很多个属性,

6、其中有一个特别的属性叫做类(例如信用程度的高,中,低)。 具体步骤 :1)树的建立。 2)树的修剪,SLIQ采用了MDL(最小叙述长度)的方法来修剪树。 E-MAIL:BXXHSSINA.COM6.1 分类规则挖掘6.1.2 决策树3决策树的可扩展性4基于决策树方法的数据挖掘工具 KnowledgSEEKER E-MAIL:BXXHSSINA.COM6.1 分类规则挖掘6.1.3 贝叶斯分类1贝叶斯信任网络如何工作边缘主区域手机呼叫服务区域noyes外界图6.3 简单的贝叶斯网图 E-MAIL:BXXHSSINA.COM6.1 分类规则挖掘6.1.3 贝叶斯分类2贝叶斯定理与朴素贝叶斯分类v贝

7、叶斯定理: P(H|X)=P(X|H)P(H)/P(X) 其中,P(H|X)表示条件X下H的概率,也称为条件概率或称为后验概率(posteriori probabilities)。v朴素贝叶斯分类:假定有m个类C1, Cm,对于数据样本X,分类法将预测X属于类Ci,当且仅当P(Ci|X) P(Cj|X), E-MAIL:BXXHSSINA.COM6.2预测分析与趋势分析规则6.2.1 预言的基本方法v预言(prediction)是一门掌握对象变化动态的科学,它是对对象变动趋势的预见、分析和判断,也是一种动态分析方法。 v预测的基本步骤: 确定预测目标,包括预测对象、目的、对象范围; 收集分析内

8、部和外部资料; 数据的处理及模型的选择; 预测模型的分析、修正; 确定预测值。 E-MAIL:BXXHSSINA.COM6.2 预测分析与趋势分析规则6.2.2 定量分析预测v时间序列法v回归预测v非线性模型v灰色预测模型GM(1,1) v组合预测 E-MAIL:BXXHSSINA.COM6.2 预测分析与趋势分析规则6.2.3预测的结果分析v预测的结果分析要考虑到的因素:相反的预测结果 胜出裕度 成本收益分析 E-MAIL:BXXHSSINA.COM6.2 预测分析与趋势分析规则6.2.4 趋势分析挖掘v分析时间序列数据需要注意以下方面 :长时间的走向 周期的走向与周期的变化 季节性的走向与

9、变化 不规则的随机走向 E-MAIL:BXXHSSINA.COM6.3 数据挖掘的关联算法6.3.1 关联规则的概念及分类v1关联规则的概念定义1 设I=i1、i2、i3,,im是由m个不同的数据项目组成的集合,其中的元素称为项(item),项的集合称为项集,包含k个项的项集称为k项集,给定一个事务(交易)D,即交易数据库,其中的每一个事务(交易)T是数据项I的一个子集,即,T有一个惟一的标积符TID;当且仅当时,称交易T包含项集X;那么关联规则就形如“X=Y”的蕴涵式;其中,即表示满足X中条件的记录也一定满足Y。关联规则X=Y在交易数据库中成立, 具有支持度s和具有置信度c 。 这也就是交易

10、数据集D中具有支持度s,即D中至少有s%的事务包含,描述 为:support(X=Y)= 比如Support(X=Y )=同时购买商品X和Y的交易数总交易数同时交易数据集D中具有置信度c,即D中包含X的事务至少有c%同时也包含Y,描述为:confidence(X=Y)= 比如购买了商品X,同时购买商品Y可信度,confidence(X=Y)=同时购买商品X和Y的交易数购买了商品X的交易数一般称满足一定要求的规则为强规则。通常称满足最小支持度和最小置信度的关联规则为强关联规则(strong)。一般将最小支持度简记为minsup和最小置信度简记为minconf。 E-MAIL:BXXHSSINA.

11、COM6.3 数据挖掘的关联算法6.3.1 关联规则的概念及分类v2 关联规则的分类分 准 中所理的布尔关 ,量化关 中所涉及的数据 关 和多关 中所涉及的抽象 关 和多关 中的充最大的模式和繁 集关特性分分析与相关分析 E-MAIL:BXXHSSINA.COM6.3 数据挖掘的关联算法6.3.2 简单形式的关联规则算法(单维、单层和布尔关联规则)v1简单形式的关联规则的核心算法找到所有支持度大于最小支持度的项集,即频集,有k个数据频集称为k项频集.找出所有的频集由apriori算法实现。Apriori性质具有一个频集的任一非空子集都是频集。使用第1步找到的频集产生期望的规则 apriori算

12、法的详细介绍见课本。 E-MAIL:BXXHSSINA.COM6.3 数据挖掘的关联算法6.3.2 简单形式的关联规则算法(单维、单层和布尔关联规则)v2 频集算法的几种优化方法基于划分的方法基于hash的方法 基于采样的方法 减少交易的个数 E-MAIL:BXXHSSINA.COM6.3 数据挖掘的关联算法6.3.2 简单形式的关联规则算法(单维、单层和布尔关联规则)v3 其他的频集挖掘方法FP-growth方法 min_hashing(MH)和locality_sensitive_hashing(LSH) E-MAIL:BXXHSSINA.COM6.3 数据挖掘的关联算法6.3.3 多层和

13、多维关联规则的挖掘v多层关联规则 v多维关联规则 v关联规则价值衡量的方法 6.3.4 货篮子分析存在的问题v详见课本 E-MAIL:BXXHSSINA.COM6.3 数据挖掘的关联算法6.3.5 关联分析的其他算法v发现关联的更好方法 v统计相关以外的v理解关联 v有效可行的市场篮子分析 6.3.6 挖掘序列模式v序列模式的概念及定义 v序列模式挖掘的主要算法 GSP算法描述 PrefixSpan算法 E-MAIL:BXXHSSINA.COM关联规则挖掘一个例子最小值尺度 50%最小可信度 50%v对于 A C:support = support(A 、C) = 50%confidence

14、= support(A 、C)/support(A) = 66.6%vApriori的基本思想:频繁项集的任何子集也一定是频繁的 E-MAIL:BXXHSSINA.COM关键步骤:挖掘频繁集v频繁集:是指满足最小支持度的项目集合频繁集的子集也一定是频繁的v如, 如果AB 是频繁集,则 A B 也一定是频繁集从1到k(k-频繁集)递归查找频繁集v用得到的频繁集生成关联规则 E-MAIL:BXXHSSINA.COMApriori算法v连接: 用 Lk-1自连接得到Ckv修剪: 一个k-项集,如果他的一个k-1项集(他的子集 )不是频繁的,那他本身也不可能是频繁的。v伪代码:Ck: Candidat

15、e itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support endreturn

16、k Lk; E-MAIL:BXXHSSINA.COMApriori算法 例子数据库 D扫描 DC1L1L2C2C2扫描 DC3L3扫描 D E-MAIL:BXXHSSINA.COM如何生成候选集v假定 Lk-1 中的项按顺序排列v第一步: 自连接 Lk-1 insert into Ckselect p.item1, p.item2, , p.itemk-1, q.itemk-1from Lk-1 p, Lk-1 qwhere p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1v第二步: 修剪forall itemsets c

17、in Ck doforall (k-1)-subsets s of c doif (s is not in Lk-1) then delete c from Ck E-MAIL:BXXHSSINA.COM如何计算候选集的支持度v计算支持度为什么会成为一个问题?候选集的个数非常巨大 一笔交易可能包含多个候选集v方法:用 hash-tree 存放候选集树的叶子节点 of存放项集的列表和支持度内部节点 是一个hash表Subset 函数: 找到包含在一笔交易中的所有候选集 E-MAIL:BXXHSSINA.COM生成候选集的例子vL3=abc, abd, acd, ace, bcdv自连接 : L3

18、*L3abc 和 abd 得到 abcd acd 和 ace 得到 acdev修剪:ade 不在 L3中,删除 acdevC4=abcd E-MAIL:BXXHSSINA.COM提高Apriori效率的方法v基于Hash的项集计数: 如果一个 k-项集在hash-tree的路径上的一个计数值低于阈值,那他本身也不可能是频繁的。v减少交易记录: 不包含任何频繁k-项集的交易也不可能包含任何大于k的频繁集v分割: 一个项集要想在整个数据库中是频繁的,那么他至少在数据库的一个分割上是频繁的。v采样: 在给定数据的子集上挖掘,使用小的支持度+完整性验证方法v动态项集计数: 在添加一个新的候选集之前,先

19、估计一下是不是他的所有子集都是频繁的。 E-MAIL:BXXHSSINA.COMApriori 够快了吗? 性能瓶颈vApriori算法的核心:用频繁的(k 1)-项集生成候选的频繁 k-项集用数据库扫描和模式匹配计算候选集的支持度vApriori 的瓶颈: 候选集生成巨大的候选集:v104 个频繁1-项集要生成 107 个候选 2-项集v要找尺寸为100的频繁模式,如 a1, a2, , a100, 你必须先产生2100 1030 个候选集多次扫描数据库: v如果最长的模式是n的话,则需要 (n +1 ) 次数据库扫描 E-MAIL:BXXHSSINA.COM6.4数据挖掘的聚类算法6.4.

20、1 聚类分析的概念与分类v聚类分析概念v聚类分析方法的分类 算法分裂(划分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心点)、CLARANS算法(予的方法)次法BIRCH算法(平衡迭代和聚)、CURE算法(代表聚)、CHAMELEON算法(模型)基于密度的方法DBSCAN算法(基于高密度接区域)、OPTICS算法(象排序)、DENCLUE算法(密度分布函数)基于网格的方法STING算法(信息网格)、CLIQUE算法(聚高空)、WAVE-CLUSTER算法(小波)基于模型的方法学方法、神网方法 E-MAIL:BXXHSSINA.COM6.4数据挖掘的聚类算法6.4.2 聚类

21、分析中两个对象之间的相异度计算方法v区间标度变量计算方法 v二元变量计算方法 v标称型、序数型和比例标度型变量计算方法 v混合类型的变量计算方法 E-MAIL:BXXHSSINA.COM6.4数据挖掘的聚类算法6.4.3 划分方法v典型的划分方法:k-平均和k-中心点 基于簇的重心技术:k-平均方法 基于有代表性的对象的技术:k-中心点方法 v大型数据库中的划分方法:基于选择的K-中心点CLARANS方法 E-MAIL:BXXHSSINA.COM6.4数据挖掘的聚类算法v6.4.4 层次方法v凝聚的和分裂的层次聚类 凝聚层次聚类方法AGNES 分裂层次聚类方法DIANA v利用层次方法的平衡迭

22、代归约和聚类 综合的层次聚类方法 BIRCHv利用代表点聚类 一种新颖的层次聚类算法 CUREv一个利用动态模型的层次聚类算法 动态模型的聚类法 chameleon (变色龙) E-MAIL:BXXHSSINA.COM6.4数据挖掘的聚类算法6.4.5 基于密度的方法v一个基于高密度连接区域的聚类方法 DBSCAN 聚类方法v通过对象排序识别聚类结构 OPTICS聚类分析方法 v基于密度分布函数的聚类 基于一组密度分布函数的聚类算法 DENCLUE E-MAIL:BXXHSSINA.COM6.4数据挖掘的聚类算法6.4.6 基于网格的方法v统计信息网络 STING是一种基于网格的多分辨率聚类技

23、术 v聚类高维空间 CLIQUE(clustering in quest, CLIQUE)聚类算法 6.4.7 基于模型的聚类方法v增量概念聚类算法 COBWEB 6.4.8 模糊聚类算法 E-MAIL:BXXHSSINA.COM6.5 数据挖掘的统计分析算法v6.5.1 辨别方法v6.5.2 回归模型v6.5.3 优点与缺点 E-MAIL:BXXHSSINA.COM6.6 数据挖掘的品种优化算法v6.6.1 品种优化v6.6.2 品种优化算法 E-MAIL:BXXHSSINA.COM6.7数据挖掘的进化算法6.7.1 遗传算法v如何工作 v优缺点 6.7.2 神经网络算法v如何工作 v无指导

24、的学习 v竞争学习v自组织特征映射模型 v优缺点 E-MAIL:BXXHSSINA.COM6.7数据挖掘的进化算法v神经网络模型性别区域职位B类客户年龄交易额受教育的年限图6.10 神经网络模型C类客户跳槽客户隐节点隐节点A类客户隐节点隐节点 E-MAIL:BXXHSSINA.COM第7章 非结构化数据挖掘本章内容:v7.1 Web数据挖掘v7.2 空间群数据挖掘v7.3 多媒体数据挖掘 E-MAIL:BXXHSSINA.COM7.1 Web数据挖掘7.1.1 非结构化数据源vWeb数据挖掘的难点 对数据来源分析异构数据环境 半结构化的数据结构 解决半结构化的数据源问题 文本总结 vXML与W

25、eb数据挖掘技术 XML的产生与发展 XML的主要特点 E-MAIL:BXXHSSINA.COM7.1 Web数据挖掘7.1.1 非结构化数据源vXML在Web数据挖掘中的应用两个或更多异质数据库之间进行通信的应用 大部分处理负载从Web服务器转到Web客户端的应用 Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用 需要智能Web代理根据用户个人的需要裁减信息内容的应用 E-MAIL:BXXHSSINA.COM7.1 Web数据挖掘7.1.2 Web挖掘分类Web挖掘Web content mining(Web内容挖掘)Web structure mining(Web结构挖掘)W

26、eb usage mining(Web访问挖掘)Search result mining(搜索结果再挖掘)General access pattern tracking(一般访问模式跟踪)Customized usage tracking(定制的使用跟踪)Web page content mining(Web页面内容挖掘)图7.1 Web挖掘分类 E-MAIL:BXXHSSINA.COMWeb挖掘三种方法比较 Web内容挖掘Web构挖掘Web挖掘理数据型IR方法数据方法Web构挖掘用 挖掘无构和半构化数据半构化数据主要数据自由文本、HTML的超文本HTML的超文本文档内及文档的超接Server

27、log,proxy serverlog,client log表示方法集、段落、概念、IR的三种典模型OEM 关系关系表、理方法TFIDF、机器学、自然言理解数据技机器学、有算法(如HITS pagerank)、机器学、关主要用分、聚、模式模式、数据向、多数据、站点建与面重分聚、模式用个性化、自适Web站点、商决策 E-MAIL:BXXHSSINA.COM7.1 Web数据挖掘vWeb挖掘的基本构架 访问者注册用户网站交易信息浏览信息数据库、数据仓库Web日志文件Web Serer中其他信息数据预处理模块结构数据挖掘模块Web挖掘的基本构架页面访问情况Web结构模式Web内容模式知识非结构数据挖

28、掘模块 E-MAIL:BXXHSSINA.COM7.1 Web数据挖掘7.1.3 Web内容挖掘v信息检索(information retrieve ,IR)方法 v数据库方法 7.1.4 Web结构挖掘vPage-Rank方法 7.1.5 Web访问挖掘v对Web日志进行清洗、过滤和转换以及剔除无关记录 v采用统计学、模式识别、人工智能、数据库数据挖掘等领域的成熟技术在Web的使用记录中挖掘知识 vWeb使用挖掘中的模式分析 E-MAIL:BXXHSSINA.COM7.1 Web数据挖掘7.1.6 利用Web日志的聚类算法v客户群体的模糊聚类算法 v用户访问兴趣的算法 v客户群体聚类的Ham

29、ming距离算法 v基于模糊理论的Web页面聚类算法 vWeb页面聚类的Hamming距离算法 E-MAIL:BXXHSSINA.COM7.1 Web数据挖掘电子商务中的Web挖掘v电子商务中Web挖掘的作用 v电子商务中Web挖掘的基本问题 v电子商务中的数据挖掘工具 文本信息挖掘工具 用户访问模式挖掘工具 用户导航行为挖掘工具 综合性的Web分析工具 E-MAIL:BXXHSSINA.COM7.2 空间群数据挖掘7.2.1 空间群数据挖掘概念 从空间数据中抽取隐含的知识、空间关系、空间及与非空间之间的有意义的特征或模式。 7.2.2 空间群数据挖掘分类 v空间检索 v空间拓扑叠加分析 v空

30、间模拟分析 E-MAIL:BXXHSSINA.COM7.2 空间群数据挖掘v7.2.3 空间数据挖掘的体系结构空间数据结构查询与优化原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象和属性抽取物理级底层特性处理设计图7.4 空间数据挖掘的体系结构对象级特征处理语义概念级处理用户空间数据处理 E-MAIL:BXXHSSINA.COM7.3多媒体数据挖掘7.3.1 多媒体数据挖掘的概念7.3.2 多媒体数据挖掘的分类v图像数据挖掘 v视频数据挖掘 v音频数据挖掘 E-MAIL:BXXHSSINA.COM7.3多媒体数据挖掘7.3.3 多媒体数据挖掘的体系结构原始数据媒体数据摄取媒

31、体编码存档浏览引擎分类特征抽取查询引擎工具交互式学习索引的生成用户图7.5 功能驱动的多媒体挖掘体系结构基于底层特性的索引与检索元数据与数据抽取原则的分析信息集成模式知识级处理语义级检索与索引领域知识模式知识对象级的索引与检索物理级底层特性处理设计图7.6 信息驱动的多媒体挖掘的结构对象级特征处理语义概念级处理用户多媒体处理 E-MAIL:BXXHSSINA.COM第8章 离群数据挖掘本章内容v离群数据挖掘概念v离群数据挖掘分类v离群数据挖掘算法v市场营销离群数据的特点 E-MAIL:BXXHSSINA.COM第8章 离群数据挖掘 8.1 离群数据挖掘的概念8.2 离群数据挖掘的分类v基于统计

32、学 v基于距离的方法 v基于偏移 v高维数据的离群数据探测 v基于规则的分类离群数据挖掘方法 v基于密度(density-based)的离群挖掘方法 E-MAIL:BXXHSSINA.COM8.3离群数据挖掘的算法8.3.1基于统计的方法8.3.2基于距离的离群数据方法基于距离的离群数据定义 基于距离的离群数据挖掘的算法分类及算法描述 基于距离的算法的改进 8.3.3 基于偏离的离群数据挖掘序列离群数据技术 OLAP数据立方体技术 E-MAIL:BXXHSSINA.COM8.3离群数据挖掘的算法v8.3.4 高维数据的离群数据挖掘v8.3.5 基于小波的离群数据挖掘 时序数据的离群数据挖掘 基

33、于聚类的离群数据CL() E-MAIL:BXXHSSINA.COM8.4市场营销离群数据挖掘8.4.1市场营销离群数据挖掘特点8.4.2 基于分形的市场营销离群数据挖掘模型v几个定义 E-MAIL:BXXHSSINA.COM第9章 数据挖掘语言与工具选择本章内容v9.1 数据挖掘语言及其标准化v9.2 数据挖掘研究热点v9.3 数据挖掘工具的选择 E-MAIL:BXXHSSINA.COM9.1 数据挖掘语言及其标准化v9.1.1 数据挖掘语言分类特点功能代表数据挖掘 言数据挖掘原五种原DMQL数据挖掘建模言基于XML的言文档型定、通用模式PMML通用数据挖掘言集成全面OLE DB for DM

34、 E-MAIL:BXXHSSINA.COM9.1 数据挖掘语言及其标准化9.1.1 数据挖掘语言分类v数据挖掘查询语言(5种数据挖掘原语定义)。 任务相关数据原语 被挖掘的知识的种类原语 背景知识原语 兴趣度测量原语 被发现模式的表示和可视化原语 E-MAIL:BXXHSSINA.COM9.1 数据挖掘语言及其标准化9.1.1 数据挖掘语言分类v数据挖掘建模语言 头文件(a header) 数据模式(a data schema)数据挖掘模式(a data mining schema)预言模型模式(a predictive model schema)预言模型定义(definitions for

35、predictive models)全体模型定义(definitions for ensembles of models) 选择和联合模型、全体模型的规则(rules for selecting and combining models and ensembles of models) 异常处理的规则(rules for exception handling) E-MAIL:BXXHSSINA.COM9.1 数据挖掘语言及其标准化9.1.1 数据挖掘语言分类v通用数据挖掘语言 数据挖掘模型(Data Mining Model,DMM)预言联接操作(Predication Join Operat

36、ion) OLE DB for DM模式行集合(Schema Rowsets) v9.1.2 分析与评价 E-MAIL:BXXHSSINA.COM9.2数据挖掘的研究热点 v网站的数据挖掘 v生物信息或基因的数据挖掘 v文本的数据挖掘 E-MAIL:BXXHSSINA.COM9.3 数据挖掘工具的选择9.3.1 评价数据挖掘工具的优劣指标v数据准备 v数据访问 v算法与建模 v模型的评价和解释 v用户界面 E-MAIL:BXXHSSINA.COM9.3 数据挖掘工具的选择9.3.2 通用数据挖掘产品与工具vPOLY ANALYST vIBM DB2 lntelligent Miner和并行可视

37、化探索者PVE vDB Miner vBO的Business Miner vSPSS股份公司(SPPS CHAID) vSAS研究所股份公司(SAS,JMP) vNeuralWare股份公司 v信息发现股份公司(IDIS) vRightPoint公司的数据挖掘工具DataCruncher vDataMind公司(DataMind专业版,DataMindCruncher)vPilot软件股份公司(Pilot 发现服务器) vAngoss国际有限公司(Knowledge SEEKER) vSilicon Graphics计算机系统公司(MineSet) v商务项目公司(商务挖掘器) vCognos

38、软件公司(Scenario) v思维机器公司(Darwin) . E-MAIL:BXXHSSINA.COM9.3 数据挖掘工具的选择9.3.3 国内的数据挖掘产品与工具v菲奈特一融通公司v广州华工明天科技有限公司 v复旦大学数据采掘工具ARMiner 9.3.4 数据可视化工具的选择v高级可视化系统公司(AVS/Express) vAlta分析股份蔼公司(NetMap) vBelmont 研究股份公司(CrossGraphs) v环境系统研究所(ESRI)股份公司 vMapInfo公司(MapInfo, SpatialWare) vSilicon Graphics计算机系统公司(MineSet

39、) E-MAIL:BXXHSSINA.COM9.3 数据挖掘工具的选择9.3.5数据挖掘网站与可获得的数据挖掘算法源代码v数据挖掘网站 知识发现挖掘网址:http:/ 数据挖掘网址:http:/www.cs.bham.ac.uk 太平洋西北神经网络国家实验室网址:http:/www.emsl.pnl.gou 技术保护-遗传算法网址:http:/www.pentagon-ai.army.mil/aic/overwatch George Mason大学遗传算法组网址:http:/www.cs.gmu.edu/research/gag 查找数据集Statlib(样本数据集)网址:http:/lib.

40、stat.cmu.edu/datasets 机器学习数据库仓储(样本数据集)网址:http:/222.census.govEdger网址:http:/edgar.stern.nyu.edu E-MAIL:BXXHSSINA.COM9.3 数据挖掘工具的选择9.3.5数据挖掘网站与可获得的数据挖掘算法源代码v源代码SGI源代码(MLC+)网址:http:/ 获取市场信息网址:http:/ 决策树算法源代码网址:http:/ftp.cs.oz.au/pub/ml/(patches) OC1决策树算法的源代码网址:http:/www.cs.jhu.edu/salzberg/,或者ftp.cs.jhu

41、.edu E-MAIL:BXXHSSINA.COM第10章 知识管理和知识管理系统本章内容v10.1 知识管理知识知识管理定义有效知识管理v10.2 知识管理系统知识管理共享条件知识管理共享困难知识管理激励机制知识管理体系结构 E-MAIL:BXXHSSINA.COM10.1 知识管理10.1.1 知识vknow-what vknow-why vknow-how vknow-who E-MAIL:BXXHSSINA.COM10.1 知识管理v10.1.2 知识管理定义KM是在适当的时候向合适的人取得正确的信息,以便更有效、更顺利地进行管理的能力 v10.1.3有效的知识管理 E-MAIL:BX

42、XHSSINA.COM10.2 知识管理系统v知识管理共享的条件软件硬件v知识管理共享的困难 E-MAIL:BXXHSSINA.COM10.2 知识管理系统v知识贡献的激励机制企业需要的知识k(a1,a2,a3an)企业有人知a1=1企业无人知a1=0企业有人知且企业以外的有人知a2=1企业有人知且企业以外的不知a2=0企业无人知且企业以外的有人知a2=1企业无人知且企业以外的无人知a2=0企业有人知且企业以外的竞争对手有人知a3=1企业有人知且企业以外的有人知但竞争对手不知a3=0企业无人知且企业以外的竞争对手知a3=1企业无人知且企业以外的竞争对手不知a3=0图10.1 企业知识树模型 E

43、-MAIL:BXXHSSINA.COM10.2 知识管理系统v知识管理的体系结构互动高低高特定客户知识数据库营销数据挖掘互动营销知识协同客户关系管理(KCCRM)篮子分析忠诚/奖励程序图10.2 基于知识的协同客户关系管理KCCRM E-MAIL:BXXHSSINA.COM知识管理的体系结构 知识获取(DM) 知识描述 知识共享 环境管理 知识存储 知识评价 知识源 数据库 Web 其他 知识发布 知识检索 知识贡献激励规则知识管理工具知识传递的方式 知识推荐图10.3 知识管理系统的体系结构 E-MAIL:BXXHSSINA.COMvIstitute Of MIS And LMS,wuse

44、() pOXLp7v0djZKylHSJr3WxBmHK6NJ2GhiBeFZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMeR4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGZ7R4I30kA1DkaGtgKQcWA3PtGZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHY

45、i2CHhI92tgKQcWA3PtGshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMeR4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMes02GshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMes02dLPqafkFGlzcvv2YiRQYHbhR8AI1LKULh3xvjDzkEAMGr8xbwF1bH1oIM30E7xp

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 网络技术 > 后端技术

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报