1、厦门理工学院2017 年专业学位硕士研究生复试考试专业课课程考试大纲一、 考试科目名称: 数据仓库与数据挖掘二、 招生专业(领域):电气工程 考查形式:考试要求:要求考生能比较全面的理解与掌握计算机数据库仓库的背景、基本概念和相关技术;熟练数据挖掘的基本概念和经典算法。具有一定的独立进行数据操纵及软件设计的水平。考试内容比例:问答题(100%)基本内容及范围:1、数据挖掘概述什么是数据挖掘?数据挖掘的目的、功能,知识发现过程;数据挖掘的多维视图:需要挖掘的数据,挖掘出的知识;数据挖掘的相关学科;数据挖掘的相关应用;2、数据类型和描述实例与特征的关系;特征数据的类型(标称变量、分类变量、序数变量
2、、区间变量、比例变量,二值变量,对称变量);数据的基本统计描述,评估中心趋势的指标,数据分散度评估指标,数据的五数概括法,基本统计描述图形(盒图、直方图、分位数图、Q-Q 图) ;数据可视化方法的分类;数据相似性和相异性评估指标3、数据预处理数据质量的评价方法,数据预处理的主要任务,数据清洗的原因、过程和常见方法,数据集成的方法和常见问题,相关分析的常见算法(卡方检验、相关系数、协方差) ,数据规约策略及常见方法(主成分分析、属性子集选择、回归模型、log-linear 模型、抽样、数据立方体聚集) ,数据归一化和离散化的常见方法4、数据仓库和联机分析处理数据仓库的定义和特征,OLAP 与 O
3、LTP 的区别和联系,数据仓库的多层体系结构;ETL 操作的含义,数据立方体含义,数据仓库数据模型的类型:星型、雪花型、事实星座型;OLAP 服务器的类型,典型的 OLAP 操作,数据立方体的高效实现方案5、关联规则挖掘关联规则挖掘的目的、应用场景及缺点;支持度和置信度的定义和计算;Apriori性质;Apriori 算法的过程及改进;FPGrowth 算法的过程及 FP-tree 的构建方法;关联规则的评价方法和度量,零不变的模式评估指标;6、分类有监督学习与无监督学习的区别和联系,分类与数值预测的区别,分类的步骤,信息熵的含义及计算公式;ID3 算法的过程;增益率的计算;C4.5 算法与
4、ID3 算法的关系;CART 算法与 ID3 算法的不同点;GINI 指数的含义及计算公式;CART 算法的步骤;前剪枝与后剪枝;子树置换与子树提升的含义;贝叶斯定理和基于贝叶斯定理的推测方法,朴素贝叶斯分类器的用法及问题,避免零概率问题的常见方法;常见的基于规则的分类方法,顺序覆盖方法的过程及与决策树相比的优缺点,数据的保持方法(留一法、轮转法、自助法) ,代价敏感的学习的含义;混淆矩阵的含义;准确率、灵敏性、特效性、查全率、查准率、F-measure、Kappa 系数、反馈率和精确率的定义;常见的模式评估指标;零不变的模式评估指标;ROC 曲线的含义及绘制;最小描述长度(MDL)的含义;模
5、型组合(Bagging、Boosting、Ensemble 方法的区别与联系)7、高级分类算法后向传播分类算法过程和应用,神经网络的优缺点,支持向量机的原理和优缺点,支持向量机与神经网络的比较,常见的懒学习器,9、聚类分析聚类分析的含义及应用范围;传统聚类方法的基本类型(划分算法、层次算法) ;聚类算法的期望特征;层次聚类的优缺点;离群值的定义和基本的检测方法;K-均值(k-means)聚类的含义、目标函数及步骤;k-均值聚类的优点和缺点;k-中心点算法的含义及步骤;现代聚类方法的类型(层次方法、划分方法、基于密度的方法、基于网格的方法、基于模型的方法) ;常见的层次方法(BIRCH、CURE 和ROCK) ;常见的划分方法(k-均值、PAM、CLARA、CLARANS 和 k-众数) ;常见的基于密度方法(DENCLUE、DBSCAN、OPTICS) ;常见的基于网格的方法(STING、小波聚类) ;常见的基于模型的方法(COBWEB、CLASSIT、AutoClass、竞争学习和自组织映射)参考教材:1、数据挖掘概念与技术(第 3 版)机械工业出版社 韩家炜等著 2、数据挖掘:实用机器学习工具与技术(第 3 版) 机械工业出版社 Ian H.Witten 等著3、数据挖掘基础教程 机械工业出版社 K. P. Soman 等著