互联网大数据ppt第5章如何利用关联规则进行大数据挖掘.pptx

资源描述

1、第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.2 关联规则挖掘实战流程分析5.3 关联规则发掘中重要的Apriori算法5.4 针对Apriori算法缺点的其他关联规则挖掘算法5.1 关联规则5.1.1 什么是关联规则关联规则是形如XY的蕴含式，其中，X和Y分别称为关联规则的先导(Antecedent或Left-Hand-Side，LHS)和后继(Consequent或Right-Hand-Side，RHS)。其中，关联规则XY，存在支持度和信任度。关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多地了解顾客的购物习惯

2、，特别是想知道哪些商品顾客可能会在一次购物时同时购买。为解决这个问题，可对顾客购物篮中的不同物品进行关联分析，得出顾客的购物习惯。这种关联的发现可以了解到顾客喜好购买商品的类型，从而帮助零售商开发出更好的营销策略，来应对客户的需求。第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.1.2 关联规则挖掘的应用场景关联规则挖掘技术目前主要应用领域包括金融行业、市场数据分析(从庞大复杂的市场数据中筛选有用信息，从而用于市场的经营)、电商行业(电子商务网站使用关联规则中的规则进行挖掘，然后设置用户有意要一起购买的捆绑包，同时可使用它们设置相应的交叉销售。也就是向购买某种商品的顾客推荐相关的另外一

3、种商品)等。关联规则挖掘的应用场景主要包括以下一些。1.银行营销方案推荐在西方金融行业中已广泛应用到关联规范挖掘的技术，它能提前预测出银行客户的需求。2.穿衣搭配推荐基于搭配专家和达人生成的搭配组合数据、千百万级别的商品的文本和图像数据，以及用户的行为数据，期待能从以上行为、文本和图像数据中挖掘穿衣搭配模型，为用户提供个性化、优质的、专业的穿衣搭配方案，预测给定商品的搭配商品集合。第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.1.2 关联规则挖掘的应用场景3.互联网情绪指标和生猪价格的关联关系挖掘和预测生猪价格变动的主要原因在于受市场供求关系的影响。基于大量的数据基础，挖掘出互联网情

4、绪指标与生猪价格之间的关联关系，从而形成基于互联网数据的生猪价格预测模型，挖掘互联网情绪指标与生猪价格之间的关联关系。4.依据用户轨迹的商户精准营销我们根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系，然后根据用户在某一段时间内的位置数据，判断用户进入该商户地位范围300米内，则对用户推送符合该用户画像的商户位置和其他优惠信息。第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.1.2 关联规则挖掘的应用场景5.地点推荐系统可以利用用户的签到记录和地点的位置、类别等信息，为每个用户推荐感兴趣的地点。6.气象关联分析为了更深入地挖掘气象资源的价值，可基于过去一些年的地

5、面历史气象数据，推动气象数据与其他各行各业数据的有效结合，寻求气象要素之间及气象与其他事物之间的相互关系，让气象数据发挥更多元化的价值。7.交通事故成因分析挖掘交通事故的潜在诱因，带动公众关注交通安全，现在部分城市开放交通事故数据及多维度参考数据，希望通过对事故类型、事故人员、事故车辆、事故天气、驾照信息、驾驶人员犯罪记录数据以及其他和交通事故有关的数据进行深度挖掘，形成交通事故成因分析方案。第5章如何利用关联规则进行大数据挖掘5.1 关联规则5.1.2 关联规则挖掘的应用场景8.基于兴趣的实时新闻推荐通过对带有时间标记的用户浏览行为和新闻文本内容进行分析，挖掘用户的新闻浏览模式和变化规律，设

6、计及时准确的推荐系统预测用户未来可能感兴趣的新闻。9.银行金融客户交叉销售分析某商业银行试图通过对个人客户购买本银行金融产品的数据进行分析，从而发现交叉销售的机会，这就是银行金融客户交叉销售的应用体现。10.电子商务搭配购买推荐购买某种商品的顾客会看到相关的另外一种商品的广告。第5章如何利用关联规则进行大数据挖掘5.2 关联规则挖掘实战流程分析5.2.1 关联规则常见分类与四个基本属性1.关联规则的常见分类关联规则常见分类包括以下几种。(1)基于规则中处理的变量的类别，关联规则可分为布尔型和数值型。(2)基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。(3)基于规则中涉及的数据的

7、维数，关联规则中的数据可以分为单维的和多维的。第5章如何利用关联规则进行大数据挖掘5.2 关联规则挖掘实战流程分析5.2.1 关联规则常见分类与四个基本属性2.关联规则的四个基本属性关联规则的四个基本属性具体如下。(1)置信度(Condifence)。置信度用来衡量规则的可信程度。(2)支持度(Support)。支持度用来表示项目集在数据库中的出现频率。(3)期望可信度(Expected Confidence)。假设W中有e%的事务支持物品集B，那么e%称为关联规则的期望可信度。(4)作用度(Lift)。作用度是可信度与期望可信度的比值，描述的是物品集A的出现对物品集B的出现有多大影响。第5章

8、如何利用关联规则进行大数据挖掘5.2 关联规则挖掘实战流程分析5.2.2 快速找出最大高频项目组的实战技巧MFSA(Maximum Frequent Itemset Algorithm)算法是集合Parameterised算法与Pincer-Search算法的优点，它可以快速找到最大高频项目组，并更进一步改善效能。第5章如何利用关联规则进行大数据挖掘MFSA算法概念图第5章如何利用关联规则进行大数据挖掘MFSA算法中出现的符号说明符号说明T出现次数加总表(sum table)sup最小支持度阈值MFCI最大候选项目组集合MFS最大高频项目组集合inf非高频项目组tf代表单一项目中某一事务长

9、度的出现频率阈值tt代表利用出现次数加总表数据预测候选项目组时，只进行到事务长度为m的事务数据以预测高频候选项目组或非高频候选项目组n每次搜寻的层级数Ck候选k项目组Lk高频k项目组5.3 关联规则发掘中重要的Apriori算法5.3.1 Apriori算法的基本原理Apriori算法作为挖掘数据关联规则的算法，它用来找出数据值中频繁出现的数据集合，找出这些集合的模式有助于我们做一些决策。1.频繁项集的评估标准频繁项集的评估标准主要用来确定某两个或多个记录是否构成频繁项集。常用的频繁项集的评估标准有支持度、置信度和提升度3个。(1)支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重，

10、或者说几个数据关联出现的概率。(2)置信度体现了一个数据出现后，另一个数据出现的概率，或者说数据的条件概率。(3)提升度表示含有Y的条件下，同时含有X的概率，与X总体发生的概率之比。第5章如何利用关联规则进行大数据挖掘5.3 关联规则发掘中重要的Apriori算法5.3.1 Apriori算法的基本原理2.Apriori算法的思想Apriori算法的目标是找到最大的k项频繁集。两层意思：要找到符合支持度标准的频繁集，但是这样的频繁集可能有很多；要找到最大个数的频繁集。Apriori算法挖掘k项频繁集采用的是迭代的方法，具体步骤如下：(1)先搜索出候选1项集及对应的支持度，剪枝去掉低于支持度的1

11、项集，得到频繁1项集。(2)对剩下的频繁1项集进行连接，得到候选的频繁2项集，筛选去掉低于支持度的候选频繁2项集，得到真正的频繁2项集。(3)以此类推，迭代下去，直到无法找到频繁k+1项集为止，对应的频繁k项集的集合即为算法的输出结果。第5章如何利用关联规则进行大数据挖掘5.3 关联规则发掘中重要的Apriori算法5.3.2 Apriori算法运行的基本流程Apriori算法的流程包括输入和输出，说明如下。输入：数据集合D，支持度阈值。输出：最大的频繁k项集。第5章如何利用关联规则进行大数据挖掘Apriori算法运行的基本流程5.4 针对Apriori算法缺点的其他关联规则挖掘算法5.4.1

12、 Apriori算法的两大缺点Apriori算法的缺点有以下两点：(1)在每一步产生候选项目集时循环产生的组合过多，没有排除不应该参与组合的元素；(2)每次计算项集的支持度时，都对数据库中的全部记录进行了一遍扫描比较，需要很大的I/O负载。第5章如何利用关联规则进行大数据挖掘5.4 针对Apriori算法缺点的其他关联规则挖掘算法5.4.2 基于划分规则的算法1.快速排序(quickSort)方法快速排序的核心是对无序向量进行快速划分，选取一个元素作为轴点(pivot)对向量进行划分，确保比轴点大的元素在轴点之后，比轴点小的元素在轴点之前，将原向量划分为两个子向量。2.三划分方法三划分方法是将

13、向量快速划分为三块进行排序。第5章如何利用关联规则进行大数据挖掘5.4 针对Apriori算法缺点的其他关联规则挖掘算法5.4.3 FP-Growth算法1.算法的概念FP-Growth(Frequent Pattern-Growth)算法使用了一种紧缩的数据结构频繁模式树(Frequent Pattern Tree，简写为FP-Tree)来存储查找频繁项集所需要的全部信息。它与Apriori算法一样也是用来挖掘频繁项集的，不同的是，FP-Tree算法是Apriori算法的优化处理，它解决了Apriori算法在过程中会产生大量的候选集的问题，而FP-Tree算法则是发现频繁模式而不产生候选集。

14、但是，频繁模式挖掘出来后，产生关联规则的步骤和Apriori是一样的。第5章如何利用关联规则进行大数据挖掘5.4 针对Apriori算法缺点的其他关联规则挖掘算法5.4.3 FP-Growth算法2.算法的原理第5章如何利用关联规则进行大数据挖掘FP-Tree FP-Tree单路径的目标 FP-Tree I3下的递归构造FP-Tree后缀模式 5.4 针对Apriori算法缺点的其他关联规则挖掘算法5.4.3 FP-Growth算法3.算法的实现算法的实现过程如下。(1)输入数据。(2)在文件中的形式(3)算法的树节点类代码(4)算法主要实现类的代码第5章如何利用关联规则进行大数据挖掘5.

15、4 针对Apriori算法缺点的其他关联规则挖掘算法5.4.3 FP-Growth算法4.FP-Tree算法编码时的难点FP-Tree算法编码时的难点具体如下。(1)在构造树的时候要重新构建一棵树时，不能对原来的树做更改，在此期间用了老的树的对象，又造成了重复引用的问题，于是果断又新建了一个TreeNode，只把原树的name和count值拿了过来，父子节点关系完全重新构造。(2)在事务生产树的过程中，把事务映射到TreeNode数组中，然后过程就是加Node节点或者更新Node节点的count值，过程简单许多，也许会让人很难理解，但个人感觉这样比较方便。如果是String字符串数组的形式，中

16、间还要与TreeNode进行各种转化将更麻烦。(3)在计算条件模式基的时候，存放在了HashMapString,ArrayList map中，而不是弄成链表的形式，直接在生成树的时候就全部统计好。第5章如何利用关联规则进行大数据挖掘(4)此处算法用了两处递归：一是在添加树节点的时候，搜索要在哪个node上做添加的方法，即searchNode(TreeNode node,ArrayList list)；另一个是整个的buildFPTree()算法，这都不是很容易看明白的地方。5.FP-Tree算法的缺点FP-Tree算法在挖掘频繁模式的过程中与Apriori算法比较不产生候选集，比Apriori算法快不少，但整体上FP-Tree算法在时间和空间消耗的开销上还是比较大。第5章如何利用关联规则进行大数据挖掘感谢观看

展开阅读全文