1、第十六讲第十六讲 决策支持与人工智能:企业决策支持与人工智能:企业的智囊的智囊商务智能分析方法商务智能分析方法 统计分析 数据挖掘 人工智能统计分析 研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识。 客户的平均年龄?平均收入水平?销售额? 销售额是否与销售员的年龄、广告的强度等有密切关系?如果有关系,它们之间是什么关系?关系强度如何?数据挖掘:多功能分析 从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。知识形成过程数据信息知识商务智能行为案例:零售店的尿布与啤酒 购物篮分析:零售店的尿布与啤酒经常一起被销售 知识:啤酒和尿布摆放在一
2、起 零售店:周五晚上尿布销量在一周尿布销量总量中占很大比例 知识:促销尿布? 商务智能:谁买?为什么买?互补品? 知识:周五晚上在尿布附近促销啤酒!数据挖掘分类 关联分析:决定哪些事情将一起发生 分类:如信用卡申请者,分类为低、中、高风险;客户流失风险分析 聚类:对记录分组,把相似的记录在一个聚集里。客户细分,哪一种类的促销对客户响应最好?分类举例:决策树分类举例:决策树分类举例:决策树聚类假设 某银行拥有以下数据:1客户号;2储蓄账户余额;3活期账户余额;4投资账户余额;5日均交易次数;6信用卡支付模式;7是否有抵押贷款;8是否有赊账额度;9客户年龄;10客户性别;11客户婚姻状况;12客户
3、家庭情况(孩子数);13客户年收入;14客户是否拥有一辆以上小汽车;15客户流失状态。K-means聚类算法 人工智能:智能计算 人工神经网络 遗传算法 模拟退火算法 模糊数学 等等智能计算 也称 “算”,是受自然(生物界)律的启迪,根据其原理,模仿求解的算法。 从自然界得到启迪,模仿其构行明造,就是仿生学。是我向自然界学的一个方面。 另一方面,可以利用仿生原理行(包括算法),就是智能算的思想。 如人工神网技、算法、模退火算法等。 人工神经网络 指模拟人脑神经系统的结构和功能,运用大量的处理部件,由人工方式构造的网络系统 突破了传统的、线性处理的数字电子计算机的局限,是一个非线形动力学系统,并
4、以分布式存储和并行协同处理为特色 单个神经元的结构和功能极其简单有限,但是大量的神经元构成的网络系统所实现的行为却是极其丰富多彩的人工神经网络神经元隐藏单元人工神经网络隐藏层输出层输入层隐藏单元入藏出10+11A+ 12B+13C1+ 2AGE+ 3INCCOMBINATIONACTIVATIONtanh(1+ 2AGE+ 3INC) =A4+ 5AGE+ 6INCtanh(4+ 5AGE+ 6INC) =B7+ 8AGE+ 9INCtanh(7+ 8AGE+ 9INC)=CCOMBINATIONCOMBINATIONACTIVATIONCOMBINATIONACTIVATION年收入人工神经
5、网络规则:两个以上输入为1时,则输出为1人工神经网络人工神经网络人工神经网络训练神经网络即调整神经元的权重人工神网的应用神经网络的应用案例:银行信用卡持有者的年龄、收入和职业信用卡显示的大额购买额度大额购买次数大额购买交易地点良好的交易可能是欺诈性交易输入层隐藏层输出层遗传算法(Genetic Algorithm:GA) 遗传算法是一类通过模拟生物界自然选择和自然遗传机制的随机化搜索算法,由美国J.Holand教授于1975年首次提出。 它是利用某种编码技术作用于称为染色体的二进制数串,其基本思想是模拟由这些串组成的种群的进化过程,通过有组织地然而是随机地信息交换来重新组合那些适应性好的串 遗
6、传算法对求解问题的本身一无所知,它所需要的仅是对算法所产生的每个染色体进行评价,并根据适应性来选择染色体,使适应性好的染色体比适应性差的染色体有更多的繁殖机会。遗传操作 采用整数的二进制编码 x = 10111表示了16+4+2+1 = 23初始化种群计算适应度选择交叉变异停止条件最优个体是否遗传算法流程图 优点: 解决非线性最优化问题 可以简化复杂的目标函数以及制约条件 最优化过程相对简单 缺点: 不能很清楚地表示对那些部分进行了遗传运算 不能对数据进行可视化解释TSP问题位置编号X坐标Y坐标116.4796.1216.4794.44320.0992.54422.3993.37525.239
7、7.2462296.05720.4797.02817.296.29916.397.381014.0598.121116.5397.381221.5295.591319.4197.131420.0992.55TSP问题 随机路线为:4510111314181276329411710412914813523611187912251411146313108 总距离:71.1144TSP问题 最优解路线: 54314211091181371265 总距离:29.3405大数据 或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营
8、决策更积极目的的资讯。 大数据更准确的应该叫“大数据挖掘”大数据-资料一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于时代杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年
9、增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。大数据-案例 你开心他就买,你焦虑他就抛 华尔街“德温特资本市场”公司首席执行官保罗霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。 霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。 这一招收效显著今年第一季度,霍廷的公司获得了7%的收益率。演讲完毕,谢谢观看!