1、amp;nbsp; 4、Apache Storm 5、Apache Knox 6、Apache Solr 7、Apache Kafka 8、YARN对于上面那些受支持的 Hadoop 组件,Ranger 通过访问控制策略提供了一种标准的授权方法。作为标准,Ranger提供了一种集中式的组件,用于审计用户的访问行为和管理组件间的安全交互行为。Ranger 使用了一种基于属性的方法定义和强制实施安全策略。当
2、与 Apache Hadoop 的数据治理解决方案和元数据仓储组件Apache Atlas一起使用时,它可以定义一种基于标签的安全服务,通过使用标签对文件和数据资产进行分类,并控制用户和用户组对一系列标签的访问。Ranger 的总体架构如下图所示,主要由以下三个组件构成: 1、AdminServer: 以RESTFUL形式提供策略的增删改查接口,同时内置一个Web管理页面。 2、AgentPlugin: 嵌入到各系统执行流程中,定期从AdminServer拉取策略,根据策略执行访问决策树,并且定期记录访
3、问审计。插件的实现原理将在后文详细介绍。 3、UserSync: 定期从LDAP/File中加载用户,上报给AdminServer。整个过程如下:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopApache Ranger 官方网址:https:/ranger.apache.org/Apache Metron:实时网络安全检测框架Apache Metron 是一个网络安全的实时数据处理、分析、查询、可视化框架。Metron 集成了各种开源大数据技术,为安全监控和分析提供了集中工具。 M
4、etron 拥有支持大规模摄取、处理、检索与信息可视化的所有适当元素,一些关键的网络数据将推动数据保护、监控、分析与检测,并且有助于对恶意的非法行为予以回应。该项目最早可溯源至Cisco的开源大数据系统安全框架项目OpenSOC。Apache Metron 的主要功能包括: 1、可扩展的接收器和分析器能够监视任何Telemetry数据源 2、是一个扩展性很强的框架,且支持各种Telemetry数据流 3、支持对Telemetry数据流的异常检测和基于规则实时
5、告警 4、通过预设时间使用Hadoop存储Telemetry的数据流 5、支持使用ElasticSearch实现自动化实时索引Telemetry数据流 6、支持使用Hive利用SQL查询存储在hadoop中的数据 7、能够兼容ODBC/JDBC和继承已有的分析工具 8、具有丰富的分析应用,且能够集成已有的分析工具 9、支持
6、实时的Telemetry搜索和跨Telemetry的匹配 10、支持自动生成报告、和异常报警 11、支持原数据包的抓取、存储、重组 12、支持数据驱动的安全模型Apache Metron 官方网址:https:/metron.apache.org/Apache SystemML:为大数据优化的声明式机器学习平台Apache SystemML 是由 IBM 开发并开源的优化大数据机器学习平台,为使用大数据的机器学习提供了最佳的工作场所。 它可以在 Apache
7、 Spark上运行,会自动缩放数据,逐行确定代码是否应在驱动程序或 Apache Spark 群集上运行。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopSystemML 是声明式机器学习 (DML),包含线性代数原语,统计功能和 ML 指定结构,可以更容易也更原生的表达 ML 算法。算法通过 R 类型或者 Python 类型的语法进行表达。DML 通过提供灵活的定制分析表达和独立于底层输入格式和物理数据表示的数据显著提升数据科学的生产力。其次,SystemML 提供自动优化功能,通过数据和集群特性保证高效和可伸缩。System
8、ML 可以在 MapReduce 或者 Spark 环境运行。Apache SystemML 目前支持的机器学习算法有: 1、描述性统计 Descriptive Statistics该类中的算法用于描述数据集的主要特征。它们提供了对不同观察或数据记录计算的有意义的摘要收集在研究中。这些摘要通常构成初步数据探索的基础,作为其中的一部分更广泛的统计分析。 1>、单变量统计 Univariate Statistics 2>、双变量统计 Bivariate Statistics &nb
9、sp;3>、分层双变量统计 Stratified Bivariate Statistics2、分类 Classification该类中的算法用于基于一些预定义的类或对象对数据进行分组。这是监督学习的特点。分类算法的一个例子是将社交媒体的评论分为正面评价,负面评价或中立评价。 1>、二进制类支持向量机 Binary-Class Support Vector Machines 2>、多类支持向量机 Multi-Class Support Vector Machines 3>、多项 Logistic 回归
10、 Multinomial Logistic Regression 4>、支持向量机 Support Vector Machines 5>、朴素贝叶斯 Naive Bayes 6>、决策树 Decision Trees 7>、随机森林 Random Forests3、聚类 Clustering聚类是一种无监督的学习类算法。数据集中没有预定义的类 -算法在数据中找到关系。聚类算法将数据排列或聚类成若干数量的逻辑组。例如,确定商店客户的购买模式。 1>
11、、K 均值聚类 K-Means Clustering回归 Regression回归是另一类监督学习算法。该数据集中的目标变量是连续的。股票市场预测是回归算法的一个例子。这里的股票价格是目标变量,或者是我们想预测的,而且每天都有变化。 1>、线性回归 Linear Regression 2>、逐步线性回归 Stepwise Linear Regression 3>、广义线性模型 Generalized Linear Models 4>、逐步广义线性回归 Stepwise Gen
12、eralized Linear Regression 5>、回归计分与预测 Regression Scoring and Prediction矩阵分解 Matrix Factorization矩阵分解算法用于发现嵌入在不同实体之间的交互中的潜在特征。它们利用多个矩阵,当它们相乘时,生成一个类似于原先矩阵的新矩阵。亚马逊和 Netflix 使用矩阵因式分解算法来提出产品建议。例如每行代表您的一个客户,每列表示您的一个产品,矩阵是大而稀疏的。因此,每个单元代表由特定客户购买的特定产品。该矩阵首先填充历史数据,然后将原始矩阵分解为"产品因素"和&qu
13、ot;客户因素"两个因素。通过将这两个因子相乘在一起,我们产生添加到矩阵中的新的非零值。这些新的非零值表示产品建议。 1>、主成分分析 Principal Component Analysis 2>、通过交替最小化完成矩阵 Matrix Completion via Alternating Minimizations生存分析 Survival Analysis生存分析检查感兴趣的特定事件发生所需的时间。换句话说,它们用于估计生存概率。例如,在医学研究中,原型的这种事件是患者的死亡,但是该方法可以应用于其他应用领域,例如在心理
14、实验中完成个人的任务或者在工程中的电气部件的故障。 1>、Kaplan-Meier 生存分析 Kaplan-Meier Survival Analysis 2>、Cox 比例风险回归模型 Cox Proportional Hazard Regression ModelApache SystemML 官方网址:https:/systemml.apache.org/Apache CarbonData:列式存储文件格式Apache CarbonData 是由华为开发、开源并支持 Apache Hadoop 的列式存储文件格式,支持索引
15、、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。Apache CarbonData 文件格式是基于列式存储的,并存储在HDFS之上;其包含了现有列式存储文件格式的许多有点,比如:可分割、可压缩、支持复杂数据类型等;并且CarbonData为了解决上面5点要求,加入了许多独特的特性,主要概括为以下四点: 1、存储数据及其索引:在有过滤的查询中,它可以显著地加速查询性能,减少I/O和CPU资源。CarbonData的索引由多级索引组成,处理框架可以利用这些索引信息来减少调度和一些处理的开销;在任务扫描数据的时候它可
16、以仅仅扫描更细粒度的单元(称为blocklet),而不需要扫描整个文件。 2、可操作的编码数据:通过支持高效的压缩和全局编码模式,它可以直接在压缩或者编码的数据上查询,仅仅在需要返回结果的时候才进行转换,这种技术被称为late materialized。 3、列组:支持多列组成一个列组,并且使用行格式进行存储,这减少了查询时行重建的开销。 4、支持多种使用场景:比如支持类OLAP风格的交互式查询、顺序存取、随机访问等。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopApache CarbonData 官方网址:https:/carbondata.apache.org/h2 style=margin: 20px -20px 20px -24px; line-height: 18px; text-rendering: optimizelegibility; font-size: 18px; padding: 10px 20px 9px 10px; border-left-width: 4px; border-left-color: rgb(0, 166, 124); b