1、大数据时代要了解的一些问题从 2014 年开始,大数据备受整个社会的关注!不管是从政府层面,还是到企业层面,对大数据的关注以及研究都是非常火热的!不过,很多人尽管听说了大数据这个东西,但是对这个领域仍然很陌生!下面这篇文章,有助于大数据了解大数据! 1、云计算与大数据是什么关系? 大数据云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过 google 后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。 大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今
2、互联网时代所产生的海量数据,如何有效的利用分析这些数据等等 他俩之间的关系你可以这样来理解,云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的。 两者关系: 首先,云计算是提取大数据的前提。 信息社会,数据量在不断增长,技术在不断进步,大部分企业都能通过大数据获得额外利益。在海量数据的前提下,如果提取、处理和利用数据的成本超过了数据价值本身,那么有价值相当于没价值。来自公有云、私有云以及混合云之上的强大的云计算能力,对于降低数据提取过程中的成本不可或缺。 其次,云计算是过滤无用信息的“神器”。 首次收集的数据中,一般而言,90%属于无用数据,因此
3、需要过滤出能为企业提供经济利益的可用数据。在大量无用数据中,重点需过滤出两大类,一是大量存储着的临时信息,几乎不存在投入必要;二是从公司防火墙外部接入到内部的网络数据,价值极低。云计算可以提供按需扩展的计算和存储资源,可用来过滤掉无用数据,其中公有云是处理防火墙外部网络数据的最佳选择。 再次,云计算可高效分析数据。 数据分析阶段,可引入公有云和混合云技术,此外,类似 Hadoop 的分布式处理软件平台可用于数据集中处理阶段。当完成数据分析后,提供分析的原始数据不需要一直保留,可以使用私有云把分析处理结果,即可用信息导入公司内部。 最后,云计算助力企业管理虚拟化。 可用信息最终用来指导决策,通过
4、将软件即服务应用于云平台中,可将可用信息转化到企业现有系统中,帮助企业强化管理模式。 上升到我国互联网整体发展层面,虽然我国在互联网服务方面具有领先的优势,然而,越来越多的企业认识到,与云计算的结合将使大数据分析变得更简单,未来几年,如能在大数据与云计算结合领域进行深入探索,将使我们在全球市场更具竞争力,这是非常关键的问题。 2、大数据需要什么人才? 大数据大数据需要以下六类人才: 大数据系统研发工程师 这一专业人才负责大数据系统研发,包括大规模非结构化数据业务模型构建、大数据存储、数据库构设、优化数据库构架、解决数据库中心设计等,同时,还要负责数据集群的日常运作和系统的监测等,这一类人才是任
5、何构设大数据系统的机构都必须的。 大数据应用开发工程师 此类人才负责搭建大数据应用平台以及开发分析应用程序,他们必须熟悉工具或算法、编程、优化以及部署不同的 MapReduce,他们研发各种基于大数据技术的应用程序及行业解决方案。其中,ETL 开发者是很抢手的人才,他们所做的是从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要,将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库,成为联机分析处理、数据挖掘的基础,为提取各类型的需要数据创造条件。 大数据分析师 此类人才主要从事数据挖掘工作,运用算法来解决和分析问题,让数据显露出
6、真相,同时,他们还推动数据解决方案的不断更新。随着数据集规模不断增大,企业对 Hadoop 及相关的廉价数据处理技术如Hive、HBase、MapReduce、Pig 等的需求将持续增长,具备 Hadoop 框架经验的技术人员是最抢手的大数据人才,他们所从事的是热门的分析师工作。 数据可视化工程师 此类人才负责在收集到的高质量数据中,利用图形化的工具及手段的应用,清楚地揭示数据中的复杂信息,帮助用户更好地进行大数据应用开发,如果能使用新型数据可视化工具如 Spotifre,Qlikview 和 Tableau,那么,就成为很受欢迎的人才。 数据安全研发人才 此类人才主要负责企业内部大型服务器、
7、存储、数据安全管理工作,并对网络、信息安全项目进行规划、设计和实施,而对于数据安全方面的具体技术的人才就更需要了,如果数据安全技术,同时又具有较强的管理经验,能有效地保证大数据构设和应用单位的数据安全,那就是抢手的人才 数据科学研究人才 数据科学研究是一个全新的工作,够将单位、企业的数据和技术转化为有用的商业价值,随着大数据时代的到来,越来越多的工作、事务直接涉及或针对数据,这就需要有数据科学方面的研究专家来进行研究,通过研究,他们能将数据分析结果解释给 IT 部门和业务部门管理者听,数据科学专家是联通海量数据和管理者之间的桥梁,需要有数据专业、分析师能力和管理者的知识,这也是抢手的人才。 3
8、、大数据行业的从业者是从哪获得数据的? 大数据大数据行业的从业者有多种途径获得数据,也就是我们常说的数据源,具体有一下几种: 1、官方数据(政府部门或企业直接提供的数据或数据接口); 2、半官方数据:如各类行业协会,俱乐部; 3、各个平台的数据:如淘宝网、京东、唯品会,有些会免费开发数据,还有一部分是付费的数据软件; 4、再然后就是从业者自己收集的数据,一般都是用一些数据采集工具或软件,工具如:爬虫软件,百度蜘蛛等; 5、最后就是购买的数据,一般有一些专门数据采集的机构,像像艾瑞、浪潮,以及传统的调研企业。 数据的获取方式有很多种,同样,数据的使用方式也有很多种,比如说行业销售趋势,有人用销售
9、额数据,有人用销量数据。数据就像一个任人打扮的姑娘,使用的人会选取自己想要的数据来展示,所以考量数据的真实性,一个是数据来源,还有就是数据的选择是否合理。 4、大数据分析的常用方法有哪些? 大数据 1. Analytic Visualizations(可视化分析) 不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。 2. Data Mining Algorithms(数据挖掘算法) 可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的
10、量,也要处理大数据的速度。 3. Predictive Analytic Capabilities(预测性分析能力) 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。 4. Semantic Engines(语义引擎) 由于非结构化数据的多样性带来了数据分析的新的挑战,需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。 5. Data Quality and Master Data Management(数据质量和数据管理) 数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具
11、对数据进行处理可以保证一个预先定义好的高质量的分析结果。 5、央行征信和大数据征信的不同之处 大数据 1、确实有不同之处,央行征信是传统征信方式,大数据征信是伴随互联网金融发展起来的。 2、央行征信与大数据征信差异主要从征信数据来源、权威性、数据完整性、用途等维度区分。 3、央行征信特点:数据主要来自银行、证券、保险、社保等体系里构成一个数据循环,权威性高,数据基本完整,主要用于资产评估、银行放贷、信用卡额度等。 5、大数据征信特点:数据主要来自互联网各大平台,使用互联网技术抓取或接口合作获取征信数据,资质再好一点的企业可以申请接入央行征信,权威性不如央行征信,但随着互联网金融的发展会越来越重
12、要,数据完整性各大数据征信平台不同,主要用于互联网金融,例如 P2P,如果 p2p 拿不到央行征信数据风险会很大。 6、展望未来:随着互联网金融的发展,大数据征信与央行征信会不断融合直至融为一体,真正的满足数据的完整性,那违法犯罪基本就真的大大减少了,信用真的就是钱! 6、如何构建银行业大数据分析平台? 大数据一是银行与电商平台形成战略合作。银行业共享小微企业在电商平台上的经营数据和经营者的个人信息,由电商平台向银行推荐有贷款意向的优质企业,银行通过交易流水、买卖双方评价等信息,确定企业资信水平,给予授信额度。建设银行曾在这方面做过有益的尝试。此外也有银行参股电商、开展数据合作的案例。 二是银
13、行自主搭建电商平台。银行自建电商平台,获得数据资源的独立话语权。在为客户提供增值服务的同时,获得客户的动态商业信息,为发展小微信贷奠定基础,是银行搭建电商平台的驱动力。2012 年,建设银行率先上线“善融商务”,提供 B2B 和 B2C 客户操作模式,涵盖商品批发、商品零售、房屋交易等领域,为客户提供信息发布、交易撮合、社区服务、在线财务管理、在线客服等配套服务,提供的金融服务已从支付结算、托管、担保扩展到对商户和消费者线上融资服务的全过程。 三是银行建立第三方数据分析中介,专门挖掘金融数据。例如,有的银行将其与电商平台一对一的合作扩展为“三方合作”,在银行与电商之间,加入第三方公司来负责数据
14、的对接,为银行及其子公司提供数据分析挖掘的增值服务。其核心是对客户的交易数据进行分析,准确预测客户短时间内的消费和交易需求,从而精准掌握客户的信贷需求和其他金融服务需求。 银行业有处理数据的经验和人才。数据分析和计量模型技术在传统数据领域已得到较充分运用,同时也培养出大批精通计量分析技术的人才。如在风险管理方面,我国金融监管部门在与国际接轨过程中,引入巴塞尔新资本协议等国际准则,为银行业提供了一套风险管理工具体系。银行在此框架下,利用历史数据测度信用、市场、操作、流动性等各类风险,内部评级相关技术工具已发挥出效果,广泛应用于贷款评估、客户准入退出、授信审批、产品定价、风险分类、经济资本管理、绩
15、效考核等重要领域。 7、为什么需要大数据技术? 大数据大数据到底是什么?我们为什么需要大数据技术? Mike Jude:从本质上来说,大数据就是曾经被称为数据仓库的逻辑延伸。顾名思义,大数据就是一个大型的数据仓库,一般有一个能支持业务决策的业务重点。但是,它和传统数据库不同的是,大数据不用构建。 在典型的数据库中,数据会被组织成标准的字段,并使用特定的密钥索引。如果你熟悉 Microsoft Access 应用程序,那么你就能完全理解这个概念。比如,一个顾客记录可以由姓氏、名字、地址和其它信息组成有通用标签的字段。每个顾客记录样式都是相同的,这样可以通过使用搜索关键词来检索,比如搜索姓氏。 现
16、在,如果你想链接到这些客户记录需要怎么做?链接到客户的图片或者视频呢?如果是链接到客户的所有记录呢? 将这么多不同的数据源互相映射,一般的数据库还做不到。另外,需要链接的数据量是非常巨大的。这就产生了“大数据”的概念。大数据使用特殊的数据结构来组织和访问巨大数量的数据,可能达到多个艾字节的范围。一般情况下,这需要跨多个服务器和离散数据存储进行并行计算,而小企业往往难以维持这种大数据的存储库。但是,大数据正逐渐成为云服务提供商能提供的一种服务,从而把大数据应用推向更多的公司。 但是,还有一个“大”问题,就是我们为什么需要大数据?答案就是相关性的价值。如果你能看到乍一看似乎没什么关系的数据设置之间
17、的关系,你会获取很多重要信息。比如你想知道你的公司是不是容易被黑客利用。那么你需要跨多个应用程序和数据中心检查无数条交易。这时如果没有大数据技术和相关的分析技术,这几乎是不可能完成的。 最终,随着数据量的增长、业务的可用性和重要性的增加,大数据的定义可能会用来描述大多数数据库应用。IT 专业人士应该掌握大数据相关概念和术语,以免遇到困难。 8、企业大数据如何起步? 大数据大数据应该是从小数据逐渐演变上去的,是一个正常的生态,而不是瞬间变化的。 大数据这个概念跟自媒体的概念类似,需要企业自己去建设,而不是从一开始就想着依靠别人。很多企业在谈自媒体的时候,像谈别人的事情一样。比如一谈自媒体,就觉得
18、那是第三方提供的一个平台,大家在那儿发发牢骚。自媒体是自己的媒体,企业自己也要参与进去。同样大数据不是别人的大数据,我们假设有一个第三方提供了大量的数据,有很多很多信息,CI、BI 之类的很多模块化东西供我们来用。如果这样的话,你有,竞争对手也有,你能得到的东西,竞争对手也能得到的情况下,就不能称之为核心竞争力。 大数据作为企业来说要变成自身的一个竞争力,企业必须得建立自己的企业级的数据。 要做大数据,首先要了解自己的企业,或者自己所在的行业的核心是什么。我们现在经常发现,有很多企业在竞争的过程中,最终不是被现在的竞争对手打败,而是被很多不是你的竞争对手所打败。很简单的一个例子,大家都认为亚马逊是做电商的,但这是错的,它现在最主要的收入来自于云(云服务)。也就是说企业需要找到自己的核心数据(价值),这个是最关键的。只有在这个基础上,建立自己的大数据才有可能,才能做一些延伸。其次,要找到内部的一些外围相关数据,去慢慢地成长它。有点像滚雪球,第一层是核心,第二层是外围相关的数据。第三层是什么?就是外部机构的一些结构化数据。第四层是社会化的,以及各种现在所谓的非结构化的数据。这几层要一层一层地找到它,而且要找到与自己相关的有价值的东西。这样你的大数据才能建立起来。第一步,找到核心数据。核心数据现在对很多企业来说实际上就是 CRM,自己的用户系统,这是最重要的。