1、;一类新药; 2.国家依法实施保密的品种;中药一级保护品种;国家奖项品种; 3.过期专利药; 4.普通GMP药品和进口药品; 江苏1、专利保护药品;原研药品;单独定价药品;国家中药保密处方;优质优价 中成药;获得国家级奖项的药品; 2、化学药前100位、中成药前50位企业;国家监测器内一类新药;获得FDA认 证证书、欧盟从GMP认证证书、日本JGMP认证证书的制剂生产线生产并向相 应国家出口的国产药品;首仿药品; 3、其它GMP企业 1、保护期内的专利药品;国家级奖项药品;一类新药,国家中药保密处方,中药一级保护 品种 2、不在保护期内的专利药品,首次仿制专利的药品,通过质量一致性评价的仿制药
2、品,药 品注册分类第二类新药(监测期内) 3、排名靠前企业 4、其他通过GMP药品 青海1、专利药品(仅指化合物专利),原研制药品,监测(保护)期内国家一类 新药。 2、单独定价药品,2001年以来获得国家级奖励的药品,国家保密处方中成药, 优质优价中成药,中药保护品种,进口药品,新版GMP药品。 3、普通GMP药品。 1、国家重大新药创制科技重大专项药品;国家一类新药;国家保密处方中成药;获得国家 奖项产品;中药材GAP认证。 2、一致性评价药品;达到国际水平仿制药;首次仿制国外专利药品;过保护期的化合物专 利药品;规模企业药品。 3、其他 GMP 药品、进口药品非专利药 广西1、原研药品;
3、专利药品;中成药所用中药材通过GAP认证药品;获得国家级 奖项的药品 2、国家发改委公布的优质优价中成药、单独定价药品;国家保密处方中成药 3、进口药品;国家一类新药、美国FDA认证、欧盟、认证或日 本JGMP认证的药品;质量标准起草单位的药品 4、其他通过GMP认证的药品 1、监测期内一类新药;国家级奖项产品;国家保密处方中成药;中药材GAP认证药品;原 研制药品;通过质量一致性评价的仿制药;国家重大新药创制专项品种。 2、达到国际水平的仿制药品;进口药品非专利药(含进口分包装药品);首次仿制国外专 利药品。 3、规模企业药品。 4、其它通过GMP 认证的药品。 河南1、专利药品;1999年
4、以来获得国家科学技术奖的药品;国家一类新药。 2、原研制药品;单独定价药品;优质优价中成药。 3、规模企业药品;中国驰名商标药品;中药材GAP认证药品;普通GMP药品。 1、国家一类新药;国家奖项药品;重大新药创制科技重大专项药品;国家保密处方中成药; 中药一级保护品种。 2、过保护期专利药品;一致性评价药品;首次仿(创)制药品;在欧盟、美国、日本等发 达国家(地区)上市销售的药品。 3、保护期内中药二级保护品种;规模企业药品;获得省政府质量奖(省长质量奖)企业药 品。 4、其他GMP药品和其他进口药。 图:多地于新一轮招标中降低原研药质量层次,原研药面临优质国产药挑战 数据来源:CFDA,各
5、省招标平台,国泰君安证券研究 26 请参阅附注风险提示 3.3. 供给侧改革,大领域有望孕育大机遇 一致性评价是中国医药行业的供给侧改革。一致性评价的推进,将加速中国制药工业去产能化,优化 市场竞争格局,“剩”者为王,供给侧改革的春天将到来,制药行业进入长周期新起点,拥有优秀治 疗型品种的制药企业最终会受益于行业变局的结构性机会。 大疾病领域有望孕育大机遇。糖尿病、心脑血管疾病、乙肝等疾病领域患病人群广泛、市场规模巨大 ,在人口老龄化、居民收入水平提高、健康意识提升等驱动因素下持续保持稳定增长。这些疾病领域 的主流治疗药品虽均有仿制药上市,但市场份额仍然主要为原研药品占据。在一致性评价带来的行
6、业 变革下,通过一致性评价的优质国产药品有望改写竞争格局,这些大领域对应的大品种有望孕育新的 投资机会。 图:糖尿病等六大疾病领域受到重点关注 数据来源:国泰君安证券研究 27 请参阅附注风险提示 排名排名 药品药品 名称名称 市场规市场规 模(亿模(亿 元)元) 原研药原研药 品市场品市场 份额份额 竞争格局竞争格局 进入进入BE 企业数企业数 具体进展具体进展 疾病疾病 领域领域 受益受益 上市公司上市公司 是否是否 基药基药 1氯吡格雷151.9 59.7% 赛诺菲 59.7% 信立泰 29.7% 乐普 10.6% 2 信立泰CDE已受理(2017/10/26), 乐普医疗(2017/6
7、/26首次公示)BE 试验进行中 血液和 造血系 统 信立泰 乐普医疗 是-211 2 阿托伐他 汀 134.1 76.6% 辉瑞 76.6% 嘉林 15.6% 天方 5.6% 其他 2.2% 2 乐普医疗(2017/5/9第一例受试者入 组)进行中(招募中)、北京嘉林 CDE已受理(2017/9/25) 心血管 系统 乐普医疗否 3恩替卡韦114.2 48.8% 施贵宝 48.8% 正大天晴 37.7% 东瑞 4.7% 广生堂 4.1% 其他 4.7% 3 正大天晴分散片BE招募中(2017/3/9 首 次 公 示 ) , 胶 囊 BE 招 募 完 成 (20170718首例入组);江西青峰
8、恩 替卡韦分散片CDE受理(2017/9/25), 胶囊CDE受理(20171027);海思科 (2017/6/22首次公示)BE试验进行 中 抗感染 中国生物制 药 海思科 否 4阿卡波糖75.2 71.8% 拜耳 71.8% 华东医药 25.5% 绿叶 2.7% 1 华东医药(2017/5/3第一例受试者入 组)BE试验进行中(招募中) 内分泌 及代谢 调节 华东医药 是- 244/26 7 5雷贝拉唑53.8 30.4% Eisai 30.4% 济川 20.6% 迪康 13.0% 豪森 12.4% 润都 10.1% 其他 13.5% 0暂无企业进入BE试验阶段 消化系 统 济川药业否 6
9、奥氮平49.9 42.1% 豪森 51.3% 礼来 42.1% 其他 6.6% 1 豪森药业CDE已受理(2017/10/20首 次公示) 精神障 碍 -否 数据来源:PDB、IMS,CFDA、国泰君安证券研究。注:(1)本表中的数据为通过目前公开信息查询所得,可能存在一定滞后性。(2)市场规模为根据IMS、PDB等数 据库不同口径数据推算得出,仅供参考。 表:市场规模表:市场规模Top20口服固体制剂品种仿制药一致性评价进展情况口服固体制剂品种仿制药一致性评价进展情况(截至截至2017.11.07) 3.3. 供给侧改革,从大品种看大趋势 28 请参阅附注风险提示 排名排名 药品药品 名称名
10、称 市场规市场规 模(亿模(亿 元)元) 原研药原研药 品市场品市场 份额份额 竞争格局竞争格局 进入进入BE 企业数企业数 具体进展具体进展 疾病疾病 领域领域 受益受益 上市公司上市公司 是否是否 基药基药 7氨氯地平48.1 86.3% 辉瑞 86.3% 赛科 4.0% 扬子江 2.7% 东瑞 1.6% 其他 5.4% 5 扬子江药业(20170321)、华润 双鹤(20170919)已完成BE试 验 ; 复 星 医 药 CDE 已 1 2 一、全球人工智能行业竞争格局 二、人工智能专利技术资源情况 三、人工智能企业分布概况 四、人工智能人才发展概况 五、中国重点城市人工智能发展动态 C
11、ONTENTS / 目录 上篇 行业分析篇内容来自灼识咨询下篇 创新情报篇内容来自智慧芽 一、人工智能行业概况 二、人工智能上游大数据采集 三、人工智能算法概述 四、人工智能下游应用 1. 无人驾驶汽车行业概览 2. 人工智能与零售行业 3. 人工智能与医疗行业 4. 人工智能与家居行业 5. 人工智能与教育行业 五、研究总结 3 上 篇 行业分析篇 4 人工智能行业概况 5 人工智能的定义 人工智能本质是指机器模拟人类思考行为的能力 人工智能的定义非常广泛,随着时间的推进,文公智能也将不断进化,但其本质是机器模拟人类思考行为的能力。虽然人工智能经常被分作计算机 科学的一个分支,事实上智能站在
12、自然科学和社会科学的交叉路口,涉及计算机、数学、物理、社会学、心理学和哲学等学科。 目前,全球有近千家人工智能公司,遍布62个国家的十余个行业,使人工智能和各行业的边界变得模糊。 按照应用范围,人工智能可以被分成三类:弱人工智能,强人工智能和超人工智能 弱人工智能 弱人工智能着重对人类推理过程的模仿, 但没有人工感知力 弱人工智能通常只擅长于某个特定领域, 极难发展领域外的能力,其学习规则是 封闭的 强人工智能是可以达到人类思维级别的人工 智能程序,有自我学习和理解复杂概念的能 力,目前人类正在努力靠近这一目标 “深度学习”和“大数据”是强人工智能的 引擎和燃料 超人工智能将在所有领域全方位超
13、越人类 大脑的思维能力 超人工智能的能力和运用范围仍在一个无 法预估的范畴 Siri:苹果公司在2011年推出的智能个 人助理 AlphaGo,Google在2015年推出的围 棋人工智能程序 度秘:百度在2015年推出的智能语音私人助 理app,可在不同场景下实现指令控制、信 息查询、知识应用、智能提醒和多种生活服 务;同时支持第三方开发者的能力接入。 目前尚无成熟产品 强人工智能超人工智能 定义 代表产品 6 1950-1980:萌芽期 1980-2006:突破期 2006 -至今:飞速发展期 1950年,计算机与人工智能之父图灵提出 “图灵测试”用以判断机器是否能够思考。 “机器是否能思
14、考”这一问题第一次得到 世界广泛关注 1956年召开的达特茅斯会议标志着人工智 能学科的起源,奠定了人工智能的基础。 从那以后,有关人工智能的学术交流变得 频繁,1957年罗森布拉特发明的神经网络 算法极大推动了人工智能研究潮流 然而在进入七十年代之后,机器的计算能 力并未得到突破,人工智能的研究进入了 第一个低谷 二十世纪八十年代,BP算法由保罗沃 伯斯提出,使大规模神经网络训练的可 能性得到实现,开启了人工智能发展的 第二个阶段 计算机的计算能力和运行成本在这一阶 段经历了由高到低的大幅度变化,打破 了人工智能发展的瓶颈,加上互联网的 构建,让学术和技术交流的成本也大幅 下降,速率相应上升
15、,人工智能的发展 得到了进一步突破 2006年,杰弗瑞辛顿提出了“深度学习” 神经网络,将人工智能的发展推向了一个新 的高峰。深度学习算法让人工智能在语音和 视觉识别上取得重大进展。 2010年前后,人工智能同时也和移动互联网 的发展紧密挂钩,后者为人工智能提供了更 多的应用场景和融资方向 2015年前后,语音识别和无人驾驶领域的进 展也让公众对人工智能的兴趣和关注迈上了 一个新的台阶。 2017年,谷歌旗下的DeepMind团队公布 了”AlphaGo Zero”,通过40天自学围棋基本 规则,已成功超越人类高手。 全球人工智能行业经历的三次发展浪潮 电脑硬件、互联网技术、大数据应用等领域的
16、不断突破,人工智能也正高速发展 7 全球搜索巨头Google已不仅是一家单纯 的搜索、移动操作系统、电子邮件和互联 网服务提供商,其在2016年的发布会上 宣布了自己“AI First”的战略,致力于 用人工智能去创造产品、服务和体验,帮 助人类进步。 2014年,谷歌收购智能家居厂商Nest和智能家居中枢控制设备公司 Revolv,意在打造软硬件一体、平台开放的智能家居生态系统。 2015年,谷歌宣布与强生旗下子公司爱惜康(Ethicon)进行战略合作, 借助人工智能技术为手术和医疗保健系统设计研发机器人辅助手术平台, 为谷歌进军智能医疗的关键决定。 2017年,谷歌宣布研发出自动人工智能A
17、utoML。并于 2018年1月,取得 里程碑进展,可自动设计,建立学习模型的服务AutoML Vision。 IBM在人工智能领域一直保持全球领先,其研发的 超级计算机“深蓝”于1997年击败了国际象棋世界 冠军卡斯巴罗夫,2011年开发的“沃森”则集成了 病情分析、股票推荐、消费者行为预测以及网络安 全维护等多种功能,今后IBM将继续在人工智能领 域高速发展。 2014年,IBM与纽约基因中心合作,利用超级计算机的运算能整理医学文献并 结合临床数据,并利用其认知技能及运算技术找到所有数据的关联性,根据病 人的基因组找到最佳的脑癌治疗方式。 2016年,IBM与科大讯飞建立战略合作,在认知计
18、算算法、云平台架构等技术 层面,和医疗、教育和智慧城市等业务寻求合作。 2017年,IBM宣布推出新一代具有新型系统架构,针对机器学习中使用的加速 器进行了优化的人工智能芯片Power9。 微软作为计算机领域的巨头,其略显迟缓的 战略布局曾受到行业的诟病。然而以智能机 器人小冰为代表的一系列人工智能助手的推 出和微软研究院人工智能中心的建立已经初 步显现出其强大的雄心和实力。 2014年,微软推出跨屏天人工智能聊天机器人“小冰”。 2016年,由微软亚洲研究院和中国科学院植物研究所共同打造“微软识 花”app,利用人工智能的人工学习功能精准识别上百种花卉,其图像识 别技术在行业中占据领先位置。
19、 2016年,微软与invigr合作推出人类历史上第一个情感型人工智能营养师, 同时与海尔达成战略合作,进军智能家居领域。 2017年,微软人工智能团队研发出能够根据人类自然语言描述而画出近 似真实照片形状图片的新AI系统,SeeingAI诞生。 作为中国本土的科技公司,百度被福布斯杂志评 为世界四大人工智能巨头之一。百度在2014年组 建了北美研究院,同年引进深度学习专家吴恩达 任首席科学家(现已离职),充分展示其对人工 智能的高度重视。 2014年7月14日,百度凭借自身的大数据技术14场世界杯比赛的结果预测中 取得全中的成绩,击败了微软和高盛。 2016年,百度投资金融科技公司Zest
20、Finance,将机器学习与大数据分析 融合起来提供更加精准的信用评分。 2017年,百度发布对话式人工智能操作系统DuerOS,并与海尔、美的等家 电厂商宣布将共同推出基于该操作系统的智能冰箱产品。 2018年,百度宣布其研发的无人驾驶开放平台Apollo亮相CES大会。 全球人工智能行业巨头动态 各大科技巨头在人工智能领域的研发正有条不紊的产出商业化的产品以解决多方问题 8 中国人工智能行业发展历程 中国人工智能起步较晚;随着不断加大的投资和重视,正一步步赶超发达国家水平 智能计算机系统、智能机器人 和智能信息处理等重大项目列 入“863计划”(国家高技术 研究发展计划) 国务院印发新一代
21、人工智能 发展规划的通知 中国人工智能学会向国家学位 委员会和国家教育部提出设立 “智能科学与技术”学位 2030年1980年代 初期 1986年 1993年 2003年 2016年 2017年 1981年,中国人工智能学会 (CAAI)成立 20世纪70年代末至80年代前 期,人工智能项目开始纳入国 家科研计划 2016年,国务院发布中国制 造2025 国家发改委和科技部等4部门 联合发布“互联网+”人工智 能三年行动实施方案 智能控制和智能自动化等项目 开始陆续列入国家科技攀登计 划 面向2030年,确定15个重大项目 的立项建议,涉及航空、网络安 全、智能电网、智能制造和机器 人等多个高
22、新领域,酝酿“人工 智能2.0”推动中国高新技术发展及 产业化水平。 9 法规与政策发布机构发布时间 促进新一代人工智能产业发展三年行动计划(2018-2020)中国工信部2017年12月 为落实新一代人工智能发展规划,深入实施“中国制造2025”,抓住历史机遇,突破重点领域,促进人工智能产业发展,提升制造业智能化水平,推动人工智能和实体经 济深度融合。力争到2020年,一系列人工智能标志性产品取得重要突破,在若干重点领域形成国际竞争优势,人工智能和实体经济融合进一步深化,产业发展环境进一步优 化。着重在智能网联汽车、智能服务机器人、智能无人机、医疗影像辅助诊断系统、视频图像身份识别系统、智能
23、家居产品、智能语音交互系统、智能翻译系统率先取得突。 新一代人工智能发展规划的通知国务院2017年7月 到2020年,人工智能总体技术和应用与世界先进水平同步,人工智能产业成为新的重要经济增长点,人工智能技术应用成为改善民生的新途径;到2025年,人工智能基础理论 实现重大突破,部分技术与应用达到世界领先水平,人工智能成为我国产业升级和经济转型的主要动力,智能社会建设取得积极进展;到2030年,人工智能理论、技术与应用 总体达到世界领先水平,成为世界主要人工智能创新中心。 “互联网+”人工智能三年行动实施方案 国家发改委、科技部、工业和信息化部、 中央网信办 2016年6月 大力发展智能制造加
24、快推动云计算、物联网、智能工业机器人、增材制造等技术在生产过程中的应用,推进生产装备智能化升级、工艺流程改造和基础数据共享。着力 在工控系统、智能感知元器件、工业云平台、操作系统和工业软件等核心环节取得突破,加强工业大数据的开发与利用,有效支撑制造业智能化转型,构建开放、共享、协 作的智能制造产业生态。 中国制造2025国务院2016年4月 部署全面推进实施制造强国战略。根据规划,通过“三步走”实现制造强国的战略目标,智能制造被定位为中国制造的主攻方向。加快机械、航空、船舶、汽车、轻工、纺 织、食品、电子等行业生产设备的智能化改造,提高精准制造、敏捷制造能力。统筹布局和推动智能交通工具、智能工
25、程机械、服务机器人、智能家电、智能照明电器、可 穿戴设备等产品研发和产业化。 政策与法规 政策与法规分析 中国政府颁布鼓励性政策及法规将进一步推进人工智能行业规范、升级及改革 10 中国人工智能产业的优势 由于近几年中国的互联网行业的迅猛发展,一大批互联网、科技公司累计了一 定的用户数据和研究资本,特别是BAT,不仅拥有海量的用户大数据,还吸引 了大批人工智能人才为其进行人工智能方面的研发。BAT在中国的带头作用将 有利激发整个人工智能行业的创新。 由于中国语言的特殊,人工智能重要的语义分析技术,需要大量的研发资金和 充足的理解能力。这些是同类型的海外企业无法独立完成的。其次,国家政策 和中文
26、语言难度使得中国人工智能企业可以更好的研发本土产品,使之与海外 企业的产品形成差异。 中国人工智能产业的劣势 较于美国等发达国家,中国高校在人工智能领域的课程较为分散,没 有系统的栽培体系。虽然部分企业与高校有人工智能项目合作,但是 成效甚微,不及企业内部自行研发具有实用性和商业价值。 不同于发达国家的互联网和智能化的普及程度,中国在基础建设方面 还是十分薄弱的。部分偏远地区的互联网还不能满足人工智能产品要 求。即使人工智能产品能够落地,如何转变消费者的观念并驱动消费 者购买也同样需要投入大量的资金与时间。例如,人们对于无人驾驶 车安全性的担忧可能导致观望态度,从而对企业的造成运营负担。 中国
27、人工智能产业的好势头 人工智能事业才刚刚进入百家争鸣的时代,在国家政策的保护下,各家企业都 有机会成为自己细分行业内的领军人物。并且,现如今行业准则的缺失也给予 了领军企业设定标准并垄断市场的大好机会。 2016年,中国政府公布中国制造2025鼓励人工智能行业,而资本方也瞄 准并看好各类型的人工智能商业模式,对于创新型企业而言无疑是好事。另一 方面,大企业由于自身的资金实力和科研能力可以促使自身在人工智能行业链 中获得巨大利益。 中国人工智能产业可能遇到的挑战 传统企业如果转型过渡到人工智能领域无疑是个重大挑战,企业不仅 需要从人才招聘、研发方向进行考量,还需要从上到下的全企业的理 解和支持。
28、这不仅仅需要管理层的观念转变,更需要管理层对于未来 市场的规划和研究,若无法准确定位市场,企业生存问题将受到威胁。 中长期来看,人工智能将会取代大部分重复的基础工作,届时还需要 政府和相关企业的高度重视人民就业问题,并采取相关措施保障社会 福利。 中国人工智能行业所面临的机遇和挑战 中国现有的科技水平和人才储备将对未来人工智能的发展形成一定阻碍,但中国的大数据量和独特的文 化差异性使得中国市场不易被外资企业轻易占领市场份额 11 人工智能价值链分析 大数据、半导体芯片以及智能算法被誉为人工智能的三大基石 上游中游下游 大数据 半导体芯片 智能算法 各类终端应用 图像数据 语音数据 人工智能的实
29、现需要大量的数据训练,这些数 据包括文字,语音、影像以及用户行为等等。 然而,存在于生活场景中的大量信息是无法直 接用于计算机算法的训练,且大量数据的存储 以及处理成本高昂,因此专业的数据采集、处 理以及存储公司应运而生。 智能算法与大数据两者相辅相成,算法通过数 据训练不断完善,同时也由于智能算法的不断 改进,大量自然数据得以完成归类和整理,成 为可用于算法训练的结构化数据。 人工智能的中游主要由半导体芯片以及智能算 法构成。 在人工智能发展早期,传统的算法(如经典机 器学习)主要是解决标准化、数学化的抽象问 题。而目前人工智能需要挑战的是解决现实场 景中的各类问题,例如识别图像、识别语音或
30、 者识别生物特征。这就涉及到将真实信息进行 抽象处理从而转化为计算机可以理解的程序语 言。为了实现这一目标,各类方法被提出。与 之相匹配的,新型算法往往对计算机的计算能 力提出了更高要求,更强运算能力的计算机芯 片也应运而生。 人工智能的下游应用极为广泛,目前主要 行业包括智能机器人、智能家居、智能医 疗、智能教育、智能零售、计算机视觉以 及语音识别等。 人工智能的兴起来自于人们对于定制化、 个性化、高品质服务及产品的需求;与此 同时,相应的人力成本不断攀升,各行各 业急需变革以降低相关成本,人工智能便 成为各下游终端应用场景中最理想的产品。 12 人工智能上游大数据采集 13 绝大多数的AI
31、算法是开源的,算法的开发往往是由世界上顶级数学家以及计算机学家完成的。要实现AI技术的商业化并真正成为人们生活中的 一部分需要大量结构化的数据进行训练,未经训练的AI技术只能算是纸上谈兵。因此,数据的数量以及质量正成为各个公司之间,各个国家之 间竞争的焦点。 从人工智能的角度看,我们已经度过了最早期的数据积累阶段,事实上,目前是信息爆炸的时代。在中国,智能手机以及各类平板电脑的数量 超过13亿,而每个智能手机能携带超过16种传感器,每天每部手机可产生超过1G的数据。如何对信息进行采集、运算、储存、传输都是目前AI 技术遇到的关键瓶颈。 机器学习实现过程 123 4 56 数据分类数据建模模型有
32、效化模型调试模型使用模型调整 数据分组 数据测试 数据有效化 数据测试 根据数据特征 行数据建模, 完成基本数据 模型框架 根据模型输出 的结果对模型 进行反馈改善, 实现模型的有 效化 用测试数据对 有效化后的模 型进行评价和 测试,得到各 指标评分 将已经完成全 面训练的模型 用于新的数据 中,并得到未 来预测值 根据使用情况 以及新数据的 特征不断调整 算法以及模型 参数 数据是AI的基石 没有数据支撑的人工智能只是纸上谈兵,大数据以及人工智能融合势在必行 14 结构化数据指能够能够被人和计算机识别和访问的数据部分,这些部分可以是单个的数据点,例如数字、日期或者文本,也可是是多个单独数据
33、点。 结构化数据可以使用XBRL、XML和JSON等数据标准进行创建和交流。对于生物体等形式的非结构化信息就需要转换为计算机可以理解的形式。 对于计算机系统而言,需要借助额外的算法实现非结构化数据向非结构化数据的转变就成为一道必要的工序。 大数据时代,非结构化数据的增速非常惊人,其增速远大于结构化数据。随着21世纪影像视频、音乐的清晰度以及保真度的提升,此类非结构化 数据呈现出了爆发式增长的态势。据估计,2017年,全球产生的非结构化数据占左右数据比重超过80%。如何能从海量的非结构化数据中挖掘价 值将是未来数据服务企业的重要发展方向。 结构化数 据 非结构化 数据 特征数据来源典型应用数据样
34、例 定义完全的数据模型 通常为text格式 便于检索、归纳以及整 理 通常由数据监测程序自 动生成 公司、政府以及各类数 据供给方 机票预订系统 库存信息系统 CRM系统 ERP系统 日期 社保号码 用户姓名 地址信息 产品名称及编码 交易记录 通常没有实现定义完全 的数据形式 存在的形式包括文本、 图像、音频等各类形式 难以检索 存在于用户终端 非SQL标准数据库 公开网站获取信息 各类数据池 文字处理过程 演示软件 视频编辑软件等 卫星图像 文字文件 书面报告 电子邮件信息 影像文件 音频文件 照片图像 结构化数据与非结构化数据比较 21世纪是非结构化数爆炸的时代,如何能从海量非结构化数据
35、中挖掘价值,将其转化为结构化数据是 诸多数据服务公司着力解决的问题 15 AI的训练依赖大量的高品质数据,而大型的、特定领域的数据集可以成为竞争优势的重要来源。对于缺乏资金的很多初创公司就需要采用价格相对更低的策略 手动工作 引导用户参与数据 采集 公开数据收集以及 数据接入许可 通过恰当的引导客户为数据增加标签,其中比较典型的案例包括谷歌翻译改进、谷 歌垃圾邮件过滤器,Facebook在照片中给朋友加标签等。在不引起用户反感的过程 中为公司提供免费的数据标签。 被动参与主要指通过建立一种用户以及数据采集公司双赢的结果来吸引用户提供数 据,例如提供移动应用程序来采集用户位置信息,提供基因报告来
36、采集人群DNA信 息。 手动工作是从头构建一个良好的专有数据集的必经过程。目前 几乎每一家从事机器 学习的创业公司都需要人力来手动标记数据点,中国国内也涌现了一批数据采集公 司,例如北京深度搜索、泛函科技等。 众包以及外包也是人力录入的另一种形式,例如Amazon 和CrowdFlower 就通过创 建平台,利用数百万人的在线劳动力来清理混乱和不完整的数据。 公开可用数据集主要指通过网页爬虫的方式收集各大网站上的公开数据,这是一种 成本相对低廉并且相对有效的数据采集方式,较为适合初创公司开展最初的数据库 积累,但是公开数据收集的方式很难建立起可靠专有的数据集样本。 数据接入许可指数据采集公司通
37、过一定的合作协议接入其他公司或者客户的数据信 息,并进行有效地整合以及分析。此类方法能够建立起专业数据库,数据品质以及 规范化程度也更高。 AI数据集采集策略 人工智能前端的数据准备往往需要大量的人力付出以取得足够量的有价值的数据,如何以较低成本获得 大量高质量的数据是诸多人工智能开发企业面临的难题之一 16 3.5 5.3 7.7 8.3 6.2 4.7 3.6 0.9 0.8 0 20 40 60 80 18.9 2022E 55.7 20132021E 39.5 12.0 2020E 28.2 2019E 21.3 2018E 15.5 2017 11.3 2.3 2016 1.5 20
38、15 1.0 2014 全球非结构化数据量 全球结构化数据量 ZB (十万亿亿字节) 全球数据量变化情况,2013-2022E 21世纪以来,全球数据总量经历了爆发式的增长, 全球数据总量在2017年已经超过了13.6 ZB,2013 至2017的年复合增长率超过了32.6%。得益于近 年来高清视频以及高还原度音频的普及,全球非结 构化数据量的增长更为迅猛,截止2017年,全球 非结构化数据量达到所有数据量的80%以上,数据 挖掘市场潜力巨大。 中国大数据市场同样发展迅猛,2016年,针对大 数据产业发展的各项政策紧密出台,国家发改委、 工信部、国家林业局、农业部以及各级地方省市政 府均出台了
39、促进中国大数据产业发展的意见和方案, 数据应用层面的项目逐渐开展,产业发展环境持续 优化。据工信部预测数据计算,2017年中国大数 据产业规模近2万亿人民币,2020年增长至5万亿, 年复合增速达35.7%。 分析 全球结构化大数据保有量持续增加 全球非结构化数据总量占所有数据总量的绝对多数,数据挖掘市场潜力巨大 17 63.178.479.6 226.3 300.1 717.3 0 400 800 1,200 日本俄罗斯巴西美国印度中国 百万 全球智能手机用户数,2017年 中国是拥有手机以及互联网用户最多的国家,手机用 户超过13.9亿人,截止2017年4月,中国智能手机用 户超过7.1亿
40、人,是美国用户的三倍。 此外,中国移动支付的用户数量也位于世界领先水平。 在中国,人们使用手机支付货物的次数是美国的50倍, 中国外卖的总量是美国的10倍,中国共享单车的使用 次数是美国的300倍。 无论从数据的总量抑或是数据的产生的速度,中国都 远超世界上其他国家。根据国务院办法的新一代人 工智能发展规划,我国计划于2025年实现人工智能 基础理论的重大突破,部分技术与应用达到世界领先 水平;计划到2030年,AI理论、技术、应用总体达到 世界领先水平,成为世界主要人工智能创新中心,人 工智能核心产业规模超过1万亿元,带动相关产业规 模超过10万亿元。 随着政府投入的不断增加,国内大数据产业
41、发展迅速 。截止2017 年6 月,21 个省级行政单位建立大数据 管理和服务机构。现阶段约60%企业已经设立数据分 析部门,27.3%企业正在计划筹建数据分析部门。 2016 年中国大数据核心产业市场规模168 亿元,同 比增速高达45%,预计2020 年达到578 亿元,年复 合增速高达36.2%。 分析 中国各省市大数据发展指数,2017 030 3145 4660 61+ * 大数据发展指数是收割面相国内31个省大数据发展水平的综合评价指数,该指数由6个一 级指标、11个二级指标构成,取值范围为0到100. *台湾数据未列入图表中 中国具有世界领先的数据优势 依托中国互联网经济的迅速崛
42、起,中国市场个人用户的信息数据量世界领先 18 人工智能算法概述 19 人工智能机器学习深度学习 机器学习是实现人工智能的方法 机器学习算法是一类从数据中自动分析获得规律并利 用规律对未知数据进行预测的算法。因为学习算法中 涉及了大量的统计学理论,机器学习与推断统计学联 系尤为密切,也被称为统计学习理论。算法设计方面, 机器学习理论关注可以实现的、行之有效的学习算法。 很多推论问题属于无程序可循难度,所以部分的机器 学习研究是开发容易处理的近似算法。 深度学习是实现机器学习的技术 深度学习是机器学习中一种基于对数据进行表征学习 的方法。观测值(例如一幅图像)可以使用多种方式 来表示,如每个像素
43、强度值的向量,或者更抽象地表 示成一系列边、特定形状的区域等。而使用某些特定 的表示方法更容易从实例中学习任务(例如,人脸识 别或面部表情识别)。深度学习的好处是用非监督式 或半监督式的特征学习和分层特征提取高效算法来替 代手工获取特征。 人工智能、机器学习以及深度学习涵盖范围 20122013201420152016 385 350 315 0 353.6 18.7 331.7 18.5 318.3 15.4 313.3 12.8 316.8 13.7 CS领域论文数 CS领域AI论文数 000 全球AI以及CS论文发表数,2012-2016 人工智能算法定义 算法是计算机的“灵魂”,起源于
44、20世纪50年代的智能算法经过60多年的发展,逐渐实现机器学习以 及深度学习两大算法技术 20 Planning and scheduling 规划调度 Expert system 专家系统 Multi-agent systems 多智能体系统 Evolutionary computation 进化算法 Machine learning 机器学习 Recommender system 推荐系统 Fussy logic and rough set 模糊逻辑 Knowledge representation 知识表示 Robotics and perception 机器人感知 Supervised
45、 learning 有监督学习 Unsupervised learning 无监督学习 Semi-supervised learning 半监督学习 Ensemble learning 集成学习 Regression 回归算法 Outlier (Anomaly) detection 孤立点检测运算 Reinforce learning 强化学习 Classification / Clustering 分类/聚类运算 Metric learning 度量学习 Causality analysis 因果分析 AI 研究分支机器学习主要分类分析 1956年,计算机科学家第一次在达特茅 斯会议上提出了“人工智能”的概念, 指在实现拥有与人类智慧同样本质特性 的计算机。 2012年以后,得益于全球数据量的上涨、 计算机运算能力的提升以及计算机新算 法(深度学习)的出现,“人工智能” 进入了快速发展通道。目前主要的科研 工作仍然集中于弱人工智能领域,但是 得益于机器学习方法,简单的算法得以 通过大量的数据训练实现一定程度的智 能化。 目前机器学习的方法可以从学习方法以 及分析算法