1、ArchSummit2014全球架构师峰会京东实时数据平台技术实践京东实时数据平台技术实践刘彦伟刘彦伟目录l 京东大数据平台介绍l 实时数据平台背景l 实时数据平台解决方案l 关键环节详解l 关于平台产品化京东大数据平台定位 支撑全集团数据业务 全集团数据集中 自助式服务平台模式大数据 平台商城拍拍易迅无 金融 京东大数据平台发展历程 -技术选型2011年之前 20112012 2012至今京东大数据平台发展历程 -技术 选型 传统商业数据仓库解决方案- 弊端- 高复杂度计算任务并发性差- 海量数据处理能力不足- 存储能力有限- 扩展性差- 成本高- 后期遇到的问题- 越来越多的 ETL任务需
2、要 12点后才能完成- 任务排队现象严重- 基于流量等大数据量的批量计算和复杂推荐类算法基本无法应付- 存储达到上限,需不断转移历史数据京东大数据平台发展历程 -工具脚本 +配置文件 分散工具集 一站式消费 +多屏可用京东大数据平台架构 自助 式服务平台 支持离线模式 流式模式 开源组件 +自主研发 通过产品化发挥最大价值 让用户专注于开发实时数据平台 背景 运营场景- 实时感知业务运行情况,实现实时决策支持 , 比如调整营销策略、库房排班等 营销场景 根据用户位置、实时浏览轨迹、商品价格变化等实现精准推荐、广告 Top排行榜:销量排行、热度排行等 优化离线数据仓库数据抽取环节 传统 “ T+1” 模式的数据仓库每天凌晨第一件事就是增量或全量抽取业务数据随着数据抽取任务的不断增长,数据抽取时间成本不断增长,离线计算启动时间不 断被推迟实时数据平台要解决的几个问题 实时数据采集 -数怎么来 数据要全 延迟要低 实时数据存储 -数放在哪 数据存储统一 方便使用、高吞吐量 实时数据计算 -数怎么算 及时性 支持高复杂度场景实时数据平台解决方案 实时数据采集 实时数据总线 实时数据分发 实时数据流式处理 准实时数据批量处理 高可用 实现产品化