随着sql on hadoop技术的快速发展,sql完整程度的大幅提高和性能的提升,孙元浩认为混合架构正在逐渐消失做出这样的预测是因为,过去mpp数据库的3个优势随着sql on hadoop的成熟逐渐被削弱第一,传统mpp数据库对sql的支持相对完整,而现在,hadoop对sql的支持程度已经接近mpp数据库第二,传统mpp数据处理性能高,而现在,hadoop的性能已经超过mpp数据库数倍第三,传统mpp数据库上外延工具数据库是什么非常丰富,而现在,很多传统bi厂商都已经支持hadoop,一些新兴创业公司都已经在hadoop上开发了全新的bi工具,hadoop系统上的外延工具也越来越丰富,hadoop生态系统将很快超越传统mpp数据库
孙元浩指出,数据中心操作系统可以分三层最底层与操作系统内核的功能一样,可以快速地创建、释放计算资源,实现对cpu/网络/内存/存储的管理中间层是在最底层的基础上继续加一些基础服务最上面一层则提供平台服务,可以创建和部署hadoop、spark等应用
未来,hadoop将逐渐取代mpp数据库,用户将逐渐不需要使用混合架构,不需要在不同数据库之间迁移mpp数据库将逐渐消失并慢慢地融入hadoop用数据库学习户的数据量无论大小将全部都可以在hadoop上处理,真正做到无限的线性扩展
大数据跨过了近几年的炒作周期后,即将度过以落地实践为核心的2014年2015年,大数据将往哪个方向发展?近日,星环信息科技(上海)有限公司cto孙元浩从基础技术的角度预测了大数据的发展趋势
但是,这种混合架构还存在3个问题:第一,实时数据的流处理系统处理完之后就把数据丢弃了,只留下分析结果,用户不能对实时数据进行随机查询;第二,把实时数据和历史数据分离后,怎么形成统一的视图,最后怎么拼接起来;第三,融合两种分析结果的数据可以完成快速查询但不能做复杂的统计分析和数据挖掘
趋势一:混合架构将逐渐消失
随着硬件技术的发展,孙元浩发现,作为缓存,内存可以被数据库的种类大容量的ssd(固态硬盘)取代内存读取数据的速度是磁盘的百倍甚至千倍,但是ssd 的性能已经开始接近内存了同时,ssd的价格也在迅速下降今天,在中国市场可以以1万至2万元的价格购买到1tb容量的ssd孙元浩认为,用ssd替代内存是当前比较好的方案
根据数据中心操作系统的概念,目前市场上主要有两大技术方向第一个技术方向是把yarn作为资源调度的基础,kubernetes作为运行在yarn上的一个应用框架,而且kubernetes与yarn并列在同一层另外一个技术方向是把调度器抽象出来作为插件,例如yarn和mesos都可以作为kubernetes的调度器,当然也可以实现自己的调度程序,使用docker或者c数据库培训oreos(一种基于linux 内核的轻量级操作系统)进行容器管理,而hadoop等分布式服务运行在kubernetes之上第二个技术对底层能够提供资源隔离和管理,对最上层能够提供各种服务孙元浩认为,第二个技术方向可能是明年的主流趋势
过去三年,hadoop发展非常迅猛,很多公司快速启动了sql on hadoop的开发,其性能也有很大提升目前,市场上在hadoop系统里原生开发的sql引擎技术主要有4种:第一种是impala,采用类似于mpp的引擎;第二种是tez,吸收了spark的一些设计思想;第三种是transwarp inceptor,基于spark开发的sql引擎;第四种是spark sql学数据库好不好找工作和drill
趋势三:实时大数据得到更多关注
因此,孙元浩认为,基于磁盘读写的hadoop在2015年将慢慢开始为ssd做优化,未来会有更多的优化专门针对ssd另外,内存数据库厂商将开始感受到内存不足的瓶颈,ssd将成为内存最理想的替代品
为解决这些问题,用户往往会考虑混合架构的部署方式:把实时数据放到mpp数据库里,把历史数据放到hadoop里;或者把大部分数据放在hadoop里,小部分数据放到mpp数据库里进行计算
趋势二:固态盘将替代内存
当初,hadoop的诞生是为了更方便地处理非结构化数据和半结构化数据,但是处理结构化数据的时候功能就显得不够完整用户还需要使用数据库或者mpp(大规模并行处理)数据库,协助数据库学习hadoop处理结构化的数据另外,hadoop是为处理几百tb和几pb数据而设计的,但是,当数据量小于10tb的时候,hadoop的处理性能往往还不如mpp数据库
最近一两年,虚拟化技术的快速发展不亚于一场新的技术革命首先,轻量级linux container(简称lxc,一种内核虚拟化技术)的出现,container(容器)之间可以做资源隔离,这使得虚拟机变得非常轻量级为此,docker公司开发了一个工具,它让用户创建单个容器或者应用时迁移起来更加容易但是,当创建多个容器或应用时,用户迁移起来还是会觉得很困难此时,谷歌的一个开源项目kubernetes出现了它简化了用户创建hadoop集群和传统应用,提供数据库资料多容器集群的部署和一些基础服务,例如一些调度服务
到今天为止,没有哪个技术既能处理实时数据又能处理大量历史数据孙元浩表示,针对实时数据和历史数据的处理,nathan marz提出了lambda架构(一种基于mapreduce和storm建立的流处理应用)实时数据进入一个流处理系统进行检测分析,历史数据在hadoop上进行分析,然后将两种数据分析的结果再进行融合,应用程序可以访问融合之后的数据库
druid项目的出现不仅解决了快速采集的问题,还化解了统一视图的问题:把实时数据和历史数据全部拼接起来制成一张视图,把实时数据离线状态下收集起来拼成一张历史视图但是,druid项目还没能解决复杂的统计分析和数据数据库简介挖掘的问题
(责任编辑:张然)
hadoop2.6中提出一个概念叫storage tier(存储层)它在hdfs(分布式文件系统)上提供三层存储:磁盘层、ssd层和内存层以大小为128mb的数据块为单位,用户可以把文件放在指定的层,以此来提升数据的存取速度但是,用户很快发现事情没有那么简单
2015年,大数据的基础技术将有哪些发展趋势?星环科技cto孙元浩预测的混合架构将逐渐消失、实时大数据技术得到更多关注、固态盘将替代内存作为缓存、云计算和大数据将融合等趋势,等待我们进一步验证
2013年,hadoop2.0资源管理方面一个革命性的框架yarn(一种新的mapreduce框架)诞生了yarn把资源管理放在最底层,在其框架上可以运行多种计算框架在数据库的基本概念应用的过程中,用户发现yarn对内存/磁盘/io的资源隔离做得不够好为此,hortonworks公司尝试把谷歌的kubernetes作为yarn的应用管理器,用docker(一种开源的应用容器引擎)进行资源调度同时,mesosphere公司以mesos(一种集群管理器)计算框架为资源调度核心,以docker为容器的管理工具,开发了一套分布式资源管理框架,并提出了数据中心操作系统的概念
趋势四:云计算与大数据终将融合
孙元浩指出,比较理想的架构是全量数据经过流处理以后直接进入一个数据库这个数据库可以完整地把实时数据和历史数据拼接起来,基于这些数据既可以进行高速查询又能进行迭代分析这样,it人员可以省去维护两数据库主要产品套架构的麻烦,而且既能对实时数据进行分析,又能对历史数据进行分析
随着传感器网络、物联网的发展,数据产生的速度越来越快,使得实时大数据的技术开始得到更多的关注
北京牛皮癣到底能治好吗白癜风复发怎么办