专访Cloudera首席技术官大数据创

按要求转载自36kr

作者

夜叶

几年前,大数据还只是新兴概念,现在数据早成行业和公司眼里的香饽饽,从底层基础平台,中间层通用技术,到上层行业应用,大数据产业链条日臻完善。

作为马云口中构建未来智能世界三个最主要要素之一,大数据自身是衍伸发挥的生产资料来源,而对数据的存储、计算又是整个大数据生态的基石,底层基础平台主要就解决这个问题。

而论及底层技术Hadoop领域,就得说到明星公司Cloudera,今年4月底已在纽交所上市。

Cloudera是首家将Hadoop商用的公司,以提供开源Hadoop发行版起家,通过解决部署安装过程中各样的问题盈利。如ClouderaManager就是其核心付费产品,它能帮企业管理Hadoop集群,包括部署、和对节点、服务实时监控。约80%的营收来源是以这种软件订阅模式,订阅期通常为1-3年。小部分靠人力支撑的服务获利,如提供专业服务、培训等。

年成立的Cloudera可以说占据市场先发优势,但随着时间推移,入局者增多,市场竞争变得愈发激烈:同类Hadoop玩家有MapR、早于Cloudera上市的Hortonworks等,还需面对亚马逊AWS、微软Azure等云厂商,及传统数据库厂商的竞争。

对此,Cloudera首席技术官AmrAwadallahg的看法是,这块市场很大,IDC预测到年总规模会达到亿美元。他向36氪着重强调了公司技术方面的优势,如产品方面持续创新,及有全球多家合作伙伴,有利共同打造垂直行业解决方案。

恐怕最让Cloudera忧心的还是像AWS这类云厂商,对企业而言,用亚马逊、微软提供的公有云或私有云服务,再延伸至底层基础技术产品,可能就是水到渠成的事,巨头布局生态就有这种好处。对此,Awadallah坦言云基础设施供应商既是合作伙伴又是竞争对手。

合作方面,Cloudera的客户是以云厂商提供的基础设施服务为基础,运行Cloudera软件,Awadallah透露这样的客户数量正快速增长。面对巨头同样涉足底层基础技术解决方案,Awadallah认为Cloudera的优势,一方面是公司技术的专注性,另一方面能将解决方案与行业客户具体实践相结合,更注重企业客户具体需求。若从长远角度考虑,Awadallah觉得企业客户会担心将人工智能等关键知识产权全然锁定在云服务供应商专有机器学习的算法里,有取而代之的风险,而Cloudera的好处是平台可迁移、移植,跨云甚至是跨环境,另外开源算法有助企业客户加以分析、甚至改进,以确保差异化竞争优势,把核心掌握在自己手中。

大数据行业正处在风口,有不少创企在此聚集。以底层基础平台为例,国内做该细分领域的有专注Hadoop发行版的星环科技、红象云腾和天云大数据,有传统数据库厂商人大金仓和南大通用,有研发新型分布式数据库的巨杉数据库,还有唯一来自中国的Apache社区顶级项目Kylin背后公司Kyligence。硬件厂商巨头华为也提供Hadoop发行版。

Awadallah是Cloudera团队创始成员之一,他指出创业是有难度的事,任何创业公司都有三点需要考虑。

首先,创业之初必须找到切实可行的使命和目标,解决一个非常真实的问题。如Cloudera就希望利用数据解决今天无法解决的问题。其次,正确的团队很关键,除了有行业优秀人才、努力工作的必要条件,还得注意团队文化的契合。第三,有非常清晰的发展目标和阶段性目标,月度或季度评估目标节点,灵活变通调整。

针对大数据、机器学习、人工智能领域的创企,Awadallah则建议不要再做像Cloudera九年前已经做过的事,即别创建底层基础技术平台。而是要把注意力放在已有平台基础上,利用机器学习、人工智能去构建各种各样的应用,服务如医疗健康、农业、制造业、金融服务等行业需求。

Cloudera年已进入中国,目前有中国联通、中国银联等客户。

以下是36氪对Cloudera首席技术官AmrAwadallah采访整理:

Q:现在Hadoop应用比较多,怎么让客户在使用Cloudera产品上更有黏性?目前国内也有一些像星环这样做Hadoop架构的企业,Cloudera有哪些竞争策略?

A:首先,现在Cloudera的解决方案和技术绝不仅限于Hadoop,Hadoop是我们起步之初的解决方案。公司在年创立一开始的时候我们就有Hadoop产品,主要是基于Hadoop的文件系统和MapReduce,现在已经至少有了25个解决方案,而且在我们已有平台的基础之上,还在不断地添加新的产品和解决方案。

比如说Impala,它是一个SQL分析解决方案,它的竞争对手主要是传统的SQL领域的公司,比方说Teradata和Oracle。另外主要是用于机器学习和实时流处理的Spark技术,这样的技术对物联网和人工智能有着非常好的用途。另外是Hbase是用于实时处理的。去年刚刚发布的kudu在今年年初的时候,实现全面商用。kudu主要是用于实时物联网数据的摄取和处理。

所以大家可以看到今天的Cloudera在技术和能力方面,绝不仅限于Hadoop,已经有了非常大的扩展。

至于我们如何与竞争对手相比保持竞争优势,这样的竞争对手绝不仅限于在中国本土的竞争友商,也包括美国、欧洲及全球的竞争对手。我们的优势主要表现在以下几个方面:

首先,要继续确保拥有最好的平台,在我们平台的基础之上不断进行创新,不断推出新的东西。比方说kudu和Impala,在同类的产品当中处理速度是最快的。

第二,我们要继续确保能够提供卓越的体验,并且把我们的平台打造成一个知识的中心,以便在各个垂直行业实施,比如医疗、银行、农业、制造业。

第三,我们也开发了很多付费版本的创新组件和产品,比如ClouderaDataScienceWorkbench,就是我们专有的一个技术。

再如:当我们的客户在运行Cloudera产品、软件的时候,我们具备一系列的像遥感、遥测的远程监测能力,能够把客户运行的集群当中的各种信息实时加以了解。其中包括在客户实时运行的集群当中还有多少内存,CPU情况怎么样,系统配置状况如何,能够涵盖现在发行版本当中的所有29个项目,以及客户在完成任务过程当中,监测他们的可管理性、难易程度。

通过这样的数据的遥测、远程监测,Cloudera自己也有一个集群。在我们的集群当中把所有的遥测信息给存储下来,然后自己有一个专门的机器学习的算法,能够在我们关于客户集群运行信息的基础之上来进行计算。这样就能够实现一些预测性的故障警告。

比如我们可以给一个客户发出提醒,两周以后你们集群可能会宕机,如果不换掉现在的服务器、不改变系统的参数,或者不改变目前来进行查询的算法的话,两周以后你们的集群会出问题。而且在这样的服务模式当中,我们的客户数量越多,积累的信息和数据越多,我们这种预防性故障警报的能力也就越强。目前我们在给客户提供的维护服务当中,有20%都是有我刚才所介绍的通过预警而自动生成的。

Q:创新之后给用户体验情况究竟如何?Cloudera服务的垂直行业有些什么样的侧重呢?

A:在回答这个问题前首先再去强调一下Cloudera的使命和长远的目标,那就是通过正确的方式来利用数据,把今天不可能解决的一些问题变成明天可以加以解决的问题,这是我们终极的使命。完成这项使命基础性的工作是收集和存储数据,而从长远来看我们是在这些数据的基础之上要通过机器学习、先进分析和人工智能来帮助解决世界上最富有挑战性的一些难题。

举一个具体的例子,像摩根大通集团是全世界最大的银行集团之一,他们多年以来一直是Cloudera的客户,也是我们早期就发展的客户之一。这些年来,我们看到他们在Cloudera的技术使用方面以及在整个技术堆栈成熟度方面,从初期基础性的数据收集、存储和处理,已经进入到了机器学习和人工智能阶段。

比如,他们不久前部署的一个应用,就是对于摩根大通在过去几十年当中和合作伙伴签的各种各样的法律合同进行分析,把合同的输入要素和产出的结果来进行分析。通过这样的智能分析之后,他们现在的人工智能系统已经能够以非常高的精确度来复制律师的工作。这样数以十万计小时的人工律师的工作,现在用他们的人工智能的系统、用计算机来处理的话10分钟就可以完成这些任务。也就是说,他们的人工智能律师现在是能够处理大量传统的特别是常规性的法律问题,而他们的人工律师的精力现在就主要集中在处理例外情况和真正棘手的难题。

再来举一个例子,在美国有一家做医疗软件的公司叫Cerner,他们的软件主要是为手术患者提供服务。医院去做手术的时候,如果在手术过程当中,他的血液受到感染并且没有得到及时处理的话会有可能形成败血症,而败血症严重的话会造成患者的死亡。但一些患者出现败血症是比较难被发现,如果不能够在最初的两天之内被发现并且得到处理的话,就会非常难控制,可能会导致死亡。

现在这家公司通过使用了Cloudera的解决方案,通过数据的收集和分析,对于患者的术前、术中、术后数据的收集和分析,能够以非常高的准确度来预测患者会不会出现败血症。如果我们对于收集到的数据认为风险很高的话,那这套系统会提出建议,就是术后这个患者不能够出院,医院当中进一步处理。

接下来再举一个例子,这家公司叫Navistar,它是一个整车厂,主要是生产巴士车和卡车。目前在他们已经出厂投入运行的30万辆车当中,已经装上了传感器。通过传感器能够去收集发动机的参数,以及驾驶员驾车速度的信息。

Cloudera的软件能够帮助他们做两件事,第一件事是通过传感器收集数据进行分析,能够去预测故障,比如车辆的哪一个部件有可能到什么时候会发生故障。第二是一旦预测到即将发生故障之后,他们会把所有的信息再放到Cloudera的优化算法当中,通过优化算法能够给卡车定一条路线,以便路途中排除故障。因为是一个预测性的故障,所以不需要改变正常工作。当卡车在下一个卸货点停留,同时维护、维修团队也向路线最优的下一个停留点出发,时间是协调好的,然后对卡车进行换件或者是维修。

这样的一种维修,节约了大量时间,对于这辆货车的工作没有太大的中断和干扰。通过实施这样的解决方案,这家公司得到的结果是他们车队汽油的消耗量和维修维护的成本下降了5倍,也就是%的提高和改进。

关于第二个问题,我们重点的垂直行业有以下几个,首先是金融服务业,金融服务业当中又包括几个子行业,例如像银行、保险公司、证券公司。然后是电信行业,电信行业既包括像中国联通、沃达丰、英国电信这样的电信运营商,也包括手机移动终端制造商,比方说小米用了我们的kudu。用kudu对于小米手机当中的数据进行分析,特别是对小米部署到手机当中的软件进行分析,然后去提前发现软件可能会出现的一些缺陷,这样小米公司就能够及时向手机用户发布补丁,让他们及时打补丁。

另外一个垂直行业是制造行业,刚才举了Navistar的例子,像医疗行业举了Cerner的例子。还有一个非常广泛的行业,也就是网络安全预防黑客入侵。

最后要讲的一个垂直行业,对于我们来说是非常重要的,那就是政府行业。政府行业可以分为两类,第一类是像智慧城市、智慧政务的项目,例如新加坡在智慧城市方面是Cloudera最大的客户之一。另外还有安保,比如在反恐方面的应用。

Q:Cloudera把AWS和微软的Azure基础设施供应商也列为竞争对手,Cloudera的竞争点在哪?

A:像亚马逊的AWS和微软的Azure,也包括像谷歌云和阿里云,既是我们的合作伙伴,也是我们的竞争对手。

首先,在合作伙伴的层面,因为这些云基础设施供应商都向客户群提供IaaS服务化基础设施的服务,在客户群当中有一部分客户就是在这些云供应商的基础设施的平台之上来运行Cloudera的软件。在Cloudera目前的客户当中,有20%是在这种不同的云环境当中来运行Cloudera的软件,另外有80%的客户是在现场安装Cloudera的软件来运行的,比如刚讲到的小米。

但是有一个现象,在公有云运行Cloudera的软件,把基础设施当作一项服务来获取的数量在快速增加,这是我们和他们为合作伙伴的一面,因为我们的客户在他们提供基础设施服务的基础之上来运行使用我们的软件。

另外一方面,他们也是我们的竞争对手,因为这些云服务供应商也开始推出了一些服务,这些服务在外观上、使用感觉上是有点类似我们的软件。比如他们提供的一些服务具备了数据的收集、处理以及一定的机器学习和人工智能的能力,所以从这个意义上来说,我们也是竞争对手。

至于为什么我们同类的解决方案优于他们的解决方案。因为Cloudera从第一天开始就在专注于解决机器学习和先进分析的问题。我们这样的一个优越性不仅仅是体现在技术上,我们能把这样的解决方案和行业客户具体的实践结合在一起,包括客户的系统管理、安全性、资源分配、调度、协调、治理,所有的这些层面。我们更专注企业级客户的具体需求。

还有点关键的差异化竞争优势,我们一直着眼于未来。刚说的摩根大通用人工智能代替部分律师的工作;医疗服务行业也会看到人工智能取代部分人类医生;保险行业当中的保险精算师的工作会由人工智能来取代。这样对于一家走向未来的公司来说,实际上人工智能和机器学习就构成了核心的知识产权。

如果一家大的银行、医院,或者是一个大的制造企业把这种人工智能和机器学习的解决方案百分之百地依赖于像亚马逊、阿里云这样的云服务供应商的话,经过一段时间之后,特别是把他们所有最关键的知识产权锁定在这些云服务供应商专有机器学习的算法之中,在这样的条件下也许若干年之后,可能这样的云服务供应商会想我为什么不自己来做保险、不自己来做垂直的行业?就会有一个取而代之的风险。

而Cloudera软件有两个关键的优势,我们能够帮助客户保住自己的知识产权,把核心的知识产权掌握在自己手中。

首先Cloudera的平台是完全可迁移、可移植,是跨云甚至是跨环境的平台,可以使用亚马逊、微软或者是阿里云任何一个公共云平台,也可以把Cloudera的平台放在自己现场部署的私有云环境当中。

第二,Cloudera平台是开源的,对于机器学习和先进分析的算法,它作为开源的本质我们的客户是可以看得到,可以对之加以分析,甚至加以做一些更改来确保自己差异化的竞争优势,这样我们的客户就能够把自己的命运掌握在自己手中。

Q:关于人工智能和先进分析方面,Cloudera之后会有怎样的发展?

A:我先总体笼统讲一下,Cloudera公司的使命,就是通过正确地使用数据来把今天不可能解决的或者非常难以解决的问题变得可以解决,所以我们会继续在平台的基础之上增加各种能力。

具体的例子,比如不久前刚刚发布了一个新的产品叫Altus。Altus是把我们的软件以一种平台即服务(PaaS),而不是以基础设施即服务(IaaS)的方式交付给用户。

在过去三到四年当中,很多在云当中来使用我们软件的客户,他们都必须要自己建一个集群,比方说10个节点、20个节点的集群,用这个集群来处理各种各样的任务和查询。有了Altus之后,不再是一种基础设施即服务,而是平台即服务的模式,这意味着当客户有一个具体的查询或任务的时候,他把这样的查询和任务交给我们的软件,Altus软件就能够根据这项查询或者是任务自动地对查询和任务进行分析之后,动态地生成一个集群完成这个任务,然后再关掉这个集群,这样就具备了更高的弹性和动态可调的特点。

这样的一种模式或这样的产品能够带来多方面的好处,首先是增加了灵敏度,而且从开发者的角度来说不需要再去







































庆国庆中科白癜风预约就诊
拉萨最好的白癜风医院



转载请注明:http://www.xcqg58.com/lsqy/lsqy/7315.html