开始文章前,小编不禁想卖弄地问问各位:算法、分析、描述性分析、预测性分析、规范性分析、批处理、云计算、集群计算、暗数据……这些大数据专业词汇你知道是什么意思吗?
就知道你的反应会是这样!每天说遍的词偏偏在被问什么意思的时候懵逼,你这个吃瓜群众大大的不合格哦!毕竟,想要装逼,肚子里还是要有点真材实料的。今天小编就要为你介绍75个大数据装逼必备词汇的含义,让它们成为你聊天装逼的利器吧!
1.算法(Algorithm)
算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。
2.分析(Analytics)
举个常见的例子,你的信用卡公司每年会将记录着你全年资金转账情况的年终报表发给你。如果你想具体看看自己在食品、衣物、娱乐等方面消费情况的百分比是怎样?这个过程就叫“分析”,你正尝试从原始数据中挖掘有用的信息,来帮助自己决定来年的支出。
那么,如果你以类似的方法对朋友、网络或者自己的公司发的推文以及facebook帖子进行同样的操作,我们就将其称之为“大数据分析”了。所谓大数据分析,就是对大量数据进行推理并得出结论的过程。它有三种不同类型的分析方法,下面我们就对其分别进行梳理。
3.描述性分析(DescriptiveAnalytics)
如果你告诉我,去年你自己的信用卡消费情况为:食品消费25%、衣物消费35%、娱乐消费20%、剩下20%为杂项开支,这种分析方法就称之为“描述性分析”。
4.预测性分析(PredictiveAnalytics)
如果你分析了过去5年的信用卡消费记录,并在其中发现一定的一致性、关联性,那么在这种情况下,你就可以较有把握地预测出——来年的消费情况应该和过去几年是类似的。值得注意的是,我们并非在“预测未来”,而是在“预测事情发生的概率和可能性”。
在大数据预测分析中,数据科学家可能会使用机器学习、数据挖掘以及高级统计过程等先进技术来预测天气情况、经济变化等。
5.规范性分析(PrescriptiveAnalytics)
这里我们还是用信用卡的例子来解释。你可能会很想知道自己的哪类消费(例如食品、娱乐、衣物等)会对整体消费产生巨大影响,而“规范性分析”就是通过引入“动态指标(action)”(如减少食品或衣物或娱乐)以及对由此产生的结果进行分析,从而规定一个可以降低你总开销的最佳消费项。
如果将其延伸到大数据领域,你可以想象一个管理人员是如何通过研究他面前多种“动态指标”的影响,进而做出“数据驱动”的决策。
6.批量处理(Batchprocessing)
尽管从大型计算机(mainframe)时代开始,批量处理就已经存在了。但是在处理大量数据的大数据时代,批量处理又被重新赋予了更重要的意义。批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。稍后我会介绍的分布式计算(Hadoop)就是一种专门处理批量数据的方法。
7.Cassandra
Cassandra是由Apache软件基金会(下文有介绍)开发并运营的一款流行的开源数据管理系统。Apache掌握了很多大数据处理技术,Cassandra就是他们专门设计用来处理跨分布式服务器中大量数据的系统。