大数据Hadoop之数据仓库Hive

临床白癜风研究专家 https://m.39.net/disease/a_5477296.html
一、概述

Hive是基于Hadoop的一个数据仓库(DataAarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。

在Hadoop生态系统中,HDFS用于存储数据,Yarn用于资源管理,MapReduce用于数据处理,而Hive是构建在Hadoop之上的数据仓库,包括以下方面:

使用HQL作为查询接口;

使用HDFS存储;

使用MapReduce或其它计算框架计算;

执行程序运行在Yarn上。

Hive的本质是:将HiveSQL转化成MapReduce程序,其灵活性和扩展性比较好,支持UDF,自定义存储格式等;适合离线数据处理。

Hive相关网站




转载请注明:http://www.xcqg58.com/jbjj/jbjj/26848000.html

  • 上一篇文章:
  •   
  • 下一篇文章: