Hive 是一个用 Java 编写的、基于 Hadoop 的分布式数据仓库。

数据仓库和数据库的区别在于:数据库对读写性能都有较高要求,适合于跑业务;而数据仓库只对读性能有非常高的要求,适合于数据分析。

其实 Hive 的 SQL 语法和 MySQL 等其他数据库的语法都大差不差。配好环境写 SQL 还是很容易上手的。

# Docker 部署 Hive 测试环境

Hive 生产环境需要在多个服务器上部署 Hadoop、非常麻烦。但是在测试环境下,只需要在一台电脑上部署多个 Docker 容器。而且已经有人写好了 Docker Compose (opens new window),开箱即用。

git clone https://github.com/big-data-europe/docker-hive
cd docker-hive
docker-compose up

跑起来以后就可以用 DataGrid、Navicat 等软件匿名连接到数据库。如果是 jdbc 连接,链接是:

jdbc:hive2://localhost:10000

# 教程

Hive 教程英文版 (opens new window)|中文版 (opens new window)

此外,hive-server 容器的 /opt/hive/examples 下有大量测试数据和查询语句可以学习。