📅  最后修改于: 2020-11-30 04:53:18             🧑  作者: Mango
Hive将表组织到分区中。这是一种基于分区列的值(例如日期,城市和部门)将表划分为相关部分的方法。使用分区,很容易查询一部分数据。
表或分区被细分为存储桶,以提供可用于更有效查询的数据额外结构。存储桶基于表某列的哈希函数的值进行函数。
例如,名为Tab1的表包含员工数据,例如id,姓名,部门和年龄(即加入的年份)。假设您需要检索所有2012年加入的员工的详细信息。查询将在整个表中搜索所需的信息。但是,如果按年份对员工数据进行分区并将其存储在单独的文件中,则会减少查询处理时间。以下示例显示如何对文件及其数据进行分区:
以下文件包含employeedata表。
/ tab1 / employeedata / file1
id, name, dept, yoj
1, gopal, TP, 2012
2, kiran, HR, 2012
3, kaleel,SC, 2013
4, Prasanth, SC, 2013
以上数据使用年份分为两个文件。
/ tab1 / employeedata / 2012 / file2
1, gopal, TP, 2012
2, kiran, HR, 2012
/ tab1 / employeedata / 2013 / file3
3, kaleel,SC, 2013
4, Prasanth, SC, 2013
我们可以通过更改表将分区添加到表中。让我们假设我们有一个名为employee的表,其中包含Id,Name,Salary,Designation,Dept和yoj等字段。
ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec
[LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...;
partition_spec:
: (p_column = p_col_value, p_column = p_col_value, ...)
以下查询用于将分区添加到employee表。
hive> ALTER TABLE employee
> ADD PARTITION (year=’2012’)
> location '/2012/part2012';
该命令的语法如下。
ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;
以下查询用于重命名分区:
hive> ALTER TABLE employee PARTITION (year=’1203’)
> RENAME TO PARTITION (Yoj=’1203’);
以下语法用于删除分区:
ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec, PARTITION partition_spec,...;
以下查询用于删除分区:
hive> ALTER TABLE employee DROP [IF EXISTS]
> PARTITION (year=’1203’);