hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解

转载

mob64ca140dc73b 2024-07-31 13:54:52

文章标签 数据命名空间 sed 文章分类 Hbase 数据库

下面记录一下Hbase的简单命令，以及相关的API操作，Hbase虽然也是一种数据库，但是基本命令和MySQL不一样。

基本概念

Hbase因为是列存储，因此出现了一些新的概念，分别是行键RowKey、列族Column Family、列Column、单元Cell和命名空间NameSpace。大部分概念可以通过excel表格来理解，以下是它们的示意图。

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_sed

（1）行键

行键类似MySQL中的主键，但hbase中没有主键的概念，它默认按照字典序排列，这个是分布式存储的基础。建表的时候是不需要指定行键的，它是在插入数据的指定。

（2）列族和列

一个表中至少包含一个列族，如图它相当如一个大的类，将包含很多小类，小类就是列。列族下面可以有0到多个列，列在建表的时候无需指定，在添加数据时可以动态增删。从上面示意图可以看出，增删列时最后会形成一个稀疏的数据结构，它不同MySQL那么紧凑密集。

（3）单元

hbase是可以增删改查数据的，实际上它的数据是存储在hdfs上，理论上是不能修改的，为了能做到更新数据，hbase存储的数据将有一个时间戳来标识，不同时间戳的数据就存储在一个个的不同单元中，默认只显示最新时间戳的数据，给人一种可以修改数据的感觉。因此单元里就是保存不同时间戳的数据。

（4）命名空间

命名空间相当如MySQL中的database，在hbase中使用namespace，均是可以区分同名表名的，hbase中如果不指定namespace就默认是default的命名空间。

基本命令

基本命令包含DDL（增删表）和DML（增删改查表数据），其中DDL命令需要经过HMaster，DML只需要经过HRegionServer，下面记录一下。

DDL相关

（1）新建一个表，下面指定了命名空间的操作。

# 新建命名空间，默认是default
hbase(main):002:0> create_namespace "hbasedemo"
2020-01-11 11:43:35,074 WARN  [main] util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/software/hbase-0.98.17-hadoop2/lib/slf4j-log4j12-1.6.4.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/home/software/hadoop-2.7.1/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
0 row(s) in 2.0560 seconds
# 查看命名空间
hbase(main):003:0> list_namespace
NAMESPACE
default
hbase
hbasedemo
3 row(s) in 0.0620 seconds
# 新建表，至少需要指定表名、列族，basic和data就是列族，这是省略写法
hbase(main):004:0> create 'hbasedemo:star','basic','data'
0 row(s) in 1.0880 seconds

=> Hbase::Table - hbasedemo:star
# 查看表是否建立，如果是默认就用list命令查看表
hbase(main):005:0> list_namespace_tables 'hbasedemo'
TABLE
star
1 row(s) in 0.0640 seconds

（2）新建一个表，如果不指定命令空间，默认就是在default命名空间下，下面使用建表的完整写法。

# 完整写法
hbase(main):015:0> create 'star',{NAME=>'basic'},{NAME=>'data'}
0 row(s) in 0.4320 seconds

=> Hbase::Table - star
# 查看表结构
hbase(main):017:0> desc 'star'
Table star is ENABLED
star
COLUMN FAMILIES DESCRIPTION
{NAME => 'basic', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', D
ATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true
', BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'}
{NAME => 'data', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', DA
TA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true'
, BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'}
2 row(s) in 0.0650 seconds

（3）删除一个表，删除刚才命名空间下建立的表。

# 删除表，需要先disable让其不可用，反之使用enable使其可用
hbase(main):007:0> disable 'hbasedemo:star'
0 row(s) in 1.3800 seconds
# 查看是否已经禁用
hbase(main):010:0> is_enabled 'hbasedemo:star'
false
0 row(s) in 0.0370 seconds
# 删除表，指定了命名空间前面
hbase(main):011:0> drop 'hbasedemo:star'
0 row(s) in 0.2540 seconds
# 查看是否删除
hbase(main):012:0> list_namespace_tables 'hbasedemo'
TABLE
0 row(s) in 0.0130 seconds

（4）删除一个表，如果删除default命名空间下的表。

hbase(main):019:0> disable 'star'
0 row(s) in 1.3080 seconds
# 删除表
hbase(main):020:0> drop 'star'
0 row(s) in 0.2010 seconds
# exists命令查看表是否存在
hbase(main):021:0> exists 'star'
Table star does not exist
0 row(s) in 0.0240 seconds

另外，删除了表后，就可以删除命名空间了，否则会提示命名空间下不为空。

hbase(main):006:0> drop_namespace 'hbasedemo'

ERROR: org.apache.hadoop.hbase.constraint.ConstraintException: Only empty namespaces can be removed. Namespace hbasedemo has 1 tables

删除了表后，就可以删除命名空间。

# 删除命名空间
hbase(main):013:0> drop_namespace 'hbasedemo'
0 row(s) in 0.0520 seconds
# 已删除
hbase(main):014:0> list_namespace
NAMESPACE
default
hbase

DML相关

以下DML相关操作，在默认命名空间下进行，如果需要指定命名空间，表名前加命名空间即可，即'命名空间:表名'来指定。

（1）插入数据，使用命令''put 表名，行键，'列族:列'，数据''的格式来添加。

# 插入两条数据
hbase(main):024:0> put 'star','s1','basic:name','messi'
0 row(s) in 0.2160 seconds

hbase(main):025:0> put 'star','s1','data:score',51
0 row(s) in 0.0160 seconds

（2）查找数据，主要为get和scan命令，其中scan为全表扫描，get是指定列族和列的查询方式。

get命令

# 查询s1行键的所有数据
hbase(main):026:0> get 'star','s1'
COLUMN                        CELL
 basic:name                   timestamp=1578716219238, value=messi
 data:score                   timestamp=1578716244483, value=51
2 row(s) in 0.4040 seconds
# 查询s1行键的指定列族的数据
hbase(main):027:0> get 'star','s1',{COLUMN=>'basic'}
COLUMN                        CELL
 basic:name                   timestamp=1578716219238, value=messi
1 row(s) in 0.0210 seconds
# 查询s1行键的指定列族的数据，简写方式
hbase(main):028:0> get 'star','s1','data'
COLUMN                        CELL
 data:score                   timestamp=1578716244483, value=51
1 row(s) in 0.0100 seconds
# 查询s1行键的指定列族和列的数据
hbase(main):029:0> get 'star','s1',{COLUMN=>'basic:name'}
COLUMN                        CELL
 basic:name                   timestamp=1578716219238, value=messi
1 row(s) in 0.0090 seconds
# 查询s1行键的指定列族和列的数据，简写方式
hbase(main):028:0> get 'star','s1','data:score'
COLUMN                        CELL
 data:score                   timestamp=1578716244483, value=51
1 row(s) in 0.0110 seconds

scan命令

# 先插入一条数据
hbase(main):034:0> put 'star','s1','data:assists',10
0 row(s) in 0.0650 seconds
# 全表查询
hbase(main):035:0> scan 'star'
ROW                           COLUMN+CELL
 s1                           column=basic:name, timestamp=1578716219238, value=messi
 s1                           column=data:assists, timestamp=1578717093292, value=10
 s1                           column=data:score, timestamp=1578716244483, value=51
1 row(s) in 0.0230 seconds
# 指定列族
hbase(main):036:0> scan 'star',{COLUMNS=>['basic','data']}
ROW                           COLUMN+CELL
 s1                           column=basic:name, timestamp=1578716219238, value=messi
 s1                           column=data:assists, timestamp=1578717093292, value=10
 s1                           column=data:score, timestamp=1578716244483, value=51
1 row(s) in 0.0200 seconds
# 指定列
hbase(main):037:0> scan 'star',{COLUMNS=>['basic:name','data:score']}
ROW                           COLUMN+CELL
 s1                           column=basic:name, timestamp=1578716219238, value=messi
 s1                           column=data:score, timestamp=1578716244483, value=51
1 row(s) in 0.0180 seconds

（3）更新数据

更新数据，其实也是插入数据，只是默认只显示最新时间戳的数据。后续再补充可以显示历史版本数据的操作。

# 查看梅西当前进球数
hbase(main):038:0> get 'star','s1','data:score'
COLUMN                        CELL
 data:score                   timestamp=1578716244483, value=51
1 row(s) in 0.0210 seconds
# 更新梅西进球数
hbase(main):039:0> put 'star','s1','data:score',60
0 row(s) in 0.0260 seconds
# 再次查看，显示更新后的数据
hbase(main):040:0> get 'star','s1','data:score'
COLUMN                        CELL
 data:score                   timestamp=1578717295077, value=60
1 row(s) in 0.0110 seconds

（4）删除数据

删除数据后还未从HDFS上完全抹掉，需要HFile在major compact后，标记为删除的数据才会被真正丢弃。

# 先查看一下
hbase(main):041:0> scan 'star'
ROW                           COLUMN+CELL
 s1                           column=basic:name, timestamp=1578716219238, value=messi
 s1                           column=data:assists, timestamp=1578717093292, value=10
 s1                           column=data:score, timestamp=1578717295077, value=60
1 row(s) in 0.0180 seconds
# 删除指定行键下的列
hbase(main):042:0> delete 'star','s1','data:assists'
0 row(s) in 0.0390 seconds
# 已删除梅西的助攻数
hbase(main):043:0> scan 'star'
ROW                           COLUMN+CELL
 s1                           column=basic:name, timestamp=1578716219238, value=messi
 s1                           column=data:score, timestamp=1578717295077, value=60
1 row(s) in 0.0100 seconds
# 删除整个行键数据
hbase(main):044:0> deleteall 'star','s1'
0 row(s) in 0.0230 seconds
# 已删除
hbase(main):045:0> scan 'star'
ROW                           COLUMN+CELL
0 row(s) in 0.0070 seconds

如果要能查看历史版本的数据，建表时需要指定能查看的历史版本数。

# 新建表，指定列族能提供的历史版本数
hbase(main):047:0> create 'star1',{NAME=>'basic',VERSIONS=>3},{NAME=>'data',VERSIONS=>2}
0 row(s) in 0.4300 seconds
# 插入数据
=> Hbase::Table - star1
hbase(main):048:0> put 'star1','s1','basic:name','ronald'
0 row(s) in 0.1110 seconds

hbase(main):049:0> put 'star1','s1','basic:age',34
0 row(s) in 0.0380 seconds

hbase(main):050:0> put 'star1','s1','data:score',45
0 row(s) in 0.0190 seconds

hbase(main):051:0> put 'star1','s1','data:score',46
0 row(s) in 0.0080 seconds

hbase(main):052:0> put 'star1','s1','data:score',47
0 row(s) in 0.0250 seconds

hbase(main):053:0> put 'star1','s1','data:score',48
0 row(s) in 0.0150 seconds
# 默认只显示最新信息
hbase(main):054:0> scan 'star1'
ROW                           COLUMN+CELL
 s1                           column=basic:age, timestamp=1578718726764, value=34
 s1                           column=basic:name, timestamp=1578718715616, value=ronald
 s1                           column=data:score, timestamp=1578718771868, value=48
1 row(s) in 0.0770 seconds
# 指定历史版本数量，然后指定了3条，但是建表只提供2条，因此就显示2条
hbase(main):055:0> scan 'star1',{COLUMNS=>'data:score',VERSIONS=>3}
ROW                           COLUMN+CELL
 s1                           column=data:score, timestamp=1578718771868, value=48
 s1                           column=data:score, timestamp=1578718769656, value=47
1 row(s) in 0.0340 seconds
# 只有1条，虽然能提供3条，但是也只显示1条
hbase(main):056:0> scan 'star1',{COLUMNS=>'basic',VERSIONS=>3}
ROW                           COLUMN+CELL
 s1                           column=basic:age, timestamp=1578718726764, value=34
 s1                           column=basic:name, timestamp=1578718715616, value=ronald
1 row(s) in 0.0180 seconds
# get命令也可以指定版本数
hbase(main):058:0> get 'star1','s1',{COLUMNS=>'basic',VERSIONS=>3}
COLUMN                        CELL
 basic:age                    timestamp=1578718726764, value=34
 basic:name                   timestamp=1578718715616, value=ronald
2 row(s) in 0.0350 seconds
# 可以指定时间戳
hbase(main):059:0> get 'star1','s1',{COLUMNS=>'data:score',TIMESTAMP=>1578718769656}
COLUMN                        CELL
 data:score                   timestamp=1578718769656, value=47
1 row(s) in 0.0090 seconds

基本API操作

下面是相关API基本操作，覆盖上面基础的的DDL和DML操作，执行过程中使用了log4j来打印日志，log4j的配置文件需放在src目录下。

log4j内容

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_数据_02

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_sed_03

log4j.rootLogger = info,stdout

log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target = System.out
log4j.appender.stdout.layout = org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern = [%-5p] %d{yyyy-MM-dd HH:mm:ss,SSS} method:%l%n%m%n

View Code

（1）新建表

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_数据_02

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_sed_03

package com.boe;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.filter.CompareFilter;
import org.apache.hadoop.hbase.filter.Filter;
import org.apache.hadoop.hbase.filter.RegexStringComparator;
import org.apache.hadoop.hbase.filter.RowFilter;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

/**
 * HBase DDL和DML相关API操作
 */
public class HBaseDemo {

    Configuration conf=null;

    @Before
    public void before(){
       conf= HBaseConfiguration.create();
       //通过连接zookeeper，获取hbase的连接地址
       //可以多写几个zookeeper节点，一个节点可能会有宕机的可能，导致连接不上
       conf.set("hbase.zookeeper.quorum","hadoop01:2181,hadoop02:2181,hadoop03:2181");
    }

    //1 创建表
    @Test
    public void createTable() throws IOException {
        //连接HBase
        //Configuration conf=HBaseConfiguration.create();
        //通过连接zookeeper获取HBase的连接地址
        //conf.set("hbase.zookeeper.quorum","node01:2181,node02:2181,node03:2181");//担心一个节点挂掉不保险，可以全写上
        //连接HBase
        HBaseAdmin admin=new HBaseAdmin(conf);
        //创建表
        //准备HTableDescriptor
        HTableDescriptor table=new HTableDescriptor(TableName.valueOf("employer"));//指定表名
        //准备列族
        HColumnDescriptor basic=new HColumnDescriptor("basic");
        HColumnDescriptor other=new HColumnDescriptor("info");
        //表添加列族
        table.addFamily(basic);table.addFamily(other);
        //创建表
        admin.createTable(table);
        //关闭管理权
        admin.close();
    }

}

View Code

执行后新建表employer成功。

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_数据_06

（2）添加数据

//2 向表中添加数据
    @Test
    public void putData() throws IOException {
        HTable table=new HTable(conf,TableName.valueOf("employer"));
        //添加数据
        //将每一条数据封装为put对象
        Put put=new Put("e1".getBytes());//给定rowKey
        put.add("basic".getBytes(),"name".getBytes(),"clyang".getBytes());
        put.add("basic".getBytes(),"age".getBytes(),"28".getBytes());
        //添加数据
        table.put(put);
        //关流
        table.close();

    }

查看表中数据，插入成功。

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_sed_07

可以测试插入100万条数据的时间，本次是在mac下完成，内存8G。

//2.1 添加100万条数据,计算时长，本机32秒插入完成
    //hbase shell查看结果发现，rowKey默认是按照字典序排列
    @Test
    public void testMillion() throws IOException {
        HTable table=new HTable(conf,TableName.valueOf("employer"));
        //添加100万条数据
        List<Put> list=new ArrayList<>();
        long start = System.currentTimeMillis();
        for (int i = 0; i <1000000 ; i++) {
            Put put=new Put(("e"+i).getBytes());//给定rowKey
            put.add("basic".getBytes(),"number".getBytes(),(i+"").getBytes());
            list.add(put);
            if(list.size()==1000){
                //添加数据
                table.put(list);
                //关流
                list.clear();
            }

        }
        long end = System.currentTimeMillis();
        System.err.println("运行时间为"+(end-start));
        //关流
        table.close();

    }

查看控制台，运行时间为32秒左右，插入100万条数据已经算快了，可能本机配置不行，好一点的机器估计只要几秒。

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_sed_08

（3）删除数据

//3 从表中删除数据
    @Test
    public void deleteData() throws IOException {
        HTable table=new HTable(conf,TableName.valueOf("employer"));
        Delete del=new Delete("e999999".getBytes());
        //删除整行
        table.delete(del);
        //关流
        table.close();
    }

删除成功。

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_命名空间_09

（4）查询数据

查询数据get和scan也要对应的API。

//4 查询数据
    //a 字段来查
    @Test
    public void getData() throws IOException {
        HTable table=new HTable(conf,TableName.valueOf("employer"));
        //获取数据
        Get get=new Get("e1".getBytes());
        Result result = table.get(get);
        //指定列族family和列名qualifier
        byte[] name = result.getValue("basic".getBytes(), "name".getBytes());
        byte[] age = result.getValue("basic".getBytes(), "age".getBytes());
        //打印
        System.err.println(new String(name)+":"+new String(age));
        //关流
        table.close();
    }

    //b 全表来查
    @Test
    public void scanData() throws IOException {
        HTable table=new HTable(conf,TableName.valueOf("employer"));
        //获取扫描器
        //Scan scan=new Scan();//全表扫描
        Scan scan=new Scan("e8848".getBytes(),"e8849".getBytes());//指定起始和结束rowKey，部分扫描

        ResultScanner scanner = table.getScanner(scan);
        //将扫描器转换为迭代器后才能遍历
        Iterator<Result> iterator = scanner.iterator();
        while(iterator.hasNext()){
            Result result = iterator.next();
            //从result中拿值
            byte[] value = result.getValue("basic".getBytes(), "number".getBytes());
            System.err.println(new String(value));
        }
        table.close();
    }

按字段查控制台

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_sed_10

按全表查控制台，全表查还可以指定起始和结束行键，发现默认是按照字典序排列。

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_数据_11

查询时，还可以根据行键来过滤，需要使用filter，API中提供了多种选择，这里使用行过滤器，过滤出含有8848行键的数据。

//c 查询数据，使用filter过滤
    @Test
    public void filterData() throws IOException{
        HTable table=new HTable(conf,TableName.valueOf("employer"));
        //获取扫描器
        Scan scan=new Scan();
        //获取过滤器
        Filter filter=new RowFilter(CompareFilter.CompareOp.EQUAL,new RegexStringComparator(".*8848.*"));
        //设置过滤器
        scan.setFilter(filter);
        //扫描数据
        ResultScanner scanner = table.getScanner(scan);
        Iterator<Result> iterator = scanner.iterator();
        while(iterator.hasNext()){
            Result result = iterator.next();
            //打印result中的值
            System.err.println(new String(result.getValue("basic".getBytes(),"number".getBytes())));
        }
    }

查看控制台，过滤成功。

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_sed_12

（5）删除表

//5 删除表
    @Test
    public void dropTable() throws IOException {
        HBaseAdmin admin=new HBaseAdmin(conf);
        //禁用
        admin.disableTable("employer".getBytes());
        //删除表
        admin.deleteTable("employer".getBytes());
        //关流
        admin.close();
    }

查看删除成功。

hbase中setfilethreshold最大可以多少 hbase的describe命令输出详解_数据_13