标题

  • Hbase的表模型
  • Shell操作
  • 1.进入客户端
  • 2.查看表
  • 3.创建表
  • 4.添加表数据
  • 5.查询数据
  • 6.更新数据
  • 7.删除表数据
  • 8.删除表操作
  • 9.统计一张表有多少行数据
  • 10.shell表管理命令



Hbase的表模型

官方介绍:http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rackcdn.com/9353-login1210_khurana.pdf示图:

hbase rowkey 匹配搜索 命令 hbase查询rowkey_时间戳

Row Key:
与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行,只有三种方式:
1 通过单个row key访问
2 通过row key的range
3 全表扫描

Row key行键 (Row key)可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbase内部,row key保存为字节数组。
Hbase会对表中的数据按照rowkey排序(字典顺序)

列族Column Family:
hbase表中的每个列,都归属与某个列族。列族是表的schema的一部分(而列不是),必须在使用表之前定义。
列名都以列族作为前缀。例如courses:history , courses:math 都属于 courses 这个列族。
访问控制、磁盘和内存的使用统计都是在列族层面进行的。
列族越多,在取一行数据时所要参与IO、搜寻的文件就越多,所以,如果没有必要,不要设置太多的列族

列 Column:
列族下面的具体列,属于某一个ColumnFamily,类似于我们mysql当中创建的具体的列

时间戳:
HBase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动 )赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。每个 cell中,不同版本的数据按照时间倒序排序,即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担,hbase提供了两种数据版本回收方式:
1、保存数据的最后n个版本
2、保存最近一段时间内的版本(设置数据的生命周期TTL)。
用户可以针对每个列族进行设置。

Cell:
由{row key, column( = + ), version} 唯一确定的单元。
cell中的数据是没有类型的,全部是字节码形式存贮

VersionNum:
数据的版本号,每条数据可以有多个版本号,默认值为系统时间戳类型为Long




Shell操作

1.进入客户端

进入到hbase-1.2.0-cdh5.14.0目录

cd /export/servers/hbase-1.2.0-cdh5.14.0/ 启动:bin/hbase shell

hbase rowkey 匹配搜索 命令 hbase查询rowkey_hbase_02

查看帮助命令:

HBase Shell, version 1.2.0-cdh5.14.0, rUnknown, Sat Jan  6 13:40:03 PST 2018
Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for help on a specific command.
Commands are grouped. Type 'help "COMMAND_GROUP"', (e.g. 'help "general"') for help on a command group.

COMMAND GROUPS:
  Group name: general
  Commands: status, table_help, version, whoami

  Group name: ddl
  Commands: alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled, list, locate_region, show_filters

  Group name: namespace
  Commands: alter_namespace, create_namespace, describe_namespace, drop_namespace, list_namespace, list_namespace_tables

  Group name: dml
  Commands: append, count, delete, deleteall, get, get_counter, get_splits, incr, put, scan, truncate, truncate_preserve

  Group name: tools
  Commands: assign, balance_switch, balancer, balancer_enabled, catalogjanitor_enabled, catalogjanitor_run, catalogjanitor_switch, close_region, compact, compact_mob, compact_rs, flush, major_compact, major_compact_mob, merge_region, move, normalize, normalizer_enabled, normalizer_switch, split, trace, unassign, wal_roll, zk_dump

  Group name: replication
  Commands: add_peer, append_peer_tableCFs, disable_peer, disable_table_replication, enable_peer, enable_table_replication, get_peer_config, list_peer_configs, list_peers, list_replicated_tables, remove_peer, remove_peer_tableCFs, set_peer_tableCFs, show_peer_tableCFs, update_peer_config

  Group name: snapshots
  Commands: clone_snapshot, delete_all_snapshot, delete_snapshot, list_snapshots, restore_snapshot, snapshot

  Group name: configuration
  Commands: update_all_config, update_config

  Group name: quotas
  Commands: list_quotas, set_quota

  Group name: security
  Commands: grant, list_security_capabilities, revoke, user_permission

  Group name: procedures
  Commands: abort_procedure, list_procedures

  Group name: visibility labels
  Commands: add_labels, clear_auths, get_auths, list_labels, set_auths, set_visibility

  Group name: rsgroup
  Commands: add_rsgroup, balance_rsgroup, get_rsgroup, get_server_rsgroup, get_table_rsgroup, list_rsgroups, move_servers_rsgroup, move_tables_rsgroup, remove_rsgroup

SHELL USAGE:
Quote all names in HBase Shell such as table and column names.  Commas delimit
command parameters.  Type <RETURN> after entering a command to run it.
Dictionaries of configuration used in the creation and alteration of tables are
Ruby Hashes. They look like this:

  {'key1' => 'value1', 'key2' => 'value2', ...}

and are opened and closed with curley-braces.  Key/values are delimited by the
'=>' character combination.  Usually keys are predefined constants such as
NAME, VERSIONS, COMPRESSION, etc.  Constants do not need to be quoted.  Type
'Object.constants' to see a (messy) list of all constants in the environment.

If you are using binary keys or values and need to enter them in the shell, use
double-quote'd hexadecimal representation. For example:

  hbase> get 't1', "key\x03\x3f\xcd"
  hbase> get 't1', "key\003\023\011"
  hbase> put 't1', "test\xef\xff", 'f1:', "\x01\x33\x40"

The HBase shell is the (J)Ruby IRB with the above HBase-specific commands added.
For more on the HBase Shell, see http://hbase.apache.org/book.html
hbase(main):002:0> clear
NameError: undefined local variable or method `clear' for #<Object:0x5d878b25>
2.查看表

list

hbase rowkey 匹配搜索 命令 hbase查询rowkey_Group_03


3.创建表

创建user表,包含info、data两个列族:
create 'user', 'info', 'data'或者
create 'user', {NAME => 'info', VERSIONS => '3'},{NAME => 'data'}

创建表至少要有表名列名

4.添加表数据

1、向user表中插入信息,row key为rk0001,列族info中添加name列标示符,值为zhangsan
put 'user', 'rk0001', 'info:name', 'zhangsan'2、向user表中插入信息,row key为rk0001,列族info中添加gender列标示符,值为female
put 'user', 'rk0001', 'info:gender', 'female'

3、向user表中插入信息,row key为rk0001,列族info中添加age列标示符,值为20
put 'user', 'rk0001', 'info:age', 20

4、向user表中插入信息,row key为rk0001,列族data中添加pic列标示符,值为picture
put 'user', 'rk0001', 'data:pic', 'picture'

5.查询数据

1、通过rowkey进行查询
获取user表中row key为rk0001的所有信息
get 'user', 'rk0001'

2、查看rowkey下面的某个列族的信息
获取user表中row key为rk0001,info列族的所有信息
get 'user', 'rk0001', 'info'

3、查看rowkey指定列族指定字段的值
获取user表中row key为rk0001,info列族的name、age列标示符的信息
get 'user', 'rk0001', 'info:name', 'info:age'

4、查看rowkey指定多个列族的信息
获取user表中row key为rk0001,info、data列族的信息
get 'user', 'rk0001', 'info', 'data' 或者你也可以这样写
get 'user', 'rk0001', {COLUMN => ['info', 'data']} 或者你也可以这样写,也行
get 'user', 'rk0001', {COLUMN => ['info:name', 'data:pic']}

5、指定rowkey与列值查询
获取user表中row key为rk0001,cell的值为zhangsan的信息
get 'user', 'rk0001', {FILTER => "ValueFilter(=, 'binary:zhangsan')"}

6、指定rowkey与列值模糊查询
获取user表中row key为rk0001,列标示符中含有a的信息
get 'user', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"} 继续插入一批数据
put 'user', 'rk0002', 'info:name', 'fanbingbing'put 'user', 'rk0002', 'info:gender', 'female'put 'user', 'rk0002', 'info:nationality', '国家'get 'user', 'rk0002', {FILTER => "ValueFilter(=, 'binary:国家')"}

7、列族查询
查询user表中的所有信息
scan 'user'

查询user表中列族为info的信息
scan 'user', {COLUMNS => 'info'}scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 5}scan 'user', {COLUMNS => 'info', RAW => true, VERSIONS => 3}

8、多列族查询
查询user表中列族为info和data的信息
scan 'user', {COLUMNS => ['info', 'data']}scan 'user', {COLUMNS => ['info:name', 'data:pic']}

9、指定列族与某个列名查询
查询user表中列族为info、列标示符为name的信息
scan 'user', {COLUMNS => 'info:name'}

10、指定列族与列名以及限定版本查询
查询user表中列族为info、列标示符为name的信息,并且版本最新的5个
scan 'user', {COLUMNS => 'info:name', VERSIONS => 5}

11、指定多个列族与按照数据值模糊查询
查询user表中列族为info和data且列标示符中含有a字符的信息
scan 'user', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"}

12、rowkey的范围值查询
查询user表中列族为info,rk范围是[rk0001, rk0003)的数据
scan 'user', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'}

13、指定rowkey模糊查询
查询user表中row key以rk字符开头的
scan 'user',{FILTER=>"PrefixFilter('rk')"}

14、指定数据范围值查询
查询user表中指定范围的数据
scan 'user', {TIMERANGE => [1392368783980, 1392380169184]}

6.更新数据

注: 更新操作同插入操作一模一样,只不过有数据就更新,没数据就添加
将user表的f1列族版本号改为5
alter 'user', NAME => 'info', VERSIONS => 5

7.删除表数据

1、指定rowkey以及列名进行删除
删除user表row key为rk0001,列标示符为info:name的数据
delete 'user', 'rk0001', 'info:name'

2、指定rowkey,列名以及字段值进行删除
删除user表row key为rk0001,列标示符为info:name,timestamp为1392383705316的数据
delete 'user', 'rk0001', 'info:name', 1392383705316

3、删除一个列族
删除一个列族:
alter 'user', NAME => 'f1', METHOD => 'delete' 或 alter 'user', 'delete' => 'f1'

4、清空表数据
truncate 'user'

8.删除表操作

首先需要先让该表为disable状态,使用命令:
disable 'user'

然后才能drop这个表,使用命令:
drop 'user'

注: 如果直接drop表,会报错:Drop the named table. Table must first be disabled)

9.统计一张表有多少行数据

count 'user'

10.shell表管理命令

1、status
例如:显示服务器状态
status 'node01'

2、whoami
显示HBase当前用户,例如:
whoami

3、list
显示当前所有的表

4、count
统计指定表的记录数,例如:
count 'hbase_book'

5、describe
展示表结构信息
describe 'user'desc 'user'

6、exist
检查表是否存在,适用于表量特别多的情况
exist 'user'

7、is_enabled、is_disabled
检查表是否启用或禁用
is_enabled 'user'is_disabled 'user'

8、alter
该命令可以改变表和列族的模式,例如:
为当前表增加列族:
alter 'hbase_book', NAME => 'CF2', VERSIONS => 2 为当前表删除列族:
alter 'hbase_book', 'delete' => 'CF2'

9、disable
禁用一张表
disable 'user'

10、drop
删除一张表,记得在删除表之前必须先禁用
drop 'user'

11、truncate
禁用表-删除表-创建表
truncate 'user'