hdfs设计的主要针对的是大数据,超大文件,比如说要放100GB的用户行为的日志,甚至是1TB 1PB的数据, 这么大的文件很难放到一台服务器里面.
此时就可以把超大文件拆散,拆成N多个128MB的小文件,每个小文件就可以说是这个大文件的一个block(块儿)
hdfs只能是存储文件的,最多是你只能不停的往文件的末尾不停的追加数据.
hdfs基本只能做 目录层级结构,创建文件,管理权限,对文件进行删除,对大文件的数据读取,对文件进行数据的追加.
如果要对hdfs上存储的海量数据进行增删改查, 我要往里面插入数据,还要修改数据,还有删除里面某一行的数据,还要精确的查询某一行数据, 这是hdfs做不到的.
所以有了HBase .HBase基于HDFS进行超大数据集的分布式存储,和对数据增删改查. HBase必须要和HDFS配合使用的.