mysql的分区技术理论
[1] 大数据存储
当mysql中一个表的总记录数超过了1000万,会出现性能的大幅度下降吗?答案是肯定的。但性能下降的比率由系统的架构、应用程序、数据库索引、服务器硬件等多种因素而定。数据库多大上亿的数据量,分表之后的单个表也已经突破千万,那么单个表的更新等均影响着系统的运行效率。甚至是一条简单的SQL都有可能压垮整个数据库,如整个表对某个字段的排序等。
[2] 解决方案
目前,针对海量数据的优化主要有2种方法:大表拆分小表的方式、SQL语句的优化
[3] SQL语句的优化:可以通过增加索引等来调整,但是数据量的增大将会导致索引的维护代价增大
[4] 大表拆小表
a.垂直分表
table a(id,colspan1, colspan2, colspan3, colspan4, colspan5) => table a(id,colspan1, colspan2, colspan3) and table a( colspan4, colspan5)
b.水平分表
table a(id,colspan1, colspan2, colspan3, colspan4, colspan5) id={1,1000}
table a(id,colspan1, colspan2, colspan3, colspan4, colspan5) id={2,1000}
...
[5] 水平分区技术将一个表拆分成多个表,比较常用的方式是将表中的记录按照某种Hash算法进行拆分,简单的拆分方法如取模方式。同样,这种分区方法也必须对前端的应用程序中的SQL进行修改方可使用。而且对于一个SQL,它可能会修改两个表,那么你必须得写成2个SQL语句从而可以完成一个逻辑的事务,使得程序的判断逻辑越来越复杂,这样也会导致程序的维护代价高,也就失去了采用数据库的优势。因此,分区技术可以有力地避免如上的弊端,成为解决海量数据存储的有力方法。
[6] MYSQL分区介绍 version>=5.1
MYSQL的分区技术不同于之前的分表技术,它与水平分表有点类似,但是它是在逻辑层进行的水平分表,对于应用程序而言它还是一张表,MYSQL5.1有5种分区类型:
(1) RANGE分区:基于属于一个给定连续区间的列值,把多行分配给分区
(2) LIST分区: 类似于按RANGE分区,区别在于LIST是基于列值匹配一个离散值集合的某个值来进行选择
(3) HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算,这个函数可以包含MYSQL中有效的,产生非负整数值的任何表达式。
(4)KEY分区:类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MYSQL服务器提供其自身的哈希函数。
[7] range分区示例
mysql>create table employees(
id int not null,
fname varchar(30),
lname varchar(30),
hire date not null default '1970-01-01',
separate date not null default '1999-01-01',
job_code int not null,
store_id int not null
)
partition by RANGE(store_id) (
partition p0 values less than(6),
partition p1 values less than(11),
partition p2 values less than(16),
partition p3 values less than(21)
);
//或
partition by RANGE(year(separate)) (
partition p0 values less than (1991),
partition p1 values less than (1996),
partition p2 values less than (2000),
partition p3 values less than MAXVALUE
);
[8] LIST分区示例
mysql>create table employees(
id int not null,
fname varchar(30),
lname varchar(30),
hire date not null default '1970-01-01',
separate date not null default '1999-01-01',
job_code int not null,
store_id int not null
)
partition by LIST(store_id) (
partition pNorth values in(3,5,6,9,17),
partition pEast values in (1,2,10,11,19,20),
partition pWest values in (4,12,13,14,18),
partition pCentral values in (7,8,15,16)
);
[9]HASH分区示例
mysql>create table employees(
id int not null,
fname varchar(30),
lname varchar(30),
hire date not null default '1970-01-01',
separate date not null default '1999-01-01',
job_code int not null,
store_id int not null
)
partition by HASH(year(hired))
partitions 4
[10]分区类型、优点、缺点、共性
Range 优点:(适合与日期类型,支持复合分区)
缺点:(有限的分区)
共性:(一般针对某一列)
List 优点:(适合与有固定取值的列,支持复合分区)
缺点:(有限的分区,插入记录在这一列的值,不在值List中,则数据丢失)
共性:(一般针对某一列)
Hash 优点:(线性Hash使得增加、删除、合并分区更快捷)
缺点:(线性Hash的数据分布不均匀,而一般Hash的数据分布较均匀)
共性:(一般针对某一列)
Key 优点:(列可以为字符型等其它非int类型)
缺点:(效率较之前的低,因为函数为复杂的函数(如.MD5或SHA函数))
共性:(一般针对某一列)
[11] mysql一些命令
a.\s 查看字符集 b. show engines; c. show plugins; d. \db // 改变定界符
[12] linux一些命令
a. watch -n1 ls -lh 隔一秒钟刷新一次结果 b.ctrl+F1\F2 切换终端
[13] 存储过程
mysql>create procedure p3()
->begin
->set @i=1;
->while @i<10000 do
->insert into t3 values(@i);
->set @i=@i+1;
->end while;
->end //
mysql>show precedure status;
[14] innodb表数据结构
a.对于innodb的数据结构,首先要解决两个概念性的问题:共享表空间以及独占表空间
b.共享表空间:某一个数据库的所有的表数据,索引文件全部放在一个文件中,默认这个共享表空间的文件路径在data目录下。默认的文件名为:ibdata1初始化为10M。
c.独占表空间:每个表都将会生成以独立的文件方式来进行存储,每一个表都有一个.frm表描述文件,还有一个.ibd文件。其中这个文件包括了单独一个表的数据内容以及索引内容,默认情况下它的存储位置也是在表的位置中
d.
innodb_data_home_dir = "C:\mysql\data\"
innodb_log_group_home_dir = "C:\mysql\data\"
innodb_data_file_path = ibdata1:10M:autoextend
innodb_file_per_table = 1
//以上的几个参数必须在一起加入