关于分库分表,要关心硬件,业务,分布式,和数据库选型.

   基本指标:库物理文件大小<100G

   表<100

   字段<200

   单表记录数<500W

   分库分表直接目的是要控制表的数量,控制数据的容量,最终的目的是降低响应延迟,更容易的运维


   可以用说用到MySQL的地方,只要数据量一大, 马上就会遇到一个问题,要分库分表.这里引用一个问题为什么要分库分表呢?MySQL处理不了大的表吗?其实是可以处理的大表的.我所经历的项目中单表物理上文件大小在80G多,单表记录数在5亿以上,而且这个表属于一个非常核用的表:朋友关系表.但这种方式可以说不是一个最佳方式. 因为面临文件系统如Ext3文件系统对大于大文件处理上也有许多问题.

   这个层面可以用xfs文件系统进行替换.但MySQL单表太大后有一个问题是不好解决: 表结构调整相关的操作基本不在可能.所以大项在使用中都会面监着分库分表的应用.


   分库分表还就是一个比较好的选择

   那么分库分表多少合适呢?

   经测试在单表1000万条记录一下,写入读取性能是比较好的. 这样在留点buffer,那么单表全是数字类型的保持在

   800万条记录以下, 有字符型的单表保持在500万以下.如果按 100库100表来规划,如用户业务:

500万*100*100 = 50000000万 = 5000亿记录.心里有一个数了,按业务做规划还是比较容易的.


   分库的原因,更多的为将来扩展及性能考虑.一个进程下打开的文件句柄有限,这是分库分表要限制在单个进程下的数量.当然这些表也可以全放到一个库下.但引入另外一个问题,单机性能达到瓶颈时,扩展又是一个麻烦事. 所以引入了一个分库,这样,才开始时,所有的库都可以在一个事例下,等到压力增大后,单机成为瓶颈了,可以通过移库的形式能快速的移动数据.这个要看单机的容量, 如果单机IO不是问题如果Fusion-io这种IO设备+SAS ,单库可以达到800G甚至1T都没问题.如果是传统的SAS建议单机单库别超过200G. 如果可能控制在100G以内,不然不容易运维.






本文转自 位鹏飞 51CTO博客,原文链接:http://blog.51cto.com/weipengfei/1332650,如需转载请自行联系原作者