你听说过NDBAPI吗?
在MySQL的SQL层有什么好的解决办法可以减少CPU资源争用吗?如果你使用的是MySQL集群,NDBAPI可能是最好的解决方案,我在MySQL/Sun/Oracle担任顾问时,我看到许多客户对SQL节点+NDB的性能表现很失望,当使用NDBAPI客户端性能提高N倍后,他们高兴极了,你可以在MySQL集群中同时使用NDBAPI和SQL,建议频繁访问模式使用NDBAPI,即席查询或非频繁模式使用SQL+MySQL+NDB。
这正是我们想要的,我们希望更快速地访问API,我们也希望对即席查询或复杂查询使用SQL,但DeNA使用的是InnoDB,和许多其它Web服务一样,切换到NDB不是小事,嵌入式InnoDB不支持SQL也不没有网络接口,因此它不适合我们。
HandlerSocket插件,一个懂NoSQL网络协议的MySQL插件
我们认为最好的办法是在MySQL内部实现一个NoSQL网络服务器,也就是说,写一个网络服务器作为MySQL插件(守护进程插件)监听指定端口,接受NoSQL协议/API,然后使用MySQL内部存储引擎API直接访问InnoDB。这个方法和NDBAPI类似,但它可以和InnoDB交互,这个概念最初是由Kazuho Oku去年在Cybozu实验室提出并创建了原型,他编写了使用memcached协议的MyCached UDF,我的同事Akira Higuchi实现了另一个插件:HandlerSocket,下图显示了HandlerSocket可以做的事情。
Hanldersocket是一个MySQL守护进程插件,它让应用程序可以将MySQL当NoSQL使,Hanldersocket的主要目的是与存储引擎,如InnoDB交互,而不需要SQL相关的开销。访问MySQL表时,Hanldersocket仍然需要打开和关闭表,但不是每次访问都要求打开和关闭,因此减少了互斥争夺,极大地提高了系统性能,当流量变小时,Hanldersocket会关闭表,因此它永远不会阻止管理命令(DDL)。
它和使用MySQL+Memcached有什么不同?比较图1和图2,我想你会发现很多差异的,图2显示了典型的Memcached和MySQL用法,Memcached用于缓存数据库记录,这是因为Memcached的get操作比MySQL的内存中/磁盘上的主键查询要快很多,如果HandlerSocket的查询速度和Memcached一样快,我们就不用Memcached缓存记录了。
图 2 MySQL+Memcached的常见架构模式
使用HandlerSocket
举一个例子,假设有一个“user”表,我们需要通过user_id获取用户信息。
1. CREATE TABLE user (
2. user_id INT UNSIGNED PRIMARY KEY,
3. user_name VARCHAR(50),
4. user_email VARCHAR(255),
5. created DATETIME
6. ) ENGINE=InnoDB;
在MySQL中,可以通过SELECT语句获取用户信息。
1. mysql> SELECT user_name, user_email, created FROM user WHERE user_id=101;
2. +---------------+-----------------------+---------------------+
3. | user_name | user_email | created |
4. +---------------+-----------------------+---------------------+
5. | Yukari Takeba | yukari.takeba@dena.jp | 2010-02-03 11:22:33 |
6. +---------------+-----------------------+---------------------+
7. 1 row in set (0.00 sec)
下面我们来看看如何使用HandlerSocket完成同样的事情。
首先需要安装HandlerSocket,具体安装步骤请参考这里,基本步骤如下:
1、从这里下载HandlerSocket;
2、生成HandlerSocket(客户端和服务器端);
1. ./configure --with-mysql-source=... --with-mysql-bindir=... ; make; make install
3、安装HandlerSocket
1. mysql> INSTALL PLUGIN 'HandlerSocket' soname 'HandlerSocket.so';
因为HandlerSocket是MySQL插件,你可以象使用其它插件,如InnoDB、Q4M和Spider插件那样使用它,也就是说,你不需要修改MySQL源代码,MySQL最好是5.1或更高版本,生成HandlerSocket时需要MySQL源代码和MySQL库。
接下来需要编写HandlerSocket客户端代码,我们提供了C++和Perl客户端库,下面是一个简单的Perl代码示例,它通过主键查询获取一行记录。
1. #!/usr/bin/perl
2.
3. use strict;
4. use warnings;
5. use Net::HandlerSocket;
6.
7. #1. establishing a connection
8. my $args = { host => 'ip_to_remote_host', port => 9998 };
9. my $hs = new Net::HandlerSocket($args);
10.
11. #2. initializing an index so that we can use in main logics.
12. # MySQL tables will be opened here (if not opened)
13. my $res = $hs->open_index(0, 'test', 'user', 'PRIMARY',
14. 'user_name,user_email,created');
15. die $hs->get_error() if $res != 0;
16.
17. #3. main logic
18. #fetching rows by id
19. #execute_single (index id, cond, cond value, max rows, offset)
20. $res = $hs->execute_single(0, '=', [ '101' ], 1, 0);
21. die $hs->get_error() if $res->[0] != 0;
22. shift(@$res);
23. for (my $row = 0; $row < 1; ++$row) {
24. my $user_name= $res->[$row + 0];
25. my $user_email= $res->[$row + 1];
26. my $created= $res->[$row + 2];
27. print "$user_name\t$user_email\t$created\n";
28. }
29.
30. #4. closing the connection
31. $hs->close();
上面的代码从user表查询user_name,user_email和created列,查询条件是user_id=101,因此查询结果和前面的SELECT语句一样。
1. [matsunobu@host ~]$ perl sample.pl
2. Yukari Takeba yukari.takeba@dena.jp 2010-02-03 11:22:33
对于大多数Web应用程序而言,保持轻量级的HandlerSocket连接是一个很好的做法(持续连接),让大量的请求可以集中于主要逻辑(上面代码中的#3部分)。
HandlerSocket协议是一个小尺寸的基于文本的协议,和Memcached文本协议类似,你可以使用telnet通过HandlerSocket获取数据。
1. [matsunobu@host ~]$ telnet 192.168.1.2 9998
2. Trying 192.168.1.2...
3. Connected to xxx.dena.jp (192.168.1.2).
4. Escape character is '^]'.
5. P 0 test user PRIMARY user_name,user_email,created
6. 0 1
7. 0 = 1 101
8. 0 3 Yukari Takeba yukari.takeba@dena.jp 2010-02-03 11:22:33
绿色表示请求数据包,字段必须用Tab键分隔。
基准测试
现在是时候展示我们的基准测试结果了,我使用上面的user表,从多线程远程客户端测试了执行主键查询操作的次数,所有用户数据都装入到内存中(我测试了100万行),我也用类似的数据测试了Memcached(我使用libmemcached和memcached_get()获取用户数据),在MySQL SQL测试中,我使用了一个传统的SELECT语句:“SELECT user_name, user_email, created FROM user WHERE user_id=?”,Memcached和HandlerSocket客户端代码均使用C/C++编写,所有客户端程序都位于远程主机上,通过TCP/IP连接到MySQL/Memcached。最高的吞吐量情况如下:
1. approx qps server CPU util
2. MySQL via SQL 105,000 %us 60% %sy 28%
3. memcached 420,000 %us 8% %sy 88%
4. MySQL via HandlerSocket 750,000 %us 45% %sy 53%
通过HandlerSocket比传统的SQL语句吞吐量要高出7.5倍,这说明了MySQL的SQL层是非常耗资源的,如果能跳过这一层性能肯定会大大提升。有趣的是,MySQL使用HandlerSocket时的速度比使用Memcached快178%,并且Memcached消耗的%system资源也更多,虽然Memcached是一个很好的产品,但仍然有优化的空间。
下面是oprofile输出内容,是在MySQL HandlerSocket测试期间收集到的,在核心操作,如网络数据包处理,获取数据等的CPU资源消耗(bnx2是一个网络设备驱动程序)。
1. samples % app name symbol name
2. 984785 5.9118 bnx2 /bnx2
3. 847486 5.0876 ha_innodb_plugin.so.0.0.0 ut_delay
4. 545303 3.2735 ha_innodb_plugin.so.0.0.0 btr_search_guess_on_hash
5. 317570 1.9064 ha_innodb_plugin.so.0.0.0 row_search_for_mysql
6. 298271 1.7906 vmlinux tcp_ack
7. 291739 1.7513 libc-2.5.so vfprintf
8. 264704 1.5891 vmlinux .text.super_90_sync
9. 248546 1.4921 vmlinux blk_recount_segments
10. 244474 1.4676 libc-2.5.so _int_malloc
11. 226738 1.3611 ha_innodb_plugin.so.0.0.0 _ZL14build_template
12. P19row_prebuilt_structP3THDP8st_tablej
13. 206057 1.2370 HandlerSocket.so dena::hstcpsvr_worker::run_one_ep()
14. 183330 1.1006 ha_innodb_plugin.so.0.0.0 mutex_spin_wait
15. 175738 1.0550 HandlerSocket.so dena::dbcontext::
16. cmd_find_internal(dena::dbcallback_i&, dena::prep_stmt const&,
17. ha_rkey_function, dena::cmd_exec_args const&)
18. 169967 1.0203 ha_innodb_plugin.so.0.0.0 buf_page_get_known_nowait
19. 165337 0.9925 libc-2.5.so memcpy
20. 149611 0.8981 ha_innodb_plugin.so.0.0.0 row_sel_store_mysql_rec
21. 148967 0.8943 vmlinux generic_make_request
因为HandlerSocket是运行在MySQL内部的,并直接与InnoDB打交道,你可以使用常见的SQL命令,如SHOW GLOBAL STATUS获得统计信息,Innodb_rows_read达到了750000+是值得一看的。
1. $ mysqladmin extended-status -uroot -i 1 -r | grep "InnoDB_rows_read"
2. ...
3. | Innodb_rows_read | 750192 |
4. | Innodb_rows_read | 751510 |
5. | Innodb_rows_read | 757558 |
6. | Innodb_rows_read | 747060 |
7. | Innodb_rows_read | 748474 |
8. | Innodb_rows_read | 759344 |
9. | Innodb_rows_read | 753081 |
10. | Innodb_rows_read | 754375 |
11. ...
测试用机详细规格如下:
型号:戴尔PowerEdge R710
CPU:Nehalem 8核,E5540@2.53GHz
内存:32GB(所有数据都装入缓冲池)
MySQL版本:5.1.50,InnoDB插件
Memcached/libmemcached版本:1.4.5(Memcached),0.44(libmemcached)
网络:Boradcom NetXtreme II BCM5709 1000Base-T(内建四端口,使用了其中三个)
Memcached和HandlerSocket都做了网络I/O限制,当我测试单个端口时,HandlerSocket的成绩是260000qps,Memcached的成绩是220000qps。
HandlerSocket的特点和优势
HandlerSocket有许多特点和优势,其中有一些是对我们真正有益的。
1、支持大量的查询模式
HandlerSocket支持主键/唯一性查询,非唯一性索引查询,范围扫描,LIMIT和INSERT/UPDATE/DELETE,不支持未使用任何索引的操作,multi_get操作(类似于in(1,2,3)) - 通过单一网络往返获取多行数据 – 也是支持的。
2、可以处理大量并发连接
HandlerSocket连接是轻量级的,因为HandlerSocket采用了epoll()和工作线程/线程池架构,MySQL内部线程的数量是有限的(可以由my.cnf中的handlersocket_threads参数控制),因此你可以建立上千或上万的网络连接,稳定性不会受到任何影响(消耗太多的内存,造成巨大的互斥竞争等,如bug#26590,bug#33948,bug#49169)。
3、极好的性能
HandlerSocket相对于其它NoSQL阵容性能表现一点也不逊色,事实上,我还没有看到哪个NoSQL产品在一台普通服务器上可以执行750000+次查询。
HandlerSocket不仅消除了SQL相关的函数调用,也优化了网络/并发相关的问题。
***更小的网络数据包
HandlerSocket协议和传统MySQL协议相比更简单,更小,因此整个网络的流量也更小。
***运行有限的MySQL内部线程数
参考上面的内容。
***客户端请求分组
当大量的并发请求抵达HandlerSocket时,每个工作线程尽可能多地聚集请求,然后同时执行聚集起来的请求和返回结果,这样可以大大地提高性能,只是要牺牲一点响应时间,例如,你可以得到以下好处,如果有人感兴趣,我会在今后的文章中对它们加以深入的解释。
减少fsync()调用的次数
减少复制延迟
4、没有重复的缓存
当你使用Memcached缓存MySQL/InnoDB记录时,在Memcached和InnoDB缓冲池中均缓存了这些记录,因此效率非常低(内存仍然很贵!),由于HandlerSocket插件访问InnoDB存储引擎,记录可以缓存在InnoDB缓冲池中,这样其它SQL语句就可以重复使用它。
5、没有数据不一致的现象
由于数据只存储在一个地方(InnoDB内),不需要在Memcached和MySQL之间检查数据一致性。
6、崩溃安全
后端存储是InnoDB,它是事务性和崩溃安全的,即使你设置innodb-flush-log-at-trx-commit!=1,在服务器崩溃时也只会丢掉<1秒内的数据。
7、可以从MySQL客户端使用SQL
在许多情况下,人们仍然希望使用SQL(如生产摘要报告),这就是为什么我们不能使用嵌入式InnoDB的原因,大多数NoSQL产品都不支持SQL接口,HandlerSocket仅仅是一个MySQL插件,你可以从MySQL客户端发送SQL语句,当你需要高吞吐量时最好使用HandlerSocket协议。
8、MySQL所有操作都将受益
因为HandlerSocket在MySQL内部运行,因此所有MySQL操作,如SQL,在线备份,复制,通过Nagios/EnterpriseMonitor监控等都是支持的,HandlerSocket获得可以通过普通的MySQL命令监控,如SHOW GLOBAL STAUTS,SHOW ENGINE INNODB STATUS和SHOW PROCESSLIST等。
9、不需要修改/重建MySQL
因为HandlerSocket是一个插件,它支持MySQL社区版和企业服务器版,无需对MySQL做出任何修改就可以使用。
10、独立于存储引擎
虽然我们只测试了5.1和5.5 InnoDB插件,但HandlerSocket可以和任何存储引擎交互。
注意事项和限制
1、需要学习HandlerSocket API
尽管它很容易使用,但你仍然需要学习如何与HandlerSocket交互,我们提供了C++ API和Perl绑定。
2、没有安全功能
和其它NoSQL数据库类似,HandlerSocket不支持安全功能,HandlerSocket的工作线程以系统用户权限运行,因此应用程序可以访问通过HandlerSocket协议的所有表,当然,你可以象其它NoSQL产品一样使用防火墙过滤数据包。
3、对于HDD绑定工作负载没有优势
对于HDD I/O绑定工作负载,数据库每秒无法执行数千次查询,通常只有1-10%的CPU利用率,在这种情况下,SQL执行层不会成为瓶颈,因此使用HandlerSocket没有什么优势,我们只在数据完全装载到内存的服务器上使用HandlerSocket。
DeNA在生产环境中使用HandlerSocket
我们已经在生产环境中使用了HandlerSocket插件,效果是很明显的,最终我们减少了许多Memcached和MySQL从属服务器,整个网络流量也减少了,目前我们还没有发现任何性能问题(如响应时间慢,延迟等)。
我认为MySQL完全被NoSQL/数据库社区低估了,MySQL的历史悠久,我的前同事们也在不断改进它,从NDBAPI可以看出MySQL有成为NoSQL的潜力,存储引擎API和守护进程接口是完全独立的,使得Akira和DeNA开发HandlerSocket成为可能,作为MySQL一名前员工和对MySQL长期的了解,我想看到MySQL变得更好,更受欢迎,不只作为一个RDBMS,也应该成为NoSQL阵营中的一员。
HandlerSocket插件是开源的,可以免费使用,欢迎你下载和使用,并希望听到你的反馈。