数据写入(插入)测试:数据源为文本文件,一行一条记录(record),长度约为125B,使用单线程Pymongo 的 insert_one() 方法写入,所有记录写入到相同collection(类似于数据库中的表)。
环境一(主要特征:老机器、单机、两块独立硬盘、新版本):
CPU:Intel Core Quad Q8300 (2.5GHz) with 2MB cache
内存:DDR2 2×2 GB
硬盘:HDD1,HDD2;
OS:Ubuntu 14.04
MongoDB:V3.2.7
从本机HDD2 读取写入装在HDD1上的MongoDB 中,
速度约为1000 records 每秒,约等于0.1MB/s ,CPU 占用率100%。瓶颈在CPU(解析数据)。
环境二(主要特征:服务器CPU、单机、两块独立硬盘,SSD,老版本):
CPU:Intel Xeon E3-1231(3.4GHz) with 8MB cache
内存:DDR3 2×8 GB
硬盘:SSD1 (128GB),HDD2;
OS:Ubuntu 14.04
Mongodb:V2.4.9
从本机HDD2 读取写入装在SSD1 上的MongoDB中,
速度约为6000-8000 records 每秒,约等于1MB/s,CPU占用率100%(python 80%,MongoDB 20%)。两点说明如下:
改环境测试时间较长,到记录8710万条记录,插入速度没有下降。
五个线程(一个生产者读取记录,四个消费者写入记录)速度下降为5500 records 每秒(0.6MB/s),印证了collection 全局锁。
环境三(主要特征:网络、双机器、老版本):
服务器配置为环境二服务器
客户端CPU:Intel i7-4790K 4GHz
客户端内存:DDR3 2×8 GB
客户端硬盘:HDD
客户端OS:Ubuntu 14.04
MongoDB:V3.2.7
从客户端HDD 中读取数据写入到服务器SSD 中的MongoDB 中,
速度为1500-2000 records 每秒,客户端CPU占用率20%,瓶颈可能在网络协议。
同样是用一个线程读取数据,多线程写入数据时,速度有所提升(因为网络得到更好使用)。但当线程数增加到8个以上时,速度变化不大,速度稳定在6100 records 每秒(0.63MB/s)。此时,服务器MongoDB 是瓶颈,MongoDB服务器CPU 使用率37%左右。
环境四(环境二和环境三换批量插入)
硬件环境与环境二、环境三相同,为支持批量插入数据(bulk),使用新版本(V2.6 以上)。批量每次插入10000条数据(1.3MB)
环境三单线程可以达到15000 records 每秒(TCP/IP网络还是对长报文比较友好,短报文只能用多线程来堆了,后经测试,四线程也只能达到18000 records 每秒)
环境二单线程可以达到30000 records 每秒(4MB/s)
插入速度较慢,SSD 换成HDD 变化不大,可能查询有差别。