一、索引基础:
MongoDB的索引几乎与传统的关系型数据库一模一样,这其中也包括一些基本的优化技巧。下面是创建索引的命令:
> db.test.ensureIndex({"username":1})
可以通过下面的名称查看索引是否已经成功建立:
> db.test.getIndexes()
删除索引的命令是:
> db.test.dropIndex({"username":1})
在MongoDB中,我们同样可以创建复合索引,如:
-- 数字1表示username键的索引按升序存储,-1表示age键的索引按照降序方式存储。
> db.test.ensureIndex({"username":1, "age":-1})
该索引被创建后,基于username和age的查询将会用到该索引,或者是基于username的查询也会用到该索引,但是只是基于age的查询将不会用到该复合索引。因此可以说,如果想用到复合索引,必须在查询条件中包含复合索引中的前N个索引列。然而如果查询条件中的键值顺序和复合索引中的创建顺序不一致的话,MongoDB可以智能的帮助我们调整该顺序,以便使复合索引可以为查询所用。如:
> db.test.find({"age": 30, "username": "stephen"})
对于上面示例中的查询条件,MongoDB在检索之前将会动态的调整查询条件文档的顺序,以使该查询可以用到刚刚创建的复合索引。
我们可以为内嵌文档创建索引,其规则和普通文档没有任何差别,如:
> db.test.ensureIndex({"comments.date":1})
对于上面创建的索引,MongoDB都会根据索引的keyname和索引方向为新创建的索引自动分配一个索引名,下面的命令可以在创建索引时为其指定索引名,如:
> db.test.ensureIndex({"username":1},{"name":"testindex"})
随着集合的增长,需要针对查询中大量的排序做索引。如果没有对索引的键调用sort,MongoDB需要将所有数据提取到内存并排序。因此在做无索引排序时,如果数据量过大以致无法在内存中进行排序,此时MongoDB将会报错。
二、唯一索引:
在缺省情况下创建的索引均不是唯一索引。下面的示例将创建唯一索引,如:
> db.test.ensureIndex({"userid":1},{"unique":true})
如果再次插入userid重复的文档时,MongoDB将报错,以提示插入重复键,如:
> db.test.insert({"userid":5})
> db.test.insert({"userid":5})
E11000 duplicate key error index: test.test.$userid_1 dup key: { : 5.0 }
如果插入的文档中不包含userid键,那么该文档中该键的值为null,如果多次插入类似的文档,MongoDB将会报出同样的错误,如:
> db.test.insert({"userid1":5})
> db.test.insert({"userid1":5})
E11000 duplicate key error index: test.test.$userid_1 dup key: { : null }
如果在创建唯一索引时已经存在了重复项,我们可以通过下面的命令帮助我们在创建唯一索引时消除重复文档,仅保留发现的第一个文档,如:
--先删除刚刚创建的唯一索引。
> db.test.dropIndex({"userid":1})
--插入测试数据,以保证集合中有重复键存在。
> db.test.remove()
> db.test.insert({"userid":5})
> db.test.insert({"userid":5})
--创建唯一索引,并消除重复数据。
> db.test.ensureIndex({"userid":1},{"unique":true,"dropDups":true})
--查询结果确认,重复的键确实在创建索引时已经被删除。
> db.test.find()
{ "_id" : ObjectId("4fe823c180144abd15acd52e"), "userid" : 5 }
我们同样可以创建复合唯一索引,即保证复合键值唯一即可。如:
> db.test.ensureIndex({"userid":1,"age":1},{"unique":true})
三、使用explain:
explain是非常有用的工具,会帮助你获得查询方面诸多有用的信息。只要对游标调用该方法,就可以得到查询细节。explain会返回一个文档,而不是游标本身。如:
> db.test.find().explain()
{
"cursor" : "BasicCursor",
"nscanned" : 1,
"nscannedObjects" : 1,
"n" : 1,
"millis" : 0,
"nYields" : 0,
"nChunkSkips" : 0,
"isMultiKey" : false,
"indexOnly" : false,
"indexBounds" : {
}
}
explain会返回查询使用的索引情况,耗时和扫描文档数的统计信息。
"cursor":"BasicCursor"表示没有使用索引。
"nscanned":1 表示查询了多少个文档。
"n":1 表示返回的文档数量。
"millis":0 表示整个查询的耗时。
四、索引管理:
system.indexes集合中包含了每个索引的详细信息,因此可以通过下面的命令查询已经存在的索引,如:
> db.system.indexes.find()
如果在为已有数据的文档创建索引时,可以执行下面的命令,以使MongoDB在后台创建索引,这样的创建时就不会阻塞其他操作。但是相比而言,以阻塞方式创建索引,会使整个创建过程效率更高,但是在创建时MongoDB将无法接收其他的操作。
> db.test.ensureIndex({"username":1},{"background":true})
默认索引
对于每一个集合(除了capped集合),默认会在_id字段上创建索引,而且这个特别的索引不能删除。_id字段是强制唯一的,由数据库维护。
嵌套关键字
在MongoDB中,甚至能够在一个嵌入的文档上(embedded)建立索引.
> db.things.ensureIndex({ " address.city " : 1 })
文档作为索引
任何类型,包括文档(document)都能作为索引:
>
db.factories.insert({name:
"
xyz
"
,metro:{city:
"
New York
"
,state:
"
NY
"
}});
>
db.factories.ensureIndex({metro:
1
});
>
db.factories.find({metro:{city:
"
New York
"
,state:
"
NY
"
}});
//
能够利用索引进行查询
{
"
_id
"
: ObjectId(
"
4e244744cac1e3490b9033d2
"
),
"
name
"
:
"
xyz
"
,
"
metro
"
: {
"
cit
y
"
:
"
New York
"
,
"
state
"
:
"
NY
"
} }
>
db.factories.find({metro:{$gte:{city:
"
New York
"
}}});
//
能够利用索引进行查询
{
"
_id
"
: ObjectId(
"
4e244744cac1e3490b9033d2
"
),
"
name
"
:
"
xyz
"
,
"
metro
"
: {
"
cit
y
"
:
"
New York
"
,
"
state
"
:
"
NY
"
} }
>
db.factories.find({metro:{state:
"
NY
"
,city:
"
New York
"
}})
//
不能够返回结果,字段的顺序不对
创建文档索引的一个替代方法是创建复合索引,例如:
>
db.factories.ensureIndex({
"
metro.city
"
:
1
,
"
metro.state
"
:
1
})
>
db.factories.find({
"
metro.city
"
:
"
New York
"
,
"
metro.state
"
:
"
NY
"
});
{
"
_id
"
: ObjectId(
"
4e244744cac1e3490b9033d2
"
),
"
name
"
:
"
xyz
"
,
"
metro
"
: {
"
cit
y
"
:
"
New York
"
,
"
state
"
:
"
NY
"
} }
>
db.factories.find({
"
metro.city
"
:
"
New York
"
});
{
"
_id
"
: ObjectId(
"
4e244744cac1e3490b9033d2
"
),
"
name
"
:
"
xyz
"
,
"
metro
"
: {
"
cit
y
"
:
"
New York
"
,
"
state
"
:
"
NY
"
} }
>
db.factories.find().sort({
"
metro.city
"
:
1
,
"
New York
"
:
1
});
{
"
_id
"
: ObjectId(
"
4e244744cac1e3490b9033d2
"
),
"
name
"
:
"
xyz
"
,
"
metro
"
: {
"
cit
y
"
:
"
New York
"
,
"
state
"
:
"
NY
"
} }
>
db.factories.find().sort({
"
metro.city
"
:
1
});
{
"
_id
"
: ObjectId(
"
4e244744cac1e3490b9033d2
"
),
"
name
"
:
"
xyz
"
,
"
metro
"
: {
"
cit
y
"
:
"
New York
"
,
"
state
"
:
"
NY
"
} }
组合关键字索引
除了基本的以单个关键字作为索引外,MongoDB也支持多个关键字的组合索引,和基本的索引一样,也是用ensureIndex()函数,该函数可以指定多个键。
> db.things.ensureIndex({j: 1 ,name: - 1 })
当创建索引时,键后面的数字表明了索引的方向,取值为1或者-1,1表示升序,-1表示降序。升序或者降序在随机访问的时候关系不大,当时在做排序或者范围查询的时候就很重要了。
如果在建立了a,b,c这样一个复合索引,那么你可以在a,
和a,b,c上使用索引查询。
稀疏索引
和稀疏矩阵类似,稀疏索引就是索引至包含被索引字段的文档。
任何一个稀疏的缺失某一个字段的文档将不会存储在索引中,之所以称之为稀疏索引就是说缺失字段的文档的值会丢失。
稀疏索引的创建和完全索引的创建没有什么不同。使用稀疏索引进行查询的时候,某些由于缺失了字段的文档记录可能不会被返回,这是由于稀疏索引子返回被索引了的字段。可能比较难以理解,不过看几个例子就好理解了。
>
db.people.ensureIndex({title:
1
},{sparse:
true
})
//
在title字段上建立稀疏索引
>
db.people.save({name:
"
Jim
"
})
>
db.people.save({name:
"
yang
"
,title:
"
prince
"
})
>
db.people.find();
{
"
_id
"
: ObjectId(
"
4e244dc5cac1e3490b9033d7
"
),
"
name
"
:
"
Jim
"
}
{
"
_id
"
: ObjectId(
"
4e244debcac1e3490b9033d8
"
),
"
name
"
:
"
yang
"
,
"
title
"
:
"
prince
"
}
>
db.people.find().sort({title:
1
})
//
自有包含有索引字段的记录才被返回
{
"
_id
"
: ObjectId(
"
4e244debcac1e3490b9033d8
"
),
"
name
"
:
"
yang
"
,
"
title
"
:
"
prince
"
}
>
db.people.dropIndex({title:
1
})
//
删除稀疏索引之后,所有的记录均显示
{
"
nIndexesWas
"
:
2
,
"
ok
"
:
1
}
>
db.people.find().sort({title:
1
})
{
"
_id
"
: ObjectId(
"
4e244dc5cac1e3490b9033d7
"
),
"
name
"
:
"
Jim
"
}
{
"
_id
"
: ObjectId(
"
4e244debcac1e3490b9033d8
"
),
"
name
"
:
"
yang
"
,
"
title
"
:
"
prince
"
}
唯一索引
支持唯一索引,这使得不能插入在唯一索引项上已经存在的记录。例如,要保证firstname和lastname都是唯一的,命令如下
> db.things.ensureIndex({firstname:1,lastname:1},{unique:true})
缺失的键
当一个文档以唯一索引的方式保存到集合中去的时候,任何缺失的索引字段都会一null值代替,因此,不能在唯一索引上同时插入两条缺省的记录。如下:
>
db.things.ensureIndex({firstname:
1
}, {unique:
true
});
>
db.things.save({lastname:
"
Smith
"
});
>
db.things.save({lastname:
"
Jones
"
});
//
会产生错误,因为firstname会有两个null.
重复值:
唯一索引不能够创建在具有重复值的键上,如果你一定要在这样的键上创建,那么想系统将保存第一条记录,剩下的记录会被删除,只需要在创建索引的时候加上dropDups这个可选项即可
> db.things.ensureIndex({firstname : 1 }, {unique : true , dropDups : true })
Dropping Indexes
删除一个特定集合上的索引:
> db.collection.dropIndexes();
删除集合中的某一个索引:
db.collection.dropIndex({x: 1 , y: - 1 })
也可以直接执行命令进性删除
db.runCommand({dropIndexes:
'
foo
'
, index : {y:
1
}})
//
删除集合foo中{y:1}的索引
//
remove all indexes:
db.runCommand({dropIndexes:
'
foo
'
, index :
'
*
'
})
//
删除集合foo中所有的索引
重建索引:
可以所用如下命令重建索引:
db.myCollection.reIndex()
//
same as:
db.runCommand( { reIndex :
'
myCollection
'
} )
通常这是不必要的,但是在集合的大小变动很大及集合在磁盘空间上占用很多空间时重建索引才有用。对于大数据量的集合来说,重建索引可能会很慢。
注:
- 中索引是大小写敏感的
- 当更新对象是,只有在索引上的这些key 发生变化时才会更新。着极大地提高了性能。当对象增长了或者必须移动时,所有的索引必须更新,这回很慢 。
- 索引信息会保存在system.indexes 集合中, 运行 db.system.indexes.find() 能够看到这些示例数据,
- 索引的字段的大小有最大限制, 目前接近800 bytes. 可在大于这个值的字段上建立索引是可以的,但是该字段不会被索引,这种限制在以后的版本中可能被移除。
索引的性能
索引使得可以通过关键字段获取数据,能够使得快速查询和更新数据。
但是,必须注意的是,索引也会在插入和删除的时候增加一些系统的负担。往集合中插入数据的时候,索引的字段必须加入到B-Tree中去,因此,索引适合建立在读远多于写的数据集上,对于写入频繁的集合,在某些情况下,索引反而有副作用。不过大多数集合都是读频繁的集合,所以集合在大多数情况下是有用的。
使用sort()而不需要索引
如果数据集合比较小(通常小于4M),使用sort()而不需要建立索引就能够返回数据。在这种情况下,做好联合使用limit()和sort();