今天我遇到一个用字典存储且一键多值时,导致程序复杂度的问题。
开始我用字典一键多值存储时,多值是用list存储的,但是这导致出现了遍历字典时,程序的复杂度很高,使得程序运行很慢。由于我之前没有遇到过类似这种由存储结构而导致的问题,所以一开始并没有考虑到需要选择存储结构。
最后我老师叫我改用set存储多值,修改过后代码如下:
sentiment_df = pd.read_excel(filename) # 读入存有情绪词汇的excel表
sentiments = sentiment_df['情绪'].unique() # 返回数据中所有不同的值
# print(sentiment_df.groupby(by=['情绪']).count()) # 分组统计
# 用情绪词典用字典存储,其中key为情绪,值为list中存的词
# sentiment_dict = {sentiment: sentiment_df.loc[sentiment_df['情绪'] == sentiment]['词'].values.tolist() for sentiment in sentiments}
# 用情绪词典用字典存储,其中key为情绪,值为set中存的词
sentiment_dict = dict()
for sentiment in sentiments:
for word in sentiment_df.loc[sentiment_df['情绪'] == sentiment]['词'].values:
sentiment_dict.setdefault(sentiment, set()).add(word)
经过检验,使用list存储多值的耗时比set存储多值的耗时多了8倍。(第一次见识到数据结构的厉害哈哈哈哈)
放一个字典一键多值的用法:
#encoding=utf-8
print '中国'
#字典的一键多值
print'方案一 list作为dict的值 值允许重复'
d1={}
key=1
value=2
d1.setdefault(key,[]).append(value)
value=2
d1.setdefault(key,[]).append(value)
print d1
#获取值
print '方案一 获取值'
print list(d1[key])
print '方案一 删除值,会留下一个空列表'
d1[key].remove(value)
d1[key].remove(value)
print d1
print '方案一 检查是否还有一个值'
print d1.get(key,[])
print '方案二 使用子字典作为dict的值 值不允许重复'
d1={}
key=1
keyin=2
value=11
d1.setdefault(key,{})[keyin]=value
keyin=2
value=22
d1.setdefault(key,{})[keyin]=value
keyin=3
value=33
d1.setdefault(key,{})[keyin]=value
print d1
print '方案二 获取值'
print list(d1[key])
print '方案二 删除值,会留下一个空列表'
del d1[key][keyin]
keyin=2
del d1[key][keyin]
print d1
print '方案二 检查是否还有一个值'
print d1.get(key,())
print '方案三 使用set作为dict的值 值不允许重复'
d1={}
key=1
value=2
d1.setdefault(key,set()).add(value)
value=2
d1.setdefault(key,set()).add(value)
value=3
d1.setdefault(key,set()).add(value)
print d1
print '方案三 获取值'
print list(d1[key])
print '方案三 删除值,会留下一个空列表'
d1[key].remove(value)
value=2
d1[key].remove(value)
print d1
print '方案三 检查是否还有一个值'
print d1.get(key,())
打印结果如下:
中国
方案一 list作为dict的值 值允许重复
{1: [2, 2]}
获取值
[2, 2]
删除值,会留下一个空列表
{1: []}
检查是否还有一个值
[]
方案二 使用子字典作为dict的值 值不允许重复
{1: {2: 22, 3: 33}}
获取值
[2, 3]
删除值,会留下一个空列表
{1: {}}
检查是否还有一个值
{}
方案三 使用set作为dict的值 值不允许重复
{1: set([2, 3])}
获取值
[2, 3]
删除值,会留下一个空列表
{1: set([])}
检查是否还有一个值
set([])