今天我遇到一个用字典存储且一键多值时,导致程序复杂度的问题。

开始我用字典一键多值存储时,多值是用list存储的,但是这导致出现了遍历字典时,程序的复杂度很高,使得程序运行很慢。由于我之前没有遇到过类似这种由存储结构而导致的问题,所以一开始并没有考虑到需要选择存储结构。

最后我老师叫我改用set存储多值,修改过后代码如下:

sentiment_df = pd.read_excel(filename)  # 读入存有情绪词汇的excel表
    sentiments = sentiment_df['情绪'].unique()  # 返回数据中所有不同的值
    # print(sentiment_df.groupby(by=['情绪']).count())  # 分组统计


    # 用情绪词典用字典存储,其中key为情绪,值为list中存的词
    # sentiment_dict = {sentiment: sentiment_df.loc[sentiment_df['情绪'] == sentiment]['词'].values.tolist() for sentiment in sentiments}


    # 用情绪词典用字典存储,其中key为情绪,值为set中存的词
    sentiment_dict = dict()
    for sentiment in sentiments:
        for word in sentiment_df.loc[sentiment_df['情绪'] == sentiment]['词'].values:
            sentiment_dict.setdefault(sentiment, set()).add(word)

经过检验,使用list存储多值的耗时比set存储多值的耗时多了8倍。(第一次见识到数据结构的厉害哈哈哈哈)

放一个字典一键多值的用法:

#encoding=utf-8
 
print '中国'
 
#字典的一键多值
 
print'方案一 list作为dict的值 值允许重复'  
 
d1={}
key=1
value=2
d1.setdefault(key,[]).append(value)
value=2
d1.setdefault(key,[]).append(value)
 
print d1
 
#获取值
print '方案一 获取值'
print list(d1[key])
 
print '方案一 删除值,会留下一个空列表'
d1[key].remove(value)
d1[key].remove(value)
print d1 
 
print '方案一 检查是否还有一个值'
print d1.get(key,[])
 
print '方案二 使用子字典作为dict的值 值不允许重复'
 
d1={}
key=1
keyin=2
value=11
d1.setdefault(key,{})[keyin]=value
keyin=2
value=22
d1.setdefault(key,{})[keyin]=value
keyin=3
value=33
d1.setdefault(key,{})[keyin]=value
 
print d1
 
print '方案二 获取值'
print list(d1[key])
 
print '方案二 删除值,会留下一个空列表'
del d1[key][keyin]
keyin=2
del d1[key][keyin]
print d1
 
print '方案二 检查是否还有一个值'
print d1.get(key,())
 
print '方案三 使用set作为dict的值 值不允许重复'
d1={}
key=1
value=2
d1.setdefault(key,set()).add(value)
value=2
d1.setdefault(key,set()).add(value)
value=3
d1.setdefault(key,set()).add(value)
 
print d1
 
print '方案三 获取值'
print list(d1[key])
 
print '方案三 删除值,会留下一个空列表'
d1[key].remove(value)
value=2
d1[key].remove(value)
print d1 
 
print '方案三 检查是否还有一个值'
print d1.get(key,())

打印结果如下:

中国
方案一 list作为dict的值 值允许重复
{1: [2, 2]}
获取值
[2, 2]
删除值,会留下一个空列表
{1: []}
检查是否还有一个值
[]
方案二 使用子字典作为dict的值 值不允许重复
{1: {2: 22, 3: 33}}
获取值
[2, 3]
删除值,会留下一个空列表
{1: {}}
检查是否还有一个值
{}
方案三 使用set作为dict的值 值不允许重复
{1: set([2, 3])}
获取值
[2, 3]
删除值,会留下一个空列表
{1: set([])}
检查是否还有一个值
set([])