##问题描述

统计hamlet.txt文本中排名前十的单词,然后对应的单词与相应的次数输出打印出来。

##问题分析

##一

数据的预处理部分-打开文本-获取文本中的数据-将文本中的单词形成一个统一的标准格式,可以将这一部分包装成一个特定的函数来进行调用函数来实现这以特定的功能。

##二

将已经处理好的文本数据用列表来进行接收,根据问题中单词与次数的对应关系的描述,我们可以选择python中独有的数据类型(字典)来进行存储。

##三

最后便是对应字典的排序问题,但是对于字典类型的数据类型是无序的,因此我们需要将字典类型转化成列表类型,键值对在列表是以元组的形式存在的,我们可以根据对应的value值进行排序,然后打印输出。

##程序分析

##一

文本的读取函数open().read(),要注意open()函数中的参数,再次便是将文本中的单词全部大写upper()或者小写lower()(建议小写,便于观察),利用循环遍历所有文本数据将特殊字符去除掉,利用replace()函数用空格字符代替掉所有的特殊字符便于后期的操作。

##二

首先创建一个字典,利用for循环将单词和对应的次数存进字典去

for word in words:
counts[word] = counts.get(word,0)+1
##三
items = list(counts.items())
for i in range(10):
word,count = items[i]
print("{}{}".format(word,count))

##代码示例

#主要是数据类型的相互转化
#一开始是读入文本数据将文本数据进行预处理,然后将文本数据标准化,英文字母全部转化成小写
#然后利用for循环遍历整个文本去除掉一些特殊字符
#利用replace()函数将特殊字符进行全部替换成空格字符,最后利用函数返回处理好的文本数据

#将文本数据按照空格进行分割,因为一部分为存储的word一部分为对应的存储次数,因此采用相应的字典类型进行存储
#然后for循环中利用字典中的get()函数进行value的判断
#因为字典具有无序性,因此相应的排序需要放到list中进行,此时需要将字典类型转化成list类型
#转化成list类型后键值对的存在以元组形式存在,利用sort()函数根据value值进行相应的排序,需要调用对应的lamada x:x[1]指定对应的value值
#利用for循环取出前十个对应的单词对应的次数
#word,count=item[i]
#最后打印输出即可
def getText():
    txt = open("d:/hahaha/hamlet.txt","r").read()#从文档中读取文件
    txt = txt.lower()#全部转化成小写字母
    for c in '!~@#$%^&*()<>?;,.`':
        txt = txt.replace(c," ")#将特殊字符全部转化成空格字符(利用replace()函数进行替换)
    return txt#返回处理好的文本文档
hamletTxt = getText()#调用这个函数,放入这个变量进行存储
#然后将hamletTxt中的单词进行分隔开
words = hamletTxt.split()#利用split()函数的无参形式利用空格进行分割
counts = {}

for word in words:
    counts[word] = counts.get(word,0)+1
#去除掉前十排名的单词
g = {"l","nfm"}
for word in g:
    del(counts[word])

items = list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)


for k in range(0,10):
    word,count = items[k]
    print("{}--{}".format(word,count))

##输出结果

python dlib 哈欠_特殊字符