python—实战4统计特定时间中特定信息次数(替换、列表、排序、元组)

1、该文本里,输出在每一天发表tweets最多的用户。
目标文件:百度网盘
http://pan.baidu.com/s/1kU6X2GB

所求问题为:该文本里,输出在每一天发表tweets最多的用户。(要求:输出一个字典。例如 {‘2012-03-04’:’agelin’,’2012-03-5’:’twa’})

python源码:

root@kali:~/python/laowangpy/datadig# cat 6onedaydict.py 
#!/usr/bin/python
# --*-- coding:utf-8 --*--
import string
import time

text_userdata = open('twitterdata.txt').read()#对目标文本进行全部读取,并赋值
#print text_userdata

l = [n for n in text_userdata.split('\r\n')]#对目标文件使用\r\n进行分割,把分割好的每个元素加入列表n中
#print l[0]#打印第一个元素信息

i = 0
n = []
m = []#存储时间值的列表
username = []#存储用户名的列表
talkdict = {}#存储每天发布tweets的时间与用户值

while l[i] != "":#当列表l中的元素不等于空白,则进入
    s = l[i].replace('"','')#对列表l中每个元素中的"符号使用空白替换
    n.append(s)#加入列表n中
    t = s.split(",")#对列表s使用,分割
    m.append(t[6])#对列表t中第6个元素加入列表m中,即是时间值
    username.append(t[2])#对列表t中第2个元素加入列表usernmae中,即是用户名的值
    f = open("test.txt","a")#打开文件test.txt
    f.write(m[i])#对列表m每个元素写入文件test.txt中
    f.close()
    i = i + 1#循环加1

#print m[0]#打印列表m的第一个元素为时间值
print username[90]#打印列表username的第91个元素为用户名值

j = 0
yeararry = []
timestamparry = []
while m[j] != m[-1]:#对列表m循环元素时不等于最后一个呀元素是,则进入
    timearry = time.strptime(m[j], "%Y-%m-%d %H:%M:%S")#对列表m每个元素转换成时间格式
    timestamp = int(time.mktime(timearry))#对时间格式元素转成时间戳
    timestamparry.append(timestamp)#对没有转成时间戳元素加入列表timestamparry
    year = time.localtime(timestamparry[j])[0]#对每个时间戳的元素取出第一个年份的值
    month = time.localtime(timestamparry[j])[1]#对每个时间戳的元素取出第二个月份的值
    day = time.localtime(timestamparry[j])[2]#对每个时间戳的元素取出第三个天数的值
    #hour = time.localtime(timestamparry[j])[3]#对每个时间戳的元素取出第四个小时的值
    yeararry.append(str(year)+"-"+str(month)+"-"+str(day))#对取出的整型年月日数值,强制转成字符型,再组合,再加入列表yeararry
    j = j + 1
#fredata = [(x,yeararry.count(x)) for x in set(yeararry)]#对列表yeararry中每个元素出现频次统计
#print fredata
#print "--------------------------按出现的频次高低排序统计如下:--------------------------------"
#sortfredata = sorted(fredata)#对列表fredata转换成集合sortfredata
#print sorted(sortfredata,key=lambda x:x[1],reverse=True)#对集合sortfredata中使用第二个key值大小,并从大到小排序

comp = [(x,y) for x in yeararry for y in username]#对列表yeararry与列表username组成('2012-11-04','xwb')的形式,成为列表comp
print comp[0]
print comp[0][0]    



root@kali:~/python/laowangpy/datadig#

Python运行情况:

root@kali:~/python/laowangpy/datadig# python 6onedaydict.py 
東京シティ競馬(TCK)
('2012-11-2', '\xe3\x81\xa6\xe3\x82\x93\xe3\x81\x98\xe3\x82\x87\xe3\x81\x86')
2012-11-2
root@kali:~/python/laowangpy/datadig#

未完成内容为:已经对列表comp所有时间段与用户名组成(‘2012-11-04’,’xwb’)的形式出来,未做特定时间段的每个用户名发布tweets的频次统计与排序。

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
2、该文本里, 请按照时间顺序输出2012-11-03 每个小时的发布tweets的频率。
目标文件:百度网盘
http://pan.baidu.com/s/1kU6X2GB

所求问题为:请按照时间顺序输出 2012-11-03 每个小时的发布tweets的频率(要求:输出为一个list [(1,20),(2,30)] 代表1点发了20个tweets,2点发了30个tweets)

python源码:

root@kali:~/python/laowangpy/datadig# cat 720121103fre.py 
#!/usr/bin/python
# --*-- coding:utf-8 --*--
import string
import time

text_userdata = open('twitterdata.txt').read()#对目标文本进行全部读取,并赋值
#print text_userdata

l = [n for n in text_userdata.split('\r\n')]#对目标文件使用\r\n进行分割,把分割好的每个元素加入列表n中
#print l[0]#打印第一个元素信息

i = 0
n = []
m = []#存储时间值的列表
username = []#存储用户名的列表
talkdict = {}#存储每天发布tweets的时间与用户值

while l[i] != "":#当列表l中的元素不等于空白,则进入
    s = l[i].replace('"','')#对列表l中每个元素中的"符号使用空白替换
    n.append(s)#加入列表n中
    t = s.split(",")#对列表s使用,分割
    m.append(t[6])#对列表t中第6个元素加入列表m中,即是时间值
    f = open("test.txt","a")#打开文件test.txt
    f.write(m[i])#对列表m每个元素写入文件test.txt中
    f.close()
    i = i + 1#循环加1

#print m[0]#打印列表m的第一个元素为时间值

j = 0
yeararry = []
timestamparry = []
while m[j] != m[-1]:#对列表m循环元素时不等于最后一个元素是,则进入
    timearry = time.strptime(m[j], "%Y-%m-%d %H:%M:%S")#对列表m每个元素转换成时间格式
    timestamp = int(time.mktime(timearry))#对时间格式元素转成时间戳
    timestamparry.append(timestamp)#对没有转成时间戳元素加入列表timestamparry
    year = time.localtime(timestamparry[j])[0]#对每个时间戳的元素取出第一个年份的值
    month = time.localtime(timestamparry[j])[1]#对每个时间戳的元素取出第二个月份的值
    day = time.localtime(timestamparry[j])[2]#对每个时间戳的元素取出第三个天数的值
    hour = time.localtime(timestamparry[j])[3]#对每个时间戳的元素取出第四个小时的值
    yeararry.append(str(year)+"-"+str(month)+"-"+str(day)+","+str(hour))#对取出的整型年月日数值,强制转成字符型,再组合,再加入列表yeararry
    j = j + 1
print yeararry
fredata = [(x,yeararry.count(x)) for x in set(yeararry)]#对列表yeararry中每个元素出现频次统计
#print fredata
#print "--------------------------按出现的频次高低排序统计如下:--------------------------------"
sortfredata = sorted(fredata)#对列表fredata转换成集合sortfredata
sorttimes = sorted(sortfredata,key=lambda x:x[1],reverse=True)#对集合sortfredata中使用第二个key值大小,并从大到小排序
#print sorttimes#打印列表[('2012-11-3,22', 12),............]形式

n = 0
timeclock = [0]*24#定义24个时间段
#print timeclock
counttimes = {}#初始24个时间对应次数的字典

for n in range(0,len(sorttimes)):
    timeclock[int(sorttimes[n][0].split(',')[1])] = timeclock[int(sorttimes[n][0].split(',')[1])] + sorttimes[n][1]
    #timeclock[int(sorttimes[n][0].split(',')[1])]为timeclock[x]的值
    counttimes[int(sorttimes[n][0].split(',')[1])] = timeclock[int(sorttimes[n][0].split(',')[1])]
    #int(sorttimes[n][0].split(',')[1])为timeclock[x]的x
print timeclock#为24个时间段
print counttimes#打印24个时间段对应的次数信息

root@kali:~/python/laowangpy/datadig#

python运行结果:

root@kali:~/python/laowangpy/datadig# python 720121103fre.py 
[13, 3, 10, 5, 7, 13, 10, 7, 3, 3, 7, 6, 7, 11, 2, 5, 9, 1, 1, 6, 4, 3, 17, 3]
{0: 13, 1: 3, 2: 10, 3: 5, 4: 7, 5: 13, 6: 10, 7: 7, 8: 3, 9: 3, 10: 7, 11: 6, 12: 7, 13: 11, 14: 2, 15: 5, 16: 9, 17: 1, 18: 1, 19: 6, 20: 4, 21: 3, 22: 17, 23: 3}
root@kali:~/python/laowangpy/datadig#

========================================================================
3、统计该文本里,来源的相关信息和次数。
目标文件:百度网盘
http://pan.baidu.com/s/1kU6X2GB

所求问题为:统计该文本里,来源的相关信息和次数,比如(输出一个list。例如[(‘Twitter for Android’,1),(‘TweetList!’,1)])

python源码:

root@kali:~/python/laowangpy/datadig# cat 8sourcefre.py 
#!/usr/bin/python
# --*-- coding:utf-8 --*--
import string
import time

text_userdata = open('twitterdata.txt').read()#对目标文本进行全部读取,并赋值
#print text_userdata

l = [n for n in text_userdata.split('\r\n')]#对目标文件使用\r\n进行分割,把分割好的每个元素加入列表n中
#print l[0]#打印第一个元素信息

i = 0
n = []
m = []#存储来源值的列表
#username = []#存储用户名的列表
#talkdict = {}#存储每天发布tweets的时间与用户值

while l[i] != "":#当列表l中的元素不等于空白,则进入
    s = l[i].replace('"','')#对列表l中每个元素中的"符号使用空白替换
    n.append(s)#加入列表n中
    t = s.split(",")#对列表s使用,分割
    m.append(t[7])#对列表t中第7个元素加入列表m中,即是来源source
    i = i + 1#循环加1

#print m[0]#打印列表m的第一个元素为来源的值
#print m

fredata = [(x,m.count(x)) for x in set(m)]#对列表m中每个元素出现频次统计
print fredata
print "--------------------------按出现的频次高低排序统计如下:--------------------------------"
sortfredata = sorted(fredata)#对列表fredata转换成集合sortfredata
print sorted(sortfredata,key=lambda x:x[1],reverse=True)#对集合sortfredata中使用第二个key值大小,并从大到小排序


root@kali:~/python/laowangpy/datadig#

python运行情况:

root@kali:~/python/laowangpy/datadig# python 8sourcefre.py 
[('\xe4\xbb\x8a\xe6\x97\xa5\xe3\x81\xae\xe3\x82\xb9\xe3\x82\xbf\xe3\x83\xb3\xe3\x83\x89', 1), ('web', 32), ('TweetList Pro', 1), ('\xe3\x83\xa2\xe3\x83\x90\xe3\x83\x84\xe3\x82\xa4 / www.movatwi.jp', 10), ('\xe3\x81\xa4\xe3\x81\x84\xe3\x81\xa3\xe3\x81\xb7\xe3\x82\x8b Pro for iPhone', 2), ('Tweet Button', 10), ('Camera on iOS', 1), ('Keitai Web', 16), ('Mobile Web', 3), ('\xe3\x83\xa2\xe3\x83\x90\xe3\x83\x84\xe3\x82\xa4 / www.movatwi.jp .', 6), ('makebot.sh', 10), ('Photos on iOS', 1), ('twicca', 12), ('Janetter', 4), ('TweetList!', 12), ('twittbot.net', 14), ('Twitter for iPhone', 1), ('Ameba_Blog', 1), ('Twitter for Android', 20)]
--------------------------按出现的频次高低排序统计如下:--------------------------------
[('web', 32), ('Twitter for Android', 20), ('Keitai Web', 16), ('twittbot.net', 14), ('TweetList!', 12), ('twicca', 12), ('Tweet Button', 10), ('makebot.sh', 10), ('\xe3\x83\xa2\xe3\x83\x90\xe3\x83\x84\xe3\x82\xa4 / www.movatwi.jp', 10), ('\xe3\x83\xa2\xe3\x83\x90\xe3\x83\x84\xe3\x82\xa4 / www.movatwi.jp .', 6), ('Janetter', 4), ('Mobile Web', 3), ('\xe3\x81\xa4\xe3\x81\x84\xe3\x81\xa3\xe3\x81\xb7\xe3\x82\x8b Pro for iPhone', 2), ('Ameba_Blog', 1), ('Camera on iOS', 1), ('Photos on iOS', 1), ('TweetList Pro', 1), ('Twitter for iPhone', 1), ('\xe4\xbb\x8a\xe6\x97\xa5\xe3\x81\xae\xe3\x82\xb9\xe3\x82\xbf\xe3\x83\xb3\xe3\x83\x89', 1)]
root@kali:~/python/laowangpy/datadig#

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
4、计算转发URL中:以:”https://twitter.com/asaivb/“开头的有几个。
目标文件:百度网盘
http://pan.baidu.com/s/1kU6X2GB

所求问题为:计算转发URL中:以:”https://twitter.com/asaivb/“开头的有几个。(要求,输出一个整数。)

python源码:

root@kali:~/python/laowangpy/datadig# cat 9forwardurl.py 
#!/usr/bin/python
# --*-- coding:utf-8 --*--
import string
import time

text_userdata = open('twitterdata.txt').read()#对目标文本进行全部读取,并赋值
#print text_userdata

l = [n for n in text_userdata.split('\r\n')]#对目标文件使用\r\n进行分割,把分割好的每个元素加入列表n中
#print l[90]#打印第一个元素信息

i = 0
n = []
m = []#存储转发url地址值的列表

while l[i] != "":#当列表l中的元素不等于空白,则进入
    s = l[i].replace('"','')#对列表l中每个元素中的"符号使用空白替换
    n.append(s)#加入列表n中
    t = s.split(",")#对列表s使用,分割
    m.append(t[-1])#对列表t中最后一个元素加入列表m中,即是转发URL地址
    i = i + 1#循环加1

#print m[0]#打印列表m的第一个元素为转发url地址的值
print m[15][0:26]

j = 0 
sum = 0#统计字符串https://twitter.com/asaivb在列表m中每个元素中出现的次数
while m[j] != m[-1]:
    if m[j].count('https://twitter.com/asaivb') == 1:#是判断字符串https://twitter.com/asaivb是否在m[j],存在的话返回1
        sum = sum + 1
    j = j + 1   
#print j
print "'https://twitter.com/asaivb'in list m have %d times" % sum

#fredata = [(x,m.count(x)) for x in set(m)]#对列表m中每个元素出现频次统计
#print fredata
#print "--------------------------按出现的频次高低排序统计如下:--------------------------------"
#sortfredata = sorted(fredata)#对列表fredata转换成集合sortfredata
#print sorted(sortfredata,key=lambda x:x[1],reverse=True)#对集合sortfredata中使用第二个key值大小,并从大到小排序


root@kali:~/python/laowangpy/datadig#

python运行情况:

root@kali:~/python/laowangpy/datadig# python 9forwardurl.py
https://twitter.com/asaivb
'https://twitter.com/asaivb'in list m have 11 times
root@kali:~/python/laowangpy/datadig#

========================================================================
5、UID为573638104的用户 发了多少个微博。
目标文件:百度网盘
http://pan.baidu.com/s/1kU6X2GB

所求问题为:UID为573638104的用户 发了多少个微博 (要求:输出一个整数)

Python源码:

root@kali:~/python/laowangpy/datadig# cat 10uidweibo.py 
#!/usr/bin/python
# --*-- coding:utf-8 --*--
import string
import time

text_userdata = open('twitterdata.txt').read()#对目标文本进行全部读取,并赋值
#print text_userdata

l = [n for n in text_userdata.split('\r\n')]#对目标文件使用\r\n进行分割,把分割好的每个元素加入列表n中
#print l[0]#打印第一个元素信息

i = 0
n = []
m = []#存储UID值的列表

while l[i] != "":#当列表l中的元素不等于空白,则进入
    s = l[i].replace('"','')#对列表l中每个元素中的"符号使用空白替换
    n.append(s)#加入列表n中
    t = s.split(",")#对列表s使用,分割
    m.append(t[1])#对列表t中第二个元素加入列表m中,即是UID值
    i = i + 1#循环加1

#print m[0]#打印列表m的第一个元素为uid的值
print m

j = 0 
sum = 0#统计字符串uid为573638104在列表m中每个元素中出现的次数
while m[j] != m[-1]:
    if m[j].count('573638104') == 1:#是判断字符串573638104是否在m[j],存在的话返回1
        sum = sum + 1
    j = j + 1   
#print j
print "-----------------在列表m中出现的次数------------------------"
print "'573638104'in list m have %d times" % sum

#fredata = [(x,m.count(x)) for x in set(m)]#对列表m中每个元素出现频次统计
#print fredata
#print "--------------------------按出现的频次高低排序统计如下:--------------------------------"
#sortfredata = sorted(fredata)#对列表fredata转换成集合sortfredata
#print sorted(sortfredata,key=lambda x:x[1],reverse=True)#对集合sortfredata中使用第二个key值大小,并从大到小排序


root@kali:~/python/laowangpy/datadig#

python运行情况:

root@kali:~/python/laowangpy/datadig# python 10uidweibo.py 

-----------------在列表m中出现的次数------------------------
'573638104'in list m have 11 times
root@kali:~/python/laowangpy/datadig#

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
6、定义一个函数,该函数可放入任意多的用户uid参数。
目标文件:百度网盘
http://pan.baidu.com/s/1kU6X2GB

所求问题为:定义一个函数,该函数可放入任意多的用户uid参数(如果不存在则返回null),函数返回发微薄数最多的用户uid。

Python源码:

root@kali:~/python/laowangpy/datadig# cat 11funuidmaxweb.py 
#!/usr/bin/python
# --*-- coding:utf-8 --*--
import string
import time

text_userdata = open('twitterdata.txt').read()#对目标文本进行全部读取,并赋值
#print text_userdata

l = [n for n in text_userdata.split('\r\n')]#对目标文件使用\r\n进行分割,把分割好的每个元素加入列表n中
#print l[0]#打印第一个元素信息

i = 0
n = []
m = []#存储UID值的列表

while l[i] != "":#当列表l中的元素不等于空白,则进入
    s = l[i].replace('"','')#对列表l中每个元素中的"符号使用空白替换
    n.append(s)#加入列表n中
    t = s.split(",")#对列表s使用,分割
    m.append(t[1])#对列表t中第二个元素加入列表m中,即是UID值
    i = i + 1#循环加1

#print m[0]#打印列表m的第一个元素为uid的值
print m

#j = 0
#sum = 0#统计字符串uid为573638104在列表m中每个元素中出现的次数
def funuid(uid):
    j = 0
    sum = 0
    while m[j] != m[-1]:
        sum = m.count(uid)#统计uid在列表m中次数
        j = j + 1
    print "username's UID %s tweeting %d times microblog" %(uid,sum)
    if sum == 0:print "null"
funuid("12345")#可以放入列表m的值funuid(m[-2])

#print j
#print "-----------------在列表m中出现的次数------------------------"
#print "'573638104'in list m have %d times" % sum

#fredata = [(x,m.count(x)) for x in set(m)]#对列表m中每个元素出现频次统计
#print fredata
#print "--------------------------按出现的频次高低排序统计如下:--------------------------------"
#sortfredata = sorted(fredata)#对列表fredata转换成集合sortfredata
#print sorted(sortfredata,key=lambda x:x[1],reverse=True)#对集合sortfredata中使用第二个key值大小,并从大到小排序


root@kali:~/python/laowangpy/datadig#

Python运行情况:

root@kali:~/python/laowangpy/datadig# python 11funuidmaxweb.py 

username's UID 600704757 tweeting 3 times microblog
root@kali:~/python/laowangpy/datadig# python 11funuidmaxweb.py 

username's UID 12345 tweeting 0 times microblog
null
root@kali:~/python/laowangpy/datadig#