先让大家看下最终效果...

1,使用的工具及包

google浏览器
User-Agent Switcher for Google Chrome 这是一个能自定义浏览器头的Google浏览器插件
requests ---爬虫必备包(安装 pip install requests )
lxml ---解析html的一个包(安装 pip install lxml),windows用户如果安装不上的话,到Python Extension Packages for Windows 这边下载
js2xml ---把JavaScript语句转成xml (安装 pip install js2xml )

2,分析页面

先用User-Agent Switcher for Google Chrome将浏览器头改为 chrome on Android Mobile

1,获取所有的红包列表

随便点开及个“抢红包”按钮 发现url是这样的

可以发现只有ouid是变化的,所以,我们只要得到ouid就可以生成url了。

使用f12发现如下图的 action-data就是我们需要的ouid了,这样我们就得到了所有的groupid了

代码如下

#获取红包列表
def getuid():
url = 'http://chunjie.hongbao.weibo.com/hongbao2017/h5index'
z = requests.get(url,headers=headers)
if z.status_code == 200:
# 这边是查找所有的ouid
alluid = etree.HTML(z.content).xpath('//div[@class="m-auto-box"]/@action-data')
return alluid

2,“抢红包”

打开 其中一个粉丝红包页面,点击抢红包,查看请求

发现请求的url是 (请加上http://,知乎如果url写全会自动转为页面标题.)

请求的方法是post

请求的参数是groupid: 同上面的groupid,默认都是1000110

uid: 就是上面获取的ouid

share: 经过测试,1表示分享到微博,0表示不分享

st: 是一个变动的值,所以每次必须先获取它

获取st

一般这些值都在网页源代码里面,所以我们直接打开在粉丝红包查看源代码,然后搜索st

果然,值就在源代码里面。

因为值在JavaScript代码里面,所以我们用js2xml来获取它(当然也可以用正则表达式)


代码如下:

def getst(url):
z = requests.get(url,headers=headers)
jscode = etree.HTML(z.content).xpath("//script[contains(., 'weibo')]/text()")[0].replace(u'','')
parsed_js = js2xml.parse(jscode)
st = parsed_js.xpath('//property[@name="st"]/string/text()')[0]
return st
这边有用到replace把“” 替换掉是因为中文会一直报错
cookie 填写可以看如下截图,把下图中的SING到0304 复制,然后放到下面代码中****号的位置
headers ={
#这边cookie替换成你的cookie
'Cookie':'*****',
'User-Agent':'Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19',
}

最后完整代码如下:
# -*- coding: utf-8 -*-
import requests
import js2xml
from lxml import etree
headers ={
#这边cookie替换成你的cookie
'Cookie':'',
'User-Agent':'Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19',
}
#获取红包列表
def getuid():
url = 'http://chunjie.hongbao.weibo.com/hongbao2017/h5index'
# 带上request headers
z = requests.get(url,headers=headers)
if z.status_code == 200:
# 这边是查找所有的ouid
alluid = etree.HTML(z.content).xpath('//div[@class="m-auto-box"]/@action-data')
return alluid
#获取st的值
def getst(url):
#带上request headers
z = requests.get(url,headers=headers)
# 获取第一段JavaScript,并去掉 ,防止中文报错
jscode = etree.HTML(z.content).xpath("//script[contains(., 'weibo')]/text()")[0].replace(u'','')
#使用js2xml 把JavaScript代码替换成xml
parsed_js = js2xml.parse(jscode)
#打印下 xml
# print js2xml.pretty_print(parsed_js)
#从上面可以看到st在哪,然后用xpath写出来
st = parsed_js.xpath('//property[@name="st"]/string/text()')[0]
return st
# 抢红包
def tj(url,uid,st,tjheaders):
#生成需要发送的data
data = {
'groupid':'1000110',
'uid':uid,
'share':'1',
'st':st
}
# 这里使用了post,headers增加了Referer
z = requests.post(url,data=data,headers=tjheaders)
#把得到的结果以json形式展示
_ = z.json()
#如果json中有“ok”,表示提交成功了,否则返回报错信息
if _.has_key('ok'):
print _['data']['error_msg']
else:
print _['errMsg']
if __name__ == '__main__':
# 得到所有的uid
uids = getuid()
for uid in uids:
#生成红包页面的url
url = 'http://hongbao.weibo.com/h5/aboutyou?groupid=1000110&ouid=%s' %uid
#获取st
st = getst(url)
#生成点击“抢红包”页面的url
tjurl = 'http://hongbao.weibo.com/aj_h5/lottery?uid=%s&groupid=1000110&wm=' %uid
# 添加Referer,如果不添加会报错
headers['Referer'] = url
tjheaders = headers
try:
# 点击“抢红包”
tj(tjurl,uid,st,tjheaders)
except:
pass

总结

整个微博抢红包爬虫如下:获取所有的红包列表