爬某东某口红销售数据

找不到口红的销售数据怎么办?

曲线救国,通过评论数据间接得到口红的销售数据
如何找到评论区内容背后的URL?

(1)鼠标右击选择检查,打开程序员调试窗口,点击network(网络)

(2)刷新当前页面

(3)复制一小段评论区内容,然后在程序员调试窗口点击放大镜🔎,粘贴

(4)点击刷新小圆圈🔄查找

(5)点击查询结果的第二行,跳转到对应的请求

(6)点击Headers,找到Request URL即几评论区数据背后的URL

PYTHON获得小红书图片 python爬取小红书app_开发语言


3行代码爬取京东数据

梳理代码流程:

(1)引入Python工具包requests
(2)使用工具包中的get方法,向服务器发起请求
(3)打印输出请求回来的数据(print语法)

import requests
resp=requests.get(' url')
print(resp.text)

PYTHON获得小红书图片 python爬取小红书app_爬虫_02

Python代码解析数据

如何解析这堆杂乱无章的数据?

(1)打开网页工具 www.json.cn

(2)将数据整理成Json格式:以大括号开头和结尾

(3)找到目标数据值对应的名字

PYTHON获得小红书图片 python爬取小红书app_json_03


要把{ }两边的前后缀删掉json才能解析,故要替换掉,用replace;

Python replace语法:

replace为替换的意思,可以使用replace把任何不想要的数据替换成

例如:‘hellopython’.replace(‘python’,’’)—>‘hello’

引入Python整理数据的工具包 json、获取口红色号及码数数据

import requests
import json
resp=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content=resp.text
rest=content.replace('fetchJSON_comment98(','').replace(');','')//去前后缀
json_data=json.loads(rest)//把替换后的json文本传给json工具
comments=json_data['comments']//获取爬取的十条数据,京东网页版每面只显示十条
for item in comments:
  color=item['productColor']
  size=item['productSize']//循环输出
  print(color)//打印色号
  print(size)//打印size

PYTHON获得小红书图片 python爬取小红书app_python_04

4行代码带数据回家
学会引入openpyxl工具包存储数据
(1)创建一个Excel表格

(2)创建一个sheet

(3)在sheet里面保存数据

(4)把表格保存在一个磁盘里

PYTHON获得小红书图片 python爬取小红书app_开发语言_05

import requests
import json
import openpyxl

wk=openpyxl.Workbook()#创表格wk
sheet=wk.create_sheet()#创sheet

resp=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content=resp.text
rest=content.replace('fetchJSON_comment98(','').replace(');','')
json_data=json.loads(rest)
comments=json_data['comments']
for item in comments:
  color=item['productColor']
  size=item['productSize']
  sheet.append([color,size])#保存数据
  wk.save('data/jay_79.xlsx')#保存到云服务器
  #print(color)
  #print(size)

马士兵提供的云服务器里能找到:

PYTHON获得小红书图片 python爬取小红书app_json_06


PYTHON获得小红书图片 python爬取小红书app_PYTHON获得小红书图片_07