(1)前期准备:打开谷歌浏览器,进入新浪新闻网国内新闻页面,点击进入其中一条新闻,打开开发者工具界面。获取当前网页数据,然后使用BeautifulSoup进行剖析,代码:

import requests
 from bs4 import BeautifulSoup
 res = requests.get('http://news.sina.com.cn/c/2018-08-15/doc-ihhtfwqr3419248.shtml')
 res.encoding = 'utf-8'
 soup = BeautifulSoup(res.text)

(2)获取新闻标题:开发者工具界面进行查看,新闻标题有class='main-title'标记,故:

title = soup.select('.main-title')[0].text

(3)获取新闻来源:开发者工具界面进行查看,新闻来源在class='date-source'标记下的a标签中,故:

source = soup.select('.date-source a')[0].text

(4)获取新闻时间:开发者工具界面进行查看,新闻来源在class='date-source'标记下的class='date'标签中,故:

time = soup.select('.date')[0].text
 dt = datetime.strptime(time, '%Y年%m月%d日 %H:%M')
 date = dt.strftime('%Y-%m-%d %H:%M')

这里为了便于存储,将时间变成便于存储的格式字符串

(5)获取新闻内容:开发者工具界面进行查看,新闻内容在class='article'标签中,由于内容分段位于几个<p>标签中,所以这里使用for循环遍历,去掉每一段的<p>标签后对其进行连接,故:

list = []
 for p in soup.select('.article p')[:-1]:
     list.append(p.text.strip())
 article = ' '.join(list)

使用列表的推导式可以使得代码更加简洁,即:article = ' '.join([p.text.strip() for p in soup.select('.article p')[:-1]])

(6)获取新闻评论数:获取评论数有些特殊,因为评论是动态更新的,所以应该到开发者工具界面的JS类型数据中查看,找到一项info?version=1&format=json&channel=gn&newsid=comos…ad=1&callback=jsonp_1534300770937&_=1534300770937,进入其中就能找到评论的所在,这其中也包含了评论数。由于这里的格式是format=json,所以需要引入json模块对数据进行处理,代码如下:

import requests
 from bs4 import BeautifulSoup
 import json
 res = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=json&channel=gn&newsid=comos-hhqtawy3741909&group=undefined&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1')
 res.encoding = 'utf-8'
 soup = BeautifulSoup(res.text)
 jd = json.loads(soup.text)
 print(jd['result']['count']['total'])

另外,仔细观察这里的网址中的newsid=comos-hhqtawy3741909,与当前页面的网址http://news.sina.com.cn/w/2018-08-14/doc-ihhqtawy3741909.shtml中有一部分数据是一样的,即hhqtawy3741909,这就是我们的id。根据这个发现,可以将获取评论数的代码写成函数,即

def commentsCount(newsurl):
     m = re.search('doc-i(.*).shtml' ,newsurl)
     newsid = m.group(1)
  commentsURL = 'http://comment5.news.sina.com.cn/page/info?version=1&format=json&channel=gn&newsid=comos-{}&group=undefined&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1'
     res = requests.get(commentsURL.format(newsid))
     res.encoding = 'utf-8'
     soup = BeautifulSoup(res.text)
     jd = json.loads(soup.text)
     return (jd['result']['count']['total'])

其中引入正则模块re,可以对需要的字段进行筛选;使用commentsURL.format(newsid)可以以newsid来填充commentsURL中的{}

(7)将获取各种新闻内容的代码做成函数:由于这是获取一条新闻的内容,为了便于获取其他新闻内容,将这些获取代码做成函数,供后续复用

def getNews(newsurl):
     result = {}
     res = requests.get(newsurl)
     res.encoding = 'utf-8'
     soup = BeautifulSoup(res.text)
     result['title'] = soup.select('.main-title')[0].text
     result['source'] = soup.select('.date-source a')[0].text
     time = soup.select('.date')[0].text
     dt = datetime.strptime(time, '%Y年%m月%d日 %H:%M')
     result['date'] = dt.strftime('%Y-%m-%d %H:%M')
     result['article'] = ' '.join([p.text.strip() for p in soup.select('.article p')[:-1]])
     result['author'] = soup.select('.show_author')[0].text.lstrip('责任编辑:')
     result['commentsCount'] = commentsCount(newsurl)
     return result

(8)获取多篇新闻内容--寻找每一篇新闻的网址链接(分步解决)

一.开发人员考虑到一个页面的大小限制和载入速度,会将很多内容以动态分页的形式进行载入,即用户在当前页面往下进行翻页时,下面的内容会动态的出现,所以我们应该在JS类型数据中寻找所有的新闻网址链接

二.这里找到JS中zt_list开头的项目,其中的能够get回应的网址是http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page=2&callback=newsloadercallback&_=1534300543901。可以看到其中有一个属性page=2,说明这是翻页时的第二页内容

三.从第二页内容中获取本页所有新闻的页面网址:

newsURL = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page=1&callback=newsloadercallback&_=1534300543901'
 res = requests.get(newsURL)
 jd = json.loads(res.text.lstrip('  newsloadercallback(').rstrip(');'))
 for news in jd['result']['data']:
     print(news['url'])

四.由于国内新闻首页含有很多页的新闻,故可以将上述获取每一页上所有新闻网址的代码写成函数:

def getURL(newsURL):
     res = requests.get(newsURL)
     jd = json.loads(res.text.lstrip('  newsloadercallback(').rstrip(');'))
     for news in jd['result']['data']:
         return (news['url'])

五.要通过上述得到的网址将所有新闻内容都爬取下来,则上述函数做一下修改:

def getURL(newsURL):
     news = []
     res = requests.get(newsURL)
     jd = json.loads(res.text.lstrip('  newsloadercallback(').rstrip(');'))
     for new in jd['result']['data']:
         news.append(getNews(new['url']))
     return news

使用列表的append方法将所有新闻内容放到一个列表中

六.使用for循环将一定范围页的所有新闻内容爬取下来:

newsURL = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}&callback=newsloadercallback&_=1534300543901'
 allNews = []
 for i in range(1, 3):
     allNews.extend(getURL(newsURL.format(i))) 
 print(allNews)
 print(len(allNews))

最终所有的新闻内容将以列表的形式展现

(9)获取多篇新闻内容--寻找每一篇新闻的网址链接(整体程序代码)

import requests
 from bs4 import BeautifulSoup
 import json
 import re
 from datetime import datetime
 def commentsCount(newsurl):
     m = re.search('doc-i(.*).shtml' ,newsurl)
     newsid = m.group(1)
     commentsURL = 'http://comment5.news.sina.com.cn/page/info?version=1&format=json&channel=gn&newsid=comos-{}&group=undefined&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1'
     res = requests.get(commentsURL.format(newsid))
     res.encoding = 'utf-8'
     jd = json.loads(res.text)
     return (jd['result']['count']['total'])
 def getNews(newsurl):
     result = {}
     res = requests.get(newsurl)
     res.encoding = 'utf-8'
     soup = BeautifulSoup(res.text)
     result['title'] = soup.select('.main-title')[0].text
     try:
         result['source'] = soup.select('.date-source a')[0].text
     except Exception:
         result['source'] = soup.select('.date-source span')[1].text
     time = soup.select('.date')[0].text
     dt = datetime.strptime(time, '%Y年%m月%d日 %H:%M')
     result['date'] = dt.strftime('%Y-%m-%d %H:%M')
     result['article'] = ' '.join([p.text.strip() for p in soup.select('.article p')[:-1]])
     result['author'] = soup.select('.show_author')[0].text.lstrip('责任编辑:')
     result['commentsCount'] = commentsCount(newsurl)
     return result
 def getURL(newsURL):
     news = []
     res = requests.get(newsURL)
     jd = json.loads(res.text.lstrip('  newsloadercallback(').rstrip(');'))
     for new in jd['result']['data']:
         news.append(getNews(new['url']))
     return newsnewsURL = 'http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}&callback=newsloadercallback&_=1534300543901'
 allNews = []
 for i in range(1, 3):
     allNews.extend(getURL(newsURL.format(i))) 
 print(allNews)
 print(len(allNews))

(10)将爬取的数据结构化存储到excel表格中

import pandas
 df = pandas.DataFrame(allNews)
 df.head(20)

这里需要引入pandas模块,是python data analise的缩写,表示python数据分析模块,使用DataFrame方法将爬取的新闻内容进行整理,并显示前20条新闻

df.to_excel

将整理后的数据存入到excel表格中