前提需求在本地环境创建stock库和sina_news表
import datetime
import urllib.request
import pymysql
from bs4 import BeautifulSoup#如果没有安装好BeautifulSoup,这里是会报错的
#自定义一个函数拿到博客的链接
def getUrl (url):
#定义一个headers,存储刚才复制下来的报头,模拟成浏览器
headers = ('User-Agent',
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
# 将opener安装为全局
urllib.request.install_opener(opener)
html = urllib.request.urlopen(url).read().decode('utf-8', 'ignore')
# print(html)
bs = BeautifulSoup(html,'lxml')
# 用beautifulsoup的select,找到所有的<a>标签
links = bs.select('.list04 > li > p > a')
return links import sys
if __name__ == '__main__':
# 建立数据库连接,剔除已入库的部分
db = pymysql.connect(host='127.0.0.1', user='root', passwd='', db='stock', charset='utf8')
cursor = db.cursor() # 要爬取的网页链接 ,循环足够多的页数,所以填了1000000
for i in range(1,2):
url = 'https://finance.sina.com.cn/stock/'.format(i)
# 获取对应网页的链接地址
linklist = getUrl(url)
# 定义一个列表texts存储文章的标题
texts = []
# 定义一个列表links存储文章的链接
links = []
# 遍历linkllist,存储标题和链接
for link in linklist:
texts.append(link.text.strip())
links.append(link.get('href'))
# 通过zip,将信息输出到控制台
for text, link in zip(texts, links):
text = text.strip().replace("原 \n ", "")
text = text.strip().replace("转 \n ", "")
data = {'tittle': text, 'link': link}
#print(data)
try:
sql_insert = "INSERT INTO sina_news(title,link) VALUES ('%s', '%s')" %(text,link)
cursor.execute(sql_insert)
db.commit()
except Exception as err:
continue
cursor.close()
db.close()
print('All Finished!')
python 爬虫入库代码实现
原创
©著作权归作者所有:来自51CTO博客作者心疼五百块大洋的原创作品,请联系作者获取转载授权,否则将追究法律责任

提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Python爬虫:清华大学新闻爬虫的实现
这个爬虫功能强大,代码简介,是爬虫学习入门的不二之选。该文章将一步一步但你探索其中奥秘,解决你在这方面的困惑。
python 爬虫 请求头 jieba -
python协程(asyncio)实现爬虫例子
使用python协程实现异步爬取网站。
python 协程 爬虫 -
python爬虫代码模板 python简单爬虫代码
节约时间,不废话介绍了,直接上例子!!!输入以下代码(共6行) 爬虫结束~~~有木有满满成就感!!!以上代码爬取的是这个页面,红色框框里面的数据,也就是豆瓣电影本周口碑榜。 下面开始简单介绍如何写爬虫。爬虫前,我们首先简单明确两点:1. 爬虫的网址;2. 需要爬取的内容。第一步,爬虫的网址,这个…那就豆瓣吧,我也不知道为啥爬虫教程都要拿豆瓣开刀–!第二部,需要
python爬虫代码模板 python 爬虫代码 python爬虫万能代码 python爬虫代码 python爬虫代码大全 -
Java list可以eqauls吗
java常用的数据结构我们在java.util包下的 如: List, Set, Map 等。这些集合数据结构都继承同一个接口就是Collection:Method Summary booleanadd(E Ensures that this collecti
Java list可以eqauls吗 数据结构与算法 java runtime List