如果想要爬虫,首先就得了解URL

URL是`Uniform Resource Locator`的简写,统一资源定位符。 一个URL由以下几部分组成:

scheme://host:port/path/?query-string=xxx#anchor

scheme:代表的是访问的协议,一般为`http`或者`https`以及`ftp`等。

host:主机名,域名,比如`www.baidu.com`。

port:端口号。当你访问一个网站的时候,浏览器默认使用80端口。

path:查找路径。比如:`www.jianshu.com/trending/now`,后面的`trending/now`就是`path`。

query-string:查询字符串,比如:`www.baidu.com/s?wd=python`,后面的`wd=python`就是查询字符串。

anchor:锚点,后台一般不用管,前端用来做页面定位的。

在浏览器中请求一个`url`,浏览器会对这个url进行一个编码。除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码。

 

举例说明:


scheme(访问协议):https

host(主机):so.csdn.net

port(端口号):默认为80端口

path(路径):so/search/s.do

query-string(查询字符串):q=%E5%BE%AE%E4%BF%A1%E5%B0%8F%E7%A8%8B%E5%BA%8F&t=blog&u=qq_27524749