手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

/1 前语/

平常咱们要下载图片,要要一个一个点击下载是不是觉得很费事?那有没有愈加简洁的办法呢?答案是必定的,这儿咱们以天堂网为例,批量下载天堂网的图片。

/2 项目预备工作/

首要 咱们第一步咱们要装置一个pycham的软件。能够参阅这篇文章:Python环境建立—安利Python小白的Python和Pycharm装置详细教程。
天堂网的网址:

https://www.ivsky.com/bizhi/1920x1080/

咱们需求下载几个库,怎样下载呢?翻开pycharm,顺次点击File,再点开Settings,如下图所示。
翻开后会呈现这个界面点击你的项目姓名(project:(你的项目姓名)),之后在project  interpreter下,点击加号,然后下载咱们需求的库,如下图所示。
本项目需求用到的是库是requests、lxml、fake_useragent,如下图所示。fake_useragent一般是没有的,需求经过下面的指令进行装置:

pip install fake_useragent

/3 项目完成/

1. 导入需求的库(requests,lxml, fake_useragent)。
2. 我用了封装办法去完成各个部分的功用。首要要写一个结构:结构一个类TianTangWebsite ,然后界说一个__init__办法里承继(self),再界说一个主办法(main)。最终完成这个main办法,顺次一步一步进行完成。
3. 咱们把天堂网的网址拿过来,结构恳求头。这儿说一下这个UserAgent的获取办法。在翻开天堂网的网站后,按下键盘上的F12键,之后会进入到开发者形式,之后点开network,如下图所示。
4. 然后随意点击一个name,仿制header里面的UserAgent就能够了。
  1. 咱们点击下一页的地址调查网址的改变,如下所示:

https://www.ivsky.com/bizhi/1920x1080/index_2.html
https://www.ivsky.com/bizhi/1920x1080/index_3.html
https://www.ivsky.com/bizhi/1920x1080/index_4.html

很明显的发现,这个网址的网页数字一直在改变。咱们能够用格式化{}去替代改变的值,相似这样:

https://www.ivsky.com/bizhi/1920x1080/index_{}.html

6. 然后咱们用for循环去遍历这些网址,代码如下所示:

def main(self):

for i in range(1,2):#页数随机客户随意 设置
url=self.url.format(i)
print(url)
7. 咱们界说这个get_home()办法去恳求到这个网址。
9. 咱们需求解析得到的数据,接下来界说一个xiap的办法,拿到咱们恳求的网址。接下来便是该项意图要害了。
10. 至此,针对反爬虫的办法咱们现已提早做好了预备,下一步将进行网页结构的剖析以及网页图片地址数据的提取,并针对解析出来的图片地址予以批量下载,详细完成咱们下篇文章进行详解。

/4 小结/

本文主要内容为对图片网站进行了根本简介,根据 Python 中的爬虫库 requests 、lxml、fake_useragent,提早布置了恳求头,模仿浏览器,针对反爬虫的办法咱们现已提早做好了预备。
下篇文章将带我们进行网页结构的剖析以及网页图片地址数据的提取,并针对解析出来的图片地址予以批量下载,敬请期待~~