- A+
所属分类:python网络爬虫
前面的章节
python自我学习 一 python语法,及变量类型
python自我学习 二 爬一个图片网站上
python学习 二 02 爬一个图片网站,获得主链接网址,并保存
本节思路
理一理逻辑,先不去考虑细节,逻辑理清了,根据这个逻辑去实现细节就好了。我也是第一次使用python,也没有时间看文档,因为想获得图片素材,直接就想爬一个网站。
我们之前,已经分析了首页,获得了图片类别对应的链接,并将这些链接保存在了本地文件中。
下面,
第一步,我们会下载主链接网页,保存在本地文件中。
第二步,分析主链接,获得相应的所有分页网址
第三步,将主链接及分页链接,统统下载下来
下载下来后,后续我们会解析网页,获得图片地址,下载图片,本节主要完成前三步即可。
下载主链接网页,保存在本地
上文,我们将首页中主链接保存了起来,
下面,为了免去每次下载网页的麻烦,我们一次性下载这些网页,并保存在本地中
主文件中,就一句话,因为细节都封装在另一个文件中了,我们主要考虑逻辑,细节可以通过查资料去实现,去调试。
这是common.py中写的下载函数
其中调用了单个网址下载函数downHtml
通过上述代码,已经将链接下载到了本地。
获得分页链接
上文提到,解析了首页,将所有的主分类链接保存到了本地文件中。
我们再打开一个主链接看看
每个主链接,都有相应的分页链接
我们下面的目的,就是获得主链接对应的所有分页链接
分析网页源码
分页链接保存在class=link2的 div下
其中,获得分页链接的代码如下:
将所有的链接对应的网页,下载到本地
这是下载后的本地文件
我的微信公众号
爱真理,得永生! 爱在灵灵久博客,网罗天下,福利大家!