神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

  • A+
所属分类:python基础入门

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

语言&环境

语言:带足弹药,继续用Python开路!

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

爬虫的种类

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

聚焦网络爬虫

聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬取那些与预先定义好的主题相关页面的网络爬虫。 和通用网络爬虫相比,聚焦爬虫只需要爬取与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。我们之前爬的歌单就属于这一种。

增量式网络爬虫

增量式网络爬虫(Incremental Web Crawler)是 指 对 已 下 载 网 页 采 取 增 量式更新和只爬取新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬取的页面是尽可能新的页面。 和周期性爬取和刷新页面的网络爬虫相比,增量式爬虫只会在需要的时候爬取新产生或发生更新的页面 ,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬取的网页,减小时间和空间上的耗费,但是增加了爬取算法的复杂度和实现难度。现在比较火的舆情爬虫一般都是增量式网络爬虫。

深网爬虫

Web 页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web,也称 Invisible Web Pages 或 Hidden Web)。 表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页就属于 Deep Web。

一个迷你框架

下面以比较典型的通用爬虫为例,分析其工程要点,设计并实现一个迷你框架。架构图如下:

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

代码结构:

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

config_load.py 配置文件加载

crawl_thread.py 爬取线程

mini_spider.py 主线程

spider.conf 配置文件

url_table.py url队列、url表

urls.txt 种子url集合

webpage_parse.py 网页分析

webpage_save.py 网页存储

看看配置文件里有什么内容:

spider.conf

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

mini_spider.py

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

url_table.py

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

Step 3. 记录哪些网页已经下载过的小本本——URL表。

在互联网上,一个网页可能被多个网页中的超链接所指向。这样在遍历互联网这张图的时候,这个网页可能被多次访问到。为了防止一个网页被下载和解析多次,需要一个URL表记录哪些网页已经下载过。再遇到这个网页的时候,我们就可以跳过它。

crawl_thread.py

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

Step 4. 多个抓取线程

为了提升爬虫性能,需要多个抓取线程,从URL队列获取链接进行处理。多线程并没什么毛病,但Python的多线程可能会引起很多人的质疑,这源于Python设计之初的考虑:GIL。GIL的全称是Global Interpreter Lock(全局解释器锁),某个线程想要执行,必须先拿到GIL,并且在一个Python进程中,GIL只有一个。结果就是Python里一个进程永远只能同时执行一个线程,这就是为什么在多核CPU上,Python的多线程效率并不高。那么我们为什么还要用Python多线程呢?

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

crawl_thread.py

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

Step 5. 页面分析模块

从网页中解析出URLs或者其他有用的数据。这个是上期重点介绍的,可以参考之前的代码。

Step 6. 页面存储模块

保存页面的模块,目前将文件保存为文件,以后可以扩展出多种存储方式,如mysql,mongodb,hbase等等。

webpage_save.py

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

写到这里,整个框架已经清晰的呈现在大家眼前了,千万不要小看它,不管多么复杂的框架都是在这些基本要素上扩展出来的。

下一步

基础知识的学习暂时告一段落,希望能够帮助大家打下一定的基础。下期开始为大家介绍强大成熟的爬虫框架Scrapy,它提供了很多强大的特性来使得爬取更为简单高效,更多精彩,敬请期待!

神级程序员带你玩爬虫!从零到迷你爬虫架构!十分钟就够了!

weinxin
我的微信公众号
爱真理,得永生!          爱在灵灵久博客,网罗天下,福利大家!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: