神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

发表评论

A+

所属分类：python基础入门

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

语言&环境

语言：带足弹药，继续用Python开路！

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

爬虫的种类

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

聚焦网络爬虫

聚焦网络爬虫（Focused Crawler），又称主题网络爬虫（Topical Crawler），是指选择性地爬取那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬取与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。我们之前爬的歌单就属于这一种。

增量式网络爬虫

增量式网络爬虫（Incremental Web Crawler）是指对已下载网页采取增量式更新和只爬取新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬取的页面是尽可能新的页面。和周期性爬取和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬取新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬取的网页，减小时间和空间上的耗费，但是增加了爬取算法的复杂度和实现难度。现在比较火的舆情爬虫一般都是增量式网络爬虫。

深网爬虫

Web 页面按存在方式可以分为表层网页（Surface Web）和深层网页（Deep Web，也称 Invisible Web Pages 或 Hidden Web）。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页就属于 Deep Web。

一个迷你框架

下面以比较典型的通用爬虫为例，分析其工程要点，设计并实现一个迷你框架。架构图如下：

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

代码结构：

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

config_load.py 配置文件加载

crawl_thread.py 爬取线程

mini_spider.py 主线程

spider.conf 配置文件

url_table.py url队列、url表

urls.txt 种子url集合

webpage_parse.py 网页分析

webpage_save.py 网页存储

看看配置文件里有什么内容：

spider.conf

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

mini_spider.py

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

url_table.py

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

Step 3. 记录哪些网页已经下载过的小本本——URL表。

在互联网上，一个网页可能被多个网页中的超链接所指向。这样在遍历互联网这张图的时候，这个网页可能被多次访问到。为了防止一个网页被下载和解析多次，需要一个URL表记录哪些网页已经下载过。再遇到这个网页的时候，我们就可以跳过它。

crawl_thread.py

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！

Step 4. 多个抓取线程

为了提升爬虫性能，需要多个抓取线程，从URL队列获取链接进行处理。多线程并没什么毛病，但Python的多线程可能会引起很多人的质疑，这源于Python设计之初的考虑：GIL。GIL的全称是Global Interpreter Lock(全局解释器锁)，某个线程想要执行，必须先拿到GIL，并且在一个Python进程中，GIL只有一个。结果就是Python里一个进程永远只能同时执行一个线程，这就是为什么在多核CPU上，Python的多线程效率并不高。那么我们为什么还要用Python多线程呢？

神级程序员带你玩爬虫！从零到迷你爬虫架构！十分钟就够了！