关于Python爬虫的最全知识梳理，项目经理花了三天总结出来的经验

发表评论

A+

作爲零基础小白，大体上可分爲三个阶段去完成，第一阶段是入门，掌握必备基础知识，比如Python基础、网络央求的基本原理等，第二阶段是模仿，跟着别人的爬虫代码学，弄懂每一行代码，熟习主流的爬虫工具，第三阶段是自己动手，到了这个阶段你末尾有自己的解题思绪了，可以独立设计爬虫系统。

关于Python爬虫的最全知识梳理，项目经理花了三天总结出来的经验

在给大家分享之前呢，小编推荐一下一个挺不错的交流宝地，里面都是一群热爱并在学习Python的小伙伴们，大几千了吧，各种各样的人群都有，特别喜欢看到这种大家一起交流解决难题的氛围，群资料也上传了好多，各种大牛解决小白的问题，这个Python群：125240963欢迎大家进来一起交流！共同进步！

那麼是不是一定要把上面的知识全学完了才可以末尾写爬虫吗？当然不是，学习是一辈子的事，只需你会写 Python 代码了，就直接上手爬虫，好比学车，只需能开动了就上路吧，写代码可比开车安全多了。

网络央求框架都是对 HTTP 协议的完成，比如著名的网络央求库 Requests 就是一个模拟阅读器发送 HTTP 央求的网络库。了解 HTTP 协议之后，你就可以专门有针对性的学习和网络相关的模块了，比如 Python 自带有 urllib、urllib2（Python3中的urllib），httplib，Cookie等外容，当然你可以直接跳过这些，直接学习 Requests 怎样用，前提是你熟习了 HTTP协议的基本内容，数据爬上去，大部分情况是 HTML 文本，也有少数是基于 XML 格式或许 Json 格式的数据，要想正确处置这些数据，你要熟习每种数据类型的处置方案，比如 JSON 数据可以直接运用 Python自带的模块 json，关于 HTML 数据，可以运用 BeautifulSoup、lxml 等库去处置，关于 xml 数据，除了可以运用 untangle、xmltodict 等第三方库。

入门爬虫，学习正则表达式并不是必需的，你可以在你真正需求的时分再去学，比如你把数据爬取回来后，需求对数据中止清洗，当你发现运用常规的字符串操作方法根本没法处置时，这时你可以尝试了解一下正则表达式，往往它能起到事半功倍的效果。Python 的 re 模块可用来处置正则表达式。这里也举荐一个教程：Python正则表达式指南 https://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

从数据的抓取到清洗再到存储的基本流程都走完了，也算是基本入门了，接上去就是考验内功的时分了，很多网站都设有反爬虫战略，他们想方设法阻止你用非正常伎俩获取数据，比如会有各种奇奇特怪的验证码限制你的央求操作、对央求速度做限制，对IP做限制、甚至对数据中止加密操作，总之，就是爲了提高获取数据的本钱。这时你需求掌握的知识就要更多了，你需求深化理解 HTTP 协议，你需求理解稀有的加解密算法，你要理解 HTTP 中的 cookie，HTTP 代理，HTTP中的各种HEADER。爬虫与反爬虫就是相爱相杀的一对，道高一次魔高一丈。如何应对反爬虫没有既定的分歧的处置方案，靠的是你的阅历以及你所掌握的知识体系。这不是仅凭21天入门教程就能抵达的高度。

大规模爬虫，通常都是从一个URL末尾爬，然后把页面中解析的URL链接参与待爬的URL集合中，我们需求用到队列或许优先队列来区别对待有些网站优先爬，有些网站后面爬。每爬去一个页面，是运用深度优先还是广度优先算法爬取下一个链接。每次发起网络央求的时分，会触及到一个DNS的解析进程（将网址转换成IP）爲了避免重复地 DNS 解析，我们需求把解析好的 IP 缓存上去。URL那麼多，如何判别哪些网址已经爬过，哪些没有爬过，复杂点就是是运用字典结构来存储已经爬过的的URL，但是假设碰过海量的URL时，字典占用的内存空间非常大，此时你需求思索运用 Bloom Filter（布隆过滤器），用一个线程逐一地爬取数据，效率低得不幸，假设提高爬虫效率，是运用多线程，多进程还是协程，还是分布式操作。

我的微信公众号

爱真理，得永生！　　　　　　　　　　爱在灵灵久博客，网罗天下，福利大家！

发表评论取消回复

登录

微信