如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

爬虫一直都是非常吸引人的一个方向，爬虫能做的事很多，但是很多人在新手期都会碰到该怎么入门，该怎么去学习他？爬虫就像一只刺猬。是不是给人一种无可下手的感觉呢？今天小编看了这段话，觉得还是非常有用的，大家借鉴一下！

看到前面很多答案都讲的“术”——用什么软件怎么爬，那我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现。

先长话短说summarize一下：

你需要学习

如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

以下是短话长说：

说说当初写的一个集群爬下整个豆瓣的经验吧。

如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

在人民日报的首页，你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了，这样你就已经爬完了俩页面（首页和国内新闻）！暂且不用管爬下来的页面怎么处理的，你就想象你把这个页面完完整整抄成了个html放到了你身上。

如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

那么在python里怎么实现呢？

很简单

如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

注意到这个特点，url如果被看过，那么可能以小概率重复看一看（没关系，多看看不会累死）。但是如果没被看过，一定会被看一下（这个很重要，不然我们就要漏掉一些网页了！）。 [IMPORTANT: 此段有问题，请暂时略过]

如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

考虑如何用python实现：

在各台slave上装好scrapy，那么各台机子就变成了一台有抓取能力的slave，在master上装好Redis和rq用作分布式队列。

代码于是写成

如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

但是如果附加上你需要这些后续处理，比如

如你所想，这里每一个点都可以供很多研究者十数年的研究。虽然如此，

“路漫漫其修远兮,吾将上下而求索”。

所以，不要问怎么入门，直接上路就好了：）

如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

谢谢阅读，不知道你有没有顿悟出学习爬虫的门路来呢？共勉！！！

如何入门 Python 爬虫？这位经理的一段话让我找到了指路明灯！

我的微信公众号

爱真理，得永生！　　　　　　　　　　爱在灵灵久博客，网罗天下，福利大家！

登录