- A+
所属分类:python网络爬虫
Python爬虫如何入门?建议按以下步骤学习:
学习基本的爬虫工作原理;
学习基本的http抓取工具:scrapy;
学习URL去重策略:Bloom Filter;
如果需要大规模网页抓取,你需要学习分布式爬虫的概念。做减法,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq:https://github.com/nvie/rq;
rq和Scrapy的结合:darkrho/scrapy-redis · GitHub;
后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb)。
1)首先你要明白爬虫怎样工作。
2)效率
3)集群化抓取
4)展望及后处理
你可以说需要先懂python,不然怎么学会python做爬虫呢?但是事实上,你完全可以在做这个爬虫的过程中学习python的。
我的微信公众号
爱真理,得永生! 爱在灵灵久博客,网罗天下,福利大家!