python学习 三 04 图片爬虫工程-组织框架

  • A+
所属分类:python网络爬虫

python学习 三 03 再爬一个网站,根据分页,下载图片

本图片爬虫工程,组织框架

初次使用python,没什么组织,只是开发过程中的逻辑梳理下

python学习 三 04 图片爬虫工程-组织框架

python学习 三 04 图片爬虫工程-组织框架

一个主程序,用于分析网站,根据网站图片分类,创建本地类别,获得所有分页,最后下载所需图片。

Common.py 常用功能

Down.py 下载功能

MyThread.py 多线程,与下载结合,实现多线程下载

Parse.py 解析

大体逻辑上,是按这个组织的,当然一开始是写在一个文件中的,不过发现那样太乱,不利于重复利用,于是就慢慢的分离出这几个文件。

现在,脉络是这样,不过耦合度还是挺多的,先不管了,有机会再研究的话,再进行完善。

工程发布到github,有一个网站是日本的,可以尽情爬取,另一个网站网址省去了,避免多人爬取,直接把人家的网站挂掉,就像有人如果爬我的网站,差点把我的网站弄瘫痪了,我也是不愿意的:》

至此,我的爬虫项目已经完成了爬虫任务,暂时不再研究了,下一步打算做数据挖掘项目了

Github:

https://github.com/gudianxiaoshuo/myPython

对您有所启发的话,用支付宝扫下红包奥。。。

weinxin
我的微信公众号
爱真理,得永生!          爱在灵灵久博客,网罗天下,福利大家!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: