- A+
所属分类:python网络爬虫
(一) 三种网页抓取方法
1、 正则表达式:
模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了。
2、 Beautiful Soup
模块使用Python编写,速度慢。
安装:
pip install beautifulsoup4
3、 Lxml
模块使用C语言编写,即快速又健壮,通常应该是最好的选择。
(二) Lxml安装
如果使用lxml的css选择器,还要安装下面的模块
pip install cssselect
(三) 使用lxml示例
写在最后
前几天有私信小编要Python的学习资料,小编整理了一些有深度的Python教程和参考资料,从入门到高级的都有,文件已经打包好了,正在学习Python的同学可以下载学习学习。文件下载方式:点击小编头像,关注后私信回复“资料”即可下载。首先把代码撸起来!首先把代码撸起来!首先把代码撸起来!重要的事说三遍,哈哈。“编程是门手艺活”。什么意思?得练啊。
我的微信公众号
爱真理,得永生! 爱在灵灵久博客,网罗天下,福利大家!