Python网络爬虫学习笔记之三种网页抓取方法

发表评论

A+

所属分类：python网络爬虫

（一）三种网页抓取方法

1、正则表达式：

模块使用C语言编写，速度快，但是很脆弱，可能网页更新后就不能用了。

2、 Beautiful Soup

模块使用Python编写，速度慢。

安装：

pip install beautifulsoup4

3、 Lxml

模块使用C语言编写，即快速又健壮，通常应该是最好的选择。

（二） Lxml安装

pip install lxml

如果使用lxml的css选择器，还要安装下面的模块

pip install cssselect

（三）使用lxml示例

Python网络爬虫学习笔记之三种网页抓取方法

写在最后

前几天有私信小编要Python的学习资料，小编整理了一些有深度的Python教程和参考资料，从入门到高级的都有，文件已经打包好了，正在学习Python的同学可以下载学习学习。文件下载方式：点击小编头像，关注后私信回复“资料”即可下载。首先把代码撸起来！首先把代码撸起来！首先把代码撸起来！重要的事说三遍，哈哈。“编程是门手艺活”。什么意思？得练啊。

Python网络爬虫学习笔记之三种网页抓取方法