程序员大佬带零基础小白入门Python爬虫，帮你解析其中的奥妙

发表评论

A+

所属分类：python网络爬虫

什么是pyton爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

程序员大佬带零基础小白入门Python爬虫，帮你解析其中的奥妙

爬虫的原理

发起请求

通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应

获取响应内容

如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

解析内容

得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

保存数据

保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

爬虫是哪里爬取数据的

打开浏览器（强烈建议谷歌浏览器），找到浏览器地址栏，然后在里敲music.163.com，你会看到网页内容。

程序员大佬带零基础小白入门Python爬虫，帮你解析其中的奥妙

欸，图片中间那俩人在干嘛？（单身狗请主动防御，这是误伤，这真的是误伤！）

鼠标在页面上点击右键，然后点击view page source。看到这些文字了吗？这才是网页最赤果果的样子。

程序员大佬带零基础小白入门Python爬虫，帮你解析其中的奥妙

其实所有的网页都是HTML代码，只不过浏览器将这些代码解析成了上面的网页，我们的小爬虫抓取的其实就是HTML代码中的文本啦。

这不合理啊，难不成那些图片也是文本？

恭喜你，答对了。回到浏览器中有图的哪个tab页，鼠标右键，点击Inspect。会弹出一个面板，点击板左上角的箭头，点击虐狗图片，你会看到下面有红圈圈的地方，是图片的网络地址。图片可以通过该地址保存到本地哦。

程序员大佬带零基础小白入门Python爬虫，帮你解析其中的奥妙

你猜的没错，我们的小爬虫抓取的正是网页中的数据，你要知道你想要抓取什么数据，你的目标网站是什么，才可以把想法变成现实的哦。你不能说，我想要这个这个，还有这个，然后数据就自动来了。。。(是不是让你想起了你的导师或老板？)

如何解析数据

直接处理
Json解析
正则表达式处理
BeautifulSoup解析处理
PyQuery解析处理
XPath解析处理

爬虫渐入佳境

有了一些套路和形式，就会有目标，可以接着往下学了。还是豆瓣，自己去摸索爬取更多的信息，爬取多部电影，多个页面。这个时候就发现基础不足了，比如爬取多个元素、翻页、处理多种情况等涉及的语句控制，又比如提取内容时涉及到的字符串、列表、字典的处理，还远远不够。

程序员大佬带零基础小白入门Python爬虫，帮你解析其中的奥妙

再回去补充 Python 的基础知识，就很有针对性，而且能马上能用于解决问题，也就理解得更深刻。这样直到把豆瓣的TOP250图书和电影爬下来，基本算是了解了一个爬虫的基本过程了。

BeautifulSoup 还算不错，但需要花一些时间去了解一些网页的基本知识，否则一些元素的定位和选取还是会头疼。

后来认识到 xpath 之后相见恨晚，这才是入门必备利器啊，直接Chrome复制就可以了，指哪打哪。即便是要自己写 xpath，以w3school上几页的 xpath 教程，一个小时也可以搞定了。requests 貌似也比 urllib 更好用，但摸索总归是试错的过程，试错成本就是时间。

程序员大佬带零基础小白入门Python爬虫，帮你解析其中的奥妙

跟反python爬虫杠上了

通过 requests+xpath，我可以去爬取很多网站网站了，后来自己练习了小猪的租房信息和当当的图书数据。爬拉勾的时候就发现问题了，首先是自己的请求根本不会返回信息，原来要将自己的爬虫伪装成浏览器，终于知道别人代码中那一坨 headers 信息是干啥的了

python爬虫怎样保存数据

文本：纯文本，Json,Xml等

关系型数据库：如mysql,oracle,sql server等结构化数据库

非关系型数据库：MongoDB,Redis等key-value形式存储

好了，今天的知识就分享到这里，想学习python爬虫的欢迎关注爱编程的南风，私信关键词：学习资料，获取更多学习资源，如果文章对你有有帮助，请收藏关注，在今后与你分享更多学习python的文章。同时欢迎在下面评论区留言如何学习python。

我的微信公众号

爱真理，得永生！　　　　　　　　　　爱在灵灵久博客，网罗天下，福利大家！

什么是pyton爬虫？

爬虫是哪里爬取数据的

发表评论取消回复

登录

微信