不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

  • A+
所属分类:python网络爬虫

封面:

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

介绍

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

简单的说网络爬虫(Web crawler)也叫做网络铲(Web scraper)、网络蜘蛛(Web spider),其行为一般是先“爬”到对应的网页上,再把需要的信息“铲”下来。

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

语言&环境

语言:人生苦短,我用Python。让Python带我们飞!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

$pip install beautifulsoup4

验证的方法,进入Python直接import一下,如果没有异常,那就说明安装成功了!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

“美味的汤,绿色的浓汤,

在热气腾腾的盖碗里装!

谁不愿意尝一尝,这样的好汤?

晚餐用的汤,美味的汤!”

BeautifulSoup库的名字取自《爱丽丝梦游仙境》里的同名诗歌。

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

把这段代码保存为get_html.py,然后运行,看看输出了什么:

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

定位到的html代码:

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

有了这些信息,就可以用BeautifulSoup提取数据了。升级一下代码:

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

把这段代码保存为get_data.py,然后运行,看看输出了什么:

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

动态网页:所谓的动态网页,是指跟静态网页相对的一种网页编程技术。静态网页,随着html代码的生成,页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则不然,页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。

值得强调的是,不要将动态网页和页面内容是否有动感混为一谈。这里说的动态网页,与网页上的各种动画、滚动字幕等视觉上的动态效果没有直接关系,动态网页也可以是纯文字内容的,也可以是包含各种动画的内容,这些只是网页具体内容的表现形式,无论网页是否具有动态效果,只要是采用了动态网站技术生成的网页都可以称为动态网页。

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

验证一下:

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

Selenium 自己不带浏览器,它需要与第三方浏览器结合在一起使用。例如,如果你在Firefox 上运行Selenium,可以直接看到一个Firefox 窗口被打开,进入网站,然后执行你在代码中设置的动作。虽然这样可以看得更清楚,但不适用于我们的爬虫程序,爬一页就打开一页效率太低,所以我们用一个叫PhantomJS的工具代替真实的浏览器。

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

把这段代码保存为get_data.py,然后运行。运行结束后,在程序的目录里生成了一个playlist.csv文件。

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

看到成果后是不是很有成就感?如果你感兴趣,还可以按照这个思路,找找评论数最多的单曲,再也不用担心没歌听了!

今天的内容比较浅显,希望对你有用。就先介绍到这里,我们下期再见!

不就一个网易云音乐的爬虫嘛!太简单了,零基础小白都能爬!

weinxin
我的微信公众号
爱真理,得永生!          爱在灵灵久博客,网罗天下,福利大家!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: