Python爬取BeautifulSoup 代码轻松获取网站股票信息

  • A+
所属分类:python网络爬虫

通过BeautifulSoup 的 find_all方法,找出所有a标签中的href属性中包含http的内容,这就是我们要找的网页的一级链接

并返回符合上述条件的a标签的href属性的内容,这就是我们要找的某个网页的所带有的一级链接.

Python爬取BeautifulSoup 代码轻松获取网站股票信息

搜集上的信息是任何人穷极生平也无法全数体味的。你必要的或许不是简单的获得信息,而是一个可以搜集,清算,分析信息,并且具有拓展性的编制。

你必要网页抓取(Web scraping)技术。

网页抓取可以主动提取网站上的数据信息,并把这些信息用一种随意理解的名目出现出来。网页抓取应用遍及, 在本教程中我们将重点讲解它在金融市场规模的运用。

若是你是个投资达人,天天查找收盘价必定是个烦苦衷,更不消提数据来历于多个网站的时辰。我们可以用代码写一个搜集爬虫 (web scraper) 来辅佐我们主动从网站获取股指信息,从而大大简化数据提取过程。

Python爬取BeautifulSoup 代码轻松获取网站股票信息

我们接纳Python停止网页数据抓取,并接纳简单强大的BeautifulSoup 库完成分析。

对付Mac用户来说, OS X把持体系已经事后安装好Python。您必要翻开终端并输入python --version。您应该可以看到python的版本为2.7.x。

Windows用户而言,到官方网站安装Python。

下一步,我们必要把持pip呼吁获取BeautifulSoup 库。Pip 是Python中办理库和包的工具。

在终端中输入:

注意:若是您不能运转上面的呼吁,在每行前面加上sudo 再试试。

在进修代码之前,让我们先来体味HTML的根本知识和网页抓取的基本规则。

Python爬取BeautifulSoup 代码轻松获取网站股票信息

标签.若是你已经充实理解HTML标签,请跳过这一局部

这就是HTML网页的基本语法。

每一对<tag>标签内包含网页的一段代码:

1. <!DOCTYPE html>: HTML 文件必需以文件类型声明开首

2. HTML文件包含在<html>和<html/>标签之间

3. 元(meta)和剧本(script)声明包含在<head>和</head>标签之间

4. 网站上可见的局部包含在<body>和</body>标签之间

5. <h1>和<h6>标签之间的局部为网站问题

6. <p>标签用于界说段落

其他有效的标签还有:<a>是超链接的标签,<table>是表格的标签,<tr>是表格行的标签,<td>是表格列的标签。

并且,HTML标签经常带有标识码(id) 或类(class)属性,标识码用来独一的识别某个HTML标签,并且标识码的值在整个HTML文件中是独一的。类属性可以界说同类HTML标签不异的款式。我们可以把持标识码和类来辅佐我们定位想要的数据。

若是您想体味关于HTML标签,标识码和类的更多内容,请参考W3Schools 出品的教程。

搜集抓取基本原则。1. 在您停止搜集抓取时,你应该检察网站的条目和前提。请细致阅读数据合法使用声明检察常情形下,您抓取的数据不能商用。

2. 您的轨范不要过于频仍的向网站发出数据哀求(也被称为垃圾哀求),这种做法可能会使网站崩溃。请确保您的轨范举动合理(也就是说和人类的举动类似)。对一个网站每秒停止一次数据哀求是斗劲好的做法。

3. 网站的构造随时辰不竭变化,所以请您确保时常重新访谒网站,若是必要的话,改削抓庖代码。

检查页面。让我们以Bloomberg Quote网站的其中一页为例。

作为一个关注股票市场的投资人,我们想要从这一页获得股指名称(标准普尔500指数)和价钱。首先,右键点击翻开阅读器的搜检器(inspector),检察网页。

Python爬取BeautifulSoup 代码轻松获取网站股票信息

请考试考试把光标放在股指价钱上,你应该可以看到价钱四周的蓝色方块,若是你点击这个方块,就可以选中阅读器节制台相应的HTML代码。

Python爬取BeautifulSoup 代码轻松获取网站股票信息

从成效可以看出,价钱信息包含在好几层HTML标签中:<div> → <div class="price-container up"> → <div>.

同样的,若是你把光标放在名称“标准普尔指数“上,并点击,可以看到节制台里这个信息包含在标签< iv>及< h1>之内。

如今我们晓得若何依靠类标签找到我们必要的数据了。

下面分享怎么获取某网站提供的第一页的代理ip集

Python爬取BeautifulSoup 代码轻松获取网站股票信息

weinxin
我的微信公众号
爱真理,得永生!          爱在灵灵久博客,网罗天下,福利大家!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: