Python入门；快速收集金融数据

发表评论

A+

Python入门；利用Python快速收集金融数据

Python 作为一种开源语言提供了丰富的 API 和工具，具有较高的灵活性，同时相关的第三方库（requests+Beautiful Soup+re）也较为成熟，可以很容易的开发出数据爬取爬虫等程序，对于非专业程序员却又有编程需求的业务人员非常合适。本次我们将以采集金融数据为例讲述利用Python采集金融数据的过程。

Python入门；快速收集金融数据

BeautifulSoup库是解析、遍历、维护 “标签树” 的功能库，需要安装。

RE库是正则表达式库，Python自带。

Python入门；快速收集金融数据

在使用 Python 进行数据采集时，如果是小规模数据采集，可以使用 requests+Beautiful Soup+re 的架构来完成，使用 requests库可以自动提交网络请求和自动爬取 HTML 页面，使用 Beautiful Soup 库和 re 正则表达式可解析 HTML页面和提取页面关键信息。

Python入门；快速收集金融数据

在开始采集之前，我们需要对目标网站进行充分的分析。特别是URL结构和页面的HTML结构，确定好需要采集的数据和数据所在的页面。根据对目标网站（某金融信息网站）的分析，我这次采集的目标锁定在某类交易商品销售情况上，将要采集交易名称、价格、成交量、换手率、交易者、交易者地址等。此外我们还要查看网站的robots.txt 文件，以便确定爬取策略。

将 C、C++、Fortran 代码集成到 Python 的工具等。

Python入门；快速收集金融数据