屌丝想买房？爬取南京20000多套二手房（上）

去年楼市暴涨，今年楼市一天一个价格，也不知道什么时候会跌. 北上广一线城市高的离谱. 南京，成都，合肥算是二线城市，但是房价也很高.想买到一套物美价廉的房子，谈何容易啊！今天我就来先爬取南京20000多套二手房，来看一下南京的楼市.

前面爬虫我写了好多篇，一直都是自己造轮子，还没有用爬虫神器scrapy.今天我们就用scrapy来爬取一下南京楼市的数据.代码大概50几行，非常方便.

1.关于scrapy

1.了解scrapy框架

scrapy就像是一个做好的模版，框架已经搭建好了，你只需要熟悉它的架构，往里面填东西就行了，非常方便.所以使用前要熟练了解这个框架,整体架构大致如下:

屌丝想买房？爬取南京20000多套二手房（上）

Scrapy运行的大概流程如下：

1).Engine先从调度器中拿出一个起始(URL)

2).Engine把URL封装成一个请求，扔给下载器去下载内容，并封装成应答包response

3).爬虫解析Response,内置了selector对象处理

4).解析出实体（Item）,则传输给实体管道进行进一步的处理

5).接着爬取下一个url,循环上面的步骤

接着我们需要了解下面3个基本动作：

屌丝想买房？爬取南京20000多套二手房（上）

2.关于scrapy解析网页

一般我们爬虫都很喜欢用BeautifulSoup,BeautifulSoup虽然好用，但是有一个非常大的缺点，就是慢.(为啥是python写的库)
scrapy框架内置了selector对象来解析数据,selector采用的XPath选择器或者CSS选择器，速度要秒杀bs好几条街. 使用起来需要熟悉一下, 如果有前端经验的同学可以很快上手！
对于XPath其实是XPath 是一门在 XML 文档中查找信息的语言，在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档根节点
我个人比较喜欢CSS 选择器，因为容易懂

其实scrapy最爽的地方是内置了类似IPython那样的shell调试器，非常好用.好言归正传，我们赶紧开始爬数据吧，看看scrapy如何分分钟爬取二手房的数据

2. 实战爬取南京二手房

3.网页分析

我们是要爬取二手房的信息，这样的网站很多房天下，house365,链家等等。这里我选择比较简单的链家网站, 方便爬取.。

屌丝想买房？爬取南京20000多套二手房（上）

哇有20937套二手房，我们希望了解下面几个重要参数:

屌丝想买房？爬取南京20000多套二手房（上）

4.创建代码工程

1).安装

先用pip install scrapy,scrapy有py2和py3两个版本，这里我用py2版本.

2).创建项目

scrapy startproject nj_house

3).查看创建的项目工程

屌丝想买房？爬取南京20000多套二手房（上）

工程文件说明：