项目背景

近年来,大数据、互联网和云计算等技术发展迅速,“智慧城市”建设进程加快,用数据来反映问题成为一种直观又具有说服力的方式。如今,大部分地区已经进入城市化进程,人口的众多与住房用地的减少使得房价大涨,如何找到合适的住房已经成为常见的民生问题。

互联网为用户提供了各种房源数据,在爬虫的爬取下集中有用的数据,可以为用户挖掘出隐藏在网络数据中所有的房源分布情况以及价格等走向,帮助用户做更好的决策。

总体概述

本项目主要采集北京链家二手房的信息,项目的结构和流程如下:

  • 访问链接二手房的URL:https://bj.lianjia.com/
  • 获取北京市所有区域位置
  • 获取每一个对应区域的所有房源信息(分页)
  • 对获取到的房源信息,使用非关系型数据库MongoDB进行存储

images-show1.png

images-show2.png

images-show3.png