Python 网页抓取与数据可视化练习:‘金三银四’ 是真的吗?

一年之计在于春,2020 的春天因为疫情可能改变了许多人的计划,如三四月份是企业传统招聘高峰期之一,再有许多帅小伙过年拜见了丈母娘催促着得买房等,职场与楼市素有 ‘金三银四’ 的说法,然而,这是真的吗? 最近又学习了一下 Python(为什么是又?因为学了就忘..),想到何不简单验证一下,毕竟数据不会撒谎。 主要流程: 选取楼市情况作为分析对象,与目前公司业务有点相关性。 从 武汉市住房保障和房屋管理局 网站获取公开的新建商品房成交统计数据。 读取数据并可视化,结合图表简要分析得出初步结论。 先贴最终生成的可视化数据图: 1、获取数据 先使用 ‘为人类设计的 HTTP 库’ - requests 从房管局网站上获取包含公开成交统计数据的 HTML 页面,数据分为按日统计发布的及按月统计发布的。然后使用 HTML 与 XML 处理库 lxml 解析 HTML 页面内容,分析后通过合适的 xpath 提取所需数据。 最开始我的想法是读取每日数据再分别计算出每个月的数据,爬完后发现目录页下面紧挨着的就是按月统计数据(笑哭.jpg ,但是按月的数据只发布到了2019年11月,连整两年都凑不足可不行,于是结合按日统计数据(发布到了2020年01月23日)计算出了2019年12月的数据,果然人生没有白走的路:) import requests import lxml.html import html import time import db_operator def get_all_monthly_datas(): """按月获取所有成交数据""" # 索引页(商品住房销售月度成交统计) index_url = 'http://fgj.wuhan.gov.cn/spzfxysydjcjb/index.jhtml' max_page = get_max_page(index_url) if max_page > 0: print('共 ' + str(max_page) + ' 页,' + '开始获取月度数据....

March 19, 2020