Python

一年之计在于春，2020 的春天因为疫情可能改变了许多人的计划，如三四月份是企业传统招聘高峰期之一，再有许多帅小伙过年拜见了丈母娘催促着得买房等，职场与楼市素有 ‘金三银四’ 的说法，然而，这是真的吗？最近又学习了一下 Python（为什么是又？因为学了就忘..），想到何不简单验证一下，毕竟数据不会撒谎。主要流程：选取楼市情况作为分析对象，与目前公司业务有点相关性。从武汉市住房保障和房屋管理局网站获取公开的新建商品房成交统计数据。读取数据并可视化，结合图表简要分析得出初步结论。先贴最终生成的可视化数据图： 1、获取数据先使用 ‘为人类设计的 HTTP 库’ - requests 从房管局网站上获取包含公开成交统计数据的 HTML 页面，数据分为按日统计发布的及按月统计发布的。然后使用 HTML 与 XML 处理库 lxml 解析 HTML 页面内容，分析后通过合适的 xpath 提取所需数据。最开始我的想法是读取每日数据再分别计算出每个月的数据，爬完后发现目录页下面紧挨着的就是按月统计数据（笑哭.jpg ，但是按月的数据只发布到了2019年11月，连整两年都凑不足可不行，于是结合按日统计数据（发布到了2020年01月23日）计算出了2019年12月的数据，果然人生没有白走的路：） import requests import lxml.html import html import time import db_operator def get_all_monthly_datas(): """按月获取所有成交数据""" # 索引页（商品住房销售月度成交统计） index_url = 'http://fgj.wuhan.gov.cn/spzfxysydjcjb/index.jhtml' max_page = get_max_page(index_url) if max_page > 0: print('共 ' + str(max_page) + ' 页，' + '开始获取月度数据....