python3抓取杭州房价信息

简介: 因为马上要去杭州,杭州房价去年涨的太厉害了,现在政策比较多看不清杭州房价的形式,所以想写个爬虫将杭州房产的交易信息做个记录。

因为马上要去杭州,杭州房价去年涨的太厉害了,现在政策比较多看不清杭州房价的形式,所以想写个爬虫将杭州房产的交易信息做个记录。


准备阶段

自己的服务器用的CentOS,上面装了python3,因为要连接数据库,需要安装psycopg2,于是

python3 -m pip install psycopg2

设计好数据库

----------------------------------------
create table for new house transaction each day
----------------------------------------
CREATE TABLE hangzhou.trans_daily_info (
    trans_date DATE NOT NULL,
    downtown_new_trans SMALLINT NOT NULL,
    downtown_new_vol INTEGER NOT NULL,
    xiaoshan_new_trans SMALLINT NOT NULL,
    xiaoshan_new_vol INTEGER NOT NULL,
    yuhang_new_trans SMALLINT NOT NULL,
    yuhang_new_vol INTEGER NOT NULL,
    fuyang_new_trans SMALLINT NOT NULL,
    fuyang_new_vol INTEGER NOT NULL,
    djd_new_trans SMALLINT NOT NULL,
    djd_new_vol INTEGER NOT NULL,
    urban_new_daily_trans SMALLINT NOT NULL,
    urban_new_daily_vol INTEGER NOT NULL,
    other4county_new_qty SMALLINT NOT NULL,
    other4country_new_vol INTEGER NOT NULL,
    downtown_old_qty SMALLINT NOT NULL
    PRIMARY KEY (trans_date)
);

----------------------------------------
create table for weekly hot residence area
----------------------------------------
create table hangzhou.old_weekly_hot_residence(
    id SERIAL primary key , 
    start_time DATE NOT NULL,
    end_time DATE NOT NULL,
    residence_name VARCHAR(50) NOT NULL
);

----------------------------------------
create table for weekly hotest residence
----------------------------------------
CREATE TABLE hangzhou.old_weekly_hotest_residence (
    start_date DATE NOT NULL,
    end_date DATE NOT NULL,
    week SMALLINT NOT NULL,
    residence_name VARCHAR(50) NOT NULL,
    comment TEXT NOT NULL,
    PRIMARY KEY (start_date,end_date)
);
----------------------------------------
create table for second hand residence transaction info
----------------------------------------
CREATE TABLE hangzhou.old_trans_weekly_info (
    start_date DATE NOT NULL,
    end_date DATE NOT NULL,
    week SMALLINT NOT NULL,
    city_commercial_house_qty INTEGER NOT NULL,
    city_residence_qty INTEGER NOT NULL,
    urban_commerical_house_qty INTEGER NOT NULL,
    urban_residence_qty INTEGER NOT NULL,
    shangcheng_qty INTEGER DEFAULT 0 ,
    xiacheng_qty INTEGER  DEFAULT 0,
    jianggan_qty INTEGER DEFAULT 0,
    gongshu_qty INTEGER DEFAULT 0,
    xihu_qty INTEGER DEFAULT 0,
    bingjiang_qty INTEGER DEFAULT 0,
    zhijiang_qty INTEGER DEFAULT 0,
    xiasha INTEGER DEFAULT 0,
    PRIMARY KEY (start_date,end_date)
);

后来发现crontab中的命令不执行,check /var/log/cron中发现也没有更新,于是check crond 发现问题,重启

service crond status

当执行的时候发现week字段多余于是删除

 alter table hangzhou.old_trans_weekly_info drop week;
 alter table hangzhou.old_weekly_hotest_residence drop week;

之后发现需要添加comment2 字段,于是

alter table hangzhou.old_weekly_hotest_residence ADD comment2 TEXT ;
alter table hangzhou.old_weekly_hotest_residence ALTER comment2 SET NOT NULL;

未完待续

目录
相关文章
|
2月前
|
Python
Python编程获取当前日期的所属周日期信息
Python编程获取当前日期的所属周日期信息
57 1
|
1月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
2月前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
1月前
|
存储 数据采集 数据库
用 Python 爬取淘宝商品价格信息时需要注意什么?
使用 Python 爬取淘宝商品价格信息时,需注意法律和道德规范,遵守法律法规和平台规定,避免非法用途。技术上,可选择 Selenium 和 Requests 库,处理反爬措施如 IP 限制、验证码识别和请求频率控制。解析页面数据时,确定数据位置并清洗格式。数据存储可选择 CSV、Excel、JSON 或数据库,定期更新并去重。还需进行错误处理和日志记录,确保爬虫稳定运行。
|
1月前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
2月前
|
数据采集 Python
python爬虫抓取91处理网
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取91处理网www.91chuli.com,如果有什么问题请大佬们反馈,谢谢。
32 4
|
2月前
|
数据采集 Java Python
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
在信息化时代,实时数据的获取对体育赛事爱好者、数据分析师和投注行业至关重要。本文介绍了如何使用Python的`ThreadPoolExecutor`结合代理IP和请求头设置,高效稳定地抓取五大足球联赛的实时比赛信息。通过多线程并发处理,解决了抓取效率低、请求限制等问题,提供了详细的代码示例和解析方法。
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
|
2月前
|
小程序 Python
利用Python编程提取身份证的信息
利用Python编程提取身份证的信息
34 2
|
2月前
|
IDE 开发工具 数据安全/隐私保护
Python编程--实现用户注册信息写入excel文件
Python编程--实现用户注册信息写入excel文件
23 1
|
2月前
|
Python
用 Python 读取照片的 Exif 信息(顺便说说本人的一些想法)
用 Python 读取照片的 Exif 信息(顺便说说本人的一些想法)
101 2

热门文章

最新文章