祝自己生日快乐 | 利用Python和R分析一年写作

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 想不清自己有多久没有过生日了,即便是18岁那年的生日,也是上完课照常回去。或许是我的日子过得过于浑浑噩噩,没有什么可以庆祝,或许我认为过生日是过于矫情的一种行为吧。

想不清自己有多久没有过生日了,即便是18岁那年的生日,也是上完课照常回去。或许是我的日子过得过于浑浑噩噩,没有什么可以庆祝,或许我认为过生日是过于矫情的一种行为吧。

但是反刻奇也是一种刻奇,没有必要坚持不过,显得自己标新立异。而这一年或许是我生长最多的一年,或许是我高中毕业后打字最多的一年了,记录了大量文字在我的简书,公众号,为知笔记,GitHub Page。

时间匆忙,所以只能对我简书发布的文章做了简单的数据分析。

数据获取

我用Python从简书上爬取了我所有文章的发布时间,题目名和连接,把他们存放在了MySQL里。

  • 首先,定义数据库结构
# 创建数据库
mysqladmin.exe -u root -p create jianshu
# 创建数据表
use jianshu;
CREATE TABLE `master` (
    `id` int(11) NOT NULL AUTO_INCREMENT,
    `time` varchar(255) COLLATE utf8_bin NOT NULL,
    `url` varchar(255) COLLATE utf8_bin NOT NULL,
    `title` varchar(255) COLLATE utf8_bin NOT NULL,
    PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin
AUTO_INCREMENT=1 ;
  • 其次,写爬虫爬取数据
import time
import re
import requests
from random import randint
def data_parse(url, headers=None ):
    response = requests.get(url)
    pattern = re.compile(r'<span class="time" data-shared-at="(.*?)">.*?<a class="title".*?href="(/./.*?)">(.*?)</a>',flags=re.S)
    results = re.findall(pattern, response.text) 
    time.sleep(randint(1,5))
    for res in results:
        names = ["time","url","title"]
        info_dict = dict(list(zip(names,res)))
        yield info_dict

为了不给他们服务器太大压力,爬取之间有1到3秒的延迟。利用正则提取目标区域

  • 最后运行
for i in range(0,16):
    url = 'http://www.jianshu.com/u/9ea40b5f607a?order_by=shared_at&page=' + str(i)
    dicts = data_parse(url)
    save_data(db="jianshu",password="********",dicts=dicts)

简书采用的是瀑布流方式展示信息,所以需要查看页面了解规律。

简单数据分析

从数据库加载数据

require(RMySQL)

con <- dbConnect(RMySQL::MySQL(), 
                 host="localhost", 
                 user="root", 
                 port=3306,
                 password="********", 
                 dbname="jianshu")
tables <- dbReadTable(con, 'master')
Encoding(tables$title) <- "UTF-8"

注意: 要使用Encoding处理编码问题

分析文章时间分布

简单看下从去年5月份到8月份,我的写作分布

require(tidyverse)
time_matrix <- str_match(tables$time, '(\\d+-\\d+-\\d+)T(\\d{2}):(\\d{2})')
time_matrix <- as.tibble(time_matrix)
colnames(time_matrix) <- c('date','ymd','hour','minutes')
time_matrix$ymd <- as.Date(time_matrix$ymd)

month_df <- time_matrix %>% mutate(ym = str_c(str_sub(ymd, 1,7),'-01')) %>% group_by(ym) %>% summarise(articles=n()) %>% ungroup() %>% mutate(ym=as.Date(ym, "%Y-%m-%d"))
p1 <- ggplot(month_df, aes(x=ym,y=articles)) + geom_bar(stat = "identity")
# 添加数据标签
p1 + geom_text(aes(label=articles), vjust=1.5, colour="white")
img_6abc150e9c552736f3541b5969fe5ee7.png

2016年5月11日,我刚开通简书,而那个月文章发布不可思议的多,一共发了29篇,6月也有26篇。然后后面基本就没写了,原因就是我在家里学车,荒废人生中。从今年2月份开始,我重新建起了简书,后面基本上保持每个月10多篇的产出。

然后,我们还可以看下每天的时间段分布:

day_df <- time_matrix %>% group_by(hour) %>% summarise(hours=n())
ggplot(day_df, aes(x=hour, y=hours)) + geom_bar(stat="identity") + geom_text(aes(label=hours), vjust=-1.5) + ylim(0,20)
img_3b1bca04c4bb8189fb771ff44fb6127f.png

从早上7点到晚上23点基本都有文章发布,说明了我没事就发,写好就发的特点

标题分析

本来我是想对我的文章内容进行分析的,但是时间有限,所以退而求其次,只能对标题进行分析了。

require(jiebaR)
require(wordcloud2)
cutter <- worker()
words <- cutter <= tables$title
word_tb <- filter_segment(words, c("的","组","更","的","在","和"))
word_tb <- table(word_tb)
wordcloud2(word_tb, size=0.5, shape='cardioid')
img_0892f677bdc13a9e342a4830eb6f0916.png

Python, 爬虫, 数据分析,R 这些其实是贯穿我这一年的关键词。经过这一年的时间,至少我能用这些技能做一篇文章的分析了。

最后说几句

其实也没有啥好说的,希望接下来一年自己能有更多的进步,给自己提供更多的数据进行分析,有更多的信息能够挖掘。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
13天前
|
机器学习/深度学习 数据采集 算法
时间序列结构变化分析:Python实现时间序列变化点检测
在时间序列分析和预测中,准确检测结构变化至关重要。新出现的分布模式往往会导致历史数据失去代表性,进而影响基于这些数据训练的模型的有效性。
30 1
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
使用Python实现深度学习模型:智能舆情监测与分析
【8月更文挑战第16天】 使用Python实现深度学习模型:智能舆情监测与分析
107 1
|
2天前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
11 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
6天前
|
机器学习/深度学习 数据可视化 搜索推荐
使用Python实现深度学习模型:智能睡眠监测与分析
使用Python实现深度学习模型:智能睡眠监测与分析
27 2
|
7天前
|
机器学习/深度学习 搜索推荐 TensorFlow
使用Python实现深度学习模型:智能饮食建议与营养分析
使用Python实现深度学习模型:智能饮食建议与营养分析
32 3
|
8天前
|
机器学习/深度学习 搜索推荐 算法框架/工具
使用Python实现深度学习模型:智能运动表现分析
使用Python实现深度学习模型:智能运动表现分析
31 1
|
1月前
|
存储 JSON 数据可视化
用Python分析S11决赛EDGvsDK,教你怎么硬核吹EDG
用Python分析S11决赛EDGvsDK,教你怎么硬核吹EDG
33 4
用Python分析S11决赛EDGvsDK,教你怎么硬核吹EDG
|
23天前
|
Python
Python变量的作用域_参数类型_传递过程内存分析
理解Python中的变量作用域、参数类型和参数传递过程,对于编写高效和健壮的代码至关重要。正确的应用这些概念,有助于避免程序中的错误和内存泄漏。通过实践和经验积累,可以更好地理解Python的内存模型,并编写出更优质的代码。
14 2
|
22天前
|
大数据 机器人 数据挖掘
这个云ETL工具配合Python轻松实现大数据集分析,附案例
这个云ETL工具配合Python轻松实现大数据集分析,附案例
|
23天前
|
存储 数据可视化 Python
使用python moviepy提取视频中的音频,同时对音频数据进行数据可视化分析
使用python moviepy提取视频中的音频,同时对音频数据进行数据可视化分析
21 0