我用 Python 算了下:编程教室的用户数哪天能到100万

简介: 10万人只是另一个开始,让我感到责任更大了。如果不写出更多更好质量的文章和教程,也对不起大家的关注啊。人数不是目的,内容才是王道。

这是一篇正经的数据分析案例。


去年12月初,在经过四年多的积累后,编程教室微信公众号的关注人数突破10万人。(可回顾 最开始我也没有想过会有这么一天…


10万人只是另一个开始,让我感到责任更大了。如果不写出更多更好质量的文章和教程,也对不起大家的关注啊。人数不是目的,内容才是王道。

但是嘛,偶尔也会 yy 一下,什么时候我们的关注数能到达更高的量级,比如,100万


既然 Python 可以用来做数据分析,何不根据我们公众号现有的用户增长数据来分析一下,什么时候可以迎来第100万个关注者


说干就干!(不想看过程的直接拉到最后看结论)


微信后台可以导出用户增长数据的 excel 表格。数据从2013年7月开始,每次导出时间间隔最多一年。我们编程教室的账号是2013年6月份创建的,虽然差了一点点,但也足够了。



把几年的数据合并一下,我们这次只关注其中的“累积关注人数”和“时间”。通过 matplotlib 把增长曲线绘制出来



显然这不是一个简单的匀速增长曲线,而是加速增长!这让我甚感欣慰。


核心代码


# x_data 时间列表
# y_data 用户数列表
plt.plot(x_data, y_data,'g')
plt.show()


那么从数学上来看,有没有能够较好拟合这个增长曲线的模型呢?我们来尝试几个最常用的拟合曲线,看看效果。


多项式拟合


多项式拟合即用形如



的函数曲线来拟合现有的数据。比如三次多项式拟合就是对公式



中的4个系数求解,使得函数曲线与数据“最接近”。


至于怎样才算是“最接近”?直观来考虑,就是拟合曲线和实际曲线上对应点的距离最短,即绝对值最小。以我们的例子来说,就是拟合函数算出的每天总关注人数和当天实际总关注人数的差,我们要让这个差值的总和最小。


但因为绝对值之和不容易处理,所以通常我们选择差值的平分和来替代。这就是“最小二乘法”。



更数学化的表述就是,我们要找出拟合曲线中的一组参数 c,使得模型与实际值上每一点的残差 ek 的平方和最小。


我们绘制了从1次多项(线性函数)到9次多项式的拟合曲线:



因为我们的目的是要预测之后的趋势,所以选择的拟合天数要大于实际数据的天数。


从图上就能比较直观地就看出,1次、2次等低阶曲线不能很好地贴合原数据,3~8次效果都还不错,而9次曲线在不久之后就会因为过拟合而产生不合理的波动。


对于多项式拟合,numpy 提供了现成的 polyfitpoly1d 函数供调用。


核心代码


# x_np 实际数据,时间
# y_np 实际数据,用户数
# x_fit 拟合数据,时间
coeff = np.polyfit(x_np, y_np, k)
poly = np.poly1d(coeff)
y_fit = poly(x_fit)
plt.plot(x_fit, y_fit)


指数拟合


指数函数是重要的基本初等函数之一,这里我们通过确定以 e 为底的函数



中3个参数 a、b、c 来进行拟合。



看起来拟合效果还不错。


numpy 没有提供直接的指数拟合函数,但我们可以通过 scipy 库里的 scipy.optimize.leastsq 实现最小二乘法。


核心代码


def func(x, p):
    a,b,c = p
    return a * np.exp(b * x) + c
# 残差函数
def residuals(p, y, x):
    return y - func(x, p)
pe = [1, 0.0001, 1]  # 初始预测值
plsq = leastsq(residuals, pe, args=(y_np, x_np))
y_fit = func(x_fit, plsq[0])
plt.plot(x_fit, y_fit)


幂函数拟合


幂函数和指数函数有点类似,只不过我们使用的函数是



同样也是3个参数。



拟合的效果与前面的指数函数有点相似。代码中,我们也只要在刚才的基础上,修改一下 func 函数即可。


核心代码


def func(x, p):
    a,b,c = p
    return a * x ** b + c


拟合效果评价


以上几种方法虽然看起来都不错,但结果毕竟有不小的差异,究竟哪一个更“科学”一点呢?


我们通过几个评价指标来衡量一下:


均方根误差(RMSE):真实值和预测值之差的平方和。这其实就是我们拟合时的判断基础啊。只不过加上了根号,使得结果的量纲更加合理(否则就是均方误差MSE)。


平均绝对误差(MAE):和 MSE 的区别就在于直接使用真实值和预测值之差的绝对值作为衡量标准。


R平方(R2) :因为 MSE 结果的大小取决于不同数据的本身数值大小,并不统一。R2 则是在此基础上,将其转换至 0~1 之间,以便于评价。


以上指标,sklearn 库均在 metrics 中提供了方法。


核心代码


# ploy 拟合函数
rmse = sqrt(metrics.mean_squared_error(y_np, poly(x_np)))
mae = metrics.mean_absolute_error(y_np, poly(x_np))
r2 = metrics.r2_score(y_np, poly(x_np))


当然,这些指标都是基于拟合函数与已有数据的判断,对于未来的预测,谁也说不准,只能是“仅供参考”。毕竟如果可以预知未来,那我大概早就 all in 比特币了。


最终结果


函数 100万用户
RMSE MAE R2

1次

2063/4/15

12132

9388

0.846

2次

2026/5/18

4802

3377

0.974

3次

2022/6/25

2939

1765

0.990

4次

2021/3/12

2637

1957

0.992

5次

2019/12/12

1901

1519

0.996

6次

2019/5/16

1143

748

0.999

7次

2019/3/6

994

507

0.999

8次

2019/3/11

994

510

0.999

9次

975

531

0.999

指数

2020/12/16

2682

1722

0.992

幂函数

2022/12/28

3462

2440

0.987


综合结果来看,编程教室的百万用户很可能在2019~2022年之间到来。对3~8次多项式、指数函数、幂函数的预测结果做个简单的平均,那么这一天就是:


2020年5月27日


只需要  811 天,想想还有点小激动呢。


忽然,我想到了那个诡异的9次函数,说来也不是不可能哦:当人数过了40万,因为某个不小心被封了号,一切归零。这也不是什么新鲜事儿。


所以,我还是老老实实写教程吧。猥琐发育,别浪!



  • 如需了解视频课程及答疑群等更多服务,请号内回复 码上行动
  • 代码问题请在论坛 bbs.crossincode.com 上发帖提问
  • 点击文章最下方的“阅读原文”,查看更多学习资源
  • 别忘了将我们的文章转发朋友圈或在知乎上为我们的专栏点赞,你们的支持将会让编程教室做得更好:)

荐阅读:

技术宅 | 火箭 | 火车票 | 单词表 | 冲顶大会 | 押韵工具 | 新手建议 | Python就业

相关文章
|
15天前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
14天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
25天前
|
机器学习/深度学习 数据挖掘 程序员
探索Python编程:从基础到进阶的旅程
在这篇文章中,我们将一同踏上一场激动人心的Python编程之旅。无论你是初学者还是有一定经验的开发者,这里都有适合你的内容。文章分为三个部分:首先是“启程前的准备”,我们会介绍Python的安装和基本工具;其次是“旅途中的风景”,将通过实际代码示例深入探讨Python的核心概念;最后,“到达目的地”会带你了解如何将所学知识应用于实际项目。让我们开始吧!
|
2天前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
97 80
|
21天前
|
存储 索引 Python
Python编程数据结构的深入理解
深入理解 Python 中的数据结构是提高编程能力的重要途径。通过合理选择和使用数据结构,可以提高程序的效率和质量
133 59
|
1天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
13 2
|
14天前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
40 10
|
18天前
|
机器学习/深度学习 人工智能 Java
Python 语言:强大、灵活与高效的编程之选
本文全面介绍了 Python 编程语言,涵盖其历史、特点、应用领域及核心概念。从 1989 年由 Guido van Rossum 创立至今,Python 凭借简洁的语法和强大的功能,成为数据科学、AI、Web 开发等领域的首选语言。文章还详细探讨了 Python 的语法基础、数据结构、面向对象编程等内容,旨在帮助读者深入了解并有效利用 Python 进行编程。
|
16天前
|
机器学习/深度学习 人工智能 数据挖掘
探索Python编程的奥秘
在数字世界的海洋中,Python如同一艘灵活的帆船,引领着无数探险者穿梭于数据的波涛之中。本文将带你领略Python编程的魅力,从基础语法到实际应用,一步步揭开Python的神秘面纱。
37 12
|
15天前
|
IDE 程序员 开发工具
Python编程入门:打造你的第一个程序
迈出编程的第一步,就像在未知的海洋中航行。本文是你启航的指南针,带你了解Python这门语言的魅力所在,并手把手教你构建第一个属于自己的程序。从安装环境到编写代码,我们将一步步走过这段旅程。准备好了吗?让我们开始吧!