六成大学生认为毕业十年能年入百万;数据分析应当如何采集数据

简介: 别说刚刚踏入社会意气风发的00后了,就我这样已经毕业十年的老码农,也憧憬可以通过自己的努力年入百万不是嘛。

大家好,欢迎来到编程教室~我是Crossin。


昨天看到一则新闻,让我虎躯一震:



新闻下面很多评论都是过来人的口吻在批判,我倒是觉得乐观总归是件好事,“想到”是“做到”的前提。子曾经曰:后生可畏,焉知来者之不如今也!某位最近十分低调的“大佬”也曾经曰:梦想还是要有的,万一实现了呢?


别说刚刚踏入社会意气风发的00后了,就我这样已经毕业十年的老码农,也憧憬可以通过自己的努力年入百万不是嘛。


不过作为一个比大学生多十年经验的社会人,我来好为人师地灌两句鸡汤:


1. 前途是光明的,但道路是曲折的年薪百万不是不可能,但终究是少数。要超过六成?那一百万的购买力恐怕也贬值的厉害。(瞧瞧隔壁知乎就知道了:人均百万,刚下飞机,稀松平常,没啥稀奇。匿了匿了~)


2. 财富是结果,不是目的。我这不是站在道德的角度说漂亮话,而是以大部分人的心态来说,如果你只盯着挣钱这个目的,往往只能挣小钱,搞不好还会吃大亏。反倒是专注于做好事情、提升自我能力的那些人,能得到更好的经济回报。财富就像狗尾巴,追着自己的尾巴只会原地转圈,但只要向前跑,尾巴永远会跟着。(狗:你礼貌吗?)


然后我不禁回忆了一下当年大学时对未来薪资的预期。记得当时我们班有俩同学在食堂一边啃着一块五的大排一边聊天,

A说:你说咱们毕业后工资能有多少啊?

B说:我觉得怎么着也得有3000吧!

A想了想说:嗯,我也觉得差不多。


十年下来,这俩人现在有没有百万不知道,但三千加个零肯定不在话下。


当年985的毕业生,月薪三千的“野心”算是保守了。然而放在当年那会儿,在南京河西也是可以买下两平米的。如今要是能拿河西两平米房价的月薪,算下来可不就是年薪百万吗?从这个角度来看,大家也彼此彼此嘛


来都来了,咱们也来做个调查:


既然说到了问卷调查,这也算是我们经常提到“数据分析”的一部分。最近我正好在统计学之家(tjxzj.net)上面看到关于收集数据的几个不错的观点,结合我自己的经验,来跟大家分享一下。


收集数据的三个原则 [1]


1. 数据必须真实


有人说,我这数据都是真的,没有造假。这里说的“真实”,并不仅仅说不造假,而是说能反映被调研者的真实想法。像问卷调查这种形式其实就经常会因为问题的设置或者调研的环境等影响,造成被访者做出并非完全真实想法的回答。假如一个公司通过内部系统调研员工对公司某些制度的意见,那想必是很难得到真实反馈的。


如果做产品调研,通常来说,不是要看用户怎么“说”,而是要看用户怎么“做”。一个很经典的例子,Netflix 根据用户的观影行为来分析用户的观影喜好,进而确定出《纸牌屋》的类型、导演、主演,并大获成功。如果仅仅是通过发放问卷,恐怕会有较大的偏差。


2. 数据一定要准确


造成数据不准确的原因有很多,比如监控粒度过粗、问卷设置有歧义、样本过少或过于集中等等。假如我在编程教室搞个调研,可能就得出超六成大学生想学Python;而在B站搞个调研,得出超六成大学生想娶王冰冰这样的结论也不奇怪。


不准确的数据源 + 正确的分析逻辑,也只能得出错误的结论。


3. 数据必须是可以使用的


是否可用,其实是一个相对的概念。比如 Netflix 采集了用户播放时的暂停、快进、跳过等操作,对他们来说这些数据是有用的、可用的。但如果我把编程教室网站上的视频教程播放操作也记录下来,对我来说就是无法使用的。类似的,大量的文本或语言聊天记录,只有具备相应的分析技术能力,才有分析的价值。


而另一方面,可以使用也不仅仅是技术层面,还有法律层面的考量。俗话说:爬虫学得好,牢饭吃到饱。这话可不是段子而已。版权、隐私、商业协议都是采集数据之前需要仔细斟酌的。


以上仅仅是数据采集阶段的一些建议,这是数据分析的最初阶段。一个完整的数据分析流程往往还包括:数据存储、数据清洗、建模分析、数据可视化等步骤。感兴趣的同学可以留言说一下,哪一块想听的人多我之后会做详细解读。


之前有不少同学问过:要做数据分析方面的工作,需要学习哪些内容?是不是学会Python就能做数据分析师了?


我用下面这张图来回答:



最底层是技术基础,是进行数据分析的工具。Python是目前最流行的工具之一,但不是唯一,甚至不是必须。但如果你掌握Python,并且熟悉Pandas、Numpy、Matplotlib这几个数据分析常用库,那这一层面你就没问题了。它是一个必要条件,但不是充分条件。作为一个合格的数据分析师,你必须要有使用相关工具的能力;但如果你只是会写Python,距离数据分析师还尚有距离。


工具之上,你需要有统计学的基本常识,了解常见的分析方法,并可以用工具对数据进行相应的分析工作,如果了解一些机器学习的模型就更好了。这些都可以通过相关的书籍、案例进行学习和练习。到了这一步,你差不多就入门数据分析了,但此时也还只是个“工具人”,只能实现别人给你定好的分析指标。


最上层的软实力才是一个数据分析师的核心竞争力。你需要对业务有足够的理解,可以选择合适的指标、模型,找出并验证数据的相关性,提出并推进有效的优化方案。这一步离不开长期的实践、复盘、思考,作为一个新人来说或许还很难,但多做、多想,是需要从一开始就养成的习惯。假如交给你的任务是分析某个指标,那你是就只看这一个指标,做完拉倒,还是再多试试其他指标、其他模型,完全取决于你自己。


大家都是同一年毕业,但十年后的薪资差异,就都在这一点一滴的细节中产生了分化。(好嘛,最后居然又扯回来了)


一点浅见,如果对你有帮助,欢迎转发/点赞/收藏~你们的支持是我更新的动力。


参考:[1] http://www.tjxzj.net/1236.html

_往期文章推荐_


为什么新手在编程社区提问得不到回答,甚至还会被嘲讽?

相关文章
|
6月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
396 71
|
5月前
|
SQL 数据挖掘 BI
数据分析的尽头,是跳出数据看数据!
当前许多企业在数据分析上投入大量资源,却常陷入“数据越看越细,业务越看越虚”的困境。报表繁杂、指标众多,但决策难、行动少,分析流于形式。真正有价值的数据分析,不在于图表多漂亮,而在于能否带来洞察、推动决策、指导行动。本文探讨如何跳出数据、回归业务场景,实现数据驱动的有效落地。
|
11月前
|
SQL 人工智能 数据可视化
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
694 142
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
649 92
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
556 73
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
355 22
|
10月前
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
1045 0
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
668 5
|
数据采集 监控 数据挖掘
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。