六成大学生认为毕业十年能年入百万;数据分析应当如何采集数据

简介: 别说刚刚踏入社会意气风发的00后了,就我这样已经毕业十年的老码农,也憧憬可以通过自己的努力年入百万不是嘛。

大家好,欢迎来到编程教室~我是Crossin。


昨天看到一则新闻,让我虎躯一震:



新闻下面很多评论都是过来人的口吻在批判,我倒是觉得乐观总归是件好事,“想到”是“做到”的前提。子曾经曰:后生可畏,焉知来者之不如今也!某位最近十分低调的“大佬”也曾经曰:梦想还是要有的,万一实现了呢?


别说刚刚踏入社会意气风发的00后了,就我这样已经毕业十年的老码农,也憧憬可以通过自己的努力年入百万不是嘛。


不过作为一个比大学生多十年经验的社会人,我来好为人师地灌两句鸡汤:


1. 前途是光明的,但道路是曲折的年薪百万不是不可能,但终究是少数。要超过六成?那一百万的购买力恐怕也贬值的厉害。(瞧瞧隔壁知乎就知道了:人均百万,刚下飞机,稀松平常,没啥稀奇。匿了匿了~)


2. 财富是结果,不是目的。我这不是站在道德的角度说漂亮话,而是以大部分人的心态来说,如果你只盯着挣钱这个目的,往往只能挣小钱,搞不好还会吃大亏。反倒是专注于做好事情、提升自我能力的那些人,能得到更好的经济回报。财富就像狗尾巴,追着自己的尾巴只会原地转圈,但只要向前跑,尾巴永远会跟着。(狗:你礼貌吗?)


然后我不禁回忆了一下当年大学时对未来薪资的预期。记得当时我们班有俩同学在食堂一边啃着一块五的大排一边聊天,

A说:你说咱们毕业后工资能有多少啊?

B说:我觉得怎么着也得有3000吧!

A想了想说:嗯,我也觉得差不多。


十年下来,这俩人现在有没有百万不知道,但三千加个零肯定不在话下。


当年985的毕业生,月薪三千的“野心”算是保守了。然而放在当年那会儿,在南京河西也是可以买下两平米的。如今要是能拿河西两平米房价的月薪,算下来可不就是年薪百万吗?从这个角度来看,大家也彼此彼此嘛


来都来了,咱们也来做个调查:


既然说到了问卷调查,这也算是我们经常提到“数据分析”的一部分。最近我正好在统计学之家(tjxzj.net)上面看到关于收集数据的几个不错的观点,结合我自己的经验,来跟大家分享一下。


收集数据的三个原则 [1]


1. 数据必须真实


有人说,我这数据都是真的,没有造假。这里说的“真实”,并不仅仅说不造假,而是说能反映被调研者的真实想法。像问卷调查这种形式其实就经常会因为问题的设置或者调研的环境等影响,造成被访者做出并非完全真实想法的回答。假如一个公司通过内部系统调研员工对公司某些制度的意见,那想必是很难得到真实反馈的。


如果做产品调研,通常来说,不是要看用户怎么“说”,而是要看用户怎么“做”。一个很经典的例子,Netflix 根据用户的观影行为来分析用户的观影喜好,进而确定出《纸牌屋》的类型、导演、主演,并大获成功。如果仅仅是通过发放问卷,恐怕会有较大的偏差。


2. 数据一定要准确


造成数据不准确的原因有很多,比如监控粒度过粗、问卷设置有歧义、样本过少或过于集中等等。假如我在编程教室搞个调研,可能就得出超六成大学生想学Python;而在B站搞个调研,得出超六成大学生想娶王冰冰这样的结论也不奇怪。


不准确的数据源 + 正确的分析逻辑,也只能得出错误的结论。


3. 数据必须是可以使用的


是否可用,其实是一个相对的概念。比如 Netflix 采集了用户播放时的暂停、快进、跳过等操作,对他们来说这些数据是有用的、可用的。但如果我把编程教室网站上的视频教程播放操作也记录下来,对我来说就是无法使用的。类似的,大量的文本或语言聊天记录,只有具备相应的分析技术能力,才有分析的价值。


而另一方面,可以使用也不仅仅是技术层面,还有法律层面的考量。俗话说:爬虫学得好,牢饭吃到饱。这话可不是段子而已。版权、隐私、商业协议都是采集数据之前需要仔细斟酌的。


以上仅仅是数据采集阶段的一些建议,这是数据分析的最初阶段。一个完整的数据分析流程往往还包括:数据存储、数据清洗、建模分析、数据可视化等步骤。感兴趣的同学可以留言说一下,哪一块想听的人多我之后会做详细解读。


之前有不少同学问过:要做数据分析方面的工作,需要学习哪些内容?是不是学会Python就能做数据分析师了?


我用下面这张图来回答:



最底层是技术基础,是进行数据分析的工具。Python是目前最流行的工具之一,但不是唯一,甚至不是必须。但如果你掌握Python,并且熟悉Pandas、Numpy、Matplotlib这几个数据分析常用库,那这一层面你就没问题了。它是一个必要条件,但不是充分条件。作为一个合格的数据分析师,你必须要有使用相关工具的能力;但如果你只是会写Python,距离数据分析师还尚有距离。


工具之上,你需要有统计学的基本常识,了解常见的分析方法,并可以用工具对数据进行相应的分析工作,如果了解一些机器学习的模型就更好了。这些都可以通过相关的书籍、案例进行学习和练习。到了这一步,你差不多就入门数据分析了,但此时也还只是个“工具人”,只能实现别人给你定好的分析指标。


最上层的软实力才是一个数据分析师的核心竞争力。你需要对业务有足够的理解,可以选择合适的指标、模型,找出并验证数据的相关性,提出并推进有效的优化方案。这一步离不开长期的实践、复盘、思考,作为一个新人来说或许还很难,但多做、多想,是需要从一开始就养成的习惯。假如交给你的任务是分析某个指标,那你是就只看这一个指标,做完拉倒,还是再多试试其他指标、其他模型,完全取决于你自己。


大家都是同一年毕业,但十年后的薪资差异,就都在这一点一滴的细节中产生了分化。(好嘛,最后居然又扯回来了)


一点浅见,如果对你有帮助,欢迎转发/点赞/收藏~你们的支持是我更新的动力。


参考:[1] http://www.tjxzj.net/1236.html

_往期文章推荐_


为什么新手在编程社区提问得不到回答,甚至还会被嘲讽?

相关文章
|
3月前
|
数据挖掘 PyTorch TensorFlow
|
1月前
|
存储 机器学习/深度学习 数据可视化
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
107 56
|
5天前
|
数据采集 监控 数据挖掘
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
某A保险公司的 数据图表和数据分析
某A保险公司的 数据图表和数据分析
65 0
某A保险公司的 数据图表和数据分析
|
4月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
538 54
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
63 0
|
3月前
|
机器学习/深度学习 数据挖掘 TensorFlow
🔍揭秘Python数据分析奥秘,TensorFlow助力解锁数据背后的亿万商机
【9月更文挑战第11天】在信息爆炸的时代,数据如沉睡的宝藏,等待发掘。Python以简洁的语法和丰富的库生态成为数据分析的首选,而TensorFlow则为深度学习赋能,助你洞察数据核心,解锁商机。通过Pandas库,我们可以轻松处理结构化数据,进行统计分析和可视化;TensorFlow则能构建复杂的神经网络模型,捕捉非线性关系,提升预测准确性。两者的结合,让你在商业竞争中脱颖而出,把握市场脉搏,释放数据的无限价值。以下是使用Pandas进行简单数据分析的示例:
50 5
|
3月前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
75 0
|
4月前
|
SQL 数据挖掘 Serverless
SQL 窗口函数简直太厉害啦!复杂数据分析的超强利器,带你轻松攻克数据难题,快来一探究竟!
【8月更文挑战第31天】在数据驱动时代,高效处理和分析大量数据至关重要。SQL窗口函数可对一组行操作并返回结果集,无需分组即可保留原始行信息。本文将介绍窗口函数的分类、应用场景及最佳实践,助您掌握这一强大工具。例如,在销售数据分析中,可使用窗口函数计算累计销售额和移动平均销售额,更好地理解业务趋势。
84 0
|
4月前
|
SQL 数据可视化 数据挖掘
SQL 在数据分析中简直太牛啦!从数据提取到可视化,带你领略强大数据库语言的神奇魅力!
【8月更文挑战第31天】在数据驱动时代,SQL(Structured Query Language)作为强大的数据库查询语言,在数据分析中扮演着关键角色。它不仅能够高效准确地提取所需数据,还能通过丰富的函数和操作符对数据进行清洗与转换,确保其适用于进一步分析。借助 SQL 的聚合、分组及排序功能,用户可以从多角度深入分析数据,为企业决策提供有力支持。尽管 SQL 本身不支持数据可视化,但其查询结果可轻松导出至 Excel、Python、R 等工具中进行可视化处理,帮助用户更直观地理解数据。掌握 SQL 可显著提升数据分析效率,助力挖掘数据价值。
95 0
下一篇
DataWorks