《数据科学家修炼之道》一1.3 数据科学的诞生

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来异步社区《数据科学家修炼之道》一书中的第1章,第1.3节,作者: 【美】Zacharias Voulgaris(弗格里斯)译者: 吴文磊 , 田原 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.3 数据科学的诞生

数据科学领域起源于揭示大数据中潜在的价值,以及克服之前提及的4个V的挑战。这在过去是可以通过组合先进的现代计算设备达到的。特别地,并行计算、复杂数据分析流程(主要是通过机器学习)以及低成本的强劲计算能力使这种需求变成可能。此外,在不远的将来,不断加快的IT基础架构以及技术进步将使我们可以产生、收集以及处理更多的数据。通过这些,数据科学可以凭借智能化应用以及发展和使用这些技术的创新能力在技术层面上处理大数据难题。这也就是说,大数据在一定程度上是可以被管理并至少能够提供一些有价值的信息,而这则是大数据是值得花时间精力投入进去的原因。

认识到数据科学并不是一种时尚是很重要的,而是在未来会得到迅速发展的领域。如果你曾是互联网时代的一个IT专家,你可能会觉得大数据仅仅是一个风潮或是一个奢侈品,但那些真正发现大数据的真实和潜在价值的人是可以从中发现其盈利的可能的。

想象一下成为第一批学习HTML、CSS和JavaScript的人,或者是第一个制作数字图像用于网站设计的人。这就像拿着一张得奖的彩券,尤其是如果你对自己的工作非常在行的话。这就是今天的数据科学。如果没有那么多人分享大数据的收益,它现在也不会这么出名。当然,大多数从业者和众多学生并没有注意到数据科学到底意味着什么。

如果你理解了前文所述及的大数据的各种事实,你就应该能理解数据科学是用来应对日趋严峻的问题的解法。如我早前所说的那样,这个问题反映了大数据的4个V属性,使传统方法陷入困境的属性。由于技术发展,在未来10年,数据科学也必然会变得更加健壮完善、更加多样。已有一些研究项目在全球出现[2],也同时有许多业内知名的研究者发表关于数据科学主题的论文。这并不是巧合,它表明了基础架构知识以及如何操作的发展趋势,而这些也会滋养这个领域的发展。至于数据科学的诞生时间已经不可考了(有一些人在这个领域的研究已经超过好几十年了),但第一次在正式会议中吸引关注是1996年在IFCS发表的《数据科学、分类以及相关方法》(Data Science,Classification and Related Methods)。直到2005年,“数据科学家”这个名称才第一次出现在文章中。特别是,在文章发表的那 年[3],数据科学家被定义为“信息和数据科学家、数据库及软件工程师以及程序员、学科专家、博物馆馆长和专业注解者、图书馆管理员、档案管理员以及其他一些对成功管理数字化数据集的关键人物”。在2009年6月,数据科学家这一职务的重要性变得更加明显,正如Nathan Yau在FlowingData发表的文章《数据科学家的崛起》(Rise of the Data Scientist)一文中说的那样[4]。自此,在数据科学方面的文章和引用得以快速增长。看看现在有多少会议是以这个名义组织的,这不只发生在学术界,同样也发生在工业界。不仅如此,由于许多在各自领域处于领导者的大公司(如亚马逊)都在各自的工作流程中使用了数据科学,这个趋势很可能会持续下去。同样,由于数据科学家这个职位适合于千变万化的数据世界需求,它也正变得包含许多新特征(如前沿数据分析技术的应用),而不再是一些原始需求了。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
1天前
|
数据采集 人工智能 自然语言处理
3分钟采集134篇AI文章!深度解析如何通过云无影AgentBay实现25倍并发 + LlamaIndex智能推荐
结合阿里云无影 AgentBay 云端并发采集与 LlamaIndex 智能分析,3分钟高效抓取134篇 AI Agent 文章,实现 AI 推荐、智能问答与知识沉淀,打造从数据获取到价值提炼的完整闭环。
284 90
|
9天前
|
机器人 API 调度
基于 DMS Dify+Notebook+Airflow 实现 Agent 的一站式开发
本文提出“DMS Dify + Notebook + Airflow”三位一体架构,解决 Dify 在代码执行与定时调度上的局限。通过 Notebook 扩展 Python 环境,Airflow实现任务调度,构建可扩展、可运维的企业级智能 Agent 系统,提升大模型应用的工程化能力。
|
人工智能 前端开发 API
前端接入通义千问(Qwen)API:5 分钟实现你的 AI 问答助手
本文介绍如何在5分钟内通过前端接入通义千问(Qwen)API,快速打造一个AI问答助手。涵盖API配置、界面设计、流式响应、历史管理、错误重试等核心功能,并提供安全与性能优化建议,助你轻松集成智能对话能力到前端应用中。
720 154
|
15天前
|
人工智能 数据可视化 Java
Spring AI Alibaba、Dify、LangGraph 与 LangChain 综合对比分析报告
本报告对比Spring AI Alibaba、Dify、LangGraph与LangChain四大AI开发框架,涵盖架构、性能、生态及适用场景。数据截至2025年10月,基于公开资料分析,实际发展可能随技术演进调整。
971 152
|
2天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
1天前
|
数据采集 人工智能 搜索推荐
别再“调教”ChatGPT了!用Qwen2.5打造24小时在线数字分身
在AI时代,专属“数字分身”正从科幻走向现实。依托Qwen2.5-14B大模型、LoRA微调技术及LLaMA-Factory Online平台,仅需四步即可打造会说话、懂风格、能办事的个性化AI助手,让每个人拥有自己的“贾维斯”。
200 152