CRA简报:计算研究与数据科学的新兴领域

简介:



我们收集、处理、分析和使用大量数据的能力对社会的各个方面都产生了深远的影响。这种转变导致了新兴学科数据科学的出现。诸多领域对数据科学的兴趣呈现爆炸式的增长,包括社会科学、自然科学和物理学等领域,涉及空前的规模和多样性的数据,通过集聚大量的操作和行为的信息来产生新的服务或收入来源的产业以及需要利用数据更好地造福社会的政府、社会服务和非营利机构。


这一新兴学科依赖于数学和统计建模,计算思维和方法,数据表示和管理和被研究领域专业知识的新的融合。虽然计算领域已经提供了许多支持数据科学的应用原则、工具和技术和诸多案例,计算机科学界也有机会作出新的研究进一步推动该领域的发展。此外,学界也有义务制定数据科学应用的发展指导方针。 

包括统计,数学,社会科学,自然科学和计算机科学等在内的多个领域为数据科学的诞生奠定了一套强大的基础。事实上,传统的计算机科学研究的各个方面都在数据科学的发展中起到了作用。放眼未来,数据科学也将引领全新的计算研究。


  • 从数据管理的角度来看,数据科学需要在如何获取,存储和访问数据方面有更深的理解和表现,对数据世系、数据质量、质量保证、数据集成、存储、隐私和安全都需要有更深入的思考。传统获取和存储数据的方式在处理告诉或敏感的数据时可能不能奏效。


  • 从计算的角度来看,非常大的数据量,非常高的数据速率,和非常大的用户数都需要的新的系统和新的算法。新的系统架构可以适应数据异质性和不规则的结构,这些在数据访问和通信中也必要的。从算法的角度,我们需要有线性算法,在线算法,支持实时数据流,和概率和随机的方法来应对数据的规模和数据中的噪声。


  • 此外,许多经典的统计假设和机器学习技术不适合目前的数据科学的需求。数据越是自然来源的越有可能是有偏见的、不完整和高度异质性。时间跨度长且来源广泛的数据的拼接会导致自动采集的数据和不一致从而带来系统错误给建模方面带来了深远的挑战,也给新的统计方法和机器学习算法带来机遇。即使对于“小数据”,新的应对数据异质性和数据采集偏倚的方法也是需要的。虽然预测建模至关重要,但是许多数据科学也涉及决策以及根据行动的变化做出推理的能力。此外,理解维度灾难,过拟合和复杂设置下的因果关系也是关键的。


  • 数据规模和异质性的挑战也从根本上改变用户如何与数据和模型相互作用:如何将数据可视化,支持数据科学模型结果的理解和解释需要什么算法,如何做出决策,以及如何获得和整合用户反馈。人机交互和可视化分析将需要更紧密的整合数据科学模型和算法。自然语言处理,语音,计算机视觉和其他人机通信模式的新案例也将随之出现。


  • 由于数据科学系统往往被嵌入在需求和分布不断变化的操作系统中,支持整个数据科学的生命周期是很重要的。确保管道的各个方面的鲁棒性是重要的。我们需要开发新的软件工程和计算机编程的最优化方法。此外,古董数据储存的时间往往比最初计划使用更长,所以数据长期的维护和管理也必须得到解决。


以上的研究课题,以及许多其他的研究课题,都需要对系统、计算和机器智能方面的基础研究。


此外,像在许多其他领域的同行那样,计算研究人员日益成为科学数据的用户,正如许多计算机科学的分支那样(包括计算机体系结构、网络、软件工程、视觉、机器人、教育和用户建模),日益数据驱动化。保障价值和重复性方面我们需要借鉴之前的经验方法,包括适当的数据管理、严格的系统建模、测量和分析,以及对结果的呈现和解读的完整方法。训练所有的计算研究人员掌握基本数据科学技能已经正变得越来越重要。


让我们把眼光放得更远,数据科学为工业界、学术界和政府之间的理论和应用研究的创造性合作提供了新的机会。除了赞助研究,行业合作伙伴还可以提供有价值的见解,诸如在实际问题、数据获取,验证理论在规模数据或自然数据应用的能力以及以互补的方式寻求解决方案方面。学术界,反过来,可以提供创新的解决方案和软件,新的算法和替代方法的原则性分析。学术界也可以培养训练有素的数据科学骨干,满足行业的需求,并帮助合作伙伴探索尖端研究。这些合作伙伴关系也将有助于揭示数据科学的政策问题,相关的偏见,数据隐私,知识产权,使用适当性和监管问题。开放数据的提议和开源软件运动特别适合于数据科学,并将帮助使得其实现商业化和发挥影响。总之,工业,学术和政府数据科学的合作将有助于推动相互协作的新的模型。


最后,虽然数据科学提供了通过提高数据利用率以提高科学研究和决策许多新的机会,这些使用也带来了新的挑战。产生的数据语境及其使用的应用程序对数据科学的准确、公平和伦理要求也十分重要。这些数据科学的相关工作需要在计算机科学的亚领域间以及和计算机科学的多学科之间的合作。无论是学科内的和跨学科的技能都需要互相学习和支持。数据的产生和收集变得无处不在,数据所有权的概念也在发展,许多法律和政策问题将需要在此境况下被重新的考量。


为了了解如何符合伦理和负责任的使用和共享数据,计算机科学家需要协同领域的科学家、政策制定者和伦理学家以理解相关的风险和假设。例如,当回答有关个人和社会的问题(例如,在教育,经济政策和治安)时了解数据科学背后的社会科学是很重要的。这些重要的问题包括隐私,公平和透明度。为了更好地参与和服务于数据科学相关的新兴政策的探讨,数据科学计算研究人员需要开发能够兼顾道德、公平和责任的新的方法。


总之,计算研究界迎来了一个在定义和塑造新兴的数据科学领域的独特机遇。与统计人员,数学家,社会科学家,数据分析师和结构科学家和学科专家一道,计算机科学家可以发展新的基础理论,算法原则以及建立数据科学基石的系统。计算研究协也将致力于支持计算专业人员和其他人员为数据科学研究道德和责任的发展作出贡献。

原文发布时间为:2017-01-23


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
4月前
|
机器学习/深度学习 人工智能 算法
"揭秘机器学习背后的魔法:函数的力量如何塑造智能预测的奇迹之旅"
【8月更文挑战第16天】机器学习是人工智能的关键分支,通过算法和统计模型使计算机能从数据中学习并预测。本文介绍核心函数的应用及实现:线性回归预测连续值;逻辑回归处理二分类问题;决策树依据简单规则分类或预测;支持向量机寻找最优边界分类。使用Python的`scikit-learn`库实现这些函数,帮助理解机器学习算法的工作原理及其应用场景。
88 1
|
5月前
|
机器学习/深度学习 数据采集 供应链
探索数据科学在现实世界中的应用与挑战
本文深入探讨数据科学的实际应用,揭示其在商业、医疗和社会科学等领域的显著影响。文章首先概述了数据科学的基本概念及其重要性,然后通过具体案例分析展示了数据科学如何推动创新和决策过程。接着,讨论了在实施数据科学项目时遇到的技术、伦理和管理挑战,最后提出了未来数据科学的发展方向和潜在机遇。
|
7月前
|
数据采集 机器学习/深度学习 数据可视化
R语言在社会科学研究中的应用
【4月更文挑战第26天】R语言在社会科学研究中扮演关键角色,因其强大的统计分析、灵活的数据处理及丰富的扩展包备受青睐。从数据清洗到假设检验,再到结构方程模型和文本挖掘,R提供全面支持。其在数据预处理、描述性统计、假设检验、网络分析和文本挖掘方面的工具促进了研究效率和复现性,随着社区发展,R在社会科学研究中的应用将更加广泛。
87 2
|
机器学习/深度学习 人工智能 算法
ML如何做科学发现?牛津大学268页博士论文详述科学机器学习内涵
ML如何做科学发现?牛津大学268页博士论文详述科学机器学习内涵
|
机器学习/深度学习 存储 数据采集
学术加油站|机器学习应用在数据库调优领域的前沿工作解读
学术加油站|机器学习应用在数据库调优领域的前沿工作解读
281 0
学术加油站|机器学习应用在数据库调优领域的前沿工作解读
|
机器学习/深度学习 供应链 监控
十大经典的零售业数据科学案例
  数据已被证实是零售行业的重要资源,数据对于商业中的决策者来说非常重要。不同领域的大公司都在寻求利用数据的最佳方案。   零售领域发展非常的迅速,数据的应用也相当全面,例如零售商会分析数据并发展特殊的客户画像,以了解零售商TA的痛点。对大数据的全面分析可以影响甚至操纵客户的决策,很多的讯息流与多渠道的触及都用来实现这些目的。   本文介绍了零售业中排名前10位的数据科学用例,让你掌握最新的趋势。
719 0
|
机器学习/深度学习 人工智能 供应链
5个杰出的商业机器学习用例
大数据和机器学习的结合可以释放您已经为业务赢得竞争优势所必需的数据的价值。
1003 0
5个杰出的商业机器学习用例
|
算法 物联网 大数据
5G对未来数据科学发展趋势的影响
本文分析5G对于数据科学领域发展趋势的影响
3303 0
|
机器学习/深度学习 人工智能 算法
三问(why?what?how?)金融领域的机器学习
都喜欢人生三问,那么金融领域的机器学习三问了解一下。
2772 0