Nature封面:乘着AI的翅膀,数据「带飞」计算社会科学!

简介: Data Is Not All You Need! 如今有海量数据可供研究,确保数据质量和隐私变得更加紧迫。本期的「Nature封面」介绍了新兴研究领域「计算社会科学」,讨论了如何用大数据集解决社会问题。

早在苏美尔王国时期,这个智慧王国的子民就开始记录数据,进行人口普查、分配粮食

1.jpg

全世界最早产生的文明之一苏美尔的人口普查记录

 

苏美尔人贡献了书面数据分析的最早记录。

 随着计算机的出现,人们开始用机器分析大型数据集,这一阶段最早可以追溯到大型计算机时代。 


2.jpg

计算机大大加快了数据分析的速度,被广泛应用在审计和人口普查上。 而这种将大量数据分析与社会问题相结合的工作,即计算社会科学(Computational social science)近年来得到了巨大的发展。 巨大的发展伴随的是没有限制、不受监管的数据收集。

3.jpg

这其中存在很大风险:缺乏监控以及从匿名数据中重新识别身份的风险。 还有人担心,收集数据却没有征得当事人的同意怎么办? 大部分数据都被少数大型科技公司垄断怎么办? 不仅大型科技公司掌握数据、数据使用权在向发达国家、富裕人群倾斜,这样做出的决策难免会有偏差。 所以,目前需要我们将社会科学和不同学科以及收集分析大型数据集所需的技能结合起来,这就需要跨学科的合作。 但是,目前跨学科合作面临诸多挑战。 今天,Nature就以特刊形式讨论了目前计算社会科学面临的挑战和机遇。


4.jpg

克服跨学科的语言障碍


计算社会科学集社会、自然、计算科学等学科于一身。

同一个词,在不同学科之间可能有不同的含义,在这种情况下就很容易「鸡同鸭讲」。 例如,在社会科学领域,「预测」(prediction)通常含有「相关」的意思;而在物理科学领域,这个词更多指的是「预测」。

5.jpg

「token」在不同领域里也有不同含义 因此,不同学科之间需要克服同一术语表达不同意思的语言障碍。开展跨学科研究时,科学家们首先需要学会彼此的语言,然后得出一种能够相互理解的术语。 但比起语言障碍,更难的是如何展示、分析和解释数据,最终解释某种现象。 比方说,要想了解交通拥堵的原因,研究人员会收集并预测交通流量数据,还会从司机口中了解到他们选择特定路线的原因。计算社会科学的学科互补特性,能更高效地回答研究问题。

处理数据的「大忌」


所有研究结果取决于分析策略,还取决于数据的质量,在处理社会数据的时候更是如此。 要想完成计算社会科学的研究,就先得要有大量的数据,如手机的定位信息。但是这些信息通常不是出于研究目的才收集的,因此很容易被人误解。 仅从数字中观察到趋势或模式中就得出结论,这是研究人员处理大数据集的「大忌」。研究人员应该考虑可能会影响结果的因素。 为了提取数据的真正意义,研究人员需要确保他们根据理论,仔细地定义测量对象,并适当地进行验证和解释。


image.gif

算法的广泛影响是另一个潜在错误。算法遍及整个社会,以不同的方式影响着个人和群体行为,这意味着,所有的观察不仅在描述人类行为,还在描述算法对人们行为方式的影响。 社会科学理论需要更新,承认算法带来的影响;要是没有这些理论,没有清晰理解算法对可用数据的影响,研究人员就无法得出有意义的结论。 

共享数据的难处


大型数据集通常是商企的私有财产,这是计算社会科学的另一个复杂问题。搞学术的科学家需要跟企业联系才能获得访问权限,这有可能会产生更多偏见。


image.jpeg

对于公司而言,数据是有价值的,因此共享数据会冒犯到公司的「底线」。这也是公司倾向于限制共享内容的原因之一。 但考虑到这些数据能提供社会效益,公司——连同学术研究人员和公共机构——需要共同解决这些问题,并为数据的质量、数据访问和数据所有权制定标准。

未来获取数据的方式


一篇关于「人类社会感知」的文章对于如何获得有用、可靠的数据列举了一些方法。这是对个人如何在其社交网络中收集他人信息的研究。 例如,研究人员可以通过采访对象并询问他们的朋友在谈论什么,从而预测出政治观点的变化。 收集他人的数据有助于避免自我报告数据中出现的一些偏见,生成匿名数据也有额外好处:研究人员永远不需要知道他们获得的数据中,任何有关个人或敏感细节的信息。


image.jpeg

获取数据的方式变得更加成熟,这一点体现在传染病建模和行为科学的交叉领域。 要建立准确的传染和感染模型,研究人员需要了解患病人群的文化和行为。如果不考虑传播的这些和其他社会方面的传播因素,就难以预测疾病的传播路径。跨学科的结构和广泛合作十分关键。

而新冠肺炎疫情已经表明,大规模数据集应用于科学能够挽救生命。随着具有计算机科学或应用数学背景的研究人员与社会科学家的合作,而这种潜力才刚刚开始显现。 

相关文章
|
1月前
|
消息中间件 人工智能 Kafka
AI 时代的数据通道:云消息队列 Kafka 的演进与实践
云消息队列 Kafka 版通过在架构创新、性能优化与生态融合等方面的突破性进展,为企业构建实时数据驱动的应用提供了坚实支撑,持续赋能客户业务创新。
325 26
|
2月前
|
消息中间件 人工智能 运维
事件驱动重塑 AI 数据链路:阿里云 EventBridge 发布 AI ETL 新范式
“一个简单的数据集成任务,开始时总是轻松愉快的,但随着业务扩展,数据源越来越多,格式越来越乱,整个数据链路就会变得一团糟。”陈涛在演讲中指出了当前 AI 数据处理的普遍困境。扩展难、运维难、稳定性差,这三大挑战已成为制约 AI 应用创新和落地的关键瓶颈。针对这些痛点,在2025云栖大会期间,阿里云重磅发布了事件驱动 AI ETL 新范式,其核心产品 EventBridge 通过深度集成 AI 能力,为开发者提供了一套革命性的解决方案,旨在彻底改变 AI 时代的数据准备与处理方式。
360 23
|
1月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
3057 43
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
302 99
|
1月前
|
人工智能 并行计算 PyTorch
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
215 4
|
1月前
|
机器学习/深度学习 人工智能 监控
拔俗AI智能营运分析助手软件系统:企业决策的"数据军师",让经营从"拍脑袋"变"精准导航"
AI智能营运分析助手打破数据孤岛,实时整合ERP、CRM等系统数据,自动生成报表、智能预警与可视化决策建议,助力企业从“经验驱动”迈向“数据驱动”,提升决策效率,降低运营成本,精准把握市场先机。(238字)
|
1月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
1月前
|
机器学习/深度学习 人工智能 算法
拔俗AI智能营运分析助手:用技术破解企业“数据焦虑”
AI智能营运分析助手破解企业“数据多却难洞察”难题,通过自动化集成、定制化模型、可视化输出,助力中小企业实现低门槛数据驱动决策,提升营运效率与精准度。
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI体征营养指导系统:从数据到建议的技术闭环
AI如何读懂身体并给出科学营养建议?本文从开发者视角揭秘三大核心技术:多源异构数据融合,构建个性化推荐引擎,以及反馈驱动的持续学习系统。通过打通“感知-决策-反馈”闭环,AI真正实现千人千面的动态营养指导,成为可进化的健康伙伴。(238字)

热门文章

最新文章

下一篇
oss云网关配置