盲目崇拜大数据会让他在洪流中迷失

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

华东师范大学社会学研究所所长、教授文军在《人民日报》撰文指出,作为新发明和新服务的源泉,大数据正在改变人类的生活乃至理解世界的方式。但我们不应盲目崇拜,而要正视潜藏的风险和挑战,避免在大数据的洪流中迷失。

大数据

一要防止大数据的“去人性化”忽视人的主体价值和数据的社会文化意义。如果人及其各类社会行为都仅仅被看作一个个数据符号,我们就很难从中解读出充满朝气、富有激情的人,也就很难从数据塑造出来的没有个性特征的人去推导群体样态和社会构成。现在一些大数据研究存在的一个重大缺陷是,它只关注“客观数据”的呈现,而缺少对“主观数据”的反映。从社会学角度看,所有数据说到底都是有关“人”的符号。而符号所蕴含的社会文化意义,是我们真正需要了解和掌握的内容。

二要防止大数据的“巨量化”强化数据霸权。大数据的复杂性不仅在于其数据样本巨量,更在于其多源异构、多实体和多空间之间的交互动态性。当前只有少数人掌握处理这种复杂的巨量化大数据的技术,因此容易导致“数据暴力”。如何防止大数据霸权,是一个需要认真对待的问题。

三要防止大数据的“碎片化”导致人们难以系统认知复杂事物。当前,许多数据仅停留在“碎片化”阶段而难以被真正挖掘和分析。对这些碎片化的数据进行清理,进而形成规整的结构,是大数据能够得到充分利用的根本所在。在大数据中,其研究范式重在发现而不是推论;不是像传统的社会调查方法那样通过假设检验来进行推论,而应通过数据的总体归纳来达成对社会现象的总体分析。这不仅要求我们在数据清理技术、存储结构上进行优化,而且要在数据采集环节尽可能做到规范。

四要防止大数据的“模糊化”产生大量信息垃圾,从而为数据造假和不当传播打开方便之门。在大数据时代,我们想要获取的信息资源可能只占数据总体的万分之一甚至更少。从这个角度说,大量的信息其实都是垃圾。不仅如此,许多大数据本身就是模糊的,其中含有虚假和有害的内容。如果纯粹凭借数据来判断和分析,甚至不假思索地利用和传播,就会导致许多误判。因此,未经前期调研论证和规范分析所获取的信息,其数据量越大可能越模糊,得到的垃圾信息也就可能越多。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
前端开发 大数据 数据库
🔥大数据洪流下的决战:JSF 表格组件如何做到毫秒级响应?揭秘背后的性能魔法!💪
【8月更文挑战第31天】在 Web 应用中,表格组件常用于展示和操作数据,但在大数据量下性能会成瓶颈。本文介绍在 JavaServer Faces(JSF)中优化表格组件的方法,包括数据处理、分页及懒加载等技术。通过后端分页或懒加载按需加载数据,减少不必要的数据加载和优化数据库查询,并利用缓存机制减少数据库访问次数,从而提高表格组件的响应速度和整体性能。掌握这些最佳实践对开发高性能 JSF 应用至关重要。
72 0
|
5月前
|
机器学习/深度学习 数据采集 大数据
驾驭大数据洪流:Pandas与NumPy在高效数据处理与机器学习中的核心作用
【7月更文挑战第13天】在大数据时代,Pandas与NumPy是Python数据分析的核心,用于处理复杂数据集。在一个电商销售数据案例中,首先使用Pandas的`read_csv`加载CSV数据,通过`head`和`describe`进行初步探索。接着,数据清洗涉及填充缺失值和删除异常数据。然后,利用`groupby`和`aggregate`分析销售趋势,并用Matplotlib可视化结果。在机器学习预处理阶段,借助NumPy进行数组操作,如特征缩放。Pandas的数据操作便捷性与NumPy的数值计算效率,共同助力高效的数据分析和建模。
99 3
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
23天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
180 7
|
23天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
37 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
78 1
|
20天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
54 3
|
1月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
61 2