《社会调查数据管理——基于Stata 14管理CGSS数据》一第2章 数据管理的流程及内容2.1 数据管理的工作流程

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:

本节书摘来自异步社区《社会调查数据管理——基于Stata 14管理CGSS数据》一书中的第2章,第2.1节,作者 唐丽娜,更多章节内容可以访问云栖社区“异步社区”公众号查看

第2章 数据管理的流程及内容

社会调查数据管理——基于Stata 14管理CGSS数据
数据管理是一个过程,不是一蹴而就的单项工作任务。随着数据化时代的到来,数据在生活和工作中扮演着越来越重要的角色。数据量的剧增对数据管理工作提出了巨大的挑战。数据管理工作和图书管理工作有些类似,单个数据就相当于一本书,管理很多数据就相当于建立一个数据馆(数据库),用户按照一定的步骤操作,就能找到自己所需的数据。数据管理和图书管理的一大区别是:每个数据除了数据本身以外,还有一系列的匹配资料,如编码手册、调查问卷、抽样设计方案、调查手册、权重计算方案、缺失值处理方案等。因此,数据管理是一个多层次、跨时段的工作过程。

和数据分析一样,一项好的数据管理工作流程应该具有可复制性。也就是说,一个从来没有接触过某一数据的人,在看完该数据的管理工作档案后,能够理解该数据,并能以同样的方法操作于数据。

这个世界上没有一种数据管理工作流程适用于所有的数据管理项目或科学调查研究项目,任何一项具体的数据管理工作都有自己独特的特点,但不可否认的是,不同的数据管理项目之间仍存在一定的相同之处,具有一些共性。本书的重点放在数据管理工作的共性上。要把数据管理工作做好,并非易事。数据管理工作的核心和灵魂是有想法和思考的管理框架。

2.1 数据管理的工作流程

数据管理并非杂乱无章,而是有一定的章法可循。根据社会调查项目的进展,可以把数据管理分为三个阶段:收集数据前的数据管理、收集数据中的数据管理、数据回收后的数据管理。

每个阶段的数据管理工作内容不同,侧重点也有所差异。

2.1.1 收集数据前的数据管理

数据是社会调查中最宝贵的资料。一些数据管理者或研究人员常常把数据的管理工作集中在已经回收的数据上,通过清理回收的数据,来控制数据的质量,但是他们却忽视了:一份好的数据一定是建立在良好的前期管理的基础上。这些前期的管理应该包括以下几个方面。

(1)问卷设计。问卷设计与数据管理密不可分。对于社会调查的研究人员来说,问卷是他们与被访者对话的桥梁。问卷传递着研究者想要获取的信息,同时也表达了受访者的反馈。好的问卷设计能高效地将两者结合在一起。受访者能明白问卷含义,根据题意回答问题,研究者能够得到想要的信息,而不是一份无效问卷。

问卷设计本身就是一门学问。一份合格的问卷至少应该包括:问卷编号、卷首语、题号、提示语、被访者联系方式和致谢语。此外,研究者也可根据自己的调查特点增加新的部分。

(2)抽样设计。一般而言,抽样调查是一种非全面的调查,即不是普查。从分类上来看,抽样包括非概率抽样(如方便抽样)和概率抽样(或称随机抽样)。抽样设计是收集数据前的一项重大工作。抽样设计应当科学、严密、具有可行性。当前,抽样设计在我国仍然没有得到足够的重视,很多调查由于抽样设计环节的问题,导致回收的数据严重偏离,甚至无法使用。因此,抽样设计与数据管理息息相关。

(3)人员安排。人是数据管理的主体。在数据管理中,需要做好数据管理员和访问员的合理安排。本书提倡一个社会调查都需要至少配备一名数据管理人员,全程参与社会调查过程和后期的数据管理。

人们常常把数据比做菜,如果数据管理人员是择菜和洗菜人,那么访问员就是摘菜人。每一份数据都需要访问员回收回来,因此,做好访问员的培训是一项十分重要的工作。

(4)制定编码手册。在一项社会调查中,编码手册(codebook)是解读数据的工具。编码手册基于问卷,通过把问题转换成变量,确定变量的取值范围、加贴标签等工作,对问卷所有内容进行编码。最后制定成编码手册,方便用户在使用数据时通过阅读编码手册来理解数据管理人员对数据所做的处理。

和这一阶段数据管理有关的详细内容,参见第4章。

2.1.2 收集数据中的数据管理

收集数据前的数据管理为好的数据质量打下了基础,收集数据中的数据管理工作最终决定了数据的质量。

在实地调查的三个环节(问卷的填答、问卷的审核和问卷的提交)中,每一个环节完成的好坏都直接决定数据质量的优劣。数据一旦收集完成,数据质量就定了,之后的种种纷繁复杂的数据处理都只是更好地保障数据质量,而无法改变原始数据的质量。但是,数据的收集过程是一个动态的过程,在这个过程中可以随时加入调查者、研究者的干预,从而及时纠正出现的影响数据质量的问题。因此,在收集数据的过程中一定要时时关注数据质量,边收集,边分析,边协调。

只有做好收集数据中的数据管理,才能真正拿到高质量的数据,为之后的数据清理和数据分析提供最好的资料。

2.1.3 数据回收后的数据管理

数据回收后的数据管理工作,侧重对数据完整如实的录入以及思路清晰的清理。问卷回收并提交录入后,经过一系列录入校对的工作,就得到了录入的数据,我们通常称之为原始数据;常常有人认为拿到这些数据,就可以直接从事相关的数据分析了。但事实上,原始数据到统计数据之间隔着一座桥梁,就是数据的清理工作。当调查结束数据回收后,数据管理工作主要包括检查提交的录入数据,检查数据中的变量,检查数据中的取值,给取值添加多套不同语种的标签,给数据添加变量,删除数据中的敏感变量和保存数据及相关资料这7个部分。

检查提交的录入数据之前,要先查看数据格式,如果提交的数据不是.dta格式,需要对数据进行格式转换,保证数据是Stata格式。在确定工作路径前提下,要用Stata14读入数据,在读入数据之前,需要对数据进行转码处理,转码用到的命令为unicode,第7章将会详细介绍转码的方法和转码过程中的注意事项;成功读入数据之后做的第一项工作就是检查观测值和变量数量,以确保数据没有少录,保证数据的完整性;同时,也要检查数据是否有重复录入的情况;为了更好地让数据呈现在数据使用者面前,数据管理者还需要给数据加标签,添加注释,必要时对观测值和变量进行排序。

变量和取值的检查是数据管理工作中的重点。其中变量的检查包括:变量名,变量标签,变量的存储类型,变量的存储格式,需要时还可以对变量添加注释;取值的检查包括:取值是否合理,有无取值标签,多个变量间的取值是否有逻辑上的一致性。

为了方便不同国家、不同语种的数据使用者使用数据,可以给取值添加多套不同语种的标签,多套标签间可以根据使用者的需求自由切换。为了使呈现更全面和更好地管理数据,有时需要给数据添加变量,但是前提条件是保证不改动原数据。出于研究伦理,数据管理者有义务对被访者的相关信息进行保密,因此,在数据使用前,需要对数据中的敏感变量进行删除处理。最后需要强调的是,数据和相关资料的保存也是数据管理的重要部分,尤其需要引起数据管理工作者重视。

数据管理没有方程式,因人、因项目而异,本书提供的只是一种思路和一种方法,供读者参考,你可以在具体的工作中学习、总结、提炼,摸索出适合自己项目的管理流程。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
3月前
|
物联网 数据管理 Apache
拥抱IoT浪潮,Apache IoTDB如何成为你的智能数据守护者?解锁物联网新纪元的数据管理秘籍!
【8月更文挑战第22天】随着物联网技术的发展,数据量激增对数据库提出新挑战。Apache IoTDB凭借其面向时间序列数据的设计,在IoT领域脱颖而出。相较于传统数据库,IoTDB采用树形数据模型高效管理实时数据,具备轻量级结构与高并发能力,并集成Hadoop/Spark支持复杂分析。在智能城市等场景下,IoTDB能处理如交通流量等数据,为决策提供支持。IoTDB还提供InfluxDB协议适配器简化迁移过程,并支持细致的权限管理确保数据安全。综上所述,IoTDB在IoT数据管理中展现出巨大潜力与竞争力。
100 1
|
4月前
|
SQL NoSQL 数据管理
数据管理DMS使用问题之如何批量导入MongoDB的数据文件
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
1天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
16天前
|
存储 人工智能 安全
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
瓴羊Dataphin连续俩年获得DAMA年度优秀数据治理产品奖,本次与DAMA联合发布“DAMA x 瓴羊 数据管理技能认证”,助力提升全民数据素养。
126 0
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
|
28天前
|
数据采集 安全 数据管理
通信行业数据治理:如何实现高效、安全的数据管理?
在未来的发展中,通信行业的企业应加强数据治理意识,提高数据治理能力;同时,积极开展跨行业的合作创新,共同推动行业的繁荣与发展。相信在不久的将来,通信行业将迎来更加美好的明天。
|
3月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
148 1
|
3月前
|
Java 测试技术 容器
从零到英雄:Struts 2 最佳实践——你的Web应用开发超级变身指南!
【8月更文挑战第31天】《Struts 2 最佳实践:从设计到部署的全流程指南》深入介绍如何利用 Struts 2 框架从项目设计到部署的全流程。从初始化配置到采用 MVC 设计模式,再到性能优化与测试,本书详细讲解了如何构建高效、稳定的 Web 应用。通过最佳实践和代码示例,帮助读者掌握 Struts 2 的核心功能,并确保应用的安全性和可维护性。无论是在项目初期还是后期运维,本书都是不可或缺的参考指南。
48 0
|
3月前
|
SQL 存储 数据管理
掌握SQL Server Integration Services (SSIS)精髓:从零开始构建自动化数据提取、转换与加载(ETL)流程,实现高效数据迁移与集成——轻松上手SSIS打造企业级数据管理利器
【8月更文挑战第31天】SQL Server Integration Services (SSIS) 是 Microsoft 提供的企业级数据集成平台,用于高效完成数据提取、转换和加载(ETL)任务。本文通过简单示例介绍 SSIS 的基本使用方法,包括创建数据包、配置数据源与目标以及自动化执行流程。首先确保安装了 SQL Server Data Tools (SSDT),然后在 Visual Studio 中创建新的 SSIS 项目,通过添加控制流和数据流组件,实现从 CSV 文件到 SQL Server 数据库的数据迁移。
139 0
|
4月前
|
运维 数据管理 数据库
数据管理DMS操作报错合集之数据归档时,遇到报错:"DMS获取内容为空,无须备份",该怎么办
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
5月前
|
SQL 关系型数据库 数据管理
数据管理DMS产品使用合集之归档数据至其它MySQL数据库时,如何指定目的库
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
67 1