这几年很热门的大数据在主要用数据说话的人口学界却较为冷清。除王广州专门发文讨论过大数据时代人口科学的创新问题外,其他人很少进行正式的讨论;具体研究方面,仅有少数学者用户籍登记数据、婚姻登记数据、手机信令数据、灯光遥感数据、百度迁徙数据做研究发表在人口学期刊上,其中属于人口学的更少。为什么会出现这种情况呢?
讲求量的准确导致人口学大数据
和研究讨论较少
大体而言,这和中国大数据的开放现状、人口学研究取向以及人口学者的训练都有一定关系。
首先,人口学研究讲求量的准确,而能提供这种准确度的大数据不多。如南佛罗里达国际大学的赖庆博士关于定量和量化的概念辨析所言,人口学是“定于量”的,不像社会学“化为量”即可。关于中国生育水平到底有多高,人口学界争论了20多年,就是为了确定总和生育率到底是在1—2之间的哪个具体小数上。
其次,近十多年来,确实有越来越多的信息被电子化甚至量化,但是诸如普查数据、户籍数据、婚姻登记数据、出生数据、教育学籍数据,以及医保、交通、劳保、不动产、银行等公共部门掌握的微观个人数据开放获取的可能性仍很低。已开放的数据往往只是一些互联网企业有限开放的异形数据或互联网上可以公开爬取的零碎的、不系统的文本、图片、视频数据。这些数据往往缺乏基础性的社会人口变量,而且大多没有解决样本的代表性和测量准确性问题,无法对人口学所关心的人口数量、结构、过程做出精确估计。因此,人口学者通常也不会用这类数据。
再者,人口学者不太擅长用这些新数据。一直以来,人口学者主要依赖权威部门(统计局、卫计委)发布的汇总数据或者规模抽样调查数据来做研究。相对于社会学者,人口学者处理的大多是变量相对少、结构比较简单的结构性数据,采集和处理异形数据(如访谈文本数据)的经验较少。在这一点上,人口学者比社会学者更挑数据,也更依赖于公共部门。人口学擅长年龄、队列分析,经常要求年龄别或者五岁组的统计指标,这通常要求每一个年龄组都具有独立的代表性,从而在样本规模要求上要大数十倍。中国人口学者主要使用的数据包括统计局的普查、小普查的样本数据,人口变动抽样调查数据,卫计委组织的流动人口动态监测调查数据和计生服务与生育状况调查数据等微观样本数据,其他各种教育、卫生、户籍、人口汇总统计数据,以及各单位自己组织的小规模样本调查数据。人口学者善于处理数据,是因为他们长于开发汇总数据,较早使用计算机处理微观数据,而且可能处理过体量比较大的数据。但这些数据结构通常很简单,变量也不太多。另外,他们中真正接触到超大规模原始业务数据(样本量千万以上的,如户籍数据、全员人口监测数据、学籍数据等)的并不多,很多还需要依赖掌控这些数据的业务人员进行查询和汇总。可以说,在面对新型大数据、异形数据时,国内人口学者的实际处理能力可能还有待提高。比方说,新型大数据中空间信息和网络信息越来越多,国内人口学者对这些新信息的理解和处理能力还比较有限,这部分研究主要还是地理学专家贡献的。
人口学需积极接触和开发大数据
面对越来越多的基于互联网和智能设备产生的新数据、异形数据,人口学者能在推动这些大数据的应用方面有所作为吗?这些新数据对人口学者回答传统研究问题有帮助吗?总之,人口学者要应对大数据时代,首先需要弄清楚所谓的大数据到底包括哪些数据,哪些与人口学关注的核心变量或问题相关,然后想办法接触和开发这些数据。
今天所谓的大数据主要有两类。第一类是政府及公共部门日渐电子化的基础业务数据。王广州将之分为全员人口数据和特定人群数据,如户籍数据,生育登记、死亡登记、医疗登记数据,迁移登记数据等。以往很多纸质版的、分散的内容,现在大多都电子化了,且日渐联网统一。这些业务、台账、调查数据包含大量的人口变量信息和社会属性信息,如果开放使用,能够帮助人口学者更好地研究人口的生老病死、迁移流动、行为活动,并且有助于把研究做到很小的区域范围内,突破以往研究精细度和研究范围之间的矛盾。王广州强调的主要是这类数据。但是这些数据(包括人口普查样本数据)直到现在仍很少向人口学者开放或仅向部分人开放。这些数据已经存在了,放在那里贬值,很可惜。相关部门也认识到它们的价值,如果关联串并整合起来,价值会更大。但由于各种非技术的原因,这些数据的开放、整合还很困难。实际上,数据采集项目最重要的是数据开发,而且越多人使用开发越好,大家都能从中获得新知识,也能迫使相关部门数据开发技术和数据服务质量的提升。
第二类数据是来自互联网痕迹数据、GPS定位或手机信令等便携智能设备产生的新数据。这些数据包含人们更为动态的时空位置和行为信息,但往往缺乏可以精确匹配的基础性人口社会信息。通过对这类数据的开发,能帮助我们把握一定时空范围内人口的分布和活动情况,提高对人口动态的把握,但主题往往超出传统人口学范围。目前基于这类数据做深入交互分析还比较困难,人口学者要与其他专业一起面对这些挑战。
人口学者要多接触和使用这两类数据,凭借人口学现在的专业理论、技能优势以及与相关公共部门或商业机构结成良好的合作关系,获得数据使用权限。这意味着我们需要掌握大型数据库的使用方法,以及新型数据的信息提取加工方法,如各种异形数据和基础数据的匹配方法。包括将手机号、机器识别号匹配身份证信息,从身份证信息提取年龄、性别、户籍、出生地信息这样的基本技能,也包括通过电子痕迹数据综合甄别使用者的性别、年龄、职业、家庭结构、常住地、工作地等标签信息的新方法。随着企业数据资产意识的增强和公民隐私保护意识的增长,只有占据有利的分工位置,人口学者接触和使用相关数据的机会才会越来越多。比如高颖通过和北京市民政局数据信息中心合作,利用北京市近年来的婚姻登记数据对北京市民婚配模式及其变迁、人口结构及其变迁做出了系列研究,为我们认识北京户籍人口、常住人口的演变规律提供了非常重要的基础信息,为进一步作人口调控与政策调整提供了依据。但如何将个人的资源和关系转变为整个学科的优势,仍值得学术共同体去探索和讨论。
实际操作时,如果从国家层面入手难度较大,可以考虑先和那些先行一步的地区或部门合作,将研究重心下沉到一定区域。以往因为地方经济实力不足,数据基础差,很多人口学者不得不主要利用国家层面的数据关注全国人口问题。现在,很多地方的经济实力不仅足以支持大规模数据的采集,而且数据质量和基础也越来越好。更重要的是,随着区域竞争的激烈化,越来越多的地方认识到了人口资源和人力资本争夺的重要性,认识到人口问题的异质性及其对解决方案的影响,从而为人口学发挥作用提供更大的舞台。
人口学要强化优势并努力创新
在探索实践过程中,人口学如何展现学科优势呢?笔者认为,核心是围绕大数据的开发使用积极创造条件。一是尝试提供权威性的基础数据用于大数据校准;二是将成熟的人口学理论和方法介绍到新数据的开发使用中。通过利用现有基础数据,生产一些权威性的基础数据和汇总指标,帮助校准大数据统计结果,促进新数据的使用和开发。百度慧眼就利用基础户籍数据或登记数据对基于地图定位请求数据估计的宁波和杭州湾地区小范围人口规模进行了校准,从而综合判断新数据的代表性和精确度,为新数据的开发使用提供了依据。
在理论和技术方面,人口学多年发展积累了很多非常成熟的方法和技术,例如队列分析技术、标准化技术、生命表技术、间接估计方法、随机人口模型、事件史技术、人口预测技术等等。这些模型和技术有着深厚的学科积累,懂计算机技术的人不一定都搞得懂。研究中该如何选择测量或汇总指标、确定模型、设定参数等,可能都需要一定的人口学基础作为指导。人口学者应该积极将既有理论工具和方法应用于指导新数据的开发,让其他人特别是数据掌控者知道人口学专业的价值,并在数据分析实践中逐渐提高学科的相关技能。
最后,人口学者在积极接触和探索大数据时,应该有创新思维。尽管目前能够获得的大数据、新数据在代表性、微观准确性上有所不足,但通常具有很好的时效性和较大的样本基数,在区域或人群汇总指标上具有较好的效度和信度。我们应该充分利用这些汇总信息,善于利用相对指标分析总体的结构特征及其变迁。例如,在传统人口数据中,空间数据较难得,了解人口的空间分布很难。现在,手机和智能设备可提供非常准确的人口位置信息,帮助我们更好地估计部分人口的空间分布、变动,特定空间内的人口构成等。但并非所有人都使用手机和智能设备,它提供的信息可能存在结构性偏差(如对老年人、小孩的情况反映不足),但仍是重要的参考。通过一定校准,准确度可进一步提高。这就需要人口学者掌握相关的分析和校准技术。以往人口学倾向于在个人层面上进行分析(生育、死亡、迁移),因为只有个人才有年龄、性别等人口学特征,但目前在个体层面进行数据的匹配、串并还很难。人口学者可能需要更多地探索在相对中观或宏观的研究单位上,人群统计特征与其他汇总属性之间的关系。例如,社区人口规模、人口密度、人口结构与社区社会经济形态以及人口过程如死亡水平、出生水平、迁移状态之间的关系,因为这些新型大数据往往更容易在较高层次的研究单位上实现指标汇总、匹配和信息串并。这种情况下,如何进行因果推论,如何避免层次谬误之类的方法论问题也需要研究和回答。
总之,人口学要想在大数据时代有所作为,需直面挑战,积极创造条件。其他学科也应该加强和人口学者的合作。因为如果主要关注基本人口社会变量的人口学者都难以有所作为,其他学科利用大数据做出来的研究,其坚实性和深入性也就值得怀疑。我们要一起推动公共部门和数据企业加强大数据的开放、串并和合理合法使用,创新数据的开发使用方式甚至提问题方式。这还有很长的路要走,可先从局部地区、具体项目做起来,并在学科内外加强共享、交流、学习,不断积累,共同进步。
本文转自d1net(转载)