AI分析手机实现精准扶贫:伯克利研究登上Nature

简介: AI分析手机实现精准扶贫:伯克利研究登上Nature

新冠大流行摧毁了许多低收入和中等收入国家,导致广泛的粮食不安全以及生活水平的急剧下降。为了应对这场危机,世界各国政府和人道主义组织已向超过 15 亿人分发了社会援助。但是,他们正面临着一个关键的挑战:在现有数据的情况下,快速确定最需要援助的目标人群仍是一项艰巨的任务。

在近日发表在 Nature 上的论文《Machine Learning and Phone Data can Improve Targeting of Humanitarian Aid》中,来自加州大学伯克利分校、德国曼海姆大学、美国西北大学的研究者展示了利用手机网络的数据可以提升人道主义救援的针对性。

他们使用传统调研数据来训练机器学习算法,以识别用户手机数据中的贫困状况。然后,经过训练的算法可以优先向那些最贫困的手机用户提供援助。


论文地址:https://www.nature.com/articles/s41586-022-04484-9

研究者通过研究西非国家多哥(Togo)的一个旗舰紧急现金转移项目(Novissi)对方法进行了评估,这项计划使用算法分配了价值数百万美元的新冠救济援助金。他们在分析中比较了不同目标确定机制下的结果,包括排除误差(exclusion errors,真正的穷人被错误地认为没有资格)、总体社会福利和公平性衡量。

相较于多哥政府采用的地理位置目标确定方法,研究者使用机器学习方法将排除误差减少了 4–21%。而相较于需要全面社会登记(一种假设,多哥并不存在这种登记)的方法,机器学习方法将排除误差增加了 9–35%。这些结果强调了新数据源在确定人道援助方面能够对传统方法做出补充,尤其是在传统数据缺失或过时的危机环境中。

研究背景

我们先来了解一下多哥的旗舰紧急现金转移项目 Novissi。2020 年 4 月,在首批新冠病例出现不久,多哥政府推出了这一项目。由于经济限制命令导致很多多哥人停工,并引发了广泛的粮食安全问题。Novissi 项目旨在为受影响最重的人提供生存现金援助。


项目地址:https://publicadministration.un.org/zh/Themes/Digital-Government/Good-Practices-for-Digital-Government/Compendium/CompendiumID/472

但是,当多哥政府刚开始推出 Novissi 项目时,没有可用来评估获援资格的传统社会登记系统,也抽不出时间或资源在新冠流行期间构建这类登记系统。最近的一次人口普查完成于 2011 年,没有包含家庭富裕或贫困信息。最近的国家生活水平调查仅仅涵盖了一部分家庭。

在这种情况下,Novissi 项目的援助资格根据 2019 年末更新的国家选民登记系统中包含的数据来确定。但遗憾的是,这种方法无法将多哥最贫困家庭纳入 Novissi 项目的援助范围。

该研究旨在帮助多哥政府将 Novissi 项目的援助范围从首都洛美的非正式工作者扩展到乡村地区的更贫困人群,在实现过程中还要满足多哥政府的两个既定政策目标:将援助引向该国最贫困的地理区域;优先向这些地理区域的最贫困手机用户分配援助。

基于此,研究者使用机器学习算法分析了从卫星到手机网络上的非传统数据,并最终提升了最贫困手机用户人群的目标确定。

对手机用户进行调查,确定用户财富和消费水平

第一步将机器学习算法用于高分辨率卫星图像,以获得多哥每 2.4 公里 × 2.4 公里区域财富微观估计。这些估计提供了每个小网格单元中所有家庭相对财富,之后对这些网格单元进行人口加权平均,从而得出多哥最小行政单元财富估计。

第二步通过机器学习算法对多哥两家移动电话运营商提供的移动电话元数据进行处理,以估计每个移动电话用户的平均日消费。

具体而言,该研究从多哥两家移动网络运营商那里获得了 2018-2021 年特定时间段的手机元数据(呼叫详细记录 (CDR))。该研究重点关注移动网络数据的三个分段片:2018 年 10 月至 12 月、2019 年 4 月至 6 月和 2020 年 3 月至 9 月。CDR 数据包含以下信息。通话:来电者电话号码、接收者电话号码、通话日期和时间、通话时长、拨打电话的基站 ID;SMS 消息:发送方电话号码、接收方电话号码、消息的日期和时间、发送消息的天线 ID;移动数据使用:电话号码、交易日期和时间、数据消耗量(上传和下载相结合);移动货币交易:发送方电话号码、接收方电话号码(如果是点对点)、交易日期和时间、交易金额以及交易类型的广泛类别(现金、现金、点对点或 账单支付)。

该研究对具有代表性的手机用户进行了调查,并用这些调查来衡量每个用户的财富或消费,然后将基于调查的估计与每个用户使用手机历史的详细元数据相匹配,采用有监督机器学习算法对样本数据进行训练,通过手机使用来预测用户财富和消费水平。这第二步与传统的代理生活状况调查 ( proxy means test,PMT) 类似,但有两个主要区别:该研究使用手机特征的高维向量而不是资产的低维向量来估计财富;该研究使用旨在最大化样本外预测能力的机器学习算法,而不是最大化样本内拟合优度的传统线性回归。

大家比较关心数据隐私问题,为了保护获取到的数据机密性,该研究在分析之前通过将每个电话号码哈希编码为唯一 ID 来对 CDR 进行化名。这些数据存储在大学服务器上,设置了访问权限。在将 CDR 记录与调查回复进行匹配之前,该研究在电话调查中获得了所有研究对象的知情同意。

精准评估

该研究对这种将机器学习和手机数据相结合方法称为基于手机的方法。通过比较该方法与反事实方法下的定位误差:政府在 2020 年夏天试行的一种地理定位方法(多哥 admin-2 极,即多哥各县的贫困地图,40 个县),贫困州(多哥 admin-3 级,397 个州);基于职业的定位(包括 Novissi 针对非正式工人的最初定位方法,以及针对该国最贫穷职业类别的最佳方法)。

该研究想要实现帮助 100 个最穷州的最穷的人,研究发现,相对于多哥政府的其他可行目标定位方法,基于电话的目标定位方法大大减少了排除误差和包容错误(errors of inclusion)(非穷人被错误地认为有资格),如图 1a 和表 1 所示。

使用 PMT 作为真实贫困状况的衡量标准,基于电话的定位(曲线下面积 (AUC) = 0.70)优于针对农村 Novissi 援助的其他可行方法(例如,地域范围定位的 AUC = 0.59-0.64)。

图 1:Novissi 目标与替代目标的比较


表 1。


更多细节内容请阅读原论文。

相关文章
|
2月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
41 1
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
50 25
|
4天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
41 13
|
3天前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。
|
21天前
|
人工智能 自然语言处理 文字识别
让AI像人类一样操作手机,华为也做出来了
华为诺亚方舟实验室研发的LiMAC系统,通过轻量级Transformer网络和微调的视觉-语言模型,实现了高效、准确的Android应用交互与控制。该系统在多个公开数据集上展现出卓越性能,提升了任务执行速度与准确性,同时具备良好的灵活性,但需大量训练数据支持。
42 8
|
29天前
|
人工智能 开发者
人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用
论文《AI对齐中的超越偏好》挑战了偏好主义AI对齐方法,指出偏好无法全面代表人类价值观,存在冲突和变化,并受社会影响。文章提出基于角色的对齐方案,强调AI应与其社会角色相关的规范标准一致,而非仅关注个人偏好,旨在实现更稳定、适用性更广且更符合社会利益的AI对齐。论文链接:https://arxiv.org/pdf/2408.16984
36 2
|
1月前
|
人工智能 知识图谱
成熟的AI要学会自己搞研究!MIT推出科研特工
MIT推出科研特工SciAgents,结合生成式AI、本体表示和多代理建模,实现科学发现的自动化。通过大规模知识图谱和多代理系统,SciAgents能探索新领域、识别复杂模式,加速新材料发现,展现跨学科创新潜力。
46 12
|
1月前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
AI与体育训练:运动表现分析
【10月更文挑战第31天】本文探讨了AI在体育训练中的应用,特别是在运动表现分析方面。通过数据收集与处理、深度分析与挖掘、实时反馈与调整三个环节,AI为运动员和教练提供了高效、个性化的训练计划和比赛策略,显著提升了训练效率和比赛成绩。未来,AI将在数据隐私、情感理解及跨学科合作等方面继续发展,为体育事业带来更多可能性。
|
2月前
|
人工智能 监控 算法
AI大模型客户分析体验测评
该方案介绍了利用AI大模型进行客服对话分析的原理和优势,如智能化分析和数据驱动决策。然而,方案缺乏具体的技术细节和实施步骤,如模型选择和训练方法。部署过程中可能遇到的困惑包括CRM系统集成、数据安全和非结构化数据处理。示例代码具有较高的直接应用性,但仍需根据业务逻辑定制。方案能满足基本对话分析需求,但对复杂场景如多轮对话和情感分析,建议提供更多技术文档、行业预训练模型、增强模型可解释性和性能监控工具。