2016大数据创新大赛——机场客流量的时空分布预测模型解析

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 在大数据创新大赛上,来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面介绍了团队的算法设计。

在大数据创新大赛上,来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面介绍了团队的算法设计。

背景介绍

65559d3b6a2eb232d3a10196f51a756e0de47f45

SeaSide团队所要解决的问题是利用机场大量的数据去预测每个时刻、每个无线AP的连接人数,这个结果可以很好的反映机场的客流时空分布。可用的数据可以分为四个方面:

历史连接:包含每个无线AP的名称、时间戳、连接人数;

地理位置:包括登机口、无线AP所在的区域、无线AP的坐标、楼层、组号;

航班排班:包括航班起降的排班信息、预计时间、实际时间;

旅客行为:包括值机、安检及离开。

算法设计

时序模型

fc44950e94692a1265eba0011845fbe8088fa7cb

最初的想法是基于历史值去预测当前值。上图左边是多天的真实值和三轴历史均值,真实值一直围绕历史均值上下波动。三轴历史均值在不同的情况下各有优缺点,把历史均值扩展为更多的聚合指标之后,在聚合窗口上就得到了基础模型。在计算聚合模型的过程中,有三种方式:同点、同时段、同组。最直接的方式就是计算同一AP点在同一历史数据点的聚合值。为了减少时间维度的噪声,可以计算同时段同一AP点的历史数据聚合值。为了减少空间维度的噪声,可以计算同组历史数据聚合值。

乘机流程

891a2053d2f378c4b39cbb392a0dba87748fe413

整个乘机的流程表明,其在值机、安检、候机、行李提取处的旅客较为密集。所以,航班的起降会对这些区域造成很大的影响。

事件驱动

edfd339b7520fb4281ac2ab0e2e4da7195bd2da7

比如,某个航班预计在某个时间起飞,可以从左上图看到大家一般会提前一个半小时安检,进入候机区等待。基于这些观察统计了右边的信息,预测时间点后面多个时间窗口上起飞航班的数量,根据这些信息可以得知每个时间段旅客起飞的人数。针对航班晚点情况,预测了滞留旅客人数。

除了起飞信息,SeaSide团队还预测了到达信息(该时间点前/后到达航班数,对接机区、中转区、取行李区影响比较大)、地理位置信息(区分特殊区域)以及时间信息(区分特殊时段,比如夜间、节假日)。

维度灾难

bd669f278d111065e1fc38c02abe438531d80f9e

上述算法利用一个模型对所有的区域进行了预测,包含了五个方面的很多特征,然而,特征越多越好吗?特征数量和预测效果的关系图如左图所示,过了临界点之后,增加特征点会使预测效果变差。现在的模型有1472个特征,需要引入合理的先验知识来有效降低维度。

a1fad827468d897ed7650009157aca3140b96a70

首先,起飞降维方面,把机场分为四个区域,对于不同区域,并不是所有起飞登机口的信息都有用。比如,对于候机区,只需要为每个AP点获取其最近的6个登机口。其余区域的降维方法如上图所示。

c21d958cd656e3e69183c549dacfb4a2deae6bb5

其次,对于时间特征,其实有序变量,与线性回归不同,它是基于高维空间划分的预测回归模型,可以对有序变量根据训练数据对其进行合理的区间划分,因此,可以看做是1维的整数。对于位置特征,分区域之后只考虑本区域组号。

d65428443690e3575a6a79e4e6cfe467720ac33f

从左图可以看出,多个无线AP在一段时间内连接数是趋于稳定的,所以在预测更短期的连接数的时候更加准确。

总结展望

模型的基础是基于历史连接数据的时序模型,加入事件驱动、降低维度进一步提升了模型。更精确的航班信息、坐标信息可以进一步提升算法。本算法可以提升网络服务、机场服务的质量。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
开发框架 供应链 监控
并行开发模型详解:类型、步骤及其应用解析
在现代研发环境中,企业需要在有限时间内推出高质量的产品,以满足客户不断变化的需求。传统的线性开发模式往往拖慢进度,导致资源浪费和延迟交付。并行开发模型通过允许多个开发阶段同时进行,极大提高了产品开发的效率和响应能力。本文将深入解析并行开发模型,涵盖其类型、步骤及如何通过辅助工具优化团队协作和管理工作流。
76 3
|
2月前
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
45 4
|
2月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
109 0
|
23天前
|
机器学习/深度学习 人工智能 PyTorch
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
本文探讨了Transformer模型中变长输入序列的优化策略,旨在解决深度学习中常见的计算效率问题。文章首先介绍了批处理变长输入的技术挑战,特别是填充方法导致的资源浪费。随后,提出了多种优化技术,包括动态填充、PyTorch NestedTensors、FlashAttention2和XFormers的memory_efficient_attention。这些技术通过减少冗余计算、优化内存管理和改进计算模式,显著提升了模型的性能。实验结果显示,使用FlashAttention2和无填充策略的组合可以将步骤时间减少至323毫秒,相比未优化版本提升了约2.5倍。
42 3
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
|
3天前
|
网络协议 安全 网络安全
探索网络模型与协议:从OSI到HTTPs的原理解析
OSI七层网络模型和TCP/IP四层模型是理解和设计计算机网络的框架。OSI模型包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,而TCP/IP模型则简化为链路层、网络层、传输层和 HTTPS协议基于HTTP并通过TLS/SSL加密数据,确保安全传输。其连接过程涉及TCP三次握手、SSL证书验证、对称密钥交换等步骤,以保障通信的安全性和完整性。数字信封技术使用非对称加密和数字证书确保数据的机密性和身份认证。 浏览器通过Https访问网站的过程包括输入网址、DNS解析、建立TCP连接、发送HTTPS请求、接收响应、验证证书和解析网页内容等步骤,确保用户与服务器之间的安全通信。
26 1
|
1月前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
87 2
|
1月前
|
存储 安全 Linux
Golang的GMP调度模型与源码解析
【11月更文挑战第11天】GMP 调度模型是 Go 语言运行时系统的核心部分,用于高效管理和调度大量协程(goroutine)。它通过少量的操作系统线程(M)和逻辑处理器(P)来调度大量的轻量级协程(G),从而实现高性能的并发处理。GMP 模型通过本地队列和全局队列来减少锁竞争,提高调度效率。在 Go 源码中,`runtime.h` 文件定义了关键数据结构,`schedule()` 和 `findrunnable()` 函数实现了核心调度逻辑。通过深入研究 GMP 模型,可以更好地理解 Go 语言的并发机制。
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
88 0
|
2月前
|
安全 Java
Java多线程通信新解:本文通过生产者-消费者模型案例,深入解析wait()、notify()、notifyAll()方法的实用技巧
【10月更文挑战第20天】Java多线程通信新解:本文通过生产者-消费者模型案例,深入解析wait()、notify()、notifyAll()方法的实用技巧,包括避免在循环外调用wait()、优先使用notifyAll()、确保线程安全及处理InterruptedException等,帮助读者更好地掌握这些方法的应用。
25 1

推荐镜像

更多