新网银行金融科技挑战赛 AI算法赛道 亚军方案

简介: 新网银行金融科技挑战赛 AI算法赛道 亚军方案

1 赛事背景


2020年“创青春·交子杯”新网银行金融科技挑战赛-AI算法赛道,旨在鼓励选手运用前沿的人工智能技术解决金融科技等领域中的实际问题,激发选手创新能力,增强其动手能力。比赛挑战题目为“看见你的呼吸”,该项技术可应用于金融在线业务的生物识别、智能家居感应、智慧健康监控管理、健身训练助手等多个领域,期待挑战者利用机器学习和人工智能的最新成果,根据手机传感器的时间序列数据,设计出区分能力强、稳定性高的行为识别模型


2 题目描述


本次行为预测任务,参赛者需要利用从手机传感器采集的时间序列数据,建立模型识别对应时间段手机使用者的行为。该算法可应用于生活场景中走路、玩游戏等日常行为的识别,也可以应用于金融领域的客户异常行为实时识别,尤其是在在线信贷产品的申请、提现等关键服务环节。此类技术能进一步提升在电信诈骗、中介骗贷等金融场景中的欺诈风险识别和防范能力。


46.png


3 数据说明


数据总体概述:新网银行提供的手机行为数据集由多个采集对象使用安卓手机采集而成。样本采集对象包含多名男性和女性,年龄跨度在20-55岁,采集时要求采集对象在指定时间内按照其使用习惯完成指定动作。


  • 采集场景分为3类:行走、站立、坐卧;
  • 3个场景中各采集了:玩游戏、刷抖音或快手等短视频、看影视剧或综艺节目等长视频、网页浏览、编辑文字、其他动作(如拍照、语音通话、视频通话、发语音、图片PS)6类动作;
  • 此外,还单独设计了“递手机”的行为,此行为不区分场景。我们将“行为”定义为动作+场景的组合,因此共19种不同行为;
  • 训练集中已将行为预处理为0-18的编号(behavior_id)。
  • 数据集中每个行为片段(fragment_id)对应为5s的加速计读数:包含重力加速度(acc_xg, acc_yg, acc_zg)和不含重力加速度(acc_x, acc_y, acc_z);数据集每行对应fragment_id下某个时间点的加速计数据。
  • 数据分为训练集和测试集,分别用于训练模型和测试模型效果。


字段说明

序列 字段名称 格式 解释说明
字段1 fragment_id int 行为片段id
字段2 time_point int 采 集时间点(ms)
字段3 acc_x float 不含重力加速度的x轴分量(m/s^2)
字段4 acc_y float 不含重力加速度的y轴分量(m/s^2)
字段5 acc_z float 不含重力加速度的z轴分量(m/s^2)
字段6 acc_xg float 包含重力加速度的x轴分量(m/s^2)
字段7 acc_yg float 包含重力加速度的y轴分量(m/s^2)
字段8 acc_zg float 包含重力加速度的z轴分量(m/s^2)
字段9 behavior_id int 编号的行为id


用户行为片段时长统计:


47.png


4 解决方案


团队介绍:

  • 致Great:中科院计算所算法工程师,擅长极限操作
  • lrhao:腾讯数据分析师,有着丰富比赛经验,多项比赛大满贯
  • SJF:大一新生,充满无限创意与活力
  • pumpkin:同济大学,腾讯微信算法工程师,深度洞察数据


4.1 特征工程


每个fragment_id对应多条序列数据,然后可以对fragment_id进行聚合构建统计量特征、坐标轴夹角、空间向量平面等特征。


48.png


4.2 数据增强


在比赛实验中,我们尝试了以下四种不同方式的数据增强,

  • 构建双向序列输入

    49.png

    构建方向输入的想法由“视频倒放也能表示一副画面”启发,但是反向输入有两种使用方式,第一种是作为输入,通过深度网络得到片段表示;另外一个是直接作为数据增强,当做训练数据,反向序列的标签和原始正向序列标签一致。实验发现,第二种方式线下分数较高,相比第一种但是线上提升有限。


  • 三次样条插值

    50.png


  • 噪声增强

    51.png


  • Mixup

    52.png

    其中“构建双向输入”对我们模型效果有不小幅度的提升,“噪声增强”抑制了模型过拟合,具体使用可以详见代码


4.3 核心模型1:基于多输入的CNN-MLP模型


53.png


在比赛进行到一定阶段,由初期的l基于特征工程的gb模型开始转向CNN等深度学习模型,在实验模型中我们尝试将前期工程的特征工程工作通过全连接学习得到高阶特征向量表示,之后与正向、反向输入的深度二维卷积网络的学习表示拼接,最后通过Dense进行分类概率预测。其中只基于原始输入的Deep Conv2d可以取得一个不错的基线成绩,加上Feature的深度特征表示以及反向输入对模型提升较大。


4.4 核心模型2:基于多尺度双向序列的CNN-DNN模型


在复赛阶段,大家会发现复赛数据的行为序列片段长度明显短于初赛的片段长度,导致Conv2D模型效果下降,随后我们调整了部分初赛模型的模块


54.png


  • 对于输入部分,由于存在各种尺度的行为序列片段,导致不能使用一个单一的填充长度,并且对于过长或者过短片段 ,截取或者填充来带来很大噪声,所以我们构建了多尺度的输入,以丰富模型学习能力
  • 对于数据填充部分,我们尝试了多种采样方式,最后使用了效果最佳的周期采样的方式
  • 由于存在过短数据,导致Conv2D学习能力下降,随之将Conv2D替换成了Conv1D,并且线上效果Conv1D明显由于Conv2D


4.5 核心模型3:基于多尺度的LSTM-FCN模型


55.png


来源:LSTM Fully Convolutional Networks for Time Series Classification

在比赛实验方案中,我们尝试了LSTM-FCN模型,并且采用多尺度输入,在复赛中也取得了不错的得分,对后续我们模型融合提升帮助不小。


5 比赛总结


  • 结合手动设计特征帮助自动提取特征实现更丰富的特征信息提取
  • 双向序列的信息输入增强了模型学习能力
  • 针对序列不平衡的对尺度输入变换
  • 我们图案段敢于尝试与创新,坚持不懈,不到最后一刻永不放弃,协调好了团队之间的分工与配合
  • 不足之处:没有尝试stakcing融合;没有继续优化ML模型
相关文章
|
3天前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
3天前
|
传感器 人工智能 监控
智慧化工厂AI算法方案
智慧化工厂AI算法方案针对化工行业生产过程中的安全风险、效率瓶颈、环保压力和数据管理不足等问题,通过深度学习、大数据分析等技术,实现生产过程的实时监控与优化、设备故障预测与维护、安全预警与应急响应、环保监测与治理优化,全面提升工厂的智能化水平和管理效能。
智慧化工厂AI算法方案
|
1月前
|
机器学习/深度学习 人工智能 开发框架
【AI系统】AI 学习方法与算法现状
在人工智能的历史长河中,我们见证了从规则驱动系统到现代机器学习模型的转变。AI的学习方法基于深度神经网络,通过前向传播、反向传播和梯度更新不断优化权重,实现从训练到推理的过程。当前,AI算法如CNN、RNN、GNN和GAN等在各自领域取得突破,推动技术进步的同时也带来了更大的挑战,要求算法工程师与系统设计师紧密合作,共同拓展AI技术的边界。
76 1
|
20天前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
28 0
|
30天前
|
人工智能 算法 前端开发
无界批发零售定义及无界AI算法,打破传统壁垒,累积数据流量
“无界批发与零售”是一种结合了批发与零售的商业模式,通过后端逻辑、数据库设计和前端用户界面实现。该模式支持用户注册、登录、商品管理、订单处理、批发与零售功能,并根据用户行为计算信用等级,确保交易安全与高效。
|
30天前
|
人工智能 算法 JavaScript
无界SaaS与AI算力算法,链接裂变万企万商万物互联
本文介绍了一种基于无界SaaS与AI算力算法的商业模式的技术实现方案,涵盖前端、后端、数据库及AI算法等关键部分。通过React.js构建用户界面,Node.js与Express搭建后端服务,MongoDB存储数据,TensorFlow实现AI功能。提供了项目结构、代码示例及部署建议,强调了安全性、可扩展性和性能优化的重要性。
|
24天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
8天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
10天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
10天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。