新网银行金融科技挑战赛 AI算法赛道 亚军方案

简介: 新网银行金融科技挑战赛 AI算法赛道 亚军方案

1 赛事背景


2020年“创青春·交子杯”新网银行金融科技挑战赛-AI算法赛道,旨在鼓励选手运用前沿的人工智能技术解决金融科技等领域中的实际问题,激发选手创新能力,增强其动手能力。比赛挑战题目为“看见你的呼吸”,该项技术可应用于金融在线业务的生物识别、智能家居感应、智慧健康监控管理、健身训练助手等多个领域,期待挑战者利用机器学习和人工智能的最新成果,根据手机传感器的时间序列数据,设计出区分能力强、稳定性高的行为识别模型


2 题目描述


本次行为预测任务,参赛者需要利用从手机传感器采集的时间序列数据,建立模型识别对应时间段手机使用者的行为。该算法可应用于生活场景中走路、玩游戏等日常行为的识别,也可以应用于金融领域的客户异常行为实时识别,尤其是在在线信贷产品的申请、提现等关键服务环节。此类技术能进一步提升在电信诈骗、中介骗贷等金融场景中的欺诈风险识别和防范能力。


46.png


3 数据说明


数据总体概述:新网银行提供的手机行为数据集由多个采集对象使用安卓手机采集而成。样本采集对象包含多名男性和女性,年龄跨度在20-55岁,采集时要求采集对象在指定时间内按照其使用习惯完成指定动作。


  • 采集场景分为3类:行走、站立、坐卧;
  • 3个场景中各采集了:玩游戏、刷抖音或快手等短视频、看影视剧或综艺节目等长视频、网页浏览、编辑文字、其他动作(如拍照、语音通话、视频通话、发语音、图片PS)6类动作;
  • 此外,还单独设计了“递手机”的行为,此行为不区分场景。我们将“行为”定义为动作+场景的组合,因此共19种不同行为;
  • 训练集中已将行为预处理为0-18的编号(behavior_id)。
  • 数据集中每个行为片段(fragment_id)对应为5s的加速计读数:包含重力加速度(acc_xg, acc_yg, acc_zg)和不含重力加速度(acc_x, acc_y, acc_z);数据集每行对应fragment_id下某个时间点的加速计数据。
  • 数据分为训练集和测试集,分别用于训练模型和测试模型效果。


字段说明

序列 字段名称 格式 解释说明
字段1 fragment_id int 行为片段id
字段2 time_point int 采 集时间点(ms)
字段3 acc_x float 不含重力加速度的x轴分量(m/s^2)
字段4 acc_y float 不含重力加速度的y轴分量(m/s^2)
字段5 acc_z float 不含重力加速度的z轴分量(m/s^2)
字段6 acc_xg float 包含重力加速度的x轴分量(m/s^2)
字段7 acc_yg float 包含重力加速度的y轴分量(m/s^2)
字段8 acc_zg float 包含重力加速度的z轴分量(m/s^2)
字段9 behavior_id int 编号的行为id


用户行为片段时长统计:


47.png


4 解决方案


团队介绍:

  • 致Great:中科院计算所算法工程师,擅长极限操作
  • lrhao:腾讯数据分析师,有着丰富比赛经验,多项比赛大满贯
  • SJF:大一新生,充满无限创意与活力
  • pumpkin:同济大学,腾讯微信算法工程师,深度洞察数据


4.1 特征工程


每个fragment_id对应多条序列数据,然后可以对fragment_id进行聚合构建统计量特征、坐标轴夹角、空间向量平面等特征。


48.png


4.2 数据增强


在比赛实验中,我们尝试了以下四种不同方式的数据增强,

  • 构建双向序列输入

    49.png

    构建方向输入的想法由“视频倒放也能表示一副画面”启发,但是反向输入有两种使用方式,第一种是作为输入,通过深度网络得到片段表示;另外一个是直接作为数据增强,当做训练数据,反向序列的标签和原始正向序列标签一致。实验发现,第二种方式线下分数较高,相比第一种但是线上提升有限。


  • 三次样条插值

    50.png


  • 噪声增强

    51.png


  • Mixup

    52.png

    其中“构建双向输入”对我们模型效果有不小幅度的提升,“噪声增强”抑制了模型过拟合,具体使用可以详见代码


4.3 核心模型1:基于多输入的CNN-MLP模型


53.png


在比赛进行到一定阶段,由初期的l基于特征工程的gb模型开始转向CNN等深度学习模型,在实验模型中我们尝试将前期工程的特征工程工作通过全连接学习得到高阶特征向量表示,之后与正向、反向输入的深度二维卷积网络的学习表示拼接,最后通过Dense进行分类概率预测。其中只基于原始输入的Deep Conv2d可以取得一个不错的基线成绩,加上Feature的深度特征表示以及反向输入对模型提升较大。


4.4 核心模型2:基于多尺度双向序列的CNN-DNN模型


在复赛阶段,大家会发现复赛数据的行为序列片段长度明显短于初赛的片段长度,导致Conv2D模型效果下降,随后我们调整了部分初赛模型的模块


54.png


  • 对于输入部分,由于存在各种尺度的行为序列片段,导致不能使用一个单一的填充长度,并且对于过长或者过短片段 ,截取或者填充来带来很大噪声,所以我们构建了多尺度的输入,以丰富模型学习能力
  • 对于数据填充部分,我们尝试了多种采样方式,最后使用了效果最佳的周期采样的方式
  • 由于存在过短数据,导致Conv2D学习能力下降,随之将Conv2D替换成了Conv1D,并且线上效果Conv1D明显由于Conv2D


4.5 核心模型3:基于多尺度的LSTM-FCN模型


55.png


来源:LSTM Fully Convolutional Networks for Time Series Classification

在比赛实验方案中,我们尝试了LSTM-FCN模型,并且采用多尺度输入,在复赛中也取得了不错的得分,对后续我们模型融合提升帮助不小。


5 比赛总结


  • 结合手动设计特征帮助自动提取特征实现更丰富的特征信息提取
  • 双向序列的信息输入增强了模型学习能力
  • 针对序列不平衡的对尺度输入变换
  • 我们图案段敢于尝试与创新,坚持不懈,不到最后一刻永不放弃,协调好了团队之间的分工与配合
  • 不足之处:没有尝试stakcing融合;没有继续优化ML模型
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
当AI提示词遇见精密算法:TimeGuessr如何用数学魔法打造文化游戏新体验
TimeGuessr融合AI与历史文化,首创时间与空间双维度评分体系,结合分段惩罚、Haversine距离计算与加权算法,辅以连击、速度与完美奖励机制,实现公平且富挑战性的游戏体验。
|
2月前
|
数据采集 存储 人工智能
基于 EventBridge 构筑 AI 领域高效数据集成方案
本文深入探讨了AI时代数据处理的变革与挑战,分析了事件驱动架构(EventBridge)在AI数据处理中的技术优势,并结合实践案例,展示了其在多源数据接入、向量数据库优化、智能数据转换等方面的应用价值。
453 30
|
2月前
|
存储 人工智能 安全
【阿里云基础设施 AI Tech Day】 AI Infra 建设方案及最佳实践沙龙圆
聚焦 AI Infra 建设方案及最佳实践,「智驱未来,云网随行:AI Infra 建设方案及最佳实践」沙龙阿里云基础设施 AI Tech Day 北京站于 8 月 8 日下午在北京全球创新社区顺利举办,活动现场吸引了来自月之暗面、字节、小米、爱奇艺、360、雪球、猿辅导、奥迪等 16 家相关 AI 领域领先企业或有AI建设诉求企业的 32 名业务/技术骨干参与。本次技术沙龙旨在聚焦企业建设高效、高可用的 AI Infra,深入解析 AI 驱动的原子能力与场景化架构设计,分享从基础网络建设、算力池化、存储调度,以及 VPC RDMA 性能优化、Agent 智能体出海等场景的全链路方案,助力企业
232 1
|
2月前
|
存储 人工智能 NoSQL
基于PolarDB-PG一站式AI Agent长记忆方案
本文介绍了基于PolarDB-PG的AI Agent长记忆方案,结合Mem0框架,提供向量与图数据库一站式支持,解决LLM跨会话、跨应用“失忆”问题。方案具备跨会话记忆、个性化服务、高效检索等能力,适用于各类AI应用场景。
|
3月前
|
人工智能 JSON 开发工具
解决提示词痛点:用AI智能体自动检测矛盾、优化格式的完整方案
本文介绍了一种基于用户意图的提示词优化系统,利用多智能体架构实现自动化优化,提升少样本学习场景下的提示词质量与模型匹配度。系统通过专用智能体协同工作,识别并修复逻辑矛盾、格式不清及示例不一致等问题,结合Pydantic结构化数据模型与OpenAI评估框架,实现高效、可扩展的提示词优化流程。该方案显著减少了人工干预,增强了系统效率与输出一致性,适用于复杂研究任务与深度AI应用。
456 0
解决提示词痛点:用AI智能体自动检测矛盾、优化格式的完整方案
|
2月前
|
传感器 人工智能 运维
如何在AR运维巡检中导入AI识别方案,达到智慧巡检目的
在工业运维巡检中,传统依赖人工的方式易出错且效率低。通过融合AR与AI技术,构建智慧巡检闭环,实现设备状态自动识别、预测性维护与高效协同。本文从场景锚定、知识沉淀、交互优化、反馈闭环、模型选型五大维度,解析AI识别方案的落地路径,助力工业智能化转型。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
MCP、LLM与Agent:企业AI实施的新基建设计方案
MCP+LLM+Agent架构通过"大脑-神经网络-手脚"的协同机制,实现从数据贯通到自主执行的智能闭环。本文将深度解析该架构如何将产线排查效率提升5倍、让LLM专业术语识别准确率提升26%,并提供从技术选型到分层落地的实战指南,助力企业打造真正融入业务流的"数字员工"。通过协议标准化、动态规划与自愈执行的三重突破,推动AI从演示场景迈向核心业务深水区。
|
11天前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
176 13
|
21天前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
395 22
|
10天前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
111 3

热门文章

最新文章