🏆字节跳动安全Ai挑战赛-小样本赛道方案总结

简介: 🏆字节跳动安全Ai挑战赛-小样本赛道方案总结

1 赛题描述


在真实的社交网络中,存在的作弊用户会影响社交网络平台。在真实场景中,会受到多方面的约束,我们仅能获取到少部分的作弊样本和一部分正常用户样本,现需利用已有的少量带标签的样本,去挖掘大量未知样本中的剩余作弊样本。

给定一段时间内的样本,其中包含少量作弊样本,部分正常样本以及标签未知的样本。参赛者应该利用这段时间内已有的数据,提出自己的解决方案,以预测标签未知的样本是否为作弊样本。

数据处理方法和算法不限,但是参赛者需要综合考虑算法的效果和复杂度,从而构建合理的解决方案。


2 题目思路


基于给定的少量样本,一个比较直接的思路是通过样本之间的关联性挖掘相关的黑样本,然后基于挖掘得到的相关黑样本训练一个二分类器,从而得到更多的黑样本。


3 题目数据


数据范围:

  • T~T+N 时刻内 点赞、关注事件下按比例抽样数据
    特征类型:
    54.png


4 数据统计:


  • 总账号数 :4579520
  • 带标签正常账号:102630
  • 带标签作弊账号数:10667
  • 总请求数量:8227327
  • 提交评估数据:151117

55.png


特征相关性统计如下:


56.png


请求数据中存在的都是类别变量,可以统计类别变量下的转化率,分析哪些特征潜在挖掘价值比较大;对于用户基础数据可以通过相关性系数直观上推断哪些变量比较重要。

对于数值特征,可以着重统计下用户粉丝数量与用户关注数量的差值特征、用户发布作品数量与用户作品喜欢数量的差值特征,这些可以逆势特征可以侧面发映出用户是否存在真实社交行为,而不是“白白”的黑产账号。


57.png


5 特征工程


特征工程决定了模型最后的效果,特征工程在做完常规基础特征之后,需要根据模型反馈的效果,可以围绕强特去做进一步的细化特征,最终我们取得了第五名的成绩。下面给出一些代码参考。我们在方案中主要构建了三个维度的特征,


用户画像特征:请求表征、基础特征


  • 请求数据的统计特征

    58.png

    59.png

## 时间特征
request_feature['app_channel_nacnt_time_ratio']=request_feature['app_channel_nacnt']/(request_feature['time_gap']+1e-3)
request_feature['device_type_nacnt_ratio']=request_feature['device_type_nacnt']/(request_feature['time_gap']+1e-3)
request_feature['request_app_channel_count_ratio']=request_feature['group_request_user_request_app_channel_count']/(request_feature['time_gap']+1e-3)
request_feature['request_count_time_ratio']=request_feature['request_user_count']/(request_feature['time_gap']+1e-3)
request_feature['request_device_type_count_time_ratio']=request_feature['group_request_user_request_device_type_count']/(request_feature['time_gap']+1e-3)
request_feature['request_ip_nuinque_ratio']=request_feature['group_request_user_request_ip_nunique']/(request_feature['time_gap']+1e-3)
request_feature['request_model_nuinque_ratio']=request_feature['group_request_user_request_model_id_nunique']/(request_feature['time_gap']+1e-3)
request_feature['request_target_nuinque_time_ratio']=request_feature['group_request_user_request_target_nunique']/(request_feature['time_gap']+1e-3)


60.png

## 强特 二阶unique特征
base_cols = [
    ['request_user', 'request_model_id'],
    ['request_user', 'request_device_type'],
    ['request_user', 'request_app_channel'],
    ['request_user', 'request_app_version'],
]
target_col = ['request_model_id', 'request_ip', 'request_target', 'request_device_type', 'request_app_version',
              'request_app_channel']
for base_pair in base_cols:
    for col in tqdm(target_col):
        if col not in base_pair:
            request_feature[col] = request_feature[col].fillna('NAN')
            request_feature[f'group_{base_pair[0]}_{base_pair[1]}_{col}_unique'] = \
            request_feature[base_pair + [col]].groupby(base_pair)[col].transform('nunique')


  • 用户基础信息的统计特征

    61.png


62.png


  • 目标编码

    63.png


用户关联特征:图嵌入式表示


64.png


行为特征:时间段内行为序列表示


65.png


模型构建


模型选取:LGB/XGB/CAT


通过在效率较高的LightGBM训练和迭代不同特征的模型并测试验证特征效果,最后在质量较高的特征基础之上,通过交叉验证的方式训练三种模型,得到最后三个模型最优结果。


66.png


模型融合:相加平均


在比赛过程中,我们针对三种模型尝试了不同的融合方案,包括投票融合,加权融合,还有stacking,但是融合收益比较小,最后我们选取的融合方式是直接将三种模型预测概率结果融合简单平均,能够达到融合收益最大。


67.png


特征重要性分析


68.png


6 总结与展望


在比赛过程中,我们尝试的树模型可解释性强且给出衍生特征构建方向,训练迭代速度快,另外用户行为特征,时间序列特征以及用户画像特征比较重要,同时用户与设备、用户与网络之间的网络特征有潜在挖掘价值。尝试不足的地方是没有有效通过有监督模型预测无标签数据集,之后进行伪标签学习,没有尝试神经网络模型或者图神经网络的实验效果

相关文章
|
4天前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
4天前
|
传感器 人工智能 监控
智慧化工厂AI算法方案
智慧化工厂AI算法方案针对化工行业生产过程中的安全风险、效率瓶颈、环保压力和数据管理不足等问题,通过深度学习、大数据分析等技术,实现生产过程的实时监控与优化、设备故障预测与维护、安全预警与应急响应、环保监测与治理优化,全面提升工厂的智能化水平和管理效能。
智慧化工厂AI算法方案
|
20天前
|
人工智能 安全 网络安全
揭秘!大模型私有化部署的全方位安全攻略与优化秘籍,让你的AI项目稳如磐石,数据安全无忧!
【10月更文挑战第24天】本文探讨了大模型私有化部署的安全性考量与优化策略,涵盖数据安全、防火墙配置、性能优化、容器化部署、模型更新和数据备份等方面,提供了实用的示例代码,旨在为企业提供全面的技术参考。
58 6
|
1月前
|
人工智能 Serverless
AI助理精准匹配,为您推荐方案——如何添加一个Stable Difussion图像生成应用
介绍了一种利用AI助手快速获取并搭建Stable Diffusion图像生成应用的方法。用户只需在阿里云官网向AI助手提出需求,即可获得详细的实施方案。随后,按照AI助手提供的方案,通过函数计算部署应用,并进行测试。此过程显著提升了开发效率。
797 2
AI助理精准匹配,为您推荐方案——如何添加一个Stable Difussion图像生成应用
|
28天前
|
人工智能 运维 安全
AI来袭,IT人的工作还安全吗?来自汽车行业CIO的探讨
AI来袭,IT人的工作还安全吗?来自汽车行业CIO的探讨
AI来袭,IT人的工作还安全吗?来自汽车行业CIO的探讨
|
1月前
|
人工智能 Serverless API
AI助理精准匹配,为您推荐方案——如何快速在网站上增加一个AI助手
通过向AI助理提问的方式,生成一个技术方案:在网站上增加一个AI助手,提供7*24的全天候服务,即时回答用户的问题和解决他们可能遇到的问题,无需等待人工客服上班,显著提升用户体验。
1889 13
|
1月前
|
存储 人工智能 Serverless
妙用AI助理帮您定方案、找细节
当您希望在繁琐的文档中迷失方向时,AI助理能为您提供清晰指引,助您轻松实现加速配置与获取核心代码参数,显著简化开发流程。无论是方案获取还是寻找细节,只需向AI助理提问,即可获得详细步骤与示例代码,大幅提升工作效率。点击右下角的AI助理,即刻体验便捷服务。
123 1
|
2月前
|
人工智能 安全 算法
5年数据观巨变,这家公司如何在AI和大模型数据赛道遥遥领先?
5年数据观巨变,这家公司如何在AI和大模型数据赛道遥遥领先?
111 12
|
2月前
|
人工智能 安全 开发者
由于安全风险,安全领导者考虑禁止用AI生成代码
由于安全风险,安全领导者考虑禁止用AI生成代码
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。

热门文章

最新文章