小蚂蚁说:
从6月6日开始,蚂蚁金服在全国范围内举办了2018 ATEC高校技术论坛巡回演讲活动。为期两周的巡回活动中,蚂蚁金服技术专家团队先后走进哈尔滨、北京、上海、南京等地高校,结合蚂蚁金服AI实际案例,与学界研究者共同探讨人工智能在金融领域的应用研究课题。
近日活动已圆满结束,本文是我们从现场带回的精华内容分享,一起来看看吧!
前言
据了解,本次高校技术论坛围绕金融科技领域两大挑战难题——风险识别与智能客服的技术实践进行了深入探讨。在金融科技领域,如何对战不断升级的黑产攻击,确保数亿消费者资金安全;以及如何通过技术算法为用户提供更智能的金融服务,被视为金融科技要解决的根目录问题。其挑战之大、前景之广阔,从各高校技术论坛火爆的现场中可见一斑。
作为蚂蚁金服ATEC科技品牌之一,ATEC高校技术论坛将持续关注前沿技术的学术研究与应用开发等问题,以加深产学研之间的有效互动,为中国培养核心人才、掌握核心技术而共同努力。
【NLP中识别语义相似度的核心算法】
分享嘉宾:张家兴博士,蚂蚁金服人工智能部技术总监、资深算法专家。
智能客服中,业务的目标是通过智能化的手段满足用户服务诉求,来自助答疑、分担人工客服压力,其中最重要的两点就是智库的构建以及客服对用户意图的理解。
针对智库语义匹配,在语义框架方面蚂蚁金服有较为成熟的实践。比如多模型混合,主要包含两个部分,第一部分是基于深度神经网络构建的匹配模型,此外还采用了传统的比如Jaccard 距离、BM25、WMD,还有LDA一些语义结构的内容,可以看到,在智能客服的时候,语义匹配是核心,语义匹配除了离线智库匹配、在线客服还应用在很多搜索的场景、对话的场景等。
不只是语义匹配
学术领域中,语义相似度的计算有更严格的定义。比如哈尔滨工业大学刘挺教授曾指出,更严谨的表述应该是“问句的复述(Paraphrase)”。所谓问句的复述是指,一个问句有其他的说法,把内容进行重新的表达。翻译也是这样,中文翻译到中文也是一种复述的方法。
第二种和任务相同的就是“蕴含(Textual Entailment)”。蕴含的标签有三种,一是一句话是不是包含了另一句话的意思,二是这两句话是中性的没有任何的相关性,三是表达相反的意思。虽然标签比较多但根还是在表述这两句话的关系是什么,从更广义或者抽象的角度来说这是一个相关性的问题,可以是Query-Document的相关性,也可以是Question-Answer的相关性,更抽象一点是个匹配的问题比如“人-商品、人-内容”等。
所以说相似问题的计算不仅局限于判断哪句话和哪句话相似,更多的是判断两句话之间的关系,包括人和物品之间、物品和物品之间的关系等范畴。
【对抗攻击和深度学习模型的防御】
分享嘉宾:朱军博士,清华大学计算机系长聘副教授、卡内基梅隆大学兼职教授
对抗样本已经证明,为一个模型生成对抗样本也可以欺骗另一个模型。对抗样本使黑箱攻击成为可能,这可能会在真实世界的应用中导致真正的安全问题。
所谓对抗样本,就是对输入数据进行略微修改,以使得机器学习算法对该输入给出错误的分类结果。目前的机器学习分类器很容易受到对抗样本的攻击。在欺诈风险识别场景中,AI模型需要具有在对抗环境下仍然保持正常运行的鲁棒性。
进一步讲,在对抗机器学习中,防御者应对的是一个开放的问题,即攻击者发来的分布输入是未知的,且多变的,因此对抗防御中,仅仅提供针对某种单一的攻击方式的防御方式,或者一系列研究人员提前准备好的防御方式是不够的,模型要应对不同的攻击。
【风控数据的特征以及创新的算法与效果】
分享嘉宾:周俊,蚂蚁金服资深算法专家
所谓支付安全、风险控制,这本身是一个行业性的问题,就是——如果发生了交易风险,我们如何用大数据的方法去识别它、控制它。
风控体系四个特点
理解风控领域的四个特点能帮助我们更好地理解风控数据的特征和特性:
A 样本失衡。99.99%的交易方都是好人,真正产生案件的交易是非常少的,这样一个明显是黑样本有缺失的情况下如何去建模,怎样去提升整个模型的准确率,这是我们要去考虑的;
B 数据海量。在风控体系运行中,风控要采集非常非常多的数据,如何保证上亿数的数据安全地应用,这对整个工程体系是巨大的挑战;
C 攻防激烈。支付风控对坏人是一个攻防和博弈的过程,坏人在反复测试你的策略,但同时你的风控系统也在不停地升级。也就是说,风险识别的核心是对抗,模型要应对不同的攻击。
D 影响巨大。整个风控对业务的影响非常巨大。举个例子,如果今天风控系统识别风险的概率是50%,那意味着我们一半的交易是抓错的、一半的交易是抓对的,那些我们抓错的的交易会对用户带来困扰,因为他明明是好人,却会被风控抓到。所以风控的高准确概率非常重要。
风控建模的影响因素
A.规则vs模型
在解决一个工业问题的时候,我们应该更看重哪个方法能够更快更高效地去解决问题,而不是一味倾向于迁移学习等越复杂的算法或者越创新的算法去解决问题。
所以面对这个场景,我们可以思考的是能否抽象出明确的规则。规则具有准确性高等好处,能保证覆盖识别基础的风险。相对于规则,模型最大的价值在于其本身有很多的变量,因为规则本身比较简单,大部分都是if /else的逻辑,但是对于模型来说,规则可以消费非常多的变量。
B.黑样本检测vs 白样本检测
影响风控建模的第二大因素是样本的检测。目前大家建模的时候通常把Y设置成黑样本,但风控就是一个激烈对抗的过程,所以当把Y设置成黑样本的时候会发现Y的属性一直在变。这时候其实可以考虑检测一些白样本,因为好人的行为是比较固定的,某种程度上来说好人的行为更符合一个模型的定义。实践中需要判定哪些人是坏人,以及哪些人是好人,其实两者是分不开的。
C.用户分群vs检测分层
另外是用户分群和检测分层。整个建模领域中有个非常重要概念—— segmentation。我们在做模型的时候可以对用户做分类,即根据不同的人、群体去建模,用分而治之的方法去解决问题,样对每类用户的识别更加精准。举个例子,在风控领域,蚂蚁金服的客户中有商家,也有个人用户,不同用户有不同属性。比如商户类,一些的高频行为可能是make sense的;但对于个人类用户来说,就很难在一个段时间内做如此高频的交易,所以把商户、个人用户一起建模的话就会产生一些问题,所以鼓励大家做一些用户分群。第二个是检测分层,我们不仅可以去预测哪些是黑样本,也可以考虑去预测哪些是白样本。
D.模型集成
我们有很多的模型、算法,比如randomforest、GBDT、DNN等,其实算法因为本身原理、性能、构成的不同适用于不同的领域或者适用于解决不同的问题,这时候我们就有必要对不同模型进行集成。举个例子,我们可以尝试把一个深度学习的模型和一个DNN的模型进行结合,或尝试通过把一个问题拆解成多个问题然后做模型的集成。在工程实践中,我们更关注的应是模型的结果而非只能用一种算法。
E. 特征工程
最后对风控建模有重要影响的是特征工程。特征工程的本质是你对一个业务的理解,基于你对这个业务的理解去定义变量是什么。
……
如果觉得这些干货还不过瘾,来一把实战深度体验吧!
【开发者大赛介绍】
为了推动AI在金融领域的工程化落地,解决风险识别与智能客服两大场景难题,蚂蚁金服在2018年4 月 25 日面向全球启动首届金融科技开发者大赛,开放具体实战场景,设立百万奖金池,悬赏安全风控和智能金融服务最优算法。
据了解,此次大赛从普惠金融服务代表的金融大脑和精准风控代表的风险大脑两个维度出发,同时赛题涉及 NLP、机器学习、神经网络等支撑金融服务背后的技术领域。大赛启动至今,赛题打榜盛况空间,参赛模型准确率不断提升。据统计,截止目前,大赛已经吸引了来自全球超过5000支队伍参与,涵盖学术界与工业界AI研究精英,硕士博士参赛者过半。
而上述高校技术论坛的精华分享,也是针对本次大赛赛题的深度解读。有兴趣挑战者两大难题的朋友,现在仍可登录大赛官网进行报名,点击【阅读原文】可跳转至官网。
据了解,大赛主办方将针对金融大脑赛题在初赛期间开放10万训练集,进入决赛的选手们将在一年一度云栖大会主场现场巅峰对决!
据称,智能金融服务赛题初赛进入Top100、支付风险识别赛题进入Top150的队伍可以进入复赛!
【大赛亮点】
• 最前沿:金融科技行业级高质量课题
• 最权威:中、美、英全球顶尖AI长老联合发布
• 最大咖:世界级大咖全程赛事指导
• 最心动:百万奖金池,亿级实践场景
【奖项及激励】
单题奖金
一等奖:一支队伍,300000元/队
二等奖:一支队伍,200000元/队
三等奖:一支队伍,100000元/队
TOP20优胜奖:
大赛认证证书
1、蚂蚁金服集团技术岗绿色通道
(前三名,直通终面资格,第四-二十名,免笔试初试资格。每队至少一人,一年内有效)
2、学界实验室:高校深度合作项目机会
3、创客团队:技术投资合作机会
【赛程】
比赛已正式启动,数据集也已正式开放下载。
大赛初赛截止日期为2018年7月8日。
复赛时间为2018年7月13日至2018年8月26日。
最终优胜复赛队伍于2018年9月中下旬进行决赛答辩以及颁奖。
现在即可登录大赛官网进行提前报名,复制打开 https://dc.antfin.com/ 可跳转至官网哦。
【加入大赛群,参与赛题讨论】
添加「蚂蚁金服科技」,微信号:Ant-Techfin01,备注:蚂蚁,由小助手邀请进群。第一时间获取大赛相关信息,一起讨论赛题,以及与其他小伙伴互动交流。