蚂蚁金服2018ATEC高校技术论坛圆满结束,来看现场的AI技术吧!

简介:

小蚂蚁说:

从6月6日开始,蚂蚁金服在全国范围内举办了2018 ATEC高校技术论坛巡回演讲活动。为期两周的巡回活动中,蚂蚁金服技术专家团队先后走进哈尔滨、北京、上海、南京等地高校,结合蚂蚁金服AI实际案例,与学界研究者共同探讨人工智能在金融领域的应用研究课题。

近日活动已圆满结束,本文是我们从现场带回的精华内容分享,一起来看看吧!


1ed01dcdc15d0df43e3af6ef6279ccf19e1d78ed

前言

据了解,本次高校技术论坛围绕金融科技领域两大挑战难题——风险识别与智能客服的技术实践进行了深入探讨。在金融科技领域,如何对战不断升级的黑产攻击,确保数亿消费者资金安全;以及如何通过技术算法为用户提供更智能的金融服务,被视为金融科技要解决的根目录问题。其挑战之大、前景之广阔,从各高校技术论坛火爆的现场中可见一斑。

作为蚂蚁金服ATEC科技品牌之一,ATEC高校技术论坛将持续关注前沿技术的学术研究与应用开发等问题,以加深产学研之间的有效互动,为中国培养核心人才、掌握核心技术而共同努力。

【NLP中识别语义相似度的核心算法】

分享嘉宾:张家兴博士,蚂蚁金服人工智能部技术总监、资深算法专家。

智能客服中,业务的目标是通过智能化的手段满足用户服务诉求,来自助答疑、分担人工客服压力,其中最重要的两点就是智库的构建以及客服对用户意图的理解。

针对智库语义匹配,在语义框架方面蚂蚁金服有较为成熟的实践。比如多模型混合,主要包含两个部分,第一部分是基于深度神经网络构建的匹配模型,此外还采用了传统的比如Jaccard 距离、BM25、WMD,还有LDA一些语义结构的内容,可以看到,在智能客服的时候,语义匹配是核心,语义匹配除了离线智库匹配、在线客服还应用在很多搜索的场景、对话的场景等。

不只是语义匹配

学术领域中,语义相似度的计算有更严格的定义。比如哈尔滨工业大学刘挺教授曾指出,更严谨的表述应该是“问句的复述(Paraphrase)”。所谓问句的复述是指,一个问句有其他的说法,把内容进行重新的表达。翻译也是这样,中文翻译到中文也是一种复述的方法。

第二种和任务相同的就是“蕴含(Textual Entailment)”。蕴含的标签有三种,一是一句话是不是包含了另一句话的意思,二是这两句话是中性的没有任何的相关性,三是表达相反的意思。虽然标签比较多但根还是在表述这两句话的关系是什么,从更广义或者抽象的角度来说这是一个相关性的问题,可以是Query-Document的相关性,也可以是Question-Answer的相关性,更抽象一点是个匹配的问题比如“人-商品、人-内容”等。

所以说相似问题的计算不仅局限于判断哪句话和哪句话相似,更多的是判断两句话之间的关系,包括人和物品之间、物品和物品之间的关系等范畴。

【对抗攻击和深度学习模型的防御】

分享嘉宾:朱军博士,清华大学计算机系长聘副教授、卡内基梅隆大学兼职教授

对抗样本已经证明,为一个模型生成对抗样本也可以欺骗另一个模型。对抗样本使黑箱攻击成为可能,这可能会在真实世界的应用中导致真正的安全问题。

所谓对抗样本,就是对输入数据进行略微修改,以使得机器学习算法对该输入给出错误的分类结果。目前的机器学习分类器很容易受到对抗样本的攻击。在欺诈风险识别场景中,AI模型需要具有在对抗环境下仍然保持正常运行的鲁棒性。

进一步讲,在对抗机器学习中,防御者应对的是一个开放的问题,即攻击者发来的分布输入是未知的,且多变的,因此对抗防御中,仅仅提供针对某种单一的攻击方式的防御方式,或者一系列研究人员提前准备好的防御方式是不够的,模型要应对不同的攻击。

【风控数据的特征以及创新的算法与效果】

分享嘉宾:周俊,蚂蚁金服资深算法专家

所谓支付安全、风险控制,这本身是一个行业性的问题,就是——如果发生了交易风险,我们如何用大数据的方法去识别它、控制它。

风控体系四个特点

理解风控领域的四个特点能帮助我们更好地理解风控数据的特征和特性:

A 样本失衡。99.99%的交易方都是好人,真正产生案件的交易是非常少的,这样一个明显是黑样本有缺失的情况下如何去建模,怎样去提升整个模型的准确率,这是我们要去考虑的;

B 数据海量。在风控体系运行中,风控要采集非常非常多的数据,如何保证上亿数的数据安全地应用,这对整个工程体系是巨大的挑战;

C 攻防激烈。支付风控对坏人是一个攻防和博弈的过程,坏人在反复测试你的策略,但同时你的风控系统也在不停地升级。也就是说,风险识别的核心是对抗,模型要应对不同的攻击。

D 影响巨大。整个风控对业务的影响非常巨大。举个例子,如果今天风控系统识别风险的概率是50%,那意味着我们一半的交易是抓错的、一半的交易是抓对的,那些我们抓错的的交易会对用户带来困扰,因为他明明是好人,却会被风控抓到。所以风控的高准确概率非常重要。

风控建模的影响因素

A.规则vs模型

在解决一个工业问题的时候,我们应该更看重哪个方法能够更快更高效地去解决问题,而不是一味倾向于迁移学习等越复杂的算法或者越创新的算法去解决问题。

所以面对这个场景,我们可以思考的是能否抽象出明确的规则。规则具有准确性高等好处,能保证覆盖识别基础的风险。相对于规则,模型最大的价值在于其本身有很多的变量,因为规则本身比较简单,大部分都是if /else的逻辑,但是对于模型来说,规则可以消费非常多的变量。

B.黑样本检测vs 白样本检测

影响风控建模的第二大因素是样本的检测。目前大家建模的时候通常把Y设置成黑样本,但风控就是一个激烈对抗的过程,所以当把Y设置成黑样本的时候会发现Y的属性一直在变。这时候其实可以考虑检测一些白样本,因为好人的行为是比较固定的,某种程度上来说好人的行为更符合一个模型的定义。实践中需要判定哪些人是坏人,以及哪些人是好人,其实两者是分不开的。

C.用户分群vs检测分层

另外是用户分群和检测分层。整个建模领域中有个非常重要概念—— segmentation。我们在做模型的时候可以对用户做分类,即根据不同的人、群体去建模,用分而治之的方法去解决问题,样对每类用户的识别更加精准。举个例子,在风控领域,蚂蚁金服的客户中有商家,也有个人用户,不同用户有不同属性。比如商户类,一些的高频行为可能是make sense的;但对于个人类用户来说,就很难在一个段时间内做如此高频的交易,所以把商户、个人用户一起建模的话就会产生一些问题,所以鼓励大家做一些用户分群。第二个是检测分层,我们不仅可以去预测哪些是黑样本,也可以考虑去预测哪些是白样本。

D.模型集成

我们有很多的模型、算法,比如randomforest、GBDT、DNN等,其实算法因为本身原理、性能、构成的不同适用于不同的领域或者适用于解决不同的问题,这时候我们就有必要对不同模型进行集成。举个例子,我们可以尝试把一个深度学习的模型和一个DNN的模型进行结合,或尝试通过把一个问题拆解成多个问题然后做模型的集成。在工程实践中,我们更关注的应是模型的结果而非只能用一种算法。

E. 特征工程

最后对风控建模有重要影响的是特征工程。特征工程的本质是你对一个业务的理解,基于你对这个业务的理解去定义变量是什么。

……

如果觉得这些干货还不过瘾,来一把实战深度体验吧!

【开发者大赛介绍】

为了推动AI在金融领域的工程化落地,解决风险识别与智能客服两大场景难题,蚂蚁金服在2018年4 月 25 日面向全球启动首届金融科技开发者大赛,开放具体实战场景,设立百万奖金池,悬赏安全风控和智能金融服务最优算法。

据了解,此次大赛从普惠金融服务代表的金融大脑和精准风控代表的风险大脑两个维度出发,同时赛题涉及 NLP、机器学习、神经网络等支撑金融服务背后的技术领域。大赛启动至今,赛题打榜盛况空间,参赛模型准确率不断提升。据统计,截止目前,大赛已经吸引了来自全球超过5000支队伍参与,涵盖学术界与工业界AI研究精英,硕士博士参赛者过半。

而上述高校技术论坛的精华分享,也是针对本次大赛赛题的深度解读。有兴趣挑战者两大难题的朋友,现在仍可登录大赛官网进行报名,点击【阅读原文】可跳转至官网。

据了解,大赛主办方将针对金融大脑赛题在初赛期间开放10万训练集,进入决赛的选手们将在一年一度云栖大会主场现场巅峰对决!

据称,智能金融服务赛题初赛进入Top100、支付风险识别赛题进入Top150的队伍可以进入复赛!

【大赛亮点】

• 最前沿:金融科技行业级高质量课题

• 最权威:中、美、英全球顶尖AI长老联合发布

• 最大咖:世界级大咖全程赛事指导

• 最心动:百万奖金池,亿级实践场景

【奖项及激励】

单题奖金

一等奖:一支队伍,300000元/队

二等奖:一支队伍,200000元/队

三等奖:一支队伍,100000元/队

TOP20优胜奖:

大赛认证证书

1、蚂蚁金服集团技术岗绿色通道

(前三名,直通终面资格,第四-二十名,免笔试初试资格。每队至少一人,一年内有效)

2、学界实验室:高校深度合作项目机会

3、创客团队:技术投资合作机会

【赛程】

比赛已正式启动,数据集也已正式开放下载。

大赛初赛截止日期为2018年7月8日。

复赛时间为2018年7月13日至2018年8月26日。

最终优胜复赛队伍于2018年9月中下旬进行决赛答辩以及颁奖。

现在即可登录大赛官网进行提前报名,复制打开 https://dc.antfin.com/ 可跳转至官网哦。

【加入大赛群,参与赛题讨论】

添加「蚂蚁金服科技」,微信号:Ant-Techfin01,备注:蚂蚁,由小助手邀请进群。第一时间获取大赛相关信息,一起讨论赛题,以及与其他小伙伴互动交流。

目录
相关文章
|
7天前
|
机器学习/深度学习 数据采集 人工智能
探索AI技术在文本生成中的应用与挑战
【9月更文挑战第26天】本文深入探讨了AI技术在文本生成领域的应用,并分析了其面临的挑战。通过介绍AI文本生成的基本原理、应用场景以及未来发展趋势,帮助读者全面了解该技术的潜力和局限性。同时,文章还提供了代码示例,展示了如何使用Python和相关库实现简单的文本生成模型。
30 9
|
7天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术融合
本文探讨了人工智能(AI)在未来医疗领域的应用及其潜在影响。通过分析当前的技术进步和具体案例,如AI辅助诊断、个性化治疗方案及医疗机器人等,展示了AI如何提高医疗服务的效率和准确性,降低医疗成本,并增强患者的治疗体验。同时,文章也讨论了AI在医疗中面临的伦理和隐私问题,以及解决这些问题的可能途径。最后,本文对AI在未来医疗中的前景进行了展望,指出其将继续深刻改变医疗保健行业,为患者和医疗专业人员带来更多福祉。
|
8天前
|
机器学习/深度学习 存储 人工智能
AI与未来医疗:技术的飞跃与挑战
在当今科技迅速发展的时代,人工智能(AI)正以前所未有的速度渗透到各行各业。特别是在医疗领域,AI的潜力和应用前景令人瞩目。本文将探讨AI在未来医疗中的角色,分析其带来的变革与挑战,并展望未来的发展方向。
|
1天前
|
人工智能 自然语言处理 搜索推荐
AI技术在智能客服系统中的应用与挑战
【9月更文挑战第32天】本文将探讨AI技术在智能客服系统中的应用及其面临的挑战。我们将分析AI技术如何改变传统客服模式,提高服务质量和效率,并讨论在实际应用中可能遇到的问题和解决方案。
89 65
|
1天前
|
人工智能 缓存 搜索推荐
OPENAI DevDay 2024:推动AI技术的新边界
在今年的OPENAI DevDay活动中,尽管形式更为低调,但OpenAI依然带来了四项令人瞩目的技术创新,展示了其在推动人工智能开发者生态方面的持续努力,以及向更高效、用户友好的AI工具转型的决心。我将为大家详细介绍这些新产品
24 10
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术性文章
【9月更文挑战第27天】本文将深入探讨人工智能(AI)技术在现代社会的应用和发展。我们将从AI的基本概念开始,探讨其在各个领域的应用,包括医疗保健、交通、金融等。我们还将讨论AI技术的挑战和未来趋势。
|
9天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术,守护人类健康
本文探讨了人工智能在医疗领域的应用及其对未来的深远影响。通过具体案例和深入分析,我们了解到AI如何提升医疗诊断的准确性、优化治疗方案以及改善患者管理。从医学影像分析到个性化治疗,再到医疗机器人的应用,AI正在全方位地改变医疗行业。同时,我们也讨论了这一技术带来的挑战和伦理问题,并提出了相应的对策。总之,AI在医疗领域的广泛应用不仅为医生提供了有力支持,也显著提高了患者的生活质量。
|
9天前
|
人工智能 搜索推荐 算法
AI技术如何重塑未来医疗行业
本文探讨了人工智能 (AI) 在医疗行业中的应用及其对未来的深远影响。通过分析AI在疾病诊断、个性化治疗及医疗管理中的具体作用,揭示了AI技术如何提升医疗服务的效率和质量。同时,文章也讨论了在广泛应用AI过程中需要面对的伦理与法律问题。
27 3
|
6天前
|
数据采集 机器学习/深度学习 人工智能
云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进
本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人:林伟 | 阿里云智能集团研究员、阿里云人工智能平台 PAI 负责人;黄博远|阿里云智能集团资深产品专家、阿里云人工智能平台 PAI 产品负责人 活动:2024 云栖大会 - AI Infra 核心技术专场、人工智能平台 PAI 年度发布专场
|
7天前
|
机器学习/深度学习 人工智能 开发框架
智能ai量化高频策略交易软件、现货合约跟单模式开发技术规则
该项目涵盖智能AI量化高频策略交易软件及现货合约跟单模式开发,融合人工智能、量化交易与软件工程。软件开发包括需求分析、技术选型、系统构建、测试部署及运维;跟单模式则涉及功能定义、策略开发、交易执行、终端设计与市场推广,确保系统高效稳定运行。

热门文章

最新文章

下一篇
无影云桌面