蚂蚁金服2018ATEC高校技术论坛圆满结束,来看现场的AI技术吧!

简介:

小蚂蚁说:

从6月6日开始,蚂蚁金服在全国范围内举办了2018 ATEC高校技术论坛巡回演讲活动。为期两周的巡回活动中,蚂蚁金服技术专家团队先后走进哈尔滨、北京、上海、南京等地高校,结合蚂蚁金服AI实际案例,与学界研究者共同探讨人工智能在金融领域的应用研究课题。

近日活动已圆满结束,本文是我们从现场带回的精华内容分享,一起来看看吧!


1ed01dcdc15d0df43e3af6ef6279ccf19e1d78ed

前言

据了解,本次高校技术论坛围绕金融科技领域两大挑战难题——风险识别与智能客服的技术实践进行了深入探讨。在金融科技领域,如何对战不断升级的黑产攻击,确保数亿消费者资金安全;以及如何通过技术算法为用户提供更智能的金融服务,被视为金融科技要解决的根目录问题。其挑战之大、前景之广阔,从各高校技术论坛火爆的现场中可见一斑。

作为蚂蚁金服ATEC科技品牌之一,ATEC高校技术论坛将持续关注前沿技术的学术研究与应用开发等问题,以加深产学研之间的有效互动,为中国培养核心人才、掌握核心技术而共同努力。

【NLP中识别语义相似度的核心算法】

分享嘉宾:张家兴博士,蚂蚁金服人工智能部技术总监、资深算法专家。

智能客服中,业务的目标是通过智能化的手段满足用户服务诉求,来自助答疑、分担人工客服压力,其中最重要的两点就是智库的构建以及客服对用户意图的理解。

针对智库语义匹配,在语义框架方面蚂蚁金服有较为成熟的实践。比如多模型混合,主要包含两个部分,第一部分是基于深度神经网络构建的匹配模型,此外还采用了传统的比如Jaccard 距离、BM25、WMD,还有LDA一些语义结构的内容,可以看到,在智能客服的时候,语义匹配是核心,语义匹配除了离线智库匹配、在线客服还应用在很多搜索的场景、对话的场景等。

不只是语义匹配

学术领域中,语义相似度的计算有更严格的定义。比如哈尔滨工业大学刘挺教授曾指出,更严谨的表述应该是“问句的复述(Paraphrase)”。所谓问句的复述是指,一个问句有其他的说法,把内容进行重新的表达。翻译也是这样,中文翻译到中文也是一种复述的方法。

第二种和任务相同的就是“蕴含(Textual Entailment)”。蕴含的标签有三种,一是一句话是不是包含了另一句话的意思,二是这两句话是中性的没有任何的相关性,三是表达相反的意思。虽然标签比较多但根还是在表述这两句话的关系是什么,从更广义或者抽象的角度来说这是一个相关性的问题,可以是Query-Document的相关性,也可以是Question-Answer的相关性,更抽象一点是个匹配的问题比如“人-商品、人-内容”等。

所以说相似问题的计算不仅局限于判断哪句话和哪句话相似,更多的是判断两句话之间的关系,包括人和物品之间、物品和物品之间的关系等范畴。

【对抗攻击和深度学习模型的防御】

分享嘉宾:朱军博士,清华大学计算机系长聘副教授、卡内基梅隆大学兼职教授

对抗样本已经证明,为一个模型生成对抗样本也可以欺骗另一个模型。对抗样本使黑箱攻击成为可能,这可能会在真实世界的应用中导致真正的安全问题。

所谓对抗样本,就是对输入数据进行略微修改,以使得机器学习算法对该输入给出错误的分类结果。目前的机器学习分类器很容易受到对抗样本的攻击。在欺诈风险识别场景中,AI模型需要具有在对抗环境下仍然保持正常运行的鲁棒性。

进一步讲,在对抗机器学习中,防御者应对的是一个开放的问题,即攻击者发来的分布输入是未知的,且多变的,因此对抗防御中,仅仅提供针对某种单一的攻击方式的防御方式,或者一系列研究人员提前准备好的防御方式是不够的,模型要应对不同的攻击。

【风控数据的特征以及创新的算法与效果】

分享嘉宾:周俊,蚂蚁金服资深算法专家

所谓支付安全、风险控制,这本身是一个行业性的问题,就是——如果发生了交易风险,我们如何用大数据的方法去识别它、控制它。

风控体系四个特点

理解风控领域的四个特点能帮助我们更好地理解风控数据的特征和特性:

A 样本失衡。99.99%的交易方都是好人,真正产生案件的交易是非常少的,这样一个明显是黑样本有缺失的情况下如何去建模,怎样去提升整个模型的准确率,这是我们要去考虑的;

B 数据海量。在风控体系运行中,风控要采集非常非常多的数据,如何保证上亿数的数据安全地应用,这对整个工程体系是巨大的挑战;

C 攻防激烈。支付风控对坏人是一个攻防和博弈的过程,坏人在反复测试你的策略,但同时你的风控系统也在不停地升级。也就是说,风险识别的核心是对抗,模型要应对不同的攻击。

D 影响巨大。整个风控对业务的影响非常巨大。举个例子,如果今天风控系统识别风险的概率是50%,那意味着我们一半的交易是抓错的、一半的交易是抓对的,那些我们抓错的的交易会对用户带来困扰,因为他明明是好人,却会被风控抓到。所以风控的高准确概率非常重要。

风控建模的影响因素

A.规则vs模型

在解决一个工业问题的时候,我们应该更看重哪个方法能够更快更高效地去解决问题,而不是一味倾向于迁移学习等越复杂的算法或者越创新的算法去解决问题。

所以面对这个场景,我们可以思考的是能否抽象出明确的规则。规则具有准确性高等好处,能保证覆盖识别基础的风险。相对于规则,模型最大的价值在于其本身有很多的变量,因为规则本身比较简单,大部分都是if /else的逻辑,但是对于模型来说,规则可以消费非常多的变量。

B.黑样本检测vs 白样本检测

影响风控建模的第二大因素是样本的检测。目前大家建模的时候通常把Y设置成黑样本,但风控就是一个激烈对抗的过程,所以当把Y设置成黑样本的时候会发现Y的属性一直在变。这时候其实可以考虑检测一些白样本,因为好人的行为是比较固定的,某种程度上来说好人的行为更符合一个模型的定义。实践中需要判定哪些人是坏人,以及哪些人是好人,其实两者是分不开的。

C.用户分群vs检测分层

另外是用户分群和检测分层。整个建模领域中有个非常重要概念—— segmentation。我们在做模型的时候可以对用户做分类,即根据不同的人、群体去建模,用分而治之的方法去解决问题,样对每类用户的识别更加精准。举个例子,在风控领域,蚂蚁金服的客户中有商家,也有个人用户,不同用户有不同属性。比如商户类,一些的高频行为可能是make sense的;但对于个人类用户来说,就很难在一个段时间内做如此高频的交易,所以把商户、个人用户一起建模的话就会产生一些问题,所以鼓励大家做一些用户分群。第二个是检测分层,我们不仅可以去预测哪些是黑样本,也可以考虑去预测哪些是白样本。

D.模型集成

我们有很多的模型、算法,比如randomforest、GBDT、DNN等,其实算法因为本身原理、性能、构成的不同适用于不同的领域或者适用于解决不同的问题,这时候我们就有必要对不同模型进行集成。举个例子,我们可以尝试把一个深度学习的模型和一个DNN的模型进行结合,或尝试通过把一个问题拆解成多个问题然后做模型的集成。在工程实践中,我们更关注的应是模型的结果而非只能用一种算法。

E. 特征工程

最后对风控建模有重要影响的是特征工程。特征工程的本质是你对一个业务的理解,基于你对这个业务的理解去定义变量是什么。

……

如果觉得这些干货还不过瘾,来一把实战深度体验吧!

【开发者大赛介绍】

为了推动AI在金融领域的工程化落地,解决风险识别与智能客服两大场景难题,蚂蚁金服在2018年4 月 25 日面向全球启动首届金融科技开发者大赛,开放具体实战场景,设立百万奖金池,悬赏安全风控和智能金融服务最优算法。

据了解,此次大赛从普惠金融服务代表的金融大脑和精准风控代表的风险大脑两个维度出发,同时赛题涉及 NLP、机器学习、神经网络等支撑金融服务背后的技术领域。大赛启动至今,赛题打榜盛况空间,参赛模型准确率不断提升。据统计,截止目前,大赛已经吸引了来自全球超过5000支队伍参与,涵盖学术界与工业界AI研究精英,硕士博士参赛者过半。

而上述高校技术论坛的精华分享,也是针对本次大赛赛题的深度解读。有兴趣挑战者两大难题的朋友,现在仍可登录大赛官网进行报名,点击【阅读原文】可跳转至官网。

据了解,大赛主办方将针对金融大脑赛题在初赛期间开放10万训练集,进入决赛的选手们将在一年一度云栖大会主场现场巅峰对决!

据称,智能金融服务赛题初赛进入Top100、支付风险识别赛题进入Top150的队伍可以进入复赛!

【大赛亮点】

• 最前沿:金融科技行业级高质量课题

• 最权威:中、美、英全球顶尖AI长老联合发布

• 最大咖:世界级大咖全程赛事指导

• 最心动:百万奖金池,亿级实践场景

【奖项及激励】

单题奖金

一等奖:一支队伍,300000元/队

二等奖:一支队伍,200000元/队

三等奖:一支队伍,100000元/队

TOP20优胜奖:

大赛认证证书

1、蚂蚁金服集团技术岗绿色通道

(前三名,直通终面资格,第四-二十名,免笔试初试资格。每队至少一人,一年内有效)

2、学界实验室:高校深度合作项目机会

3、创客团队:技术投资合作机会

【赛程】

比赛已正式启动,数据集也已正式开放下载。

大赛初赛截止日期为2018年7月8日。

复赛时间为2018年7月13日至2018年8月26日。

最终优胜复赛队伍于2018年9月中下旬进行决赛答辩以及颁奖。

现在即可登录大赛官网进行提前报名,复制打开 https://dc.antfin.com/ 可跳转至官网哦。

【加入大赛群,参与赛题讨论】

添加「蚂蚁金服科技」,微信号:Ant-Techfin01,备注:蚂蚁,由小助手邀请进群。第一时间获取大赛相关信息,一起讨论赛题,以及与其他小伙伴互动交流。

目录
相关文章
|
2天前
|
存储 人工智能 Serverless
阿里云《AI 剧本生成与动画创作》技术解决方案测评
本问是对《AI 剧本生成与动画创作》的用心体验。结论不是特别理想,在实际使用中仍存在一些问题。
50 22
|
4天前
|
人工智能 前端开发 Serverless
阿里云《AI 剧本生成与动画创作》解决方案技术评测
随着人工智能技术的发展,越来越多的工具和服务被应用于内容创作领域。阿里云推出的《AI 剧本生成与动画创作》解决方案,利用函数计算 FC 构建 Web 服务,结合百炼模型服务和 ComfyUI 工具,实现了从故事剧本撰写、插图设计、声音合成和字幕添加到视频合成的一站式自动化流程。本文将对该方案进行全面的技术评测,包括实现原理及架构介绍、部署文档指引、具体耗时分析以及实际使用体验。
51 16
|
14天前
|
机器学习/深度学习 人工智能 API
Aligner:自动修正AI的生成结果,北大推出残差修正模型对齐技术
介绍北大团队提出的 Aligner 模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差,提升大语言模型的性能。
75 28
|
28天前
|
人工智能 达摩院 计算机视觉
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。
68 9
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek逆天,核心是 知识蒸馏(Knowledge Distillation, KD),一项 AI 领域的关键技术
尼恩架构团队推出《LLM大模型学习圣经》系列,涵盖从Python开发环境搭建到精通Transformer、LangChain、RAG架构等核心技术,帮助读者掌握大模型应用开发。该系列由资深架构师尼恩指导,曾助力多位学员获得一线互联网企业的高薪offer,如网易的年薪80W大模型架构师职位。配套视频将于2025年5月前发布,助你成为多栖超级架构师。此外,尼恩还提供了NIO、Docker、K8S等多个技术领域的学习圣经PDF,欢迎领取完整版资源。
|
6天前
|
人工智能 负载均衡 搜索推荐
谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!
谷歌近日推出基于“快慢思维”理论的双思维AI Agent系统,模仿人类大脑的两种思维模式:快速直观的Talker(系统1)和深思熟虑的Reasoner(系统2)。Talker负责日常对话与快速响应,Reasoner则处理复杂推理任务。该系统模块化设计,灵活高效,已在睡眠教练等场景中展现应用潜力,但仍面临工作负载平衡与推理准确性等挑战。论文详情见:https://arxiv.org/abs/2410.08328v1
31 1
|
25天前
|
存储 人工智能 安全
AI时代的网络安全:传统技术的落寞与新机遇
在AI时代,网络安全正经历深刻变革。传统技术如多因素身份认证、防火墙和基于密码的系统逐渐失效,难以应对新型攻击。然而,AI带来了新机遇:智能化威胁检测、优化安全流程、生物特征加密及漏洞管理等。AI赋能的安全解决方案大幅提升防护能力,但也面临数据隐私和技能短缺等挑战。企业需制定清晰AI政策,强化人机协作,推动行业持续发展。
57 16
|
26天前
|
机器学习/深度学习 存储 人工智能
AI实践:智能工单系统的技术逻辑与应用
智能工单系统是企业服务管理的核心工具,通过多渠道接入、自然语言处理等技术,实现工单自动生成、分类和分配。它优化了客户服务流程,提高了效率与透明度,减少了运营成本,提升了客户满意度。系统还依托知识库和机器学习,持续改进处理策略,助力企业在竞争中脱颖而出。
81 5
|
30天前
|
机器学习/深度学习 人工智能 编译器
BladeDISC++:Dynamic Shape AI 编译器下的显存优化技术
本文介绍了阿里云 PAI 团队近期发布的 BladeDISC++项目,探讨在动态场景下如何优化深度学习训练任务的显存峰值,主要内容包括以下三个部分:Dynamic Shape 场景下显存优化的背景与挑战;BladeDISC++的创新解决方案;Llama2 模型的实验数据分析
|
30天前
|
人工智能 编解码 安全
全球AI新浪潮:智能媒体服务的技术创新与AIGC加速出海
本文介绍了智能媒体服务的国际化产品技术创新及AIGC驱动的内容出海技术实践。首先,探讨了媒体服务在视频应用中的升级引擎作用,分析了国际市场的差异与挑战,并提出模块化产品方案以满足不同需求。其次,重点介绍了AIGC技术如何推动媒体服务2.0智能化进化,涵盖多模态内容理解、智能生产制作、音视频处理等方面。最后,发布了阿里云智能媒体服务的国际产品矩阵,包括媒体打包、转码、实时处理和传输服务,支持多种广告规格和效果追踪分析,助力全球企业进行视频化创新。

热门文章

最新文章