智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

雷锋网(公众号:雷锋网)消息,7月7日~9日,由 CCF 主办,雷锋网、香港中文大学(深圳)承办的第二届 CCF-GAIR 全球人工智能与机器人峰会在深圳举行。在第二天的金融科技专场中,智融集团CTO齐鹏带来了主题为《AI+金融的实践与想象》的演讲。齐鹏曾任职百度网页搜索部技术经理、高德事业部副总,如今是智融集团CTO。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

以下是雷锋网整理的其演讲全文:

二问“人工智能是什么?”

人工智能是什么?每个人都有自己的理解。今天的金融专场有金融专家,也有人工智能专家,所以我们从最简单的例子讲起,比如如何识别一只猫?传统上,要识别一只猫,需要人定义规则,继而机器去实现。在这个过程中,我们可能需要猫的轮廓、纹理、颜色等特征,从这些特征中找到规则,以实现自动化图像识别。但猫的耳朵可能会藏起来,可能会背对着你,在这种情况下,就识别不了了。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

人工智能出现后,我们有了新的技术手段。人工智能处理问题的过程,相当于我们对一个问题进行数学描述,继而机器帮我们找到对应显著特征,找到能够证明一张图片上是否有一只猫的显著依据。

人工智能改变了人和计算机的交互方式,首先,我们要明确解决的问题是什么、问题的复杂度,找到复杂问题的描述,针对这个数学描述,基于大数据,明确描述的函数。其中,有一些理论方法通过反复迭代和具体调参,可以明确用什么样的函数来描述这些问题。所谓函数,在人工智能中对应的不同模型,可能是深度学习模型,其实就是一个神经网络。神经网络中的不同连接方式决定了对复杂问题的解决程度。比如我用了线性模型,其次决定能解决什么复杂程度的问题,之后决定用什么样的数学函数描述这个的问题。 

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

人工智能到底是什么呢?

首先要知道这个问题是什么?而这个问题在客观世界是通过数据表达的。数据分为2部分,一是特征,一是样本。这两部分数据决定了我们对现实世界认识的上限,但这个上限永远没有办法突破。所谓人工智能,就是找到一个函数来描述这个问题,描述的过程即是拟合,基于样本数据进行预测,那么,如何保证预测有效呢?明确问题是同类型问题,而随着样本扩大,局部世界的抽样会越来越逼近现实世界,数据预测也会越来越有效。

其次,考虑场景是什么?在中国,金融是少数人的金融,有一些现代的方法可以预测金融风险,要首先是确认数据够全、够多、数据覆盖准确度高。但中国大多数企业并没有这样的数据,随着移动互联网出现,越来越多的人才把自己的数字信号、数字痕迹呈现在网上。所以,我们可以做的事情就是基于人的一些描述信息,评价其对个人的金融风险有何佐证。这意味着,我们与传统金融机构处理的数据量不一样,数据产生的价值也不一样。传统金融的数据是基于逻辑筛选的数据,那些拥有弱特征数据的人群是传统金融所不能服务的,而我们能从弱特征的数据中找到依据。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

总而言之,我们做的事情就是:从某个人在移动互联网上的数据信号中,找出能佐证这个人金融风险的不同依据,从而对这个人做相应的风险定价,决定这个人群是不是值得被服务的。这一过程需要做很多事情,包括选择哪些学习对象作为数据依据、基于什么目标判断结果是否符合预期。一个说的是样本,一个说的是特征。对于样本来说,这些数据决定了当下对这个问题的理解程度。而通过机器学习方法能无限逼近问题理解的上限。

机器学习又涵盖不同的技术选型,包括深度学习、线性学习方法、非线性学习方法;监督性学习、非监督性学习和半监督学习,这些算法能帮我们对一个人进行不同维度的风险定价和规划。但真正能够通过规则去定义的,仍是冰山一角,而广泛的数据能够带给我们更多有价值的信息。

金融领域如何找“猫”?

人工智能发展很快,影响了我们生活的方方面面,搜索、新闻推荐、购物等各种生活场景下都有用到。这些技术深深影响了我们的生活,就像开车一样,我们不需要造车,但如何开车需要了解,那么在金融领域,人工智能能帮助我们解决什么问题呢?

人工智能的核心是:第一如何识别并找到学习依据;第二如何支撑所有的依据,这需要具备强大的计算能力;第三,数据告诉我问题的上限在哪里,我如何逼近上限,并且可以预测未来的情况。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

所以,我们主要做了三方面的工作。

柯南特征工程

  • 第一,把原始数据加工成机器可以理解的数据过程。好比我有一个发动机,但发动机的类型不一样,其启动场景不一样,同时,不同场景下对发动机的续航能力要求不一样,能源消耗要求不一样,启动速度要求不一样,意味着在不同的场景下需要找到能够解决不同问题的有效办法。

  • 第二,从另一个角度看,特征工程是不断挖掘数据价值的过程。在这个过程中,要考虑不同的方法。如何对原始数据进行覆盖、清洗、弥补;如何找到异常值;如何在模型应用的时候保证应变量的调优以及如何做智能降位确保模型的量化能力。

    经过24个月的迭代,我们的产品已经能够挖掘出1200多个基础维度特征,这可作为判断依据,帮助我们尽可能刻画一个人的生活数字信号。具备了特征工程和学习对象后,相当于我们有了学习书本,学习书本背后带给我们的就是相应的知识。

  • 最后我们要解决的问题是:基于样本的模型有多可靠。这一定程度上取决于输入丰富程度。如果学习输入丰富,那我们需要做的事情就是如何变成一位好学生,充分感知到背后数据的信息和价值。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

D-AI机器学习模型

  • 首先,我们需要判断数据的覆盖、数据的准确性、数据的维度和数据背后和问题之间的相关性。如果是线性相关的,就要符合线性相关的要求,我们需要对特征做相应的加工和处理。如果发现数据相关性并不是线性的,就需要考虑如何用非线性的数据函数描述问题。所有的数据函数,我们都可以称之为一个模型。说起模型,不同的问题需要有不同的解决方法和对策,所以,对于不同的数据源、不同的数据质量、不同的数据类型,在不一样的情况下,我们需要选择什么模型刻画问题。

  • 选定模型后,逼近上限的过程中一定有调参,即模型迭代。

  • 下一步,需要通过大量数据帮助计算机更聪明。人可以通过少量数据进行推理,计算机不可能做少量数据推理,但大量数据推理是完全可以胜任的。 机器学习方法背后的支撑是大数据处理能力。所谓大数据处理,包括以什么样的方式从外部、从内部接收,之后做数据的持久化。

  • 最后,如何做计算支持、服务支持。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

我们构建了Anubis大数据架构,每一决策都可以在8秒钟完成,每一次基准库重建也可以非常快速的完成。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

 当下,人工智能公司之间、人工智能和传统公司之间竞争的是什么呢?我认为,归根结底比的是谁计划得更快。谁计划得更快,谁就会变得更聪明。


我需要把业务做得更优秀,产生更多优质数据,优质数据反哺到业务来,从而让业务做得更好,这就形成了正向的马太效应。只有这样,才能保证公司发展有足够的动力、保持足够快的速度,在行业里面立于一个不败之地。 

正好比较巧,我们的人工智能风控引擎叫做“I.C.E.”,分别是三个字母,I表示Identify,C表示Calculte,E表示Evaluate。即如何尽量快收集到所有的数据样本和表现;如何快速找到或者有效找到这个问题的数学函数表达;对未来有比较好的预测能力。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

AI在金融领域应用

当AI应用到金融领域时,相比于传统规则,优势是什么?

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

第一,避免了一些道德因素影响,避免了主观执行能力不稳定的因素,避免了对员工严格的技术要求,这一块明显机器做得更好。

我们是一个大数据公司,通过人工智能,我们能对传统机构所不能服务的人群进行风险定价,能收集到更多有效信息,从而拥有更多数据,加之我们的技术能力,让我们在迅速形成正向的马太效应,使得业务能够快速向前发展。

 最后,人工智能帮助我们解决什么问题?它提供给我们一种能力:对于大量人不能理解的数据,机器帮我们做定量;当人找不到一个有效函数描述问题时,机器可以找到这样的函数。所以大数据涌现的今天,人工智能可谓应运而生。

人工智能在不同领域、不同的场景下,产生的作用是不一样的。人工智能是否可以解决金融领域里面所有的问题?随着人工智能的加入,金融领域会产生很大的改变,至于说能不能解决所有的问题,需要金融领域专家和人工智能的科学家一起去探索。


本文作者:张利

本文转自雷锋网禁止二次转载,原文链接


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3天前
|
人工智能 自然语言处理 数据可视化
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
142 9
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
|
5天前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
338 7
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
30天前
|
数据采集 SQL 人工智能
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。
333 28
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
|
1月前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
200 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
5天前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
52 14
|
1月前
|
机器学习/深度学习 人工智能 算法
FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案
FinRobot 是一个开源的 AI Agent 平台,专注于金融领域的应用,通过大型语言模型(LLMs)构建复杂的金融分析和决策工具,提供市场预测、文档分析和交易策略等多种功能。
238 13
FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案
|
1月前
|
人工智能 安全 Dubbo
Spring AI 智能体通过 MCP 集成本地文件数据
MCP 作为一款开放协议,直接规范了应用程序如何向 LLM 提供上下文。MCP 就像是面向 AI 应用程序的 USB-C 端口,正如 USB-C 提供了一种将设备连接到各种外围设备和配件的标准化方式一样,MCP 提供了一个将 AI 模型连接到不同数据源和工具的标准化方法。
|
1月前
|
传感器 机器学习/深度学习 人工智能
智能电网巡检与传感器数据AI自动分析
智能电网设备巡检与传感器数据分析利用AI技术实现自动化分析和预警。通过信息抽取、OCR技术和机器学习,系统可高效处理巡检报告和实时数据,生成精准报告并提供故障预判和早期识别。AI系统24小时监控设备状态,实时发出异常警报,确保设备正常运行,提升运维效率和可靠性。
|
1月前
|
传感器 机器学习/深度学习 人工智能
技术分享:智能电网巡检与传感器数据自动分析——AI助力设备状态实时监控与故障预警
这篇文章介绍了AI在智能电网巡检与传感器数据分析中的应用,通过信息抽取、OCR识别和机器学习等技术,实现设备状态监控和故障预警的自动化。AI系统能够高效处理巡检报告和传感器数据,精准识别设备故障并实时预警,显著提升了电网运营的安全性和可靠性。随着AI技术的发展,其在智能电网管理中的作用将日益重要。
|
1月前
|
存储 数据采集 算法
构建AI数据管道:从数据到洞察的高效之旅最佳实践
本文探讨了大模型从数据处理、模型训练到推理的全流程解决方案,特别强调数据、算法和算力三大要素。在数据处理方面,介绍了多模态数据的高效清洗与存储优化;模型训练中,重点解决了大规模数据集和CheckPoint的高效管理;推理部分则通过P2P分布式加载等技术提升效率。案例展示了如何在云平台上实现高性能、低成本的数据处理与模型训练,确保业务场景下的最优表现。