干货 | 三年拿到斯坦福CS博士的创业者李纪为:AI如何赋能金融

简介:

人工智能和金融,法律、医学等传统领域密切联系,金融科技正以前所未有的速度改变大众认知,这不仅驱动了传统金融业转型升级,也催生了诸多新金融业态。本次清华大数据“技术·前沿”系列讲座,我们荣幸地邀请到了香侬科技CEO李纪为博士,他从金融数据的获取、金融数据非结构到结构化、金融实体的用户画像等方面为大家分享了AI如何赋能金融。

70148ade544f737798243ba4644d23e15cc23b18

香侬科技创始人李纪为

李纪为:

今天非常有幸能跟各位探讨如何把人工智能的方法和知识,如语音、图像和自然语言处理等技术应用在金融领域。

在信息爆炸的时代,金融从业者的数目和其工作负荷量均逐年上升。从业人员如何在众多渠道中准确、快捷地获取需要的信息,并做出相应决策,显得尤为重要。其中找信息和根据信息做出交易决策分别对应AI里的不同应用。

34348b4637ea3d470968374aaa893a79536b29b5

金融应用的直接的体现为股票、国债、贷款、固定收益、股权投资、主权基金,大宗商品、金融衍生品等,这些是金融实体的载体,比如说股票,它背后对应的是上市公司。如果要预估一个股票的涨跌,最重要的是了解它背后的金融实体发生了什么事,涉及到公司的收入、历史、运营情况,以及在整个大环境下,国家的金融趋势。其实就是涉及到对于不同金融实体的用户画像,即它们发生了什么,从何处获取这些信息。

交易类型连接的是金融实体和客户。从金融角度,我们需要从广泛的数据源里提取需要的信息,使整个过程变得有序、方便、及时和准确。从技术角度,应用人工智能技术,涉及到图像、自然语言处理等。从服务角度,提供什么样的服务取决于用户需求。

1c9a6c876bf02564bab8f49da7800f673b257931

接下来我们探讨技术和落地场景的结合。我们并不缺少金融信息,却很难获得想要的数据,它们隐含在网上,可用性比较复杂,需要从非结构化变成结构化,如用算法把PDF、照片、表格等还原成文本数据,目前主流的解决办法是先把PDF变成图像,然后对该图像做解析,在图像里面获得所需要的文字或表格。

abf14f7846cc45bae5ae7caeac5383ba9b5f2926

其中涉及大量的图表和文字的识别。举一个例子,将PDF中的表格转化为Excel形式。从图像处理的角度,第一步,把PDF转成图像,先把像表格的地方抽取出来。第二步,获取到该区域之后,把图像裁出来,再用图像处理。要把表格的位置从PDF里面裁出来,还是一个比较复杂的过程,需要标注很多的数据,比如这个表格的上下文。

当把该表格区域提出来时,还要识别里面的单元格以及单元格的文字,除此之外,单元格还可能涉及到大量的合并情况,需要运用比较复杂的算法。为了避免乱码,主流的解决办法是直接把它转成图像。

32a9aeb2701a2c1a046ba18eac18cd5129894b5b

利用信息抽取的办法,我们可以把不可用的信息变得可用。用一个简单直观的算法直接把文本信息变成结构化的数据,比如,通过模型或算法就能自动地反馈出来想要的某些金融的数据指标。

dba2e69669253e05b1990844d811e5a8a42a9b6c

其中涉及到自然语言处理的算法,其中一个模式是序列标注,可以用一项基于CRF的模型。CRF给出一个字符串,可以挑里面字符串的子串是否对应某一个或者几个不同指标。序列标注和问答在算法层面上处理的方式有所不同,如果两个模型得出一致的结果,我们就认为找到了对应答案。

100a5091211a4d6b335d7f0e463899b199f8c8bb

从算法的层面,我们要抽取谁在哪里做了什么。背后的算法相对复杂,原因就在于“做了什么”,人们可以做的事情非常多,难以在基于学习或者监督学习的体系框架内把这些不同类别的事件聚类。

除此之外,即便事情属于同一类,也有好坏之分。我们难以拿到大量的标志数据,既没法对这些事件进行全面定义又没法提出非常明确的标注细则。一旦没有标注,我们就没有训练数据,没有训练数据,就很难去训练基于监督类型的模型。

2ffc230b7676b9f39c7eb7f3a9debbcc15ab6596

其背后涉及的算法叫做“human-in-the-loop”,如果把整个算法变成一个圈,人就在里面不停地干预。

第一步,可以对整个的文章以及里面的词、句和句法结构做无监督的聚类,比如LDA、PLSA或者是基于词向量的LDA等。而无监督的聚类算法有时不靠谱,需要通过人为标注了解类别是否有意义。

第二步,基于之前的标注,把标注的结果跟模型融合一起,可以再运行一个无监督的聚类。不断重复这个路径,模型迭代的结果会越来越好,人为标注的曲线和模型运行出的曲线开始逐渐趋近,得出不同的算法背的真正类别。从算法的角度讲,这个办法避免了大规模的人为标注的成本。

7d28d49305a0ef479098f617b65e44ecbfac00dd

除此之外,实现方法还涉及语音相似度的分析、目标的检测、为用户提供的服务方式等。

c7d2956001da9fd2e7a4e1ac4cfebb2336b6c642

应用场景有很多。第一个例子,我们假设在非洲国家买国债。非洲国家的宏观经济数据或不披露,或存在报假情况,很难找到明确的指标,我们可以应用人工智能,比如大量的卫星云图的图像,2016年《Nature》里的相关文章指出这个国家的GDP、国情、人民生活水平甚至和晚上这个国家灯火的亮度有一定关系,我们可以把类似的情况落地,对它的GDP、CPI做宏观分析。

d42db77e1f46761389baa4287cb36a48452d4829

第二个例子,企业的风险画像。针对中小企业提供贷款担保和偷税问题,我们有两个维度可以衡量,一个是中小企业贷款时候声称的收入,另一个是可以找到企业所交的税,通过企业交的税反推出它今年大概的收入。从网上去找到大量的不同维度的数据,如公司法务、人员、行业的用户画像等就能够描述出来。

cb8b1d305bfecc5ed0db2e9866b76ab6a2b28d06

把技术手段和应用场景结合起来,从大量的数据源中提取有意义的信息,我们就可以提供大量的知识体系和信息为金融赋能。


原文发布时间为:2018-10-29

本文作者:李纪为

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
2天前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
92 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
29天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
6天前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
80 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
19天前
|
机器学习/深度学习 人工智能 算法
FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案
FinRobot 是一个开源的 AI Agent 平台,专注于金融领域的应用,通过大型语言模型(LLMs)构建复杂的金融分析和决策工具,提供市场预测、文档分析和交易策略等多种功能。
117 13
FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案
|
15天前
|
消息中间件 机器学习/深度学习 人工智能
AI赋能运维:实现运维任务的智能化自动分配
AI赋能运维:实现运维任务的智能化自动分配
110 24
|
25天前
|
存储 人工智能 数据管理
|
23天前
|
机器学习/深度学习 人工智能 安全
阿里云先知安全沙龙(武汉站) ——AI赋能软件漏洞检测,机遇, 挑战与展望
本文介绍了漏洞检测的发展历程、现状及未来展望。2023年全球披露的漏洞数量达26447个,同比增长5.2%,其中超过7000个具有利用代码,115个已被广泛利用,涉及多个知名软件和系统。文章探讨了从人工审计到AI技术的应用,强调了数据集质量对模型性能的重要性,并展示了不同检测模型的工作原理与实现方法。此外,还讨论了对抗攻击对模型的影响及提高模型可解释性的多种方法,展望了未来通过任务大模型实现自动化漏洞检测与修复的趋势。
|
18天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
1月前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
24天前
|
人工智能 分布式计算 供应链
高效提取图片信息:AI技术赋能企业数字化转型
本文介绍了如何通过AI技术高效提取图片中的结构化信息,提升企业运营效率。具体应用场景包括票据与合同管理、电商商品信息管理、保险理赔和物流单据处理等。AI技术能将传统人工录入流程缩短至秒级,准确率高达99%,减少人为错误,提升客户满意度。方案优势在于易于扩展、灵活高性价比的调用模式及便捷安全的云产品接入。文中还详细描述了部署应用、访问示例应用及使用官方示例进行信息提取的操作步骤,并提供了参考链接和源码下载途径。

热门文章

最新文章