干货 | 三年拿到斯坦福CS博士的创业者李纪为:AI如何赋能金融

简介:

人工智能和金融,法律、医学等传统领域密切联系,金融科技正以前所未有的速度改变大众认知,这不仅驱动了传统金融业转型升级,也催生了诸多新金融业态。本次清华大数据“技术·前沿”系列讲座,我们荣幸地邀请到了香侬科技CEO李纪为博士,他从金融数据的获取、金融数据非结构到结构化、金融实体的用户画像等方面为大家分享了AI如何赋能金融。

70148ade544f737798243ba4644d23e15cc23b18

香侬科技创始人李纪为

李纪为:

今天非常有幸能跟各位探讨如何把人工智能的方法和知识,如语音、图像和自然语言处理等技术应用在金融领域。

在信息爆炸的时代,金融从业者的数目和其工作负荷量均逐年上升。从业人员如何在众多渠道中准确、快捷地获取需要的信息,并做出相应决策,显得尤为重要。其中找信息和根据信息做出交易决策分别对应AI里的不同应用。

34348b4637ea3d470968374aaa893a79536b29b5

金融应用的直接的体现为股票、国债、贷款、固定收益、股权投资、主权基金,大宗商品、金融衍生品等,这些是金融实体的载体,比如说股票,它背后对应的是上市公司。如果要预估一个股票的涨跌,最重要的是了解它背后的金融实体发生了什么事,涉及到公司的收入、历史、运营情况,以及在整个大环境下,国家的金融趋势。其实就是涉及到对于不同金融实体的用户画像,即它们发生了什么,从何处获取这些信息。

交易类型连接的是金融实体和客户。从金融角度,我们需要从广泛的数据源里提取需要的信息,使整个过程变得有序、方便、及时和准确。从技术角度,应用人工智能技术,涉及到图像、自然语言处理等。从服务角度,提供什么样的服务取决于用户需求。

1c9a6c876bf02564bab8f49da7800f673b257931

接下来我们探讨技术和落地场景的结合。我们并不缺少金融信息,却很难获得想要的数据,它们隐含在网上,可用性比较复杂,需要从非结构化变成结构化,如用算法把PDF、照片、表格等还原成文本数据,目前主流的解决办法是先把PDF变成图像,然后对该图像做解析,在图像里面获得所需要的文字或表格。

abf14f7846cc45bae5ae7caeac5383ba9b5f2926

其中涉及大量的图表和文字的识别。举一个例子,将PDF中的表格转化为Excel形式。从图像处理的角度,第一步,把PDF转成图像,先把像表格的地方抽取出来。第二步,获取到该区域之后,把图像裁出来,再用图像处理。要把表格的位置从PDF里面裁出来,还是一个比较复杂的过程,需要标注很多的数据,比如这个表格的上下文。

当把该表格区域提出来时,还要识别里面的单元格以及单元格的文字,除此之外,单元格还可能涉及到大量的合并情况,需要运用比较复杂的算法。为了避免乱码,主流的解决办法是直接把它转成图像。

32a9aeb2701a2c1a046ba18eac18cd5129894b5b

利用信息抽取的办法,我们可以把不可用的信息变得可用。用一个简单直观的算法直接把文本信息变成结构化的数据,比如,通过模型或算法就能自动地反馈出来想要的某些金融的数据指标。

dba2e69669253e05b1990844d811e5a8a42a9b6c

其中涉及到自然语言处理的算法,其中一个模式是序列标注,可以用一项基于CRF的模型。CRF给出一个字符串,可以挑里面字符串的子串是否对应某一个或者几个不同指标。序列标注和问答在算法层面上处理的方式有所不同,如果两个模型得出一致的结果,我们就认为找到了对应答案。

100a5091211a4d6b335d7f0e463899b199f8c8bb

从算法的层面,我们要抽取谁在哪里做了什么。背后的算法相对复杂,原因就在于“做了什么”,人们可以做的事情非常多,难以在基于学习或者监督学习的体系框架内把这些不同类别的事件聚类。

除此之外,即便事情属于同一类,也有好坏之分。我们难以拿到大量的标志数据,既没法对这些事件进行全面定义又没法提出非常明确的标注细则。一旦没有标注,我们就没有训练数据,没有训练数据,就很难去训练基于监督类型的模型。

2ffc230b7676b9f39c7eb7f3a9debbcc15ab6596

其背后涉及的算法叫做“human-in-the-loop”,如果把整个算法变成一个圈,人就在里面不停地干预。

第一步,可以对整个的文章以及里面的词、句和句法结构做无监督的聚类,比如LDA、PLSA或者是基于词向量的LDA等。而无监督的聚类算法有时不靠谱,需要通过人为标注了解类别是否有意义。

第二步,基于之前的标注,把标注的结果跟模型融合一起,可以再运行一个无监督的聚类。不断重复这个路径,模型迭代的结果会越来越好,人为标注的曲线和模型运行出的曲线开始逐渐趋近,得出不同的算法背的真正类别。从算法的角度讲,这个办法避免了大规模的人为标注的成本。

7d28d49305a0ef479098f617b65e44ecbfac00dd

除此之外,实现方法还涉及语音相似度的分析、目标的检测、为用户提供的服务方式等。

c7d2956001da9fd2e7a4e1ac4cfebb2336b6c642

应用场景有很多。第一个例子,我们假设在非洲国家买国债。非洲国家的宏观经济数据或不披露,或存在报假情况,很难找到明确的指标,我们可以应用人工智能,比如大量的卫星云图的图像,2016年《Nature》里的相关文章指出这个国家的GDP、国情、人民生活水平甚至和晚上这个国家灯火的亮度有一定关系,我们可以把类似的情况落地,对它的GDP、CPI做宏观分析。

d42db77e1f46761389baa4287cb36a48452d4829

第二个例子,企业的风险画像。针对中小企业提供贷款担保和偷税问题,我们有两个维度可以衡量,一个是中小企业贷款时候声称的收入,另一个是可以找到企业所交的税,通过企业交的税反推出它今年大概的收入。从网上去找到大量的不同维度的数据,如公司法务、人员、行业的用户画像等就能够描述出来。

cb8b1d305bfecc5ed0db2e9866b76ab6a2b28d06

把技术手段和应用场景结合起来,从大量的数据源中提取有意义的信息,我们就可以提供大量的知识体系和信息为金融赋能。


原文发布时间为:2018-10-29

本文作者:李纪为

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
14天前
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
70 9
|
7天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在金融领域的应用:智能投资顾问
【10月更文挑战第31天】随着AI技术的快速发展,智能投资顾问在金融领域的应用越来越广泛。本文介绍了智能投资顾问的定义、工作原理、优势及未来发展趋势,探讨了其在个人财富管理、养老金管理、机构风险管理及量化交易中的典型应用,并分析了面临的挑战与机遇。智能投资顾问以其高效、低成本、个性化和全天候服务的特点,正逐步改变传统投资管理方式。
|
28天前
|
存储 消息中间件 人工智能
ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用
本文整理自2024年云栖大会阿里云智能集团高级技术专家金吉祥的演讲《ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用》。
|
1月前
|
人工智能 自然语言处理
召唤100多位学者打分,斯坦福新研究:AI科学家创新确实强
【10月更文挑战第6天】斯坦福大学最新研究评估了大型语言模型(LLMs)在生成新颖研究想法方面的能力,通过100多位NLP专家盲评LLMs与人类研究人员提出的想法。结果显示,LLMs在新颖性方面超越人类(p < 0.05),但在可行性上略逊一筹。研究揭示了LLMs作为科研工具的潜力与挑战,并提出了进一步验证其实际效果的设计。论文详见:https://arxiv.org/abs/2409.04109。
39 6
|
11天前
|
机器学习/深度学习 人工智能 算法
AI赋能大学计划·大模型技术与应用实战学生训练营——吉林大学站圆满结营
10月30日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·吉林大学站圆满结营。
|
14天前
|
安全 搜索推荐 机器学习/深度学习
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】在人工智能的推动下,个性化学习系统逐渐成为教育领域的重要趋势。深度学习作为AI的核心技术,在构建个性化学习系统中发挥关键作用。本文探讨了深度学习在个性化推荐系统、智能辅导系统和学习行为分析中的应用,并提供了代码示例,展示了如何使用Keras构建模型预测学生对课程的兴趣。尽管面临数据隐私和模型可解释性等挑战,深度学习仍有望为教育带来更个性化和高效的学习体验。
40 0
|
1月前
|
人工智能 自然语言处理 运维
干货|AI赋能教学开发-利用AI生成教案、课件和讲义
本文分享了高校教师利用AI工具设计课程方案和课件的经验,分为两部分。第一部分详细介绍使用GPT4o生成高质量课程大纲的过程,包括客户需求分析、提示词设计及优化调整。第二部分展示如何借助AIPPT快速制作精美课件,并介绍AIPPT的长文档解读和链接生成PPT等功能。此外,文章还分享了多个实用的AI工具、智能体和提示词技巧,助力提升教学效率与质量。
99 2
|
1月前
|
数据采集 人工智能 算法
近五千支队伍决战AI之巅, AFAC2024金融智能创新大赛在2024 Inclusion · 外滩大会完美收官
自从2022年12月ChatGPT上线以来,全球掀起了一场你追我赶的AI竞赛,不少国家都在全力以赴,抢占制高点。
|
1月前
|
人工智能
用AI人模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
斯坦福大学和纽约大学的研究团队利用GPT-4模型成功模拟了人类在社交互动中的行为模式,实验结果显示AI能以惊人准确度模仿人类对话,甚至在在线论坛和社交媒体上与真人难以区分。这一突破不仅展示了AI在社会学研究中的巨大潜力,还引发了对AI伦理和透明度的深入探讨。尽管存在一些局限性和挑战,这项研究为未来社会学实验提供了新工具和方法。[论文地址:https://docsend.com/view/qeeccuggec56k9hd]
54 2
|
3月前
|
人工智能 算法 数据安全/隐私保护
无表情人脸预测政治信仰,AI准确率惊人!斯坦福研究登国际顶刊
【8月更文挑战第10天】斯坦福大学的研究揭示了面部识别技术的新应用:通过分析无表情人脸图片预测政治倾向。研究在《American Psychologist》发表,表明人类评估者与AI均能在控制人口统计学特征的情况下准确预测政治取向,相关系数分别为0.21和0.22。利用年龄、性别和种族信息时,算法准确性提升至0.31。研究还发现保守派倾向于有更大的下半部面部。尽管成果引人注目,但其局限性和潜在的隐私问题仍需审慎考量。
140 62

热门文章

最新文章