干货 | 三年拿到斯坦福CS博士的创业者李纪为:AI如何赋能金融

简介:

人工智能和金融,法律、医学等传统领域密切联系,金融科技正以前所未有的速度改变大众认知,这不仅驱动了传统金融业转型升级,也催生了诸多新金融业态。本次清华大数据“技术·前沿”系列讲座,我们荣幸地邀请到了香侬科技CEO李纪为博士,他从金融数据的获取、金融数据非结构到结构化、金融实体的用户画像等方面为大家分享了AI如何赋能金融。

70148ade544f737798243ba4644d23e15cc23b18

香侬科技创始人李纪为

李纪为:

今天非常有幸能跟各位探讨如何把人工智能的方法和知识,如语音、图像和自然语言处理等技术应用在金融领域。

在信息爆炸的时代,金融从业者的数目和其工作负荷量均逐年上升。从业人员如何在众多渠道中准确、快捷地获取需要的信息,并做出相应决策,显得尤为重要。其中找信息和根据信息做出交易决策分别对应AI里的不同应用。

34348b4637ea3d470968374aaa893a79536b29b5

金融应用的直接的体现为股票、国债、贷款、固定收益、股权投资、主权基金,大宗商品、金融衍生品等,这些是金融实体的载体,比如说股票,它背后对应的是上市公司。如果要预估一个股票的涨跌,最重要的是了解它背后的金融实体发生了什么事,涉及到公司的收入、历史、运营情况,以及在整个大环境下,国家的金融趋势。其实就是涉及到对于不同金融实体的用户画像,即它们发生了什么,从何处获取这些信息。

交易类型连接的是金融实体和客户。从金融角度,我们需要从广泛的数据源里提取需要的信息,使整个过程变得有序、方便、及时和准确。从技术角度,应用人工智能技术,涉及到图像、自然语言处理等。从服务角度,提供什么样的服务取决于用户需求。

1c9a6c876bf02564bab8f49da7800f673b257931

接下来我们探讨技术和落地场景的结合。我们并不缺少金融信息,却很难获得想要的数据,它们隐含在网上,可用性比较复杂,需要从非结构化变成结构化,如用算法把PDF、照片、表格等还原成文本数据,目前主流的解决办法是先把PDF变成图像,然后对该图像做解析,在图像里面获得所需要的文字或表格。

abf14f7846cc45bae5ae7caeac5383ba9b5f2926

其中涉及大量的图表和文字的识别。举一个例子,将PDF中的表格转化为Excel形式。从图像处理的角度,第一步,把PDF转成图像,先把像表格的地方抽取出来。第二步,获取到该区域之后,把图像裁出来,再用图像处理。要把表格的位置从PDF里面裁出来,还是一个比较复杂的过程,需要标注很多的数据,比如这个表格的上下文。

当把该表格区域提出来时,还要识别里面的单元格以及单元格的文字,除此之外,单元格还可能涉及到大量的合并情况,需要运用比较复杂的算法。为了避免乱码,主流的解决办法是直接把它转成图像。

32a9aeb2701a2c1a046ba18eac18cd5129894b5b

利用信息抽取的办法,我们可以把不可用的信息变得可用。用一个简单直观的算法直接把文本信息变成结构化的数据,比如,通过模型或算法就能自动地反馈出来想要的某些金融的数据指标。

dba2e69669253e05b1990844d811e5a8a42a9b6c

其中涉及到自然语言处理的算法,其中一个模式是序列标注,可以用一项基于CRF的模型。CRF给出一个字符串,可以挑里面字符串的子串是否对应某一个或者几个不同指标。序列标注和问答在算法层面上处理的方式有所不同,如果两个模型得出一致的结果,我们就认为找到了对应答案。

100a5091211a4d6b335d7f0e463899b199f8c8bb

从算法的层面,我们要抽取谁在哪里做了什么。背后的算法相对复杂,原因就在于“做了什么”,人们可以做的事情非常多,难以在基于学习或者监督学习的体系框架内把这些不同类别的事件聚类。

除此之外,即便事情属于同一类,也有好坏之分。我们难以拿到大量的标志数据,既没法对这些事件进行全面定义又没法提出非常明确的标注细则。一旦没有标注,我们就没有训练数据,没有训练数据,就很难去训练基于监督类型的模型。

2ffc230b7676b9f39c7eb7f3a9debbcc15ab6596

其背后涉及的算法叫做“human-in-the-loop”,如果把整个算法变成一个圈,人就在里面不停地干预。

第一步,可以对整个的文章以及里面的词、句和句法结构做无监督的聚类,比如LDA、PLSA或者是基于词向量的LDA等。而无监督的聚类算法有时不靠谱,需要通过人为标注了解类别是否有意义。

第二步,基于之前的标注,把标注的结果跟模型融合一起,可以再运行一个无监督的聚类。不断重复这个路径,模型迭代的结果会越来越好,人为标注的曲线和模型运行出的曲线开始逐渐趋近,得出不同的算法背的真正类别。从算法的角度讲,这个办法避免了大规模的人为标注的成本。

7d28d49305a0ef479098f617b65e44ecbfac00dd

除此之外,实现方法还涉及语音相似度的分析、目标的检测、为用户提供的服务方式等。

c7d2956001da9fd2e7a4e1ac4cfebb2336b6c642

应用场景有很多。第一个例子,我们假设在非洲国家买国债。非洲国家的宏观经济数据或不披露,或存在报假情况,很难找到明确的指标,我们可以应用人工智能,比如大量的卫星云图的图像,2016年《Nature》里的相关文章指出这个国家的GDP、国情、人民生活水平甚至和晚上这个国家灯火的亮度有一定关系,我们可以把类似的情况落地,对它的GDP、CPI做宏观分析。

d42db77e1f46761389baa4287cb36a48452d4829

第二个例子,企业的风险画像。针对中小企业提供贷款担保和偷税问题,我们有两个维度可以衡量,一个是中小企业贷款时候声称的收入,另一个是可以找到企业所交的税,通过企业交的税反推出它今年大概的收入。从网上去找到大量的不同维度的数据,如公司法务、人员、行业的用户画像等就能够描述出来。

cb8b1d305bfecc5ed0db2e9866b76ab6a2b28d06

把技术手段和应用场景结合起来,从大量的数据源中提取有意义的信息,我们就可以提供大量的知识体系和信息为金融赋能。


原文发布时间为:2018-10-29

本文作者:李纪为

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
2月前
|
人工智能 JavaScript 数据可视化
重磅发布:VTJ.PRO 赋能若依(RuoYi)「AI + 低代码」能力,企业级开发效率跃升 300%
VTJ.PRO 与若依(RuoYi)深度集成,融合双向代码穿梭、AI智能引擎及多模态渲染技术,打造“设计即生产”新体验。支持可视化开发、AI生成代码、旧组件重构,提升企业开发效率,助力数字化转型。
287 29
|
2月前
|
人工智能 自然语言处理 供应链
AI如何帮助中小企业进行赋能?
人工智能(AI)正加速赋能中小企业,在营销、生产、客服等领域助力转型升级。通过精准营销、智能运营与高效服务,企业可显著提升效率与竞争力。尽管面临技术门槛、数据安全与人才短缺等挑战,借助云服务、政策扶持与人才培养,中小企业仍能把握机遇,实现可持续发展。
170 0
|
29天前
|
机器学习/深度学习 人工智能 程序员
每个慢节奏创业者都需要知道的AI加速器
你还在为创业速度慢而焦虑吗?AI时代来了!本文将通过一个虚拟咖啡店老板的故事,教你如何用AI工具把创业速度提升10倍,从想法到产品上线只需要几天而不是几个月。
|
1月前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足
|
2月前
|
机器学习/深度学习 人工智能 算法
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
|
3月前
|
数据采集 人工智能 自然语言处理
AI重构数据价值链,解码「智能问数」如何赋能医药制造
随着中国医药制造业的蓬勃发展,中国已跃居全球第二大医药市场。随着监管政策的深入实施,市场对医药企业在生产、运营、管理等方面提出了更为严苛的要求。2025年政府工作报告明确提出,持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用。
324 26
|
2月前
|
敏捷开发 人工智能 自然语言处理
项目经理的智能搭档:AI项目管理软件的17种赋能方式解析
AI项目管理软件正通过17大应用场景革新传统管理方式。这类工具集成了NLP、机器学习等技术,在任务分配、风险预测等方面实现智能化,其核心优势在于自学习能力和数据驱动决策。文章详细分析了AI在项目全生命周期的赋能作用,对比了不同类型AI项目管理软件的特点,并针对敏捷和瀑布模型分别阐述了AI的应用价值。同时指出AI不会取代项目经理,而是成为提升效率的战略助手,最终提出三步走的AI工具落地策略。
454 2
|
3月前
|
人工智能 运维 安全
F5推出AI网关,赋能企业化解大模型应用风险
F5推出AI网关,赋能企业化解大模型应用风险
127 5
|
3月前
|
SQL 存储 人工智能
Quick BI V5.5上线:AI赋能全场景提效,分析决策 “快、准、稳”!
Quick BI 5.5版本应运而生,围绕"AI赋能+全场景提效",助力企业加速释放数据价值。此次升级,不仅让复杂分析"开箱即用",更通过智能工具与场景化能力,助力企业实现从数据洞察到决策落地的全流程闭环。
Quick BI V5.5上线:AI赋能全场景提效,分析决策 “快、准、稳”!

热门文章

最新文章