AI=机器学习²,我们在去往²的路上 | 普林斯顿范剑青教授

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

在9月18日“2018世界人工智能大会”智能金融主题论坛上,中国互联网金融协会会长李东荣,加州大学伯克利分校迈克尔·欧文·乔丹(Michael I. Jordan)教授,复旦大学大数据学院院长、普林斯顿大学教授范剑青、汇付天下董事长兼CEO周晔带来了主题演讲。

其中,范剑青教授分享了《数据智能与金融创新》。他主要介绍了人工智能的兴起,以及数据智能如何增强市场效率,加速产业发展的,以及引领高科技的发展的。“人工智能的目的与价值,就是把大数据加工成智慧数据,为经济发展提供新能源,为科技创新提供新依据,为管理决策提供新信息。”

“大数据与人工智能为健康医疗、科学发现、技术创新、商业管理、政府决策等带来由信息海啸驱动的又一次工业革命,同时方方面面影响着人类的工作、生活和通讯方式。各行各业创新所产生的大量数据又增加了对海量数据处理和分析的强烈需求,促进了大数据与人工智能的发展。”

以下是演讲原文:

AI是机器学习的平方,我们在去平方的路上

每天数十万金融分析师涌向华尔街,重复繁琐的数据分析。上百万银行业者匆匆赶到工作岗位,开始他们每天常规工作。像一百多年前的农业、手工业一样,我们自然要问能否让智能机器来辅助这些工作,使得更多聪明才智可以投入高科技生产、艺术创作,提高人的生活体验。人工智能席卷全球,大数据、人工智能是伴随着数据与信息革命应运而生,发展迅速。上百万的摄像头,数亿部智能手机和几十亿网络搜索,和社交网络上的对话产生巨大海量数据,其中包括公共安全、公共卫生、消费倾向、商业活动、经济走势等等。同样数十亿的处方、海量的生物、遗传信息带来健康大数据。海量数据的收集促成了大数据时代的到来。海量数据的挖掘催生了人工智能的发展。换句话说人工智能就是从大数据到智慧数据之间的桥梁。

人工智能的起源是来自1955年,John Mccarthy创造了这个术语。理想的状况有点像科幻小说,“类人”机器,让它有认知、表达、思考感知能力,但目前还做不到。现实是希望能够用技术训练机器,将人从重复性、简单性、危险性的繁琐事物中解放出来,提高人的创造力和生活体验。换句话说人工智能的目的是要提高人的体验,不是让一些人失业的。第一代比较简单是机器表达与逻辑推理,机器证明、专家系统、逻辑系统。第二代是概率建模与统计学习的基础上知识图谱、机器学习、神经网络。

何为人工智能,翻译有点不好,机器智能其实更合适。Michael I. Jordan刚才说它应该是统计学。有些人可能不一定完全同意。在我看来,人工智能是机器学习的平方,让机器自动学习机器算法是机器学习的理想状况。它具体表现是在图像识别、语音识别、机器学习、专家系统、计算机视觉还有自然语言处理等等。如果我们按图灵测试来检验现在的很多系统,恐怕我们多半系统是机器学习,不是人工智能。换句话说我们还没达到平方,只是在往平方的路上。

那么大家可能会问什么是人工智能?Arthur Samuel的想法是让机器从数据终学习并做决策,我认为它是一个可扩张的统计算法,充分融合统计建模思想,以及计算优化方法,使得这些数据分析的思想能够在大数据的环境下得到实现。它最后的产品当然是一个可执行的程序。未来有可执行的程序我们需要有一个优化目标,有优化目标跟刚才Michael I. Jordan说的一样,需要统计建模。

ce542bed8e82d91395a5672d9df26dd256b35920

大家比较熟悉的深度学习,其实是一个神经网络系统,更直白一点是数学的函数逼近,它用的是两种方法,信号源的线性组合,再做非线性的选择,重复的过程构成很复杂的函数逼近方法。

为什么它是如此成功,这又是一个权衡偏差和方差的有效方法。深度网络使得近似高维函数更加灵活,九十年代已经就有了。大数据的到来使得我们大大减少了方差,现代计算技术的革命使得大规模的优化成为可能跟现实,这样我们就能够更好更深度的学习函数逼近的方法。在图像识别、机器翻译、自然语言处理等方面都取得了很大的成功。这些问题其实从决策角度来说是比较简单的,因为个体的差异比较小,我说话有口音,我跟你的差异没有那么大。第二,信号即已知,我说的话所有的信号都在那里,这样问题比较简单。

机器学习的挑战

机器学习有很多挑战,在经济金融、生物医学、管理决策、人文科学里面有很多挑战。个体差异太大,更重要的是信息集未知,特征很难提取,需要多学科交叉。比如说闪电奔跑,它的信号集是什么我们大都不知道。我们自己也做了一些预测,比如说预测高频数据,接下来的走势是往上还是往下。我们做了自己的分析和特征提取。得到的结果是传统的逻辑回归跟深度学习,其实最后效果是差不多。换句话说,其实最后在其他应用里面,有时候如果特征提取是好的话,它的非线性并不是那么重要,更重要是特征自己的提取问题。我们在这个问题基本上可以看得出来,因为市场比较有效,能够可测性的精确度并不是特别高,这时候深度学习跟逻辑回归也差不多。

3bee190dcfe6c1a807eee84ff23411b9a60aa9f7

我最近看到一个消息,微软推出人工智能心脏风险测试指标,微软印度总经理表示他们新的API评分是基于四十万印度人的共享数据的基础之上,可以轻松的识别每一位患者的风险水平。具体他们怎么分析,什么结果都没有,同样的文章中只是一直在介绍深度学习的伟大。

06ebc19b74878e991b129827cf03e9fa81eb41bb

我就把他们的结果差不多的东西放在这。这里面也有40万左右的人口,用80%的数据来训练机器算法。最后得出的结果也是这样,不过精确度并不算高,比随机猜测好一点。这个时候深度学习跟逻辑回归是差不多。这也是另外一个例子说明深度学习不能解决所有的问题,深度学习的成功应用是在语音、图像识别等方面,而且需要明白数据集是什么,特征是什么,这个问题可能更为重要。

38186b521e758d877ae08276c657c260add219a4

接下来我举个比较成功的例子——预测债券风险溢价,是我们自己做的。当前我有131个宏观经济数据,此外的数据需要自行挖掘。我们用了8个汇总宏观经济系列,用已有的信息预测。有专业指导的信息学习可以改进预测的效果。我们这里用的模型叫做因子增量模型,看上去跟神经网络有相关的,其实在统计计量里面已经有过这样的模型。

如果只是用简单的算法来预测的话,大概可以预测18%,如果用因子选择,可以预测到24%左右。如果说因子选择的更好的话,可以预测到32%。如果说把统计的稳健思想都加进去的话,可以预测到38%。在这个基础之上,如果再加入神经网络,最后的结果可以达到45%左右,这个例子就说神经网络是有用的,但是一定要根专业知识相结合,怎么样能够找到更好的影响市场的因子,这样我们可以达到更好的风险预测跟控制的目的。

智能数据增强市场效率

第二块关于智能数据增强市场效率。在大数据的环境之下,金融行业面临着巨大的挑战,第一,现在的信息密度、深度和广度都有明显增加,自然而然我们就需要数据智能来提升市场效率跟决策力。现在除了金融衍生品、股票、外汇、宏观指数,还有很多非结构的新闻、文本和气候变化。如果用人工智能机器学习的办法,我们显然可以降低信息获取的成本,拓宽信息获取的渠道,提高信息传递的速度,并且提高信息的真实性。数据智能在金融里面有许多应用,从商业银行的消费金融、财务风险、客户管理、风险判别到证券市场的量化交易、智能投顾、风险防范和信用评估,还有保险业的信用管理、诈骗分析、获客分析、保险精算。政府职能里面有风险评判、智能监管、预警分析、政策评估。机器智能可以降低劳动力成本,减少信息不对称性,提高预测能力。

金融创新的一大挑战也是数据。首先,金融市场的风险触发机制更为复杂,有个体风险和系统性风险两个相叠加,数据来源方面多元化,行为更为紧密,除了市场内的交易数据之外,还有市场外的社交网络,影响范围更广,传播速度更快。第二,在信贷活动方面,信贷活动的评估给风险管理也带来加强,最大程度上获取信息,判别欺诈。信贷管理及时预判风险,交叉验证。第三,在投资决策方面,我们面临的不确定性,包括预测分析,对预测分析的需求明显提高。

金融最基本的作用把投资者的钱投放到生产的地方去,生产的地方钱又安全送回到投资者。实现这样的载体是我们的金融市场,它的效率分为信息效率、配置效率,后者是从市场形态、交易成本实现金融市场的职能。智慧数据可以提高信息效率,金融的特点数据来源多样,行为隐蔽,包括保密、脱敏、干扰、缺失、幸存者偏差等等。我们作为分析师或者作为整个市场和社会,我们无法拥有所有的数据,每个人只是拥有一小部分,数据共享变成是金融市场,提高金融效率的很重要的方面,数据拥有者对数据贡献和交流的意愿比较低,数据孤岛现象经常出现,监管也难以开展。有些金融机构和监管部门,有数据不能用,有数据不会用,有数据不敢用,这样的情况也经常发生。

智慧数据提高信息效率

56507e6b7bcfec7452fc654eb4ddcf541d4e5bf6

怎么样构造一个机制实现数据共享呢?大数据金融创新中心提出这样一个构思,利用数据沙箱设计实现数据安全,同时在不影响隐私的情况下,充分发表充分的统计量,这样充分的统计量可以帮助我们分析数据,增强数据的信号。我们尽量设计鼓励数据共享的机制,以区块链等技术来实现共识的稳定,提高合作与激励的效率。推动监管科技提高灵活性,减少消极监管或者错杀,这是我们提高数据效率的关键部分。

我们要实现的目标就是数据共享来增加数据的流通性跟可靠性。数据挖掘方面可以提高它的使用效率,实现数据的价值。在存储方面,安全方面,我们可以保障存储隔离,保障数据的原始状态和可溯源,还有自动化配置等等。在金融里面很简单的一个问题,我们刚才说的数据源到底数据要用多大,如何筛选高效低险的企业,如何辨别不良企业,如何克服信用风险,如何防范风险道德。这些非常简单的问题需要从多元交付、海量增长的数据里面挖掘,在挖掘这些数据的同时,也能够让我们关注市场的微观行为,从而达到更有效的监管。

人工智能的目的就是提高数据挖掘的能力,而挖掘数据的相关性是多种多样的。举个例子,为了尽早预测沃尔玛的业绩,分析师会想方设法找比它更早预报业绩的相关公司,比如纸袋公司,从而用他们的数据帮助预测一个公司的业绩。但这种做法既费事又不精确。AI可以大大提高这些分析的效率和节省费用。一个星期的分析师和工程师的工作可以在一分钟内用机器学习的方法完成。AI能够增加市场效率,解决信息不对称的问题。

我们有很多网络数据和各种各样的“学习”。比如说高杠杆基金的持股网络中心能够帮助政府评估系统风险,如果市场需要,可以更精确地干预。而同样的,我们的同事研究过怎样从一个基金经理的持股情况推算出他的社交网络,辨别社交网络是否有违规的行为。在市场数据里面,网络数据里面,是非常之丰富的。

数据智能能够加速产业发展

第三部分,数据智能能够加速产业发展。第一表现在,金融科技的未来可以颠覆传统风控。主要有三方面体现。

 ●  科技红利,互联网使金融服务触达更多用户,收集海量多元的数据,而且除了这之外还有市场内外的信息。
 ●  大数据红利,传统的风控在新的经济环境下积累了60多年的数据,互联网也积累了十多年数据,这些数据可以彻底改变传统风控手段。
 ●  金融科技红利,智能创新的多尺度风险测度和风险手段不断涌现,这些手段可以得到及时的测试和反馈。我们做风控控制的目的不是预测风险的到来,而是反馈,使得消除风险,随着大数据的到来,人工智能的到来,我们能够有更多更好的方法来学习自适应、自回归的过程。

具体到业务产品,比如智能投顾,基本思想是利用机器完成客户需求分析、投资分析、资产配置选择等工作。意在替代人类完成财富管理或者投资建议方面的工作,实现投资的自动化。其中关键的技术有三点:

 ●  数据:数据有市场行为,比如说情绪指数和政策变量等;用户的行为,比如说社交、电商数据等。
 ●  方法:决策树、深度学习、回归分析等。
 ●  理论是基于投资理论寻求风险和资金组合最合适的最优级。

另一重要产品是大数据征信,利用数据采集、存储、分析,获取信用主体的多维行为信息,评估个人征信水平,降低信贷失信率。

 ●  关键技术是数据采集、数据存储、数据分析到评分模型,评分非常关键。
 ●  数据来源也是非常丰富,除了平时的生活数据之外,还有网络购物、客户评价、信息交易、社交信息等等。
 ●  应用的范围包括信贷管理、实物租赁、消费金融、保险风控。
 ●  服务的群体是小微金融和银行贷款无法覆盖的个体。小微金融是指从小资投资者的钱到小创业者。小微金融的产品基本上是低收入个体他们的金融需要是什么,从存储到投资到个人贷款等等之类的。它在经济发展中起着非常重要的作用。在发达国家大概能够帮助实现经济增长率为4%到5%,发达国家是2%左右。

值得注意的是,小微金融的发展瓶颈是合理定价,合理定价是任何金融产品可持续的基础。而基于大数据、人工智能的信用评估,能够提供更快更有效的决策。小微金融的作用显然是现在的科技创新开拓了金融服务的对象,使得我们以前对低收入或者中产收入,低收入没有多少信用的人,现在也变成能够有一些信用的基本分析。

中国大数据征信的挑战是体量比较大,贷款比较难,因为分布比较零散,业务不规模,盈利不明朗,信用比较难构建。网络社交消费大数据为征信提供了很有效的基本原料。小微金融在过去几年还是发展挺迅速的,市场引导和政府指导是一个长远发展的基础,政府布局对高科技产业发展尤其重要,这里有几个例子,张江高科技园支持了早期的展讯通信,现在变成世界第三大手机芯片供应商,也是国内最先进的领先半导体产业。上海硅产业投资公司几年前投资了数家欧洲半导体公司,现在估值翻了10多倍。中关村也有相关的例子。政府布局对人工智能、大数据、金融科技这些新兴产业,现在应该是非常重要的时候,所以需要市场引领和政府指导相结合,才能够把市场弄的更有效。

数据智能引领高科技

最后讲一下数据智能引领高科技。数据智能的发展促进了相关学科的发展,计算机、数学、信息学、统计学等等,也推动了高科技的创新从硬件软件到系统,也激励新产品的开发,拓展了新的服务对象。举个例子,对机器学习、统计学的挑战。大家现在常说的精准营销、精准医疗,处理这些问题的难点是数据多样性,我们怎么样能够让数据来源更多元,进行分析,对稀疏性、内生性、测量误差等等,因为大数据的原因产生了很多新的统计问题,处理这些问题的时候,需要更复杂更有效的算法。

对应用数学同样也有类似的挑战,从计算瓶颈上,我们经常会出现大规模的非凸的优化问题,我们经常需要在计算、统计上面提出新思想。对大数据系统也是同样有非常大的挑战。


原文发布时间为:2018-10-5

本文作者:关注前沿科技的

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
SQL 人工智能 关系型数据库
PolarDB-PG AI最佳实践 2 :PolarDB AI X EAS实现自定义库内模型推理最佳实践
PolarDB通过POLAR_AI插件支持使用SQL调用AI/ML模型,无需专业AI知识或额外部署环境。结合阿里云EAS在线模型服务,可轻松部署自定义模型,在SQL中实现如文本翻译等功能。
|
6天前
|
人工智能 安全 大数据
PAI年度发布:GenAI时代AI基础设施的演进
本文介绍了AI平台在大语言模型时代的新能力和发展趋势。面对推理请求异构化、持续训练需求及安全可信挑战,平台推出了一系列优化措施,包括LLM智能路由、多模态内容生成服务、serverless部署模式等,以提高资源利用效率和降低使用门槛。同时,发布了训推一体调度引擎、竞价任务等功能,助力企业更灵活地进行训练与推理任务管理。此外,PAI开发平台提供了丰富的工具链和最佳实践,支持从数据处理到模型部署的全流程开发,确保企业和开发者能高效、安全地构建AI应用,享受AI带来的红利。
|
10天前
|
人工智能 安全 算法
PAI负责任的AI解决方案: 安全、可信、隐私增强的企业级AI
在《PAI可信AI解决方案》会议中,分享了安全、可信、隐私增强的企业级AI。会议围绕三方面展开:首先通过三个案例介绍生活和技术层面的挑战;其次阐述构建AI的关键要素;最后介绍阿里云PAI的安全功能及未来展望,确保数据、算法和模型的安全与合规,提供全方位的可信AI解决方案。
|
6天前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
6天前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
6天前
|
人工智能 运维 API
PAI企业级能力升级:应用系统构建、高效资源管理、AI治理
PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
揭秘AI:机器学习如何改变我们的世界
在这篇文章中,我们将深入探讨机器学习如何改变我们的世界。从自动驾驶汽车到智能医疗诊断,机器学习正在逐步渗透到我们生活的每一个角落。我们将通过实例和代码示例,揭示机器学习的工作原理,以及它如何影响我们的生活。无论你是科技爱好者,还是对人工智能充满好奇的普通读者,这篇文章都将为你打开一扇新的大门,带你走进机器学习的世界。
41 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
自动化测试的未来:AI与机器学习的融合之路
【10月更文挑战第41天】随着技术的快速发展,软件测试领域正经历一场由人工智能和机器学习驱动的革命。本文将探讨这一趋势如何改变测试流程、提高测试效率以及未来可能带来的挑战和机遇。我们将通过具体案例分析,揭示AI和ML在自动化测试中的应用现状及其潜力。
52 0
|
8月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
262 14
|
8月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
下一篇
开通oss服务