节省AI开发90%的时间,彭博让你获得直接可用的数据

简介: 与大多数人的想象不同,在机器学习领域里,处理数据所耗费的精力占据着最多比例。通常情况下,每购买 1 美元的数据,我们需要花费 5-7 美元来清理,才能让它用于机器学习模型的训练与推理。在这个过程中,数据科学家要耗费整个开发流程 80-90% 的时间。

如果可供使用的数据标准化且直接可用,成本和效率的提升就会让科技公司获得前所未有的优势。在这一方面,彭博是业内领先的数据服务提供商。


数据服务并不止于交易数据,今年 2 月 21 日,彭博宣布推出「另类数据」服务,其中包括 20 余种新类型数据,如基于人工智能和大数据处理得到的人流、社交媒体情绪数据,它们可以帮助投资者在瞬息万变的市场中带来先机。今天,作为人工智能大潮的一部分,数据服务正在迈向全新的阶段。


彭博为众多金融机构提供多种数据类别及服务,涵盖实时数据、参考数据、定价数据和监管数据等。近日,我们与彭博企业数据全球负责人 Gerard Francis 进行了一番交流,他向我们介绍了彭博数据业务的发展,以及他对于在投资领域应用 AI 的看法。


微信图片_20211130221840.jpg

Gerard Francis


「在金融领域里,我们是全球最大的数据供应商。」Gerard Francis 表示。彭博现在的数据提供平台中已拥有实时数据、参考数据、另类数据、衍生数据等种类的数据集,且提供数据的方式多种多样:从 API 到数据接入网站皆可以获取。用户可以在数据的基础上使用自己的程序进行处理。


彭博企业级数据业务始于 1997 年,至今已有 22 年历史了。目前,全球最大的金融机构都在依赖彭博的数据开展自己的业务。


彭博最近的方向是提供各种类型的「另类数据」:从卫星图像到博客内容中收集的情绪信息,再到 APP 的下载趋势。在彭博数据接入网站 Bloomberg Enterprise Access Point 上,我们可以找到很多不同类型的数据。彭博称,目前该网站可提供 2700 余种参考数据集,200 余种估值数据集,400 余种另类数据集以及近 600 余种监管数据集等。


比起技术人员常使用的 GitHub,使用这个平台更像是在浏览亚马逊购物网站——你可以在其上浏览各种产品,并购买其中想要的。


Gerard Francis 以北美股票参考数据为例进行了演示。数据集下载完成后可以看到是 CSV 文件,可用 Excel 直接打开,其中的数据非常干净整洁,无需进行任何其他处理就可以直接使用了。对于彭博的所有数据集,人们都可以直接下载使用。


价格之外的另类数据


Bloomberg Enterprise Access Point(BEAP)是彭博企业数据业务新近推出的一项服务,于 2018 年 9 月推出。这是一个在线数据平台,为 Bloomberg Data License 客户提供标准化的参考、定价、监管,以及另类数据集。彭博今年 2 月刚推出的「另类数据(Alternative data)」收集了很多前所未有的内容,可以帮助投资者在交易中夺取先机。


另类数据是彭博最近提出的新数据类型。在这一分类中,我们可以找到来自很多不同类型数据公司提供的内容。目前,BEAP 拥有 20 多套另类数据集,其中包括对金属库存、股票博客情绪、药品审批、消费者客流量和停车场活动、建筑许可、地缘政治风险和应用利用率的洞察。彭博计划在未来每个月都会加入更多的数据类型。


「另类数据正在变得越来越重要,」Francis 介绍道,「其中主要有两个原因。其一是我们的客户正在寻找提高 Alpha(超额收益)的方法。其二是另类数据通常难以使用。它数量巨大、笨重而难以处理,人们很难找到它的价值。但这却是机器学习和 AI 可以发挥作用的地方,通过应用这些技术帮助我们找到价值。」


彭博通过 BEAP 网站提供另类数据业务可以一站式解决金融行业数据科学家对于内容的需求,无需面对多个合同和供应商。另一方面,彭博的数据提供使用了标准化的 API,从而节省了技术人员的使用步骤。


为了保证另类数据的准确性,彭博的数据团队中有很多技术人员专注于数据处理。这家公司也在使用很多各类先进的技术来处理数据。据介绍,彭博的数据部门非常庞大,目前约有包括正式员工和供应商在内 5000 多人专注于数据。


在另类数据集中,我们可以找到一些很有意思的内容:商场的人流、停车场拥挤情况、手机 APP 的下载量,甚至某个地区出现不稳定的可能性。「我们的数据提供商之一 Apptopia 是个很有意思的公司,他们提供的数据可以告诉你所有 APP 在 Google Play 和 Apple Store 上的下载数量。」Francis 介绍道。


彭博展示的另一个例子是地缘政治风险数据,其来自 Predata 公司。数据供应商会收集很多预警和指标,对于政治风险、经济增长、社会不稳定等进行评分,从而获得一系列的数据。如果一个人正在做风险管理任务,他们可以在这里获得有关国家潜在风险的提示。


这些数据本身来自于公开信息,被各家数据公司收集后进行处理。对于分析师来说,这可以帮助理解竞争对手的业务情况,也可以在某一次投资前做好背景调查。


在另类数据领域有很多垂直领域的公司,但彭博拥有一站式的数据服务平台将大量另类数据整合在这一平台上。「对于一些数据提供商来说,他们可能会面临缺乏客户的问题。」Francis 表示,「但是加入彭博平台以后,他们的数据可以被更多投资者发现,也许很快会变成热门产品了。」


情绪数据,一秒总结全文


彭博最为大众所知的或许还是新闻报道,其提供的权威性新闻评论及观点常常会成为市场的风向标。很多短线投资者会在新闻爆出后的数秒内进行判断并发出交易指令。如果让 AI 来直接判定一条新闻是否「值得交易」,或许可以为交易员争夺一些宝贵时间。


彭博已经使用自然语言处理技术读取自家新闻社记者们撰写的新闻内容,随后使用数学算法来计算情绪数据。另外,来自推特等社交媒体的信息也「尽在掌控中」。该数据产品称为「Event Driven Feed」(事件驱动数据流)。


在这方面机器确实比人要快。彭博采用了机器学习算法,每当新闻写好之后,我们就立即能够获得这个故事的评分。随后,彭博终端就会发出推送,实时告知客户。从记者写好一篇文章再到客户获得评分,在这期间耗费的时间不到一秒钟。


情绪数据是一种经过深度学习处理过的数据,如何解决「黑箱」问题呢?彭博认为可以通过使用数据样本进行回溯测试等方式,从数学上获得稳定的结果,解决人们的疑虑。


客户们对于这种新鲜事物还在探索和适应的过程中。「一些人对这种分析的可靠性表示满意——通过回溯测试以及不断训练新的数据进行投资;」Francis 表示,「有些时候客户对此不会满意,这取决于客户的类型和他们的投资方式。我们发现很多中国客户非常乐于尝试机器学习这样的新方法,以求获得更好的回报。而另外一些国家的投资者会相对保守,或许对冲基金会接受,但基金经理不会接受。」


微信图片_20211130221926.jpg

有关英伟达的推特消息发出后,股价的波动情况。市场会在短时间内作出反应。(图片来自 Bloomberg)


在这其中最重要的是不同的交易策略,一些人走短线,一些人走长线。他们都可以通过数据获得自己所需的信息。对于那些交易速度非常快的人,比如一些对冲基金,当他们获得新闻报道的标题时,会很快将其转换为交易动作。有时在看到标题的一秒钟内,他们就会进行交易。


「目前全球 有 50 多家机构在使用 Event Driven Feed 产品,其中至少有五个客户正在使用中文推送流,」Francis 介绍道,「其中一些是中国公司。这是一个新的趋势,我们的业务重点正在从纽约和欧洲转向亚洲。」


新数据带来的收益


随着彭博新数据服务的发展,越来越多的金融机构开始将目光转向于数据平台。「很多客户会下载数据后进行测试,当找到信号之后将其转化为收益,如果行之有效,他们就会购买数据集。已经有一些客户开始购买这些数据了。」Francis 表示。


对于量化投资而言,使用最先进的技术才能带来最大收益。很多彭博数据的客户都在使用机器学习和人工智能技术来处理金融数据,以形成他们的投资策略。Gerard Francis 认为在彭博数据业务的客户中已有 80% 正在使用 AI 算法,而 20% 仍在使用传统的投资模型。


除了带来更多预期收益之外,人工智能和机器学习对于金融市场的影响方式有很多种。在风险投资领域有很多人正在使用 AI 算法进行风险回测,寻找压力区域。也有人在使用 AI 识别交易员的风险操作。人工智能会在金融领域里或许还有很多新类型的应用。


尽管机构不会直接披露通过技术获得的收益数据,但我们已可以看到人工智能进入金融行业的趋势了。在 20 年以前,很少有投资机构会去研究 AI,但随着深度学习的发展,今天我们可以看到大量金融公司正在研究人工智能。


微信图片_20211130221932.jpg

Citadel 首席人工智能官邓力。一些对冲基金为了技术甚至招揽了著名 AI 科学家,2017 年 5 月,前微软首席人工智能科学家邓力宣布加盟对冲基金巨头 Citadel。2018 年 8 月,《终极算法》一书的作者,华盛顿大学教授 Pedro Domingos 也被 DE Shaw 签下。


如果去看看一些科技基金的回报率,如 Bridgewater 和 Renaissance Capital,你会发现它们拥有惊人的回报率,这正是量化技术的功劳。


在金融数据业务的赛道上,目前最大的公司是彭博和 Refinitiv(后者是 Blackstone 和汤森路透旗下金融品牌)。随着金融机构对数据数量、质量需求的提升和成本压力的增加,越来越多的机构倾向于减少数据供应商的数量,「他们期待从一家供应商那里获得尽可能丰富的数据和服务,这样可以帮助他们提高运营的效率,并且更经济。而彭博正是他们很好的选择。」Francis 对于彭博企业数据业务的未来充满信心。


彭博来到中国已有一段时间,这家公司与各类金融机构和监管部门都保持了密切的联系,从而获得丰富的金融数据,覆盖各资产类别和市场。随着中国市场的国际化,国内的金融机构正在逐渐开始使用新技术,而彭博也乐于将其全球经验分享给中国客户。


未来,人工智能将随着数据服务的发展而变革。「我们的世界将变得高度自动化。」Gerard Francis 表示,「我认为人们会通过大量数据 API 和数据交换互相连接——所有数据中心都在云端。云服务将承载应用程序,人们在云端直接消费并传递数据。」



本文为机器之心原创,转载请联系本公众号获得授权

相关文章
|
27天前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
8天前
|
人工智能 小程序
【一步步开发AI运动小程序】十五、AI运动识别中,如何判断人体站位的远近?
【云智AI运动识别小程序插件】提供人体、运动及姿态检测的AI能力,无需后台支持,具有快速、体验好、易集成等特点。本文介绍如何利用插件判断人体与摄像头的远近,确保人体图像在帧内的比例适中,以优化识别效果。通过`whole`检测规则,分别实现人体过近和过远的判断,并给出相应示例代码。
|
5天前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
57 14
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
9天前
|
存储 机器学习/深度学习 人工智能
【AI系统】完全分片数据并行 FSDP
本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现,特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念,重点讨论了同步与异步数据并行的差异。接着,文章详细介绍了如何在PyTorch中实现弹性数据并行,特别是完全分片数据并行(FSDP)的机制,包括其如何通过分片模型状态和剩余状态来减少内存消耗,提高训练效率。此外,文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术,为理解和实施高效的分布式训练提供了全面的指导。
31 9
【AI系统】完全分片数据并行 FSDP
|
9天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
62 7
【AI系统】数据并行
|
1天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
6天前
|
人工智能 小程序 UED
【一步步开发AI运动小程序】十六、AI运动识别中,如何判断人体站位?
【云智AI运动识别小程序插件】提供人体、运动及姿态检测的AI能力,本地引擎无需后台支持,具备快速、体验好、易集成等优势。本文介绍如何利用插件的`camera-view`功能,通过检测人体站位视角(前、后、左、右),确保运动时的最佳识别率和用户体验。代码示例展示了如何实现视角检查,确保用户正或背对摄像头,为后续运动检测打下基础。
|
20天前
|
人工智能 小程序 IDE
【一步步开发AI运动小程序】九、姿态辅助调试桌面工具的使用
随着AI技术的发展,各大厂商推出的AI运动APP如“乐动力”、“天天跳绳”等,使云上运动会、线上健身等概念大热。本文将指导你如何利用“云智AI运动识别小程序插件”,在微信小程序中实现类似功能,包括工具搭建、服务启动及数据回传等步骤,助力开发者高效开发AI运动小程序。
【一步步开发AI运动小程序】九、姿态辅助调试桌面工具的使用
|
13天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十三、自定义一个运动分析器,实现计时计数02
本文介绍如何利用“云智AI运动识别小程序插件”开发AI运动小程序,详细解析了俯卧撑动作的检测规则构建与执行流程,涵盖卧撑和撑卧两个姿态的识别规则,以及如何通过继承`sports.SportBase`类实现运动分析器,适用于小程序开发者。
|
13天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十二、自定义一个运动分析器,实现计时计数01
随着AI技术的发展,AI运动APP如雨后春笋般涌现,如“乐动力”、“天天跳绳”等,推动了云上运动会、线上健身等热潮。本文将指导你从零开始开发一个AI运动小程序,利用“云智AI运动识别小程序插件”,介绍运动识别原理、计量方式及运动分析器基类的使用,帮助你在小程序中实现运动计时和计数功能。下篇将继续探讨运动姿态检测规则的编写。

热门文章

最新文章