中国人工智能学会通讯——机器学习在商务智能中的创新应用 1.4 为什么要重视非结构化数据

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

1.4 为什么要重视非结构化数据

接下来我想简单地介绍一下大家可能听过的一些内容,如果大家不熟悉我想再说明一下为什么非结构化的数据能够扮演如此重要的角色。在商业分析的领域中,人们希望能够借助时间序列、回归等听起来很酷炫的机器学习办法来分析问题,这可能是一些销售噱头,但是这个不重要。

image

我想说的是,为什么图中会有这么多的上升和下降?企业使用诸如真实气象数据这样的数字数据,希望能找到更多的商业营销卖点,可以卖冰激凌也可以卖雨伞。但是获取再多这样的数据也无法解释一切事件。如果我们获取更多的数据,如新闻和推特数据,那么就能搞清为什么会出现某些高峰或低谷,并将它们与真实生活中发生的事件联系在一起,比如说是关于纽约新港港口和船只博览会的新闻和推特数据。

image

我们再来看一下医疗数据,医疗数据现在大多是数字数据和图像数据。但是如果没有医生的报告将相关的事件、发现和假设提取出来,这些数据就没多大用处。因此只有将非结构化数据和结构化数据结合起来,才能解决问题。这就是我们以及Wikidata、DBpedia现在希望完成的工作,我们尝试将信息提取出来并尽可能将其转换成结构化数据,将它们放在知识图谱中。

如果我们看一下文献信息提取,就会发现人们试图涵盖所有东西,比如说从某些对话(如客户关系管理)中提取主题和答案,再重复利用提取出的答案;我们还可以提取名称、事实、事件、意见和情绪等。现在我们有这样一个项目,在该项目和它的几个子项目中与很多先锋公司和大公司进行了合作,如西门子、莱比锡大学等;还有一些外部的合作伙伴,像WIKIMEDIA、Wikidata基金等;我们也和提供商业数据的公司进行了合作,如BBD柏林数据中心、WVC德国和奥地利分公司。

下面介绍一下我们在这个项目中所使用的方法。

●将企业内部数据与开放数据、开放知识和新媒体(比如新闻媒体、电视、社交媒体)内容进行整合。
●将知识图谱与开源办法和工具连接起来。
●将数据分析整合到强大的大数据技术中。因为不久以后数据就会变得非常庞大,无法用常规的技术进行处理。
●结合使用结构化方法、统计方法和深度学习分析异构数据。
●为新型数据价值链构建可行商业模型和法律框架。在欧洲几乎一切成果都受严格的知识产权保护,同时也受数据隐私和数据安全方面的权利保护。因此我们与律师们进行合作,如果没有他们就无法在欧洲完成如此庞大的工作。

image

我们从互联网上获得数据包括非结构化数据、半结构化数据,以及企业内部数据。这张图是很典型的知识图谱,我们所做的就是要把不同来源的数据输入到这个知识图谱中,然后得出整合后的知识图谱,将其扩展为公共知识图谱,这基本就是这个项目的原理。

image

这张图就不赘述了。这是一个企业内部语义网,定义了企业之间、企业与产品之间,以及产品和科技、科技和科技、企业内部人与人之间关系。最后就会得到一张这样的知识图谱,现在应用在供应链关系和市场调研中。

我们还在其他领域应用了相同的方法,但是从这个项目来看,更多是和应用有关的,这个是另外一个项目了,我们在其他项目中也有相关应用。我们使用的数据包括交通数据、开源数据、媒体数据、采购数据等,可以利用的其他数据还有很多,这已经足够多了。

我之前也跟大家谈到,这样的发展是非常迅速,外部的数据越来越多,你要把所有的数据嵌入到大数据,我所在的DFKI柏林中心的大数据部门的主任也成立了这样的一个小组,专门做了一个大数据的平台。我们可以使用其他的大数据平台,为什么要使用Apache Flink这个平台?不仅是因为他本身就是Apache Flink的开发者,而且还因为这个平台非常擅长于数据流处理。相比之下,Spark在流处理时只是将数据分成一个小批次进行处理,并不是真正的流处理。如果我们要进行实时数据的流处理,它就不如Flink,这就是为什么我们最后选择了Apache Flink。

我们将工具挖掘(mean crawling)外包给了一家公司,我们对语义工具进行过滤,然后再进行预处理、实体发掘和联系,以及事件提取,最后得出可以用在多个项目中的KPI。接下来我们再谈谈实体联系,这项工作极具挑战性,这个系统是我们几年前构建的,并在2015年时获得一个奖,我们这几年一直在改善该系统,效果也不错。比如说阿姆斯特朗这个名字,它可能是指摇滚乐手、宇航员等,我们将内部知识和外部知识联系起来,识别出来谁是你想查的那个人。维基百科也要使用,有的企业数据结构化,对于这样的信息我们也会整合在实体联系的结果中。

image

方法论这部分待会儿再来谈,这是一种混合优化和深度学习的方法,多目标优化在处理联系和歧义方面做的比深度学习好。在处理动词时,我们则使用深度学习。在消除动词时态歧义时,我们就使用的是深度学习,因为并没有太多上下文可以依据。对于数值优化,传统的一些办法效果更好,但是在这个情况下可能做不到那么好。

现在在动词时态消除歧义和实体联系上,几乎所有人都声称自己做的更好,但是从个人角度来说,我们从来不说自己做的最好,我们在所专攻的领域上做的非常好,其中一个领域是进行关系提取以获得事实。我们希望学习关于公司的事实,比如哪一个供应商有问题、哪一个供应商濒临破产、哪一个供应商出现了罢工问题,以及哪家公司在发布新产品。在这方面,我们使用的是语言学最小限度远程监督机器学习(Minimally and Distant Supervised ML for Linguistic)。

和其他人一样,我们从语言处理监督学习研究人员先前提出的事实开始着手,最早的是斯坦福大学研究人员发表的论文。我们怎么做的?其实跟他们不太一样,我等会在向你们说明。我们获取了数千个事实,然后在谷歌搜索引擎上进行搜索,在得出的搜索结果网页中,把句子断句之后确定句子的相依性,然后通过复杂的模式提取机制进行提取。刚开始时这种机制并不理想,许多机构在这里败下来,因为这种机制通常只能适用于短句、断句的语意分析。我们使用了语义知识图谱,例如Wordnet,用其中的资源进行过滤,以确保提取出的内容具有语义上的模式。

image

举一个例子,一个人跟另外一个人结婚,会有很多不同的模式,实际上有数千种不同的模式。为什么模式研究很重要?因为这些模式将我们与知识联系在一起的,我们现在已经把模式和语句进行了匹配,最后会得到一个模式图,其中橙色框中的内容是给出了我们希望找出的关系,然后再基于这么多的关系来进行统计分析,例如频率分析。

image

从上图可以看出,我们整个处理流程是一个闭环。从实例开始,进行最小限度监督学习,然后再输入搜索出来的更多实例。当你的实例达不到1万个时,你可以进行最小限度的监督学习;当你有了很多的实例之后,我们可以把实例不断地加进来。现在我们的系统可以把监督学习、无监督学习、最小限度的监督学习、远程监督学习整合起来。

很简单,你只需将带标签的陈述(tagged mentions)加到解析器(Parser)中,当你把这样的样本加进来之后,整个系统就会自动跑起来。如果是有标签样本,你可以跑3次这样的循环,因为我们有一个监督式、非监督、远程监督的机器学习方法,可以做3次数据的分析。我们之所以整合那么多的机器学习的方法,是因为一开始的数据是有限的。现在我们的系统在日以继夜地运转,过去6个月中我们也得到了很多不同的数据,现在已经涵盖120万个企业的实体知识库,可以跟踪他们的信号。我们采集的只有收到语义信号的企业的数据。

当然从某些角度来看,这些数据并不是干净、有序的,因为这是结构和模式的混合式。但是在应用中,我们需要对比各种方法。方法有很多,例如有限状态的方法(finite-state methods)、混合优化、多对象优化、卷积神经网络等。

但是很遗憾的是,现在我们的目标是将成果应用到实际生活中,必须从每种方法中找到最适合我们数据的部分。有这么多方法,我们可以为深度学习领域或其他基于知识的领域中的从业人员提出很多不同的解决方案,从而实现早期应用。

我们在一些领域已有一些应用,比如AI辅助产品经理,我们可以从全球的信息化企业搜索他们客户在想些什么;我们还可以通过人工智能进行供应链的管理,进行市场调研,辅助投资经理进行投资的管理。

最后来看一下前景,我们用几分钟时间讲讲我们未来的前景,这就是我们的现实。我讲的这些都是我们能够做到最好的,我不知道你们做的怎么样,我们正尽全力试图将成果应用到企业中。我们必须整合这些方法,因为每一种方法都不够完美,比如说机器学习、深度学习等。因此,我们通过衡量每种方法挑选出当前最好的方案,但是未来会怎样?

image

上图是DFKI的CEO做的图,我前面讲过工业4.0就是他的想法,他同时也是一名人工智能研究人员。到1975年时,我们主要应用的是一些搜索、启发式的搜索和认知的一种方法;到1995年是基于知识的系统,人们试图研究知识工程学并构建海量的知识,这非常困难,而且当时没有足够多的知识可以建立。

为什么太困难?有两个原因,一个是因为他们野心太大了,想添加太多逻辑。当时只有一个人想要建立这样的知识,现在我们的知识系统是由数百万人共同构建,所以说是非常不一样的。到2015年时我们有了学习系统,非常大,现在也很大。我写的是到2015年不代表到这里就停止了,我认为这个系统在中国发展的就非常迅速。

image

它的意思就是说,如果回溯50年或100年,当时我们认为下一个浪潮是系统整合,就是把各系统的功能整合在一起。我一开始时忘了讲,其实新系统有核心上不一样的东西。很多系统通过数据来进行学习,同时还需要一些时间运行额外的数据,它们或许不够稳定,或许是我们不知道怎么样进行选择,它们也有可能太大、太活跃,可能还需要时间运行额外数据。例如,对于导航,需要获得一些天气、路况的信息,这是动态的,没有太多学习时间。如果说我们要获得最新新闻,了解股市的最新变化。上图是新的系统,重叠的部分就是我们所预测的真正变革,我认为我们看到的只是真正变革的一个重要信号,但是现在这个变革还没有到来。

现在的系统只能做一些夺眼球的任务,对我们而言围棋似乎很重要,但对这个社会来说还没有那么重要。我们可以研究对象识别,开发许多好的应用并利用这样的能力帮助我们赚钱。但是在这个中心,会产生下一次革命,处理知识和数据的能力将实现飞跃。IBM的系统由Wason和有两个机器人组成,这三者都无法连接至网络,相当公平。这两个机器人就像我们的人一样长有脑袋,Wason利用大量机器和存储从维基百科、字典、圣经、历史书上下载大量的信息,这就是未来。如果我们利用这种技术把行为学习和深度学习的力量结合起来,机器不会和人类一样蠢,在某些方面必定是超级智能的;而且我们的大脑、知识和语言是通过变革不断进化的,知识变革是后来兴起的,如果能将知识变革和行为变革结合起来,就可以构建任何类型的革命性系统并快速复制这种行为,这种系统必定会非常强大。事实上,人们已经在进行这项工作,并且不断地在完善各种系统。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
2天前
|
机器学习/深度学习 监控 算法
机器学习在图像识别中的应用:解锁视觉世界的钥匙
机器学习在图像识别中的应用:解锁视觉世界的钥匙
148 95
|
1月前
|
机器学习/深度学习 传感器 自动驾驶
探索机器学习在图像识别中的创新应用
本文深入分析了机器学习技术在图像识别领域的最新进展,探讨了深度学习算法如何推动图像处理技术的突破。通过具体案例分析,揭示了机器学习模型在提高图像识别准确率、效率及应用场景拓展方面的潜力。文章旨在为读者提供一个全面的视角,了解当前机器学习在图像识别领域的创新应用和未来发展趋势。
|
20天前
|
供应链 监控 安全
基于Quick BI的多部门组织下的数据共享及管理方案
本文介绍了企业在使用Quick BI时面临的数据共享与安全控制需求,涵盖技术、财务、销售等部门的具体挑战,并提出了基于角色组授权、工作空间隔离、行级权限管理等解决方案,确保数据既能高效共享又能安全可控。
142 5
基于Quick BI的多部门组织下的数据共享及管理方案
|
10天前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
54 12
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
模型训练数据-MinerU一款Pdf转Markdown软件
MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。
110 4
|
1月前
|
人工智能 算法 BI
聚焦AI与BI融合,引领数智化新潮流 | 【瓴羊数据荟】瓴羊数据Meet Up城市行第一站完美收官!
当BI遇见AI,洞见变得触手可及 —— 瓴羊「数据荟」数据Meet Up城市行·杭州站启幕,欢迎参与。
423 5
聚焦AI与BI融合,引领数智化新潮流 | 【瓴羊数据荟】瓴羊数据Meet Up城市行第一站完美收官!
|
26天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
43 1
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
114 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
116 11