IBM李永辉:从人工智能到大数据的终点

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介:

ZDNet至顶网软件频道消息:人工智能技术在大数据领域发挥的作用日益重要,IT技术人员对IBM Waston的兴趣也与日俱增。近日,IBM科技部的杰出工程师李永辉参加了2014年中国大数据技术大会 ,并接受了CSDN云计算的专访,以Waston为例分析了人工智能技术的行业应用实践和前景。李永辉认为,通过结构化数据和非结构化数据的结合产生智慧是大数据未来的方向,以Watson为代表的感知运算技术正是要实现这一目标,其能力将融入到各种行业解决方案或者IT产品中发挥作用,包括采用云端交付的模式。

专访内容整理如下:

CSDN:请您先介绍一下IBM 如何认识大数据技术的一些最新进展。

李永辉: 首先祝贺2014年中国大数据大会取得成功,我们今天很高兴看到在会场有超过1000人参加大会,包括各个厂商和很多海外的专家,这代表大数据在中国的巨大影响和关注度。从IBM的角度看起来,大数据的4V在未来都会有很多不同的发展,以至于未来的系统从硬件、软件的发展方向都会着重这4个V的配合。

IBM认为,针对结构化数据处理的传统数据库技术,和针对非结构化数据的NoSQL技术,未来都会有很大的发展。我们希望结合结构化数据跟非结构化数据产生一些洞悉来指导业务创新,这是我们看到未来发展的一个终点。

CSDN:对不同类型的数据价值的挖掘,IBM现在也特别看重人工智能,您觉得哪些大数据问题需要我们采用人工智能的技术来解决?

李永辉: IBM把人工智能归类为感知运算的一个发展方向,感知运算的特点在于从传统的结构化数据的处理到未来的大数据、非结构化流动数据的处理,从原来简单的数据查询到未来发现数据、挖掘数据的重点。现在我们只是看人产生的数据,未来可能会有更多的一些物件产生的数据、物联网产生的数据、机器产生的数据等等,需要一个更具智慧的选择。

至于未来的使用方向,随着计算资源成本的降低、工具的开放和一些开源产品的发展,门槛会越来越低,而且感知运算未来会朝多个方向发展,针对不同的行业会有它自己自身的特性,而且每一个发展出来的产品会有更低的门槛,融入在未来的一些IT产品或者是应用里边一起发展。

CSDN:Waston是IBM感知运算技术的代表,您觉得它在产业中的优势如何体现?

李永辉: Watson是IBM为纪念100周年而设计和研究,参加了2011年美国电视游戏节目《危险边缘》Jeopardy并赢得了第二次人机大战。我们采用深度答问技术,通过语义分析抓取关键字眼,分析问题本质,把它解拆到多台机器里面,并行做分析做搜寻对比,综合起来得出一个结果。

这台机器的特点在于结合了IBM在各个领域最好的技术,硬件平台是一个横向扩展到2880个POWER核心的集群,配合GPFS的文件系统做好高性能计算、弹性扩展、高度并行化和分级存储管理,软件则结合IBM多年累积的研发成果,包括人类自然语言的解析能力,自我学习的能力,非结构化数据分析的功能集中在一起,所以是IBM最强的设备与最好的软件的组合。未来Watson的技术会使用在不同的领域,优秀能力会集成到IBM未来的产品中。

CSDN:您刚才说针对不同的行业会有各种解决方案,能否介绍基于Waston的不同行业解决方案?是否有一些可以通过云环境交付的?

李永辉: 赢了第二次人机大战以后,我们就希望把Watson商品化,透过它的技术融入到我们的产品,也结合不同的行业专家一起做。首先我们选择的是医疗行业,主要希望来解决人类目前解决不了的癌症治疗难题,或者说是为治癌症提供一种建议。

第二个行业我们切入金融行业,因为我们看到金融行业里边有很多的需求,像风险的管理,客户关系的管理,还有像那些财务报表的分析等等,实际上都可以通过Watson的自我分析能力提供辅助。往后我们还有不同行业的支持。

在云端的环境发展,Watson未来的计划之一是希望变成一种可服务的方式,包括在云端提供一些API的方式,来提供使用。目前有7个服务放在IBM BlueMix平台上,可以让用户用起来。这些服务很多是跟语言的解析、分析有关系的。可见的未来,我们会陆陆续续地提供更多的能力到网上。

CSDN:语言解析/分析在大数据中也有很多的应用,但中国和外国的语言会有一些区别,需要本地化,Waston系统针对中国做了哪些本地化的研发呢?另外有哪些成功的案例?

李永辉: 语言的解析跟各个国家的文化、语言使用习惯有很大的关系,而且需要一个学习的过程。在Watson提供的服务里面,目前只有一部分的服务有中文的辨析,方便下一步大数据分析应用的采用。同时IBM也有中国研究院,也做了针对中国文化的相关研究,在未来会有一个更好的结合。

Watson不像一般的机器是卖一套硬件,或者卖一套软件给客户,而是提供一个平台,希望跟行业有一个很好的结合,是结合客户本身协作的方式发展来应用的。为推动Watson的商业化,IBM今年组建了新的沃森业务集团,针对一些特殊的行业提供有关的Watson结合。刚才提到了我们的第一个结合是医疗行业的结合,在美国有一些医疗行业的企业共同研究。另外,在金融行业我们在全球和花旗银行、DBS等有一些合作。既然把Watson的一些服务开放到网上,我们预估未来会有各种各样的应用会整合到里面。

CSDN:刚才您说的抗癌应用,现在它的最新进展情况能介绍一下吗?

李永辉: 抗癌是我们的第一个应用,在2012年左右开始,经过1—2年的安装、应用的调试还有学习,最重要是学习,因为医疗行业里边涉及到大量的历史数据,包括病人的病例还有大量的医学期刊等等。通过机器学习,系统提供一个有证据的建议给一些医生,来帮助他们判断,诊断治疗癌症的下一步方案。因为机器不能替医生做医疗决定,Watson只会提供一个建议,并列出建议背后的链接,医生要做判断的时候,我们会做一个有关证据的分析、查询等等。

在美国已经有一些实际成功的案例,他们在治疗一些癌症病人的过程中,发现一些非常罕见的状况,全球范围内只有不到10个的医生知道治疗的方式,但是透过机器学习期刊,他可以告诉所有医生考虑是不是这种情况。一般情况下,相对于浩瀚的医学知识,每年医生能花在学习些新东西上的时间很少,而透过机器学习的帮助,医生可以增加症状诊断的精准度,可靠性。

CSDN:抗癌可能是目前医疗界面临的最大的难题,那么用于其他方面的难题,是不是可以用相同的原理获得解决方案?

李永辉: 从解决方案来讲,在癌症以外的领域也可以使用,只是每一个行业,甚至医疗行业内部的每一个专业,都有自己的专业知识,要做相关的信息搜集、分析等等,经过调试以后才能使用。所以说我们之前跟医疗行业合作的两个案例,都是超过1年的合作期才会有一个比较好的成果。

CSDN:培训的周期除了跟数据量、病症的复杂程度有关,还跟哪些因素有关系?

李永辉: 首先,每个行业专门的知识都有它的术语,那些解析、分析语言可能不懂。IBM Watson有一些技术是可以找到一些新的专业术语,然后知道关联性,知道那个知识重要还是不重要,然后这些信息扫寻数据的时候我们就会懂得找一些相关的数据出来,这个是一个难点。

其次,每个行业,特别是专业的行业,它本身的发展还是很快的。像医疗行业,有生物科技的产生,还有可穿戴设备,对身体的素质、身体病理的特征收集的数据可能会海量的增加,怎么样把那些历史医疗数据跟新的数据结合交叉地分析出一个有用的数据,这也是未来的一个挑战。

另外,当处理行庞大数据的时候,机器本身的机制可能需要一些更高效的一种方式来处理。

CSDN:您一直强调开源和开放,这两个方面我们有着什么样的努力呢?

李永辉:IBM是开源业界的一个重要贡献者。语言分析领域的一个国际的标准是UIMA,它为非结构化分析提供一个通用的平台,能够减少重复开发,里边实际上有很多IBM的贡献,同时这也是Watson在开发语音分析的过程里边的一种主要技术。下一步我们透过Watson也会发展水平扩展的技术,来实现语音分析大幅度的并行化。至于开放,刚才也提到像IBM的POWER——很高性能的一个核心处理器,这个是业界第一次有高端的处理器的技术开放给业界,还有一些接口也会开放出来,我们预估在未来会有很多的变化。

CSDN:您刚才还提到Waston有一些服务是要放在网上,如果第三方的开发者要应用到Waston的一些成果,对他们的技能方面有哪些需求?

李永辉: 我们看到未来Watson的使用场景可能会有两个发展方向;一方面是透过开放API或者SaaS的方式让更多的用户可以使用Watson的一些能力,这部分基本上目前是通过免费的方式提供服务;另一方面是专业的系统,IBM会更紧密地结合行业,来开发有关的特色应用,跟行业结合每一个具备分析能力的系统需要很多的培训,每一个行业的要求都是不一样的。如同刚才举的例子,医疗行业治疗癌症跟治疗伤风感冒也是不太一样的。

CSDN:您能总结一下Waston未来的重点研发方向吗?

李永辉: IBM是非常着重研发的IT企业,有一个好处就是结合硬件、软件还有服务可以提供,包括云端的服务。除了将利用OpenPOWER联盟的成果,如通过CAPI高速连接通道更好地集成GPU、FPGA加速、内存共享等技术提升硬件平台的大规模实时处理能力之外,未来Watson的一个主要发展方向,是拓展更多不同的行业结合不同行业所谓跨行业的结合以外,同时也会透过云端,提供更多的、更好的服务给普罗大众,让他们也可以分享到Watson的研发成果。

CSDN:企业要实施大数据,如果他希望用到人工智能的技术,IBM有哪些建议?

李永辉: 首先我们建议各个企业要了解到他行业、业务范围里边,有哪些地方可以结合大数据、或者非结构化的数据,进一步提升他们的服务,我们看到一些领域像客户关系管理,风险管理等等,结合大数据的分析,像社交数据的分析,会有很大的好处。这是行业内部,第一步需要他自己挖掘那些和业务链有关的数据。第二步,建议从小规模开始,成功了就可以大规模地使用。也就是除了传统数据库以外,采用一些非结构化数据分析的工具,结合这两者,可以更好地达到下一步的发展。

从平台的选择来讲,开始的时候也要考虑到未来发展下去,怎么在一种多租户环境把利用率提高,怎么提供更好的平台。IBM希望通过POWER的硬件,透过IBM的一些软件产品,可以给客户一个更多、更好的选择。

CSDN:最后谈谈您对今年的BDTC大会有哪些感受和建议?

李永辉: 首先非常感谢主办方邀请IBM参加2014年的大数据技术大会。我们希望未来有更多的人加入大数据领域,希望在这个大会上,IBM和中国本地的技术专家可以跨区域地进行更多的交流,使中国在大数据的纵深领域继续发展。

原文发布时间为:2014年12月17日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
80 7
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
117 35
|
1月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年12月】
大数据& AI 产品技术月刊【2024年12月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
96 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
2月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
深入探索人工智能与大数据的融合之路
本文旨在探讨人工智能(AI)与大数据技术如何相互促进,共同推动现代科技的进步。通过分析两者结合的必要性、挑战以及未来趋势,为读者提供一个全面的视角,理解这一领域内的最新发展动态及其对行业的影响。文章不仅回顾了历史背景,还展望了未来可能带来的变革,并提出了几点建议以促进更高效的技术整合。
|
2月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
3月前
|
数据采集 机器学习/深度学习 人工智能
探索人工智能与大数据的融合之路####
本文将深入探讨人工智能(AI)与大数据之间的共生关系,揭示二者如何相互促进,共同推动技术边界的拓展。不同于传统摘要的概述形式,本部分将以一个生动的比喻开篇:如果把大数据比作广阔无垠的数字海洋,那么人工智能就是航行其间的智能航船,两者相辅相成,缺一不可。随后,简述文章将从数据采集、处理、分析到决策应用的全流程中,详细阐述AI如何借助大数据的力量实现自我迭代与优化,以及大数据如何在AI算法的驱动下释放出前所未有的价值。最后,预告文章还将探讨当前面临的挑战与未来趋势,为读者勾勒一幅AI与大数据融合发展的宏伟蓝图。 ####
|
3月前
|
机器学习/深度学习 人工智能 算法
探索人工智能与大数据的融合之道####
— 本文旨在探讨人工智能(AI)与大数据如何协同工作,以推动技术创新和产业升级。通过分析二者的基本概念、核心技术及应用场景,揭示它们相互促进的内在机制,并展望未来发展趋势。文章指出,AI提供了智能化处理数据的能力,而大数据则为AI提供了海量的训练资源,两者结合将开启无限可能。 ####
|
3月前
|
人工智能 算法 搜索推荐
探索人工智能与大数据的融合之道####
本文深入探讨了人工智能(AI)与大数据之间的紧密联系与相互促进的关系,揭示了二者如何共同推动科技进步与产业升级。在信息爆炸的时代背景下,大数据为AI提供了丰富的学习材料,而AI则赋予了大数据分析前所未有的深度与效率。通过具体案例分析,本文阐述了这一融合技术如何在医疗健康、智慧城市、金融科技等多个领域展现出巨大潜力,并对未来发展趋势进行了展望,强调了持续创新与伦理考量的重要性。 ####