对话戴金权:英特尔如何构建软硬件协同统一的大数据分析+AI平台?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 抛开硬件,英特尔的软件能力也不容忽视。

雷锋网消息,在2019全球人工智能技术大会主论坛,英特尔高级首席工程师、大数据技术全球CTO戴金权发表了题为“如何构建统一的大数据分析+AI平台”的演讲,英特尔的硬件能力不必赘述,这次英特尔则着重展示了软硬协同能力,尤其是人工智能开源软件平台Analytics Zoo。

戴金权表示,英特尔致力于提供从设备端到边缘再到数据中心、云端完整的计算架构,比如在数据中心,英特尔至强系列服务器是AI应用分析的基础架构,同时也提供了多种神经网络处理器等硬件架构。

TB1bNoJaCWD3KVjSZSgXXcCxVXa.jpg

英特尔开源AI软件版图

如上图所示,这是英特尔使用开源AI软件加速开发的版图,他强调,英特尔致力于提供全栈的解决方案,从最底层的算法开源项目帮助用户更高效开发计算库,再到上层各种机器学习或者深度学习的框架,再到最上层,英特尔也提供了一些开源工具包,目的是帮助应用开发人员更高效的开发基于深度学习的应用。

趋势 | 大数据分析和AI平台融为一体

据雷锋网了解,业内大数据分析和AI平台产品并不少,英特尔这类将大数据分析和AI平台融为一体的模式正成为行业新趋势。

第一,对于大多数用户来说,尤其在生产系统当中,基于Apache Spark这样的大数据集群仍然是所有的生产数据以及包括大量硬件资源的聚集地,如何更高效利用生产数据以及硬件资源,能够将新的人工智能的应用支持起来成为新挑战。

第二,要构建一个工业级端到端的大数据分析+人工智能应用,并不是说训练一个模型就可以完成的事情,其是一个非常复杂的流水线或者工作流。从数据的收集、导入、处理、特征的提取、各种模型的构建训练,到最后的部署、推理等等,是一个非常复杂的工作流。

“我们能够帮助用户可以将这一个样端到端的大数据处理分析加上机器学习的工作流能够非常方便地构建出来,从而大大能够提高了用户的开发效率、部署效率和运维效率”,戴金权介绍道。

与过去数年相比,深度学习和人工智能应用场景更加广泛,要处理的数据也更加广泛,所以客观要求使用者构建端到端的大数据处理分析加上机器学习、深度学习的统一流水线。英特尔观察到,客户有越来越多的类似需求。

“我们有很多用户是来自于很多非常大的互联网公司或者是大的企业里面的传统实验室,他慢慢的也会发现,当构建了一些人工智能深度学习的框架和模型之后,怎么样能够很好的真正跑到生产系统上去,能将生产数据在上面跑起来。这是用户来使用英特尔Analytics Zoo一个很重要的出发点。”

此外,Analytics Zoo的用户也不乏硬件的OEM的厂商、软件提供商、公有云服务商等,英特尔现场展示出的客户包括浪潮、宝信、戴尔、阿里云和腾讯云等。

核心 | 端到端应用场景塑造

TB1jAMQarys3KVjSZFnXXXFzpXa.jpg

从深度学习模型到一个完整的工业级应用要多少步骤?如上戴金权在现场展示的PPT,黑色部分是核心的深度学习模型,但是周边有很多工作要完成,才能使之运行起来。

深度学习的模型只是整个流程的一部分,要构建和应用深度学习模型,还有数据的导入、数据清洗、特征提取、对整个集群的资源的管理和各个应用之间对这个资源的共享等,这些工作事实上占据了机器学习或者深度学习的一个工业级应用开发大部分的时间和资源。所以,数据处理、机器学习,以及算法必须很好地和现有的大数据处理的工作流整合在一起。

这也是构建一个端到端的应用场景所面临的问题,在没有一个统一的大数据分析+AI平台之前,需要人工把很多不同的框架拼凑起来。

另外很多用户开发一般都是从单机开始,当需要处理更多数据的时候,就需要跑到一个大规模分布式环境,甚至到一个生产环境里去。

从Analytics Zoo的角度,第一,英特尔能够将不同的框架无缝的集成到流水线里面去,通过在软件层上面各种新的支持或者功能,能够将TensorFlow、Spark能够非常无缝的集成在一个程序里面,在一个Spark程序里面直接嵌入TensorFlow的Code,然后一起运行起来,这其实对很多用户来说很有吸引力。

第二是在开发过程中,因为底层运行在Spark这样的引擎上,上面可以嵌入各种深度学习的功能,它可以运行在一个单机的环境,也可以跑到一个分布式环境里面去,用户也可以直接访问生产数据。

“很多用户之所以想用Analytics Zoo,就是它可以直接构建端到端的,跟生产系统几乎一致的原型。这是我们的一个主要出发点,可以帮助用户将整个的大数据分析+人工智能的应用很方便的将端到端的流水线构建出来,而且它可以很方便的从用户的笔记本运行到集群、运行到用户的生产环境当中去,这是英特尔在底层Analytics Zoo这个平台里所做的工作”,戴金权总结道。

Analytics Zoo是为了大数据平台所优化的,今天大数据平台基本都运行在非常大规模的英特尔至强处理器上,或许是几十、几百、几千个节点,但是英特尔使用了大量的底层优化的框架和库,像MKL-DNN、OpenVINO等等,将来会通过英特尔One API这样的生态系统输出。

戴金权提到,当在英特尔的生态系统上构建一个人工智能开发平台时,带来的好处就是底层能够支持英特尔各种硬件的加速,不管是至强服务器,包括像Movidius、FPGA,神经网络处理器,还有将来的独立显卡,都可以通过One API下面的底层生态系统来给上层的平台和应用所使用。

雷锋网(公众号:雷锋网)总结,Analytics Zoo能够将各种不同的模块不同的框架下统一到一个端到端流水线上,提高客户开发部署大数据分析和深度学习的能力,这在如今深度学习或者机器学习越泛化的背景下十分重要,英特尔的工作能够让用户减少人工智能应用的开发环节,快速推向现实场景。

相关文章:

英特尔首次向其投资者谈论一个不为人知的“秘密”

腾讯X英特尔:巨头联手如何掘金5G&MEC?

英特尔以数据为中心的竞争优势是什么?BATJ有个共同的观点

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
28天前
|
存储 人工智能 自然语言处理
《百炼成金-大金融模型新篇章》––11.构建金融级AI原生的蓝图
百炼必定成金,新质生产力会催生新质劳动力,谨以此文抛砖引玉,希望与业内的各位朋友一同探讨如何积极拥抱并运用大模型技术,以应对和驾驭不断变化的市场环境,实现科技金融持续稳定的提质增效和创新发展,携手开启金融大模型未来新篇章。
|
5天前
|
存储 人工智能 分布式计算
大数据&AI产品月刊【2024年6月】
大数据&AI产品技术月刊【2024年6月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
14天前
|
人工智能 运维 Serverless
基于 Serverless 计算快速构建AI应用开发陪跑班开课啦!
云端问道第8期开课啦!参与直播间动手实操即可获得保温杯,参与直播间活动可抽奖无线充电器!!您将在课程中学习到基于Serverless技术函数计算FC实现基于Serverless 构建企业级AI应用的解决方案,降低 GPU的使用成本、减少企业或个人创业的试错成本、简化开发运维,让人人都可以拥有自己“专属”的AIGC环境成为可能!阿里云技术专家将手把手带您实操,还将针对实操中的问题进行一对一答疑!机会难得,快来参加吧!
175 5
|
12天前
|
人工智能 自然语言处理 小程序
政务VR导航:跨界融合AI人工智能与大数据分析,打造全方位智能政务服务
政务大厅引入智能导航系统,解决寻路难、指引不足及咨询台压力大的问题。VR导视与AI助手提供在线预览、VR路线指引、智能客服和小程序服务,提高办事效率,减轻咨询台工作,优化群众体验,塑造智慧政务形象。通过线上线下结合,实现政务服务的高效便民。
41 0
政务VR导航:跨界融合AI人工智能与大数据分析,打造全方位智能政务服务
|
25天前
|
机器学习/深度学习 人工智能 Java
【Sping Boot与机器学习融合:构建赋能AI的微服务应用实战】
【Sping Boot与机器学习融合:构建赋能AI的微服务应用实战】
23 1
|
29天前
|
人工智能 缓存
[AI words] 突破瓶颈:如何将AI words网站构建时间缩短一半
了解我如何优化AI words网站的构建过程,将构建时间从14分钟缩短到仅仅7分钟。本文详细介绍了优化步骤和遇到的挑战。
|
1月前
|
机器学习/深度学习 人工智能 算法
【机器学习】机器学习与AI大数据的融合:开启智能新时代
【机器学习】机器学习与AI大数据的融合:开启智能新时代
31 1
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型的核心成功因素通常可以归结为三大要素:大数据、大算力和强算法。
AI大模型的核心成功因素通常可以归结为三大要素:大数据、大算力和强算法。
31 0
|
27天前
|
人工智能 机器人 API
Dify 构建一个基于 GPT 的 AI 客服系统
Dify 构建一个基于 GPT 的 AI 客服系统
266 0
|
7天前
|
数据采集 自然语言处理 大数据
​「Python大数据」词频数据渲染词云图导出HTML
使用Python,本文展示数据聚类和办公自动化,焦点在于通过jieba分词处理VOC数据,构建词云图并以HTML保存。`wordCloud.py`脚本中,借助pyecharts生成词云,如图所示,关键词如"Python"、"词云"等。示例代码创建了词云图实例,添加词频数据,并输出到"wordCloud.html"。
18 1
​「Python大数据」词频数据渲染词云图导出HTML

热门文章

最新文章