数据湖最佳场景实践——人工智能行业-阿里云开发者社区

开发者社区> 阿里云存储服务> 正文

数据湖最佳场景实践——人工智能行业

简介: 阿里云针对AI行业的痛点,推出了AI行业的数据湖解决方案,该解决方案的核心是通过数据湖一体化的能力,轻松对接各种计算与处理引擎,直接在数据湖中对数据进行分析。

行业综述

基础设施日渐完善,AI行业正欲弯道超车
人工智能(ArtificialIntelligence)——简称AI,指由人类制造出来的机器所展现出来的智能,试图通过计算机来模拟人的思维过程和行为。到了2020年,随着5G、人机交互等技术的日渐成熟,AI应用也正迎来发展的新阶段。
在国内,AI行业目前主要包括计算机视觉、自然语言处理、脑机接口、人机融合、群体智能、自主无人系统等技术。目前我国在AI领域的投融资占全球的60%,而关于人工智能相关技术的论文产出,更是处于全球第一、二位。
自15年开始,中国AI市场规模逐年攀升。随着技术和设施的逐渐成熟,科技、制造业等业界巨头不断深入布局。数据显示,2018年中国人工智能市场规模约为339亿元,增长率达到56.2%。据预测,2020年中国在人工智能的市场规模将突破700亿元。

行业发展方向

AI技术相对成熟,但技术与产品之间产生脱节
虽然行业整体发展趋势良好,但是整个AI行业都在探索如何才能商业化,因此整个行业面临着高端”的AI技术与“中低端”的产业之间存在脱节现象。相对于我国庞大的经济体来说,目前AI技术的应用空间仍有待开发。因此如何积极探索AI技术的商业化,以及寻找技术可落地的应用场景成为了AI领域企业必须要考虑的事情。

面临的痛点

AI行业积极寻求商业化,但技术落地仍是难题
但是在积极寻求技术落地的过程中,AI领域企业经常会碰到以下几个问题:
1、日益增长的成本压力:由于目前AI技术的发展都是建立在大数据的基础上,通过大量数据让系统进行自动学习。因此企业需要长期投入大量的计算资源和存储资源,以此来让系统持续不断地学习,让系统更加智能。
2、数据价值待深挖:由于早期业务规划以及技术的原因,目前仍存在数据源分散的情况,数据源经常会存储于不同的系统、不同的团队或是不同的存储设备里。因此大量的数据不能很好地进行连通,不能充分做到从整体去挖掘数据价值。
3、安全合规:AI采集和处理的数据往往涉及用户行为、用户画像和消费数据,这类数据多数是较敏感的数据,监管部门对数据安全存储有明确要求。如何管理好日益增长的数据,也是需要提前规划和解决的问题。
12.png

AI行业数据湖解决方案

灵活架构与超高性价比,数据湖解决方案助力AI技术实现落地应用
13.png
阿里云针对AI行业的痛点,推出了AI行业的数据湖解决方案,该解决方案的核心是通过数据湖一体化的能力,轻松对接各种计算与处理引擎,直接在数据湖中对数据进行分析。
阿里云数据湖解决方案,能为企业提供统一的存储资源池,各种类型的数据集中统一存储在OSS对象存储,解决数据孤岛,避免多份数据分散在多种不同的系统,实现无缝对接多种计算引擎。
将数据存储在数据湖后,数据可以按照原始产生的形态直接存储,在需要分析阶段,再通过数据引擎进行处理,提供便捷的数据接入和数据消费通道,避免数据重复拷贝。
由于数据湖解决方案提供计算与存储解耦合的架构,因此整体的计算、存储资源具备更好的扩展性,降低运维管理难度,实现业务灵活部署。
最后,通过数据湖解决方案提供的数据流动、冷热分层和分级存储,既满足高性能场景的计算需求,提高资源利用率,也解决长期存储的成本压力。
阿里云数据湖解决方案,能为AI行业在数据采集阶段、数据预处理阶段、模型训练阶段和长期存储管理阶段提供最便捷、最高效、最实惠的服务。让数据的沉淀、存储、处理、分析更加简便快捷,帮助AI企业将技术落地,让技术与应用接壤,帮助企业释放最大的数据价值。

最佳实践

公司介绍
客户是国内自动驾驶行业TOP的汽车设计和制造商,融合前沿互联网和人工智能。

遇到的问题
1、数据量庞大,客户每天会产生几十TB的数据,如果将如此巨大的数据直接写入硬盘,不但无法保证性能,也无法对数据进行保护
2、如何将海量数据传递到云端计算集群,也是一件非常复杂和困难的事情,由于数据量庞大,需要定时定期地对数据进行维护,因此在这一过程中,其运维成本也是非常的高
3、在日常模型训练场景下,素材总量经常会高达上百TB,如果需要对这一部分的素材进行集中训练,就需要GPU反复随机地访问这部分素材,因此就需要文件系统提供低时延的文件访问能力
4、线下传统NAS存储存在单点性能瓶颈,并且容量和性能不支持弹性扩张,无法满足GPU的低延迟的文件访问需求

数据湖解决方案
14.png
针对各自动驾驶行业中涉及到的多元化的场景需求,阿里云为其量身打造了一套集采、传、存、算一体化的数据存储解决方案。
1、阿里云的闪电立方可将每天高达上百TB的数据上传至对象存储OSS中,传输速度最快可达到百Gbps。且闪电立方采用AES256端到端加密以及CRC一致性,在快速传输数据的同时,还保证了数据的安全性和可靠性
2、阿里云对象存储OSS能为数据提供12个9的数据安全保证和高达99.995%可用性SLA承诺,为数据提供全方位的安全保障。同时文件生命周期管理功能和数据分层归档功能,可自动选择将数据存放在低频或归档型的OSS,在简化操作,提高效率的同时,大大降低了数据存储成本
3、阿里云文件存储CPFS可以轻松地顶住性能压力的需求,CPFS的吞吐指标可弹性提升到每秒百GB的级别,随机访问小文件的延迟降低了8倍,在某些训练和深度学习场景下,速度整整提高了3倍,大大提升了文件计算和分析的效率

达到的效果
1、在数据采集、运输、上传和计算全链条上进行时间、成本、安全以及计算效率等方面的改善
2、解决了客户原本数据零散存放整合难、架构无法弹性应对业务波峰波谷、资源利用不充分等难题
3、客户综合成本直接降低30%以上

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里云存储基于飞天盘古2.0分布式存储系统,产品多种多样,充分满足用户数据存储和迁移上云需求。

官方博客
链接