灵活架构与超高性价比，数据湖解决方案助力AI技术实现落地应用

2020-09-21 9827

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

文件存储 NAS，50GB 3个月

日志服务 SLS，月写入数据量 50GB 1个月

简介： 阿里云针对AI行业的痛点，推出了AI行业的数据湖解决方案，该解决方案的核心是通过数据湖一体化的能力，轻松对接各种计算与处理引擎，直接在数据湖中对数据进行分析。

行业综述

基础设施日渐完善，AI行业正欲弯道超车
人工智能（ArtificialIntelligence）——简称AI，指由人类制造出来的机器所展现出来的智能，试图通过计算机来模拟人的思维过程和行为。到了2020年，随着5G、人机交互等技术的日渐成熟，AI应用也正迎来发展的新阶段。
在国内，AI行业目前主要包括计算机视觉、自然语言处理、脑机接口、人机融合、群体智能、自主无人系统等技术。目前我国在AI领域的投融资占全球的60%，而关于人工智能相关技术的论文产出，更是处于全球第一、二位。
自15年开始，中国AI市场规模逐年攀升。随着技术和设施的逐渐成熟，科技、制造业等业界巨头不断深入布局。数据显示，2018年中国人工智能市场规模约为339亿元，增长率达到56.2%。据预测，2020年中国在人工智能的市场规模将突破700亿元。

行业发展方向

AI技术相对成熟，但技术与产品之间产生脱节
虽然行业整体发展趋势良好，但是整个AI行业都在探索如何才能商业化，因此整个行业面临着高端”的AI技术与“中低端”的产业之间存在脱节现象。相对于我国庞大的经济体来说，目前AI技术的应用空间仍有待开发。因此如何积极探索AI技术的商业化，以及寻找技术可落地的应用场景成为了AI领域企业必须要考虑的事情。

面临的痛点

AI行业积极寻求商业化，但技术落地仍是难题
但是在积极寻求技术落地的过程中，AI领域企业经常会碰到以下几个问题：
1、日益增长的成本压力：由于目前AI技术的发展都是建立在大数据的基础上，通过大量数据让系统进行自动学习。因此企业需要长期投入大量的计算资源和存储资源，以此来让系统持续不断地学习，让系统更加智能。
2、数据价值待深挖：由于早期业务规划以及技术的原因，目前仍存在数据源分散的情况，数据源经常会存储于不同的系统、不同的团队或是不同的存储设备里。因此大量的数据不能很好地进行连通，不能充分做到从整体去挖掘数据价值。
3、安全合规：AI采集和处理的数据往往涉及用户行为、用户画像和消费数据，这类数据多数是较敏感的数据，监管部门对数据安全存储有明确要求。如何管理好日益增长的数据，也是需要提前规划和解决的问题。

AI行业数据湖解决方案

灵活架构与超高性价比，数据湖解决方案助力AI技术实现落地应用

阿里云针对AI行业的痛点，推出了AI行业的数据湖解决方案，该解决方案的核心是通过数据湖一体化的能力，轻松对接各种计算与处理引擎，直接在数据湖中对数据进行分析。
阿里云数据湖解决方案，能为企业提供统一的存储资源池，各种类型的数据集中统一存储在OSS对象存储，解决数据孤岛，避免多份数据分散在多种不同的系统，实现无缝对接多种计算引擎。
将数据存储在数据湖后，数据可以按照原始产生的形态直接存储，在需要分析阶段，再通过数据引擎进行处理，提供便捷的数据接入和数据消费通道，避免数据重复拷贝。
由于数据湖解决方案提供计算与存储解耦合的架构，因此整体的计算、存储资源具备更好的扩展性，降低运维管理难度，实现业务灵活部署。
最后，通过数据湖解决方案提供的数据流动、冷热分层和分级存储，既满足高性能场景的计算需求，提高资源利用率，也解决长期存储的成本压力。
阿里云数据湖解决方案，能为AI行业在数据采集阶段、数据预处理阶段、模型训练阶段和长期存储管理阶段提供最便捷、最高效、最实惠的服务。让数据的沉淀、存储、处理、分析更加简便快捷，帮助AI企业将技术落地，让技术与应用接壤，帮助企业释放最大的数据价值。

最佳实践

公司介绍
客户是国内自动驾驶行业TOP的汽车设计和制造商，融合前沿互联网和人工智能。

遇到的问题
1、数据量庞大，客户每天会产生几十TB的数据，如果将如此巨大的数据直接写入硬盘，不但无法保证性能，也无法对数据进行保护
2、如何将海量数据传递到云端计算集群，也是一件非常复杂和困难的事情，由于数据量庞大，需要定时定期地对数据进行维护，因此在这一过程中，其运维成本也是非常的高
3、在日常模型训练场景下，素材总量经常会高达上百TB，如果需要对这一部分的素材进行集中训练，就需要GPU反复随机地访问这部分素材，因此就需要文件系统提供低时延的文件访问能力
4、线下传统NAS存储存在单点性能瓶颈，并且容量和性能不支持弹性扩张，无法满足GPU的低延迟的文件访问需求

数据湖解决方案

针对各自动驾驶行业中涉及到的多元化的场景需求，阿里云为其量身打造了一套集采、传、存、算一体化的数据存储解决方案。
1、阿里云的闪电立方可将每天高达上百TB的数据上传至对象存储OSS中，传输速度最快可达到百Gbps。且闪电立方采用AES256端到端加密以及CRC一致性，在快速传输数据的同时，还保证了数据的安全性和可靠性
2、阿里云对象存储OSS能为数据提供12个9的数据安全保证和高达99.995%可用性SLA承诺，为数据提供全方位的安全保障。同时文件生命周期管理功能和数据分层归档功能，可自动选择将数据存放在低频或归档型的OSS，在简化操作，提高效率的同时，大大降低了数据存储成本
3、阿里云文件存储CPFS可以轻松地顶住性能压力的需求，CPFS的吞吐指标可弹性提升到每秒百GB的级别，随机访问小文件的延迟降低了8倍，在某些训练和深度学习场景下，速度整整提高了3倍，大大提升了文件计算和分析的效率

达到的效果
1、在数据采集、运输、上传和计算全链条上进行时间、成本、安全以及计算效率等方面的改善
2、解决了客户原本数据零散存放整合难、架构无法弹性应对业务波峰波谷、资源利用不充分等难题
3、客户综合成本直接降低30%以上

灵活架构与超高性价比，数据湖解决方案助力AI技术实现落地应用

行业综述

行业发展方向

面临的痛点

AI行业数据湖解决方案

最佳实践

云存储

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

灵活架构与超高性价比，数据湖解决方案助力AI技术实现落地应用

行业综述

行业发展方向

面临的痛点

AI行业数据湖解决方案

最佳实践

云存储

热门文章

最新文章

相关课程

相关电子书

相关实验场景