开发者学堂课程【数据湖 JindoFS + OSS 实操干货 36 讲:访问 OSS 这类对象存储最快的方式- JindoFS SDK】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/833/detail/13965
访问 OSS 这类对象存储最快的方式- JindoFS SDK
内容介绍:
• 大数据存储架构演进
• JindoFS
• JindoFS SDK
• JindoFS 性能
一、大数据存储架构演进
数据湖存储方案(JindoFS SDK + 对象存储)
成本:(1)储存成本低,分层存储结合使用
(2) 运维投入少
性能:(1)海量文件下的高效元数据性能
(2)存储的读写吞吐能力
数据湖特性:(1)事务写入,多版本Checksum
(3) Jindo Table 数仓结合:Spark SQL/Hive/Presto/Impala
安全:(1)多种免密认证
(2)客户端/服务端加密
2、JindoFS
JindoFS 双模式
• 既是一个分布式缓存系统,为计算加速和提供优化(缓存/cache 模式)
• 也是一个分布式存储系统,支持高可靠高可用和安全(存储/block 模式)
模式 |
Block 模式 |
Cache 模式 |
支持对象存储 |
OSS |
OSS/S3 其他云厂商对象存储 |
集群缓存加速 |
支持 |
支持 |
元数据协议 |
JindoFS协议 |
OSS/S3原生访问 |
元数据访问加速 |
支持 |
支持 |
免密访问 |
是 |
是 |
Ranger权限 |
是 |
是 |
类比方案 |
HDFS |
Alluxio |
JindoFS 客户端 Native 架构
• 全链路 Native
• 一套底层适配多个场景
3、JindoFS SDK
HCFS 标准
Filesystem Compatibility with Apache Hadoop
JindoFS SDK 访问 OSS
4、JindoFS SDK 优势
高性能
• Native Object Engine 基础操作性能平均提升 2.2 倍
• Jindo HCFS 对比开源版本性能大幅提升
易集成
• 不引入额外 Java 依赖,避免生产环境出现依赖冲突
• 社区模式:文档完善+在线支持
高可靠
• 大量客户 Hadoop 生产环境部署使用
• 对接引擎丰富
Jindo Native Object SDK vs OSS Java SDK
Jindo OSS Hadoop SDK vs Hadoop 现有OSS SDK