NoSQL数据库
阿里云NoSQL数据库提供了一种灵活的数据存储方式,可以支持各种数据模型,包括文档型、图型、列型和键值型。此外,它还提供了一种分布式的数据处理方式,可以支持高可用性和容灾备份。包含Redis社区版和Tair、多模数据库 Lindorm、MongoDB 版。

Solr Alias使用实践
本文作为Solr实践系列的一篇,主要介绍Alias别名的使用,这是Solr提供的非常重要的特性,通过几个简单的API即可享用。熟悉Alias的使用,可极大降低业务的开发复杂度。

阿里云HBase数据安全实践
受近期“微盟员工删库事件”的影响,大量客户咨询云HBase在备份恢复方面的能力。数据是客户的核心资产,数据安全是生命线,本文总结了云HBase在数据安全方面的使用实践,希望可以帮助用户建立更完善的数据安全保护。

低成本历史库最佳实践
阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案,帮助您解决历史库的成本和扩展性问题,提供可视化的历史库链路搭建,支持水平扩展,极低的存储成本和丰富的在线查询能力。

备份!备份!备份! 看阿里云HBase的企业级备份恢复如何设计
数据安全是生命线,一线人员辛苦一年的努力可能因为一时疏忽而废,升职加薪无望;一个公司或者团队辛苦几年的打拼可能一夜回到解放前。所以面对重要的事情要说三遍:备份!备份!备份!
Redis 命令执行过程(下)
在上一篇文章中《Redis 命令执行过程(上)》中,我们首先了解 Redis 命令执行的整体流程,然后细致分析了从 Redis 启动到建立 socket 连接,再到读取 socket 数据到输入缓冲区,解析命令,执行命令等过程的原理和实现细节。

阿里HBase在用户画像领域的实践
互联网应用的一个特点是拥有海量的用户,这些海量的用户会产生海量的行为数据,有些产品还会需要去爬取更多的外部数据。基于海量数据的模型训练最终刻画出用户画像,基于用户画像自动的指导系统决策,在效率和准确度上给行业带来了质变。

Lindorm/HBase增强版技术解密|每秒7亿次请求,阿里新一代数据库如何支撑?
Lindorm,就是云操作系统飞天中面向大数据存储处理的重要组成部分。Lindorm是基于HBase研发的、面向大数据领域的分布式NoSQL数据库,集大规模、高吞吐、快速灵活、实时混合能力于一身,面向海量数据场景提供世界领先的高性能、可跨域、多一致、多模型的混合存储处理能力。目前,Lindorm已经全面服务于阿里经济体中的大数据结构化、半结构化存储场景。

HBase毛刺消除利器-双集群并发访问(Dual Service)
阿里云HBase服务了多家金融、广告、媒体类业务中的风控和推荐,持续的在高可用、低延迟、低成本方向上进行优化。为了进一步满足客户在可用性以及低延迟上的诉求,新增追求极致稳定性的双集群并发访问(Dual Service)功能.。

云数据库HBase降价优惠,最低1元包年,震撼来袭!
云数据库HBase版是面向大数据领域的一站式NoSQL服务, 支持GB至PB级数据,用于处理大规模吞吐、检索、分析工作负载, 目前正降价优惠中!
hbase全文服务(solr) 系列资料
本文整理了HBase全文服务的相关阅读材料,使用到云HBase全文服务的用户 或者 那些准备给自建HBase增加es/solr/lucene索引服务架构的用户,可以阅读以下资料了解相关原理与架构
solr常用检索查询业务demo
本文针对已经入门的同学,提供各种类型的场景查询demo,以及一些分析统计型的查询demo。这些demo基本上涵盖大部分应用企业的solr查询需求功能。
Solr快速入门文档阅读推荐——官方文档常用章节推荐
本文整理了Solr常见用法涉及的基础章节列表,通过这些章节的阅读学习,同学可以零基础快速入门使用Solr,并能够满足大部分企业的业务检索需求开发,掌握了熟悉使用Solr的基本技能。

为了实现在线库的复杂查询,你还在双写吗?
做在线业务的开发者经常会碰到这样的难题:在线数据库上面运行稍微复杂点的查询,在线业务就挂了!不管是单机数据库如MySQL、PG,还是分布式数据库,HBase、MongoDB、Cassandra都有这个问题。
当 Redis 发生高延迟时,到底发生了什么
Redis 是一种内存数据库,将数据保存在内存中,读写效率要比传统的将数据保存在磁盘上的数据库要快很多。但是 Redis 也会发生延迟时,这是就需要我们对其产生原因有深刻的了解,以便于快速排查问题,解决 Redis的延迟问题

Spotify如何使用Cassandra实现个性化推荐
本文翻译自https://labs.spotify.com/2015/01/09/personalization-at-spotify-using-cassandra/在Spotify我们有超过6000万的活跃用户,他们可以访问超过3000万首歌曲的庞大曲库。
Cassandra CDC初体验
CDC(Change data capture)是Cassandra提供的一种用于捕获和归档数据写入操作的机制,这个功能在3.8以上版本支持。当对一个表设置了“cdc=true”属性之后,包含有这个表的数据的CommitLog在丢弃时会被移动到指定的目录中,用户可以自己编写程序消费(解析并删除)这些日志,实现诸如增量数据导出、备份等功能。
Cassandra数据迁移-BulkLoad离线工具介绍
该工具通过文件流接口快速导入数据到cassandra集群,是最快地将线下数据迁移到线上cassandra集群方法之一,准备工作如下 线上cassandra集群 线下数据,sstable格式或者csv格式。
中国Cassandra技术社区第一届Meetup:Apache Cassandra 技术揭秘及实践应用
由中国 Cassandra 技术社区主办,阿里云、DataFun协办的中国Cassandra技术社区第一届Meetup:Apache Cassandra 技术揭秘及实践应用将于2019-11-16日在北京举行,来自阿里云、ScyllaDB、360等4位嘉宾的核心技术分享。
高性能Cassandra多语言客户端
作为全球范围内最流行的宽表数据库,Apache Cassandra具备诸多优点:海量数据存储;简洁易上手的类SQL语法;总是在线;扩容灵活等。除了服务端的各种优点之外,Cassandra对各种语言客户端(driver)的高性能支持也是其实现易用性和良好性能的重要环节。

Cassandra SASI Index 技术解密
这篇博客从技术上深入探讨了新的SASI索引,该索引可以在Cassandra中进行全文搜索(自Cassandra 3.4以来引入,但因相关重大bug的修复,我建议至少使用Cassandra 3.5以上)。

探秘 Cassandra 数据文件合并优化
前言 Cassandra是一款NoSQL分布式数据库,采用LSM Tree架构。众所周知,LSM有两个重要过程:数据顺序刷入磁盘生成数据文件(SSTable)和 数据文件合并(Compaction)。

13个Mongodb GUI可视化管理工具,总有一款适合你
本文介绍了13个好用的MongoDB可视化工具。Robomongo,MongoDB Compass,phpMoAdmin等

阿里HBase高可用8年“抗战”回忆录
2018年双十一,HBase全天处理请求2.4万亿行,单集群吞吐达到千万级别。从一个婴儿成长为青年,阿里HBase摔过很多次,甚至头破血流,我们在客户的信任之下幸运的成长,感激涕零。2017年开始阿里HBase走向公有云,我们有计划的在逐步将阿里内部的高可用技术提供给外部客户,目前已经上线同城主备

阿里云HBase推出普惠性高可用服务,独家支持用户的自建、混合云环境集群
阿里云HBase服务了多家金融、广告、媒体类业务中的风控和推荐,持续的在高可用、低延迟、低成本方向上进行优化。为了进一步满足客户在可用性以及低延迟上的诉求,阿里云HBase将提供以主备架构为平台,以冗余、并发、隔离、降级等全方位服务为支撑的高可用解决方案。
RDS&POLARDB归档到X-Pack Spark计算最佳实践
业务背景 对于RDS&POLARDB FOR MYSQL 有些用户场景会遇到,当一张的数据达到几千万时,你查询一次所花的时间会变多。这时候会采取水平分表的策略,水平拆分是将同一个表的数据进行分块保存到不同的数据库中,这些数据库中的表结构完全相同。

使用datax迁移cassandra数据
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现各种异构数据源之间高效的数据同步功能。最近,阿里云cassandra团队为datax提供了cassandra读写插件,进一步丰富了datax支持的数据源,可以很方便实现cassandra之间以及cassandra与其他数据源之间的数据同步。
ApacheCon 2019 Cassandra分会各大议题深度剖析,解读cassandra前沿工作
NGCC 2019摘要 下一代Cassandra会议(NGCC)是ApacheCon 2019大会中的一场分会。 它是由开发人员,贡献者,提交者,驱动程序作者以及对Apache Cassandra开发感兴趣的人组成的年度会议,他们可以聚在一起讨论Cassandra项目的技术和社区发展方向。
简析Cassandra的BATCH操作
cassandra中批量写入的操作称为batch,通过batch操作可以将多个写入请求合并为一个请求。这样有如下作用: 把多次更新操作合并为一次请求,减少客户端和服务端的网络交互。 batch中同一个partition key的操作具有隔离性。
浅析Cassandra扩容
前言 Cassandra是一款非常优秀的分布式数据库,可以灵活的在线扩容,满足业务水平扩展的需求。本文将会详细阐述扩容中可能遇到的问题,帮助Cassandra用户更好的管理Cassandra。 扩容原理 Cassandra采用一致性Hash算法对数据进行分区打散。
Cassandra JAVA客户端是如何做到高性能高并发的
Cassandra Java驱动程序 本文翻译至:https://beyondthelines.net/databases/the-cassandra-java-driver/同时也加上了作者阅读源码后的观后感,丰富了很多细节。

【Cassandra生态】Cassandra强大的支持力量-商业&大公司&云&生态周边
本文将梳理下Cassandra的商业公司、云公司、全球使用的大公司及相关生态的支持。另外有份资料表明,从事Cassandra职业的薪水非常可观,排名第五
Apache Spark Delta Lake 删除使用及实现原理代码解析
Apache Spark Delta Lake 删除使用及实现原理代码解析 Delta Lake 的 Delete 功能是由 0.3.0 版本引入的。在介绍 Apache Spark Delta Lake 实现逻辑之前,我们先来看看如何使用 delete 这个功能。
Apache Spark Delta Lake 写数据使用及实现原理代码解析
Apache Spark Delta Lake 写数据使用及实现原理代码解析 Delta Lake 写数据是其最基本的功能,而且其使用和现有的 Spark 写 Parquet 文件基本一致,在介绍 Delta Lake 实现原理之前先来看看如何使用它,具体使用如下: df.
Apache Spark Delta Lake 事务日志实现源码分析
Apache Spark Delta Lake 事务日志实现源码分析 我们已经在这篇文章详细介绍了 Apache Spark Delta Lake 的事务日志是什么、主要用途以及如何工作的。那篇文章已经可以很好地给大家介绍 Delta Lake 的内部工作原理,原子性保证,本文为了学习的目的,带领大家从源码级别来看看 Delta Lake 事务日志的实现。
深入理解 Apache Spark Delta Lake 的事务日志
深入理解 Apache Spark Delta Lake 的事务日志 事务日志是理解 Delta Lake 的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。

阿里云NoSQL X-Pack如何做到在线存储及计算一体?
大数据处理的挑战随着企业数据的逐渐积累和增多,数据架构从单节点的关系型数据库,演进到分库分表,再演进到NoSQL及hadoop生态。hadoop生态百花齐放,没有统一的架构标准,目前用的比较多的是Lambda架构,该架构主要特点为流计算、批处理、在线存储独立的,通过pipline来连接。

1元包年,阿里云HBase Serverless开启大数据学习与测试的新时代
阿里云HBase Serverless 版是基于HBase,使用Serverless架构构建的一套新型的HBase 服务。 阿里云HBase Serverless版真正把HBase变成了一个服务,用户无需提前规划资源,选择CPU,内存资源数量,购买集群。在应对业务高峰,业务空间增长时,也无需进行扩容
Cassandra repair 工具使用
前言 Cassandra是一款去中心化的分布式数据库。一份数据会分布在多个对等的节点上,即有多个副本。我们需要定期的对多个副本检查,看是否有不一致的情况。比如因为磁盘损坏,可能会导致副本丢失,这样同一份数据的多个副本就会出现不一致。

cassandra 写IO路径
从日志及外围工具了解大致流程 cassandra@cqlsh:ycsb> TRACING on; cassandra@cqlsh:ycsb> insert into usertable(y_id, field0, field1) values('1', 'f0', 'f1'); Tracing .
Cassandra压测工具cassandra-stress
cassandra-stress是cassandra自带的压测工具,可以针对具体的表schema设计,模拟各种负载情况,测试集群的读写性能。这个工具功能十分强大,但是网上能找到的(中文)资料并不多,尤其是对yaml配置文件的介绍很少。