• 关于

    hbase 存储json结构

    的搜索结果
  • HBase实操 | 如何使用HBase存储文本文件

    1.文档编写目的 Fayson在前面的文章中介绍了《如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引》和《如何使用Flume准实时建立Solr的全文索引》,假如我们有大量的文本文件,我们应该如何保存到Hadoop中,并实现文本文件的全文检索呢。为了介绍如何对文本文件进行全文检...

    文章 hbase小能手 2018-11-16 2249浏览量

  • 日志系统之HBase日志存储设计优化

    本人博客文章如未特别注明皆为原创!如有转载请注明出处:http://blog.csdn.net/yanghua_kobe/article/details/46482319 继续谈论最近接手的日志系统,上篇关于日志收集相关的内容,这篇我们谈谈日志存储相关的话题。 简介 我们首先来总结一下日志这种数据...

    文章 云hbase+spark 2017-09-20 2375浏览量

  • 开源大数据周刊-第99期

    资讯 谷歌重磅开源强化学习框架Dopamine谷歌推出了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。 整合AI和数据科学新利器:基于Apache Spark的Hydrogen项目以往数据集的准备以及模型的...

    文章 开源大数据EMR 2018-09-12 1473浏览量

  • 阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

    建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!

    广告

  • HBase Coprocessor的实现与应用

    本文来自于中国HBase技术社区武汉站HBase MeetUp线下交流会的烽火大数据平台研发负责人叶铿(云端浪子)。 HBase Coprocessor的实现与应用PPT下载:http://hbase.group/slides/159 本次分享的内容主要分为以下五点: Copro...

    文章 hbase小能手 2018-11-16 2240浏览量

  • Flink 在快手实时多维分析场景的应用

    作者:董亭亭、徐明 摘要:作为短视频分享跟直播的平台,快手有诸多业务场景应用了 Flink,包括短视频、直播的质量监控、用户增长分析、实时数据处理、直播 CDN 调度等。此次主要介绍在快手使用 Flink 在实时多维分析场景的应用与优化。主要内容包括: Flink 在快手应用场景及规模 快手实...

    文章 阿里云实时计算Flink 2020-06-17 1028浏览量

  • [Phoenix] 八、动态列

    一、概要 动态列是指在查询中新增字段,操作创建表时未指定的列。传统关系型数据要实现动态列目前常用的方法有:设计表结构时预留新增字段位置、设计更通用的字段、列映射为行和利用json/xml存储字段扩展字段信息等,这些方法多少都存在一些缺陷,动态列的实现只能依赖逻辑层的设计实现。由于Phoenix是H...

    文章 瑾谦 2018-04-08 6717浏览量

  • Drill官网文档翻译一 基本架构

    (翻译自apache drill 官网) 架构总览 Apache drill是在大规模数据集场景下,可以低延迟地进行结构和半结构化/嵌套数据结构查询的一个分布式查询引擎。受到谷歌公司的Dremel的启发,Drill被设计出来以支持几千个节点和PB级别的数据规模下,支持交互响应级别的商务智能分析和查...

    文章 老将黄滚 2016-02-02 7883浏览量

  • 什么是Thrift

    起源 百度百科怎么说 thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。 它结合了功能强大的软件堆栈和代码生成引擎,以构建在 C++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C#, Cocoa, JavaScrip...

    文章 技术mix呢 2017-11-09 1154浏览量

  • 【转载】跨语言通信方案比较

    常用的跨语言通信方案: 基于 SOAP 消息格式的 WebService ; 基于 JSON 消息格式的 RESTful 服务; 以上两种方案的弊端: XML 体积太大,解析性能极差; JSON 体积相对较小,解析相对较快,但表达能力较弱; 于是探索一下现在比较流行的跨语言通信方案: G...

    文章 摩云飞 2016-05-11 2816浏览量

  • 大数据全体系年终总结

      到年底了,想着总结下所有知识点好了~今年应用的知识点还是很多的~    Hadoop生态圈:   1、文件存储当然是选择Hadoop的分布式文件系统HDFS,当然因为硬件的告诉发展,已经出现了内存分布式系统Tachyon,不论是Hadoop的MapReduce,Spark的内存计算、hive的...

    文章 松伯 2016-12-11 1399浏览量

  • 技术篇-HBase Coprocessor 的实现与应用

    本次分享的内容主要分为以下五点: Coprocessor 简介 Endpoint 服务端实现 Endpoint 客户端实现 Observer 实现二级索引 Coprocessor 应用场景 1. Coprocessor 简介 HBase 协处理器的灵感来自于 Jeff Dean 09 年的...

    文章 hbase小能手 2019-01-11 2242浏览量

  • NoSQL生态系统——类似Bigtable列存储,或者Dynamo的key存储(kv存储如BDB,结构化存储如redis,文档存储如mongoDB)

    摘自:http://www.ituring.com.cn/article/4002# NoSQL系统的数据操作接口应该是非SQL类型的。但在NoSQL社区,NoSQL被赋予了更具有包容性的含义,其意为Not Only SQL,即NoSQL提供了一种与传统关系型数据库不太一样的存储模式,这为开发者提...

    文章 桃子红了呐 2017-11-15 1255浏览量

  • 2015 Bossie评选:最佳开源大数据工具

    Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark、Storm都名列榜单之上。 InfoWorld在分布式数据处理、流式数据分析、机器学...

    文章 小旋风柴进 2017-05-02 1630浏览量

  • 基于Hadoop的数据分析平台搭建

    企业发展到一定规模都会搭建单独的BI平台来做数据分析,即OLAP(联机分析处理),一般都是基于数据库技术来构建,基本都是单机产品。除了业务数据的相关分析外,互联网企业还会对用户行为进行分析,进一步挖掘潜在价值,这时数据就会膨胀得很厉害,一天的数据量可能会成千万或上亿,对基于数据库的传统数据分析平台...

    文章 技术小能手 2018-06-20 2506浏览量

  • 【干货合集】NoSQL技术体系深度解读系列(二):MongoDB,最像关系型数据库的非关系型数据库

    2018年开年知识盛会——NoSQL数据库直播大讲堂峰会,将于1月19日、23日、25日与大家见面,阿里云Redis、MongoDB、HBase的15位技术专家、产品专家将给大家带来深度的技术及产品分享。本次峰会的主要板块包括1月17日的北京产品发布会、1月19日、23日、25日的系列直播技术大讲...

    文章 场景研读 2018-01-08 7421浏览量

  • ylbtech_dbs_article_五大主流数据库模型

    ylbtech_dbs_article 摘要:什么是数据模型? 访问数据库中的数据取决于数据库实现的数据模型。数据模型会影响客户端通过API对数据的操作。不同的数据模型可能会提供或多或少的功能。一般而言,数据模型不会直接提供过多的功能,许多功能必须由客户端自行实现。 数据模型决定了客户端如何对数据...

    文章 吞吞吐吐的 2017-10-11 682浏览量

  • 数据中台构建产品Dataphin到底能支持哪些数据源?

    作者:王腾 [ 更多内容详见数据中台官网 https://dp.alibaba.com ]业务数据存储是业务系统最基本的构成,构建数据中台,就是要将这些数据集中起来放到一个有更强算力的地方集中处理,所以对于数据集成的能力是构建数据中台最基本要求;从存储的发展历程来看,由于不同的业务场景需求,带来...

    文章 伴弋 2019-10-15 2128浏览量

  • Hadoop学习资源集合

    Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大...

    文章 readygo 2016-05-18 37274浏览量

  • [译]HBase2.0官方文档翻译-RegionServer Sizing Rules of Thumb

    36. On the number of column families HBase currently does not do well with anything above two or three column families so keep the number of column f...

    文章 易虹 2020-09-22 83浏览量

  • NoSQL简介

    什么是NoSQL? 关系型数据库代表MySQL。 非关系型数据库就是NoSQL。 对于关系型数据库来说,是需要把数据存储到库、表、行、字段里,查询的时候根据条件一行一行地去匹配,当量非常大的时候就很耗费时间和资源,尤其是数据是需要从磁盘里去检索。 NoSQL存储原理非常简单(典型的...

    文章 技术小美 2017-11-15 1162浏览量

  • 时序数据库技术和架构演进

    本文根据演讲视频以及PPT整理而成。 本文将主要围绕以下四个方面进行分享: 时序数据与时序数据库 时序数据库的演变 时序数据库对比 总结 一、时序数据与时序数据库什么是时序数据库?按照维基百科解释,时间序列数据库(TSDB)是一个为了用于处理时间序列数据而优化的软件系统,其按时间数值或时间范围...

    文章 时序数据库 2019-03-06 5292浏览量

  • 开源SQL-on-Hadoop系统一览

    引言 查询分析是大数据要解决的核心问题之一,而SQL作为查询分析中使用最简单、最广泛的的语言之一,必然而然的催生了许多支持在Hadoop上使用SQL的系统,这就是所谓的SQL-on-Hadoop系统,其中大众熟知的Hive就是最早的SQL-on-Hadoop系统。 经过若干年的发展,SQL-on-...

    文章 勿烦 2019-02-13 7610浏览量

  • 《Spark大数据分析:核心概念、技术及实践》一1.6 分布式SQL查询引擎

      本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.6节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.6 分布式SQL查询引擎 如前所述,SQL是最常用来查询和分析数据的语言之...

    文章 华章计算机 2017-05-02 1219浏览量

  • Druid入门

    应用场景 设计一个系统来预估未来一年的广告流量,不是总流量,是任意时间段任何定向(Targeting)条件约束情况下的流量。定向条件有近百种(内容类别,设备平台,用户地域,用户人口属性等),整个时间区间不同组合数(也就是数据行数)是亿级别。目标是秒级的查询响应时间。 一个简单的数据例子如下: ...

    文章 javaedge 2018-08-07 3775浏览量

  • 了解用于大数据解决方案的逻辑层

    文中介绍的模式有助于定义大数据解决方案的参数。本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案。原子模式描述了使用、处理、访问和存储大数据的典型方法。复合模式由原子模式组成,并根据大数据解决方案的范围进行分类。由于每个复合模式都有若干个维度,所以每个模式都有许多变化。复合模式使得业务和技...

    文章 dicksonjin 2015-03-20 811浏览量

  • Avro介绍

    1. 介绍 Avro 是 Hadoop 中的一个子项目,也是 Apache 中一个独立的项目,Avro 是一个基于二进制数据传输高性能的中间件。在 Hadoop 的其他项目中,例如 HBase 和 Hive 的 Client 端与服务端的数据传输也采用了这个工具。Avro 是一个数据序列化的系统,...

    文章 雨客 2016-04-08 6199浏览量

  • 阿里云大数据ACP认证知识点梳理3——产品特点(数据集成)

    数据集成,是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。 数据集成提供丰富的数据源支持,如下所示: 文本存储(FTP / SFTP / OSS / 多媒体文件等)。数据库(RDS / DRDS / MySQL ...

    文章 朱祺 2018-12-11 1429浏览量

  • 首次揭秘|为6.4亿人次出行提供无线网络的技术架构

    最近掌慧纵盈 大数据平台的架构师,分享了一篇文章很不错,转载到这里原文。 借助“互联网+大数据+机场”三轮驱动,掌慧纵盈每年为6.4亿人次出行提供无线网络连接服务。随着业务的拓展,随之后来的挑战是数据量的暴增。2016年,掌慧纵盈(股票代码:835736)通过阿里云产品,率先构建了业界领先的大数据...

    文章 开源大数据EMR 2016-12-29 9836浏览量

  • 合辑 | 数据库学习不可不知的开发者词条汇总(三)

    点击查看:数据库学习不可不知的开发者词条汇总(一)点击查看:数据库学习不可不知的开发者词条汇总(二) 69、用户定义函数(UDF)用户定义函数(UDF) 由一个或多个SQL语句组成的子程序,可用于封装代码以便重新使用。通常情况下不将用户限制在定义为SQL语言一部分的内置函数上,而是允许用户创建自己...

    文章 被纵养的懒猫 2020-02-24 817浏览量

  • CloudManage介绍

    安装链接: http://www.cnblogs.com/lion.NET/p/5477899.html http://www.aboutyun.com/thread-9075-1-1.html 官网: http://www.cloudera.com/ 安装方式: 建议离线安装,可以单独下载C...

    文章 晴天哥 2017-09-03 1137浏览量

1 2 3 4 6 >

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT