Elasticsearch 开发人员最佳实践指南—Elastic Stack 实战手册
几个月以来,我一直在记录自己开发 Elasticsearch 应用程序的最佳实践。本文梳理的内容试图传达 Java 的某些思想,我相信其同样适用于其他编程语言。我尝试尽量避免重复教程和 Elasticsearch 官方文档中已经介绍的内容。
Monitoring 及 Central Management - Elastic Stack 实战手册
Monitoring 及 Central Management
Rollover API— Elastic Stack 实战手册
使用`Rollover index`的方式来限制每个索引的大小。
Flink 实时计算在微博的应用
微博通过将 Flink 实时流计算框架跟业务场景相结合,在平台化、服务化方面做了很大的工作,在开发效率、稳定性方面也做了很多优化。我们通过模块化设计和平台化开发,提高开发效率。
阿里云超强专家阵容倾力打造实时数仓 “王炸组合”,只需 5 天从 0 到 1,结营抢好礼,速来报名!
《实时数仓入门训练营》,理论与实践的摩擦,概念与案例的碰撞,从 0 到1 快速上手,让自己技能加点,速来报名!
【必看】如何正确使用实时计算 Flink 版?
本篇文章将从实时计算 Flink 版产品功能、产品架构、产品模式、产品优势、产品应用场景等全面呈现,同时还汇总了实时计算 Flink 版学习资料!更有特惠独享活动限时参与!
滴滴 Flink-1.10 升级之路
滴滴实时计算引擎从 Flink-1.4 无缝升级到 Flink-1.10 版本,做到了完全对用户透明。并且在新版本的指标、调度、SQL 引擎等进行了一些优化,在性能和易用性上相较旧版本都有很大提升。
实战:Flink 1.12 维表 Join Hive 最新分区功能体验
我们生产常有将实时数据流与 Hive 维表 join 来丰富数据的需求,其中 Hive 表是分区表,业务上需要关联上 Hive 最新分区的数据。上周 Flink 1.12 发布了,刚好支撑了这种业务场景,我也将 1.12 版本部署后做了一个线上需求并上线。对比之前生产环境中实现方案,最新分区直接作为时态表提升了很多开发效率,在这里做一些小的分享。
大数据和AI | 基于Spark的高性能向量化查询引擎
由阿里云策划并成功举办的BigData和AI 见面会2020第二季在上海落下帷幕。在此次见面会上,几位业界大咖分别分享了有关大数据和AI的见解、洞察和领先技术等内容。本篇内容是由开源界知名的Databricks公司的技术主管范文臣分享的关于《基于Spark的高性能向量化查询引擎》。
官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行!
Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化。
Elasticsearch 全观测技术解析与应用(二):技术原理与生态
本文从理论和技术层面介绍了全观测的技术,包括全观测与可观测的区别,如何实 现可观测,如何构建可观测,可观测每一步所存在的问题,以及全观测如何解决这些问题, 它又有哪些工具可以使用等进行了介绍。
好消息!Elasticsearch中也可以使用机器学习了
机器学习已经在现在的工业实践中得到了广泛的应用。作为强大搜索引擎的ElasticSearch也在6.3开始内置了对机器学习的支持。
网易:Flink + Iceberg 数据湖探索与实践
今天主要和大家交流的是网易在数据湖 Iceberg 的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发,介绍对数据湖 Iceberg 的探索以及实践之路。
持续定义SaaS模式云数据仓库+AI
本文由阿里云计算平台事业部 MaxCompute 产品经理孟硕为大家带来《持续定义SaaS模式云数据仓库+AI》的相关分享。
搜索引擎新架构:与SQL不得不说的故事
本话题将围绕阿里巴巴搜索引擎HA3架构,和大家详细阐述搜索引擎在面对架构深度学习和数据规模的挑战时,如何以数据库SQL的执行方式来应对解决。
【最佳实践】运用 Logstash Fingerprint 过滤器处理并删除 Elasticsearch 重复数据
这篇文章介绍了使用 Logstash 在 Elasticsearch 中对数据进行重复数据删除的方法。 根据你的用例,Elasticsearch中 的重复内容可能不被接受。 例如,如果你要处理指标,则 Elasticsearch中 的重复数据可能会导致错误的聚合和不必要的警报。 即使对于某些搜索用例,重复的数据也可能导致不良的分析和搜索结果。
【行业应用】阿里云实时计算 Flink 版物流行业解决方案
物流行业,特别是跨境进出口是非常复杂的业务,链路长、环节多、业务场景复杂。在物流履行时效不断加快的当下,物流服务一步步向次日达甚至当日达迈进,离线日报的日更频率早已无法满足业务需求。
腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践
当业务发展到一定规模,实时数据仓库是一个必要的基础服务。从数据驱动方面考虑,多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下,拿腾讯看点来说,一天上报的数据量达到万亿级的规模,要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。
【行业应用】阿里云实时计算 Flink 版金融行业解决方案
基于实时计算 Flink 版的解决方案可帮助金融机构从容应对上述挑战,通过 Flink 构建实时数仓、实时反欺诈系统,助力金融机构快速构建实时风控体系。
【客户案例】开放搜索如何提升趣店商城20%的销量
从提升搜索性能,到大幅度提升商城订单转化,趣店搜索资深技术专家-樊庆响先生,在云栖大会上为大家详细分享了他的应用心得。
【最佳实践】如何使用Metricbeat收集系统数据及Nginx服务数据
如果您需要收集数据,但没有资源来运行资源密集型数据收集器,那么Beats会是您最佳的选择。这种无处不在(涵盖所有联网设备)的数据收集方式,能够让您快速检测到异常情况并做出反应。
数据处理能力相差 2.4 倍?Flink 使用 RocksDB 和 Gemini 的性能对比实验
在本篇文章中我们将对 RocksDB、Heap 和 Gemini 在相同场景下进行压测,并对其资源消耗进行对比。测试的 Flink 内核版本为 1.10.0。
【最佳实践】大数据时代,通过OSS快照迁移Elasticsearch数据
本文以将自建Elasticsearch迁移至阿里云Elasticsearch中为例,为您介绍通过OSS快照迁移数据的具体方法。
从 1.9 到 1.11,聊聊 PyFlink 的核心功能演进(附 Demo 代码)
本文由 Apache Flink PMC,阿里巴巴技术专家程鹤群分享,主要介绍 PyFlink 的核心功能及应用。
这些行业用阿里云 Elasticsearch 弹性伸缩能力,将减少47%成本
弹性伸缩帮助用户根据定时/定量等策略,自动触发资源auto scaling,最大程度保证业务服务质量,并尽可能的减少低峰期的资源使用成本及人力运维负担。
EMR-DataScience介绍 | Spark“数字人体”AI挑战赛赛题解析二
首届Spark“数字人体”AI挑战赛已开启,奖金高达46万,欢迎大家踊跃报名!本次直播将由阿里云人工智能产品专家李博为大家介绍,Data Science节点概述,Data Science节点深度学习框架,PAI-Alink流批一体化机器学习算法平台,AutoML,FaissServer以及PAI-EMS等Data Science原子化组件。
初次使用 Elasticsearch 遇多种分词难题?那是你没掌握这些原理
命名有包含搜索关键词的文档,但结果却没有?存进去的文档被分成哪些词(term)了?自定义分词规则,但感觉好麻烦呢,无从下手?
再出王牌:阿里云 Jindo DistCp 全面开放使用,成为阿里云数据迁移利器
此前 Jindo DistCp 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS/HDFS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。
Flink 生态:Pulsar Connector 机制剖析
分片架构将消息流数据的存储粒度从分区拉低到了分片,以及相应的层级化存储,使 Pulsar 成为 unbounded streaming data storage 的不二之选。这使得 Pulsar 可以更完美地匹配和适配 Flink 的批流一体的计算模式。
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
【最佳实践】一文掌握并应用Elasticsearch中的GC实现垃圾日志处理
你是否了解 GC 日志?以及如何通过GC,来解决何时找到、何时处理以及如何处理垃圾日志?
一次有趣的Elasticsearch+矩阵变换聚合实践
Elasticsearch 聚合功能非常丰富,性能也相当不错,特别适合实时聚合分析场景,但在二次聚合上也有明显短板。本项目是一个基于日期维度做预处理的技术方案,以下是结合 Elasticsearch 优缺点扬长避短的一次尝试性实战,非常有意思,希望可以带来一些参考,同时欢迎各种讨论。
DataWorks百问百答25:如何在DataWorks上创建和维护odps生产表?
如何在DataWorks上创建和维护odps生产表?
如何使用MaxCompute Spark读写阿里云Hbase
通过Spark on MaxCompute来访问阿里云的Hbase,需要设置网络安全组、Hbase的白名单和配置Spark的参数
招聘!招聘!招聘!计算平台解决方案架构师专场
为了帮助客户更加高效地使用大数据产品,发挥数据价值,现计算平台招募大数据及AI产品解决方案架构师,欢迎在北京、杭州的同学加入我们!
MaxCompute在阿里妈妈数据字化营销解决方案上的典型应用
首先介绍了广告数据流,分析了MaxCompute 是如何解决广告的问题;然后通过阿里妈妈内部的应用经典场景来介绍其如何使用MaxCompute;最后介绍了MaxCompute提供的高级配套能力以及在计算和存储方面的优化。
都在说实时数据架构,你了解多少?
本文从上述现状及实时数据需求出发,结合工业界案例、笔者的实时数据开发经验, 梳理总结了实时数据体系建设的总体方案。
【最佳实践】阿里云Elasticsearch 简单高效的实现Nginx Web服务器监控
阿里云 Elastic Stack (Elasticsearch、Logstash、Kibana、Beats),作为一站式日志管理、分析平台,将为工程师提供一种非常简单有效的方法来监控 Nginx 。
DataWorks百问百答14:赋值节点结合节点上下文实现上下游参数传递
DataWorks百问百答14:赋值节点结合节点上下文实现上下游参数传递
阿里巴巴开源GNN框架Graph-Learn
项目地址:https://github.com/alibaba/graph-learn 阿里巴巴近期开源了面向图神经网络(GNN)的框架Graph-Learn(GL,原AliGraph)。框架由阿里内部团队研发,研发同学分别来自计算平台事业部-PAI团队,新零售智能引擎事业群-智能计算实验室,以及安全部-数据与算法团队。
4月9日JindoFS系列直播【存储计算分离场景的计算适应优化】
本次分享会介绍云上大数据处理的存储计算分离特征,分析传统大数据处理中数据本地化与存储计算分离场景的区别,以及在存储计算分离场景中阿里云EMR的相关优化。
如何在 Flink 中规划 RocksDB 内存容量?
本文将介绍跟 Flink 相关的一些 RocksDB 操作,并讨论一些提高资源利用率的重要配置。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。