【阿里云MVP第五期】阿里云赵弘扬:基于Elasticsearch构建网站日志处理系统

简介: 本文节选自阿里云MVP第五期嘉宾阿里云产品专家赵弘扬分享话题《基于Elasticsearch构建网站日志处理系统》。介绍如何基于阿里云的Elasticsearch,离线数仓加工工具,数据同步工具等产品来快速构建日志处理系统。

嘉宾介绍

洪阳 阿里云搜索产品经理
从事多年大数据及搜索相关产品工作,在离线数据加工、离线调度系统、在线搜索等场景有深入研究。

Elasticsearch在离线和在线日志处理场景的应用

日志处理可以分为三个场景,离线场景、在线场景,以及流式场景。今天给大家分享的话题是,如何使用Elasticsearch和X-Pack在离线和在线日志处理场景的应用。
_

日志处理系统架构简介

我们通过搭建网站日志处理系统这个案例来探讨。便于理解,下面是一个简化的网络架构图。

_

导入到Elasticsearch的数据源可以非常多样化,比如各类beats,或者logstash,或者kafka等消息队列。在实际的应用环境中,架构可能非常复杂,维护成本也会非常高。在日志归档和日志搜索场景下,当日志量不大时,可以直接通过beats将服务器日志数据同步到ES里做索引,然后同过Kibana做在线查询或分析。但这样处理的弊端是,无法处理日志数据的结构。而Logstash的filter可以解决这个弊端,Logstash作为通道再将过滤处理后的日志推送到ES。

_
但在日志量不断增大,Logstash的处理压力越来越多,出现性能瓶颈。如果对ES数据做update,会导致数据不停做merge,内存、CPU开销激增,甚至影响到线上业务。所以,在企业级应用中,我们会前置消息队列系统,比如Kafka、MetaQ等。

_

我们再聊聊离线部分,日志处理不仅仅是检索日志这么简单的需求,还有用户画像挖掘等高级的数据探索。这是需要借助Hadoop、MaxCompute等离线计算引擎来来实现底层数据的挖掘。我们来看看整个的处理流程,数据库里面或者其他网络日志,通过离线的数据导入,进入到离线的计算引擎,然后进行数仓模型的加工,最终将数据通过ES-Hadoop插件或者是直接把数据同步到Elasticsearch里面去。

比如我需要搭建一个游戏APP的用户运营分析系统。可能会涉及到几方面的日志:

  • 服务器上面的用户访问行为,
  • SDK里面采集到的用户交互行为,如点击、滑动等操作
  • 记录在关系型数据库里面的用户交易行为
    可以通过如上所述的日志系统搜集和聚合这些散乱在各处的日志,然后索引在Elasticsearch里面,再通过Kibana去做在线行为分析。或者,我通过我本身的应用系统去调它,获取一个用户的模型结构。

利用ES中的Graph功能做数据探索

以手机APP的用户访问数据为例。通过访客关系探索的案例介绍X-Pack的Graph组件的相关功能和配置。Demo短视频:

另一个应用是基于用户协同过滤的个性化推荐。Demo视频即将上线,敬请期待。

阿里云MVP介绍

阿里云最有价值专家,简称 MVP(Most Valuable Professional),是专注于帮助他人充分了解和使用阿里云技术的意见领袖。点击了解更多产品信息
阿里云 MVP Meetup 第5期活动视频回顾。点击观看

加入钉钉技术讨论群

dingQR

阿里云Elasticsearch已正式发布啦,Elastic开源官方联合开发,集成5.5商业版本XPack功能,欢迎开通使用。
点击了解更多产品信息

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
打赏
0
0
0
0
496
分享
相关文章
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
201 16
Grafana Loki,轻量级日志系统
本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统,具备高可用性和多租户支持,专注于日志而非指标,通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程,并提供了快速搭建指南,包括准备步骤、部署命令及验证方法。此外,还展示了如何使用Grafana查看日志,以及一些基本的LogQL查询示例。最后,作者探讨了Loki架构的独特之处,提出了“巨型单体模块化”的概念,即一个应用既可单体部署也可分布式部署,整体协同实现全部功能。
536 69
Grafana Loki,轻量级日志系统
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
基于阿里云SelectDB,MiniMax构建了覆盖国内及海外业务的日志可观测中台,总体数据规模超过数PB,日均新增日志写入量达数百TB。系统在P95分位查询场景下的响应时间小于3秒,峰值时刻实现了超过10GB/s的读写吞吐。通过存算分离、高压缩比算法和单副本热缓存等技术手段,MiniMax在优化性能的同时显著降低了建设成本,计算资源用量降低40%,热数据存储用量降低50%,为未来业务的高速发展和技术演进奠定了坚实基础。
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
PHP 日志系统的最佳搭档:一个 Go 写的远程日志收集服务
为了不再 SSH 上去翻日志,我写了个 Go 小脚本,用来接收远程日志。PHP 负责记录日志,Go 负责存储和展示,按天存储、支持 API 访问、可远程管理,终于能第一时间知道项目炸了。
32 10
阿里云个人博客外网访问中断应急指南:从安全组到日志的七步排查法
1. 检查安全组配置:确认阿里云安全组已开放HTTP/HTTPS端口,添加规则允许目标端口(如80/443),授权对象设为`0.0.0.0/0`。 2. 本地防火墙设置:确保服务器防火墙未阻止外部流量,Windows启用入站规则,Linux检查iptables或临时关闭防火墙测试。 3. 验证Web服务状态:检查Apache/Nginx/IIS是否运行并监听所有IP,使用命令行工具确认监听状态。 4. 测试网络连通性:使用外部工具和内网工具测试服务器端口是否开放,排除本地可访问但外网不可的问题。 5. 排查DNS解析:确认域名A记录指向正确公网IP,使用`ping/nslookup`验证解析正
48 2
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
中信银行信用卡中心每日新增日志数据 140 亿条(80TB),全量归档日志量超 40PB,早期基于 Elasticsearch 构建的日志云平台,面临存储成本高、实时写入性能差、文本检索慢以及日志分析能力不足等问题。因此使用 Apache Doris 替换 Elasticsearch,实现资源投入降低 50%、查询速度提升 2~4 倍,同时显著提高了运维效率。
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
Elasticsearch:使用阿里云 AI 服务进行向量化和重新排名
本文介绍了如何将阿里云 AI 功能与 Elasticsearch 集成,以提高语义搜索的相关性。
235 0
网络安全视角:从地域到账号的阿里云日志审计实践
网络安全视角:从地域到账号的阿里云日志审计实践
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
海量日志接入 Elasticsearch Serverless 应用降本70%以上
本文将探讨在日志场景下,使用阿里云Elasticsearch Serverless相较于基于ECS自建Elasticsearch集群的成本与性能优势,展示如何通过Serverless架构实现高达 70%以上的成本节约。
210 0

热门文章

最新文章

相关产品

  • 检索分析服务 Elasticsearch版