【阿里云MVP第五期】阿里云赵弘扬:基于Elasticsearch构建网站日志处理系统

简介: 本文节选自阿里云MVP第五期嘉宾阿里云产品专家赵弘扬分享话题《基于Elasticsearch构建网站日志处理系统》。介绍如何基于阿里云的Elasticsearch,离线数仓加工工具,数据同步工具等产品来快速构建日志处理系统。

嘉宾介绍

洪阳 阿里云搜索产品经理
从事多年大数据及搜索相关产品工作,在离线数据加工、离线调度系统、在线搜索等场景有深入研究。

Elasticsearch在离线和在线日志处理场景的应用

日志处理可以分为三个场景,离线场景、在线场景,以及流式场景。今天给大家分享的话题是,如何使用Elasticsearch和X-Pack在离线和在线日志处理场景的应用。
_

日志处理系统架构简介

我们通过搭建网站日志处理系统这个案例来探讨。便于理解,下面是一个简化的网络架构图。

_

导入到Elasticsearch的数据源可以非常多样化,比如各类beats,或者logstash,或者kafka等消息队列。在实际的应用环境中,架构可能非常复杂,维护成本也会非常高。在日志归档和日志搜索场景下,当日志量不大时,可以直接通过beats将服务器日志数据同步到ES里做索引,然后同过Kibana做在线查询或分析。但这样处理的弊端是,无法处理日志数据的结构。而Logstash的filter可以解决这个弊端,Logstash作为通道再将过滤处理后的日志推送到ES。

_
但在日志量不断增大,Logstash的处理压力越来越多,出现性能瓶颈。如果对ES数据做update,会导致数据不停做merge,内存、CPU开销激增,甚至影响到线上业务。所以,在企业级应用中,我们会前置消息队列系统,比如Kafka、MetaQ等。

_

我们再聊聊离线部分,日志处理不仅仅是检索日志这么简单的需求,还有用户画像挖掘等高级的数据探索。这是需要借助Hadoop、MaxCompute等离线计算引擎来来实现底层数据的挖掘。我们来看看整个的处理流程,数据库里面或者其他网络日志,通过离线的数据导入,进入到离线的计算引擎,然后进行数仓模型的加工,最终将数据通过ES-Hadoop插件或者是直接把数据同步到Elasticsearch里面去。

比如我需要搭建一个游戏APP的用户运营分析系统。可能会涉及到几方面的日志:

  • 服务器上面的用户访问行为,
  • SDK里面采集到的用户交互行为,如点击、滑动等操作
  • 记录在关系型数据库里面的用户交易行为
    可以通过如上所述的日志系统搜集和聚合这些散乱在各处的日志,然后索引在Elasticsearch里面,再通过Kibana去做在线行为分析。或者,我通过我本身的应用系统去调它,获取一个用户的模型结构。

利用ES中的Graph功能做数据探索

以手机APP的用户访问数据为例。通过访客关系探索的案例介绍X-Pack的Graph组件的相关功能和配置。Demo短视频:

另一个应用是基于用户协同过滤的个性化推荐。Demo视频即将上线,敬请期待。

阿里云MVP介绍

阿里云最有价值专家,简称 MVP(Most Valuable Professional),是专注于帮助他人充分了解和使用阿里云技术的意见领袖。点击了解更多产品信息
阿里云 MVP Meetup 第5期活动视频回顾。点击观看

加入钉钉技术讨论群

dingQR

阿里云Elasticsearch已正式发布啦,Elastic开源官方联合开发,集成5.5商业版本XPack功能,欢迎开通使用。
点击了解更多产品信息

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
WGLOG日志管理系统是怎么收集日志的
WGLOG通过部署Agent客户端采集日志,Agent持续收集指定日志文件并上报Server,Server负责展示与分析。Agent与Server需保持相同版本。官网下载地址:www.wgstart.com
|
4月前
|
Prometheus 监控 Cloud Native
基于docker搭建监控系统&日志收集
Prometheus 是一款由 SoundCloud 开发的开源监控报警系统及时序数据库(TSDB),支持多维数据模型和灵活查询语言,适用于大规模集群监控。它通过 HTTP 拉取数据,支持服务发现、多种图表展示(如 Grafana),并可结合 Loki 实现日志聚合。本文介绍其架构、部署及与 Docker 集成的监控方案。
481 122
基于docker搭建监控系统&日志收集
|
7月前
|
监控 API 开发工具
HarmonyOS Next的HiLog日志系统完全指南:从入门到精通
本文深入解析HarmonyOS Next的HiLog日志系统,涵盖日志级别、核心API、隐私保护与高级回调功能,助你从入门到精通掌握这一重要开发工具。
|
人工智能 运维 自然语言处理
如何在 Elasticsearch 中构建你的智能 AI 助手?
随着微服务、容器化和云原生架构的发展,系统日志量呈指数增长。传统人工排查和固定规则告警方式已难以应对,导致日志查不准、异常发现慢等问题,影响系统稳定性和运维效率。本文介绍如何基于 Elasticsearch 构建具备自然语言理解、异常检测和安全威胁识别能力的智能运维 AI 助手,帮助将 Elasticsearch 从“日志仓库”升级为“智能决策中枢”,提升运维智能化水平与操作效率。
|
4月前
|
Ubuntu
在Ubuntu系统上设置syslog日志轮替与大小限制
请注意,在修改任何系统级别配置之前,请务必备份相应得原始档案并理解每项变更可能带来得影响。
578 2
|
8月前
|
存储 机器学习/深度学习 人工智能
使用 LangChain + Higress + Elasticsearch 构建 RAG 应用
本文介绍了如何利用LangChain、Higress和Elasticsearch快速构建RAG(检索增强生成)应用,实现企业知识的智能检索与问答。首先通过LangChain解析Markdown文档并写入Elasticsearch,接着部署Higress AI网关并配置ai-search插件以整合私有知识库与在线搜索功能。最后,通过实际案例展示了RAG查询流程及结果更新机制,确保内容准确性和时效性。文章还提供了相关参考资料以便进一步学习。
800 38
|
6月前
|
存储
WGLOG日志管理系统可以采集网络设备的日志吗
WGLOG日志审计系统提供开放接口,支持外部获取日志内容后发送至该接口,实现日志的存储与分析。详情请访问:https://www.wgstart.com/wglog/docs9.html
|
8月前
|
自然语言处理 监控 安全
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询
1179 0
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
|
10月前
|
存储 消息中间件 缓存
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
基于阿里云SelectDB,MiniMax构建了覆盖国内及海外业务的日志可观测中台,总体数据规模超过数PB,日均新增日志写入量达数百TB。系统在P95分位查询场景下的响应时间小于3秒,峰值时刻实现了超过10GB/s的读写吞吐。通过存算分离、高压缩比算法和单副本热缓存等技术手段,MiniMax在优化性能的同时显著降低了建设成本,计算资源用量降低40%,热数据存储用量降低50%,为未来业务的高速发展和技术演进奠定了坚实基础。
468 1
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
|
8月前
|
JSON 安全 数据可视化
Elasticsearch(es)在Windows系统上的安装与部署(含Kibana)
Kibana 是 Elastic Stack(原 ELK Stack)中的核心数据可视化工具,主要与 Elasticsearch 配合使用,提供强大的数据探索、分析和展示功能。elasticsearch安装在windows上一般是zip文件,解压到对应目录。文件,elasticsearch8.x以上版本是自动开启安全认证的。kibana安装在windows上一般是zip文件,解压到对应目录。elasticsearch的默认端口是9200,访问。默认用户是elastic,密码需要重置。
4456 0

热门文章

最新文章

相关产品

  • 检索分析服务 Elasticsearch版