阿里云ACE共创空间——大数据方案体验1 日志服务

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 阿里云ACE共创空间——大数据方案体验1 日志服务从阿里云官方文档介绍中,可以看到Log service日志服务主要包含三部分的内容:1、 实时采集与消费LogHub2、 查询分析Search/Analytics3、 数据投递与仓库LogShipper进入管理控制台后,需要先开通服务,从创建Porject这个对话框来看和MAXCOMPUTE和DATA IDE的界面和操作方式类似,备注里说明记录该项目下所有资源的操作、访问和计量等日志并保存到Logstore中,类似于DATA IDE中的项目和MAXCOMPUTE中的项目关联方式。

阿里云ACE共创空间——大数据方案体验1 日志服务
screenshot
screenshot
screenshot
从阿里云官方文档介绍中,可以看到Log service日志服务主要包含三部分的内容:
1、 实时采集与消费LogHub
2、 查询分析Search/Analytics
3、 数据投递与仓库LogShipper
screenshot
进入管理控制台后,需要先开通服务,从创建Porject这个对话框来看和MAXCOMPUTE和DATA IDE的界面和操作方式类似,备注里说明记录该项目下所有资源的操作、访问和计量等日志并保存到Logstore中,类似于DATA IDE中的项目和MAXCOMPUTE中的项目关联方式。
screenshot
Project名称这里输入测试项目的编号,在所属的区域选择华东2,下方的红色提醒提示,因为开通运行日志后,日志服务信息需要写入到指定项目的日志库,涉及到写的操作,所以需要在RAM中进行授权。为了方便测试,把测试项目的名称取名为test20181126。
screenshot
创建Project后,可以看到收集来的日志信息是储存在Logstore中的,所以需要创建Logstore即日志库的具体信息,在属性设置中可以看到以下几项关键内容:
1、 Web Tracking:其功能是支持快速采集各种浏览器和设备的访问信息,这个作用是有助于快速的收集用户访问过程中的日志信息。
2、 永久保存:生命周期的选择可以是永久保存,也可以关闭永久保存来根据实际需要输入需要保存的时间期限。
3、 Shard数目、自动分裂shard和最大分裂数:shard的定义和其他模块一样,表示的流数据的传输通道,其中自动分裂的功能代表着log service的服务和其他服务一样,有弹性的功能,当数据量超过已有分区能力后,自动分裂功能可以根据数据量来自动增加分区数量,并且用户可以自己选择最大的分裂数。
screenshot
在创建了Logstore日志库后,汇总下目前的情况:
1、 创建了测试项目,项目名称为:test20181126
2、 在项目下创建了日志库,日志库的名称为:test20181126_store
在日志库中可以对于日志的采集和投递做出进一步配置,包括数据接入向导、日志采集模式、日志消费模式等。先对于数据接入向导进行配置:
screenshot
screenshot
screenshot
数据源提供了很多选择,涵盖了云产品日志、自建软件日志和自定义数据的输入,在选择云产品如SLB进行日志收集前同样需要在RAM中进行授权。如果是用户自建软件或者自定义的数据,需要对日志的路径和配置做一定的设置。在日志数据的输入侧,提供了各种输入源的接入方式,能满足用户对于数据输入的各种需要。
screenshot
在设置完成数据接入后,可以在Logtail配置列表中看到所有的配置信息,包括配置的名称、数据来源、配置详情和操作。还可以通过错误信息收集来针对收集过程中的错误做进一步诊断。对于导入的日志信息,可以在界面上进行快速查询、告警配置和仪表盘的设置,方便用户定义监控和报警的需求。
screenshot
在投递方面只支持MAXCOMPUTE和OSS两种输出源,这代表这一部分的内容目前只能输出到离线的处理系统上而不能支持投递到诸如STREAMCOMPUTE和ADS等能支持实时计算的系统。这个是体验后的一个比较大的疑问,因为日志信息中所含的信息量较多,数据本身也会非常大并且时间的敏感性很高,诸如高峰期的日志信息能够越早处理,越能挖掘出其中的价值。其本身日志库作为一个分布式数据库并且能在其中进行查询等操作为何还没能投递到其他输出源的方式,是否是因为日志信息属于半结构化数据所以只能以MAXCOMUPTE和OSS作为输出方需要进一步的研究。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
4天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
24 2
|
18天前
|
存储 数据采集 监控
阿里云DTS踩坑经验分享系列|SLS同步至ClickHouse集群
作为强大的日志服务引擎,SLS 积累了用户海量的数据。为了实现数据的自由流通,DTS 开发了以 SLS 为源的数据同步插件。目前,该插件已经支持将数据从 SLS 同步到 ClickHouse。通过这条高效的同步链路,客户不仅能够利用 SLS 卓越的数据采集和处理能力,还能够充分发挥 ClickHouse 在数据分析和查询性能方面的优势,帮助企业显著提高数据查询速度,同时有效降低存储成本,从而在数据驱动决策和资源优化配置上取得更大成效。
113 9
|
1月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据生态圈体系
阿里云大数据计算服务MaxCompute(原ODPS)提供大规模数据存储与计算,支持离线批处理。针对实时计算需求,阿里云推出Flink版。此外,阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS,以及数据分析平台DataWorks、Quick BI和机器学习平台PAI,构建全面的大数据生态系统。
68 18
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
SQL 存储 人工智能
阿里云日志服务的傻瓜式极易预测模型
预测服务有助于提前规划,减少资源消耗和成本。阿里云日志服务的AI预测服务简化了数学建模,仅需SQL操作即可预测未来指标,具备高准确性,并能处理远期预测。此外,通过ScheduledSQL功能,可将预测任务自动化,定时执行并保存结果。
92 3
|
2月前
|
存储 分布式计算 NoSQL
大数据-136 - ClickHouse 集群 表引擎详解1 - 日志、Log、Memory、Merge
大数据-136 - ClickHouse 集群 表引擎详解1 - 日志、Log、Memory、Merge
58 0
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
307 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
47 2