Nginx监控数据采集与分析
本文主要介绍通过日志服务logtail采集nginx status信息,并对采集的status信息进行查询、统计、搭建仪表盘、建立自定义报警,对您的nginx集群进行全方位的监控。
JS动态加载以及JavaScript void(0)的爬虫解决方案
Intro
对于使用JS动态加载, 或者将下一页地址隐藏为JavaScript void(0)的网站, 如何爬取我们要的信息呢?
本文以Chrome浏览器为工具, 36Kr为示例网站, 使用 Json Handle 作为辅助信息解析工具, 演示如何抓取此类网站.
Elastic Stack学习--elasticsearch部署
Elastic Stack是一套支持数据采集、存储、分析、展现的全流程数据分析工具,旧时称作ELK(Elasticsearch,Logstash,Kibana的缩写,)。Elastic Stack由一系列的工具集组成,其核心组成如下图:
Logstash & Beats:数据采集工具,logstash适合大批量数据的采集,其结构较重,消耗资源较大,适合集群化部署。
降本、赋能、链接:阿里巴巴全域数据建设 ——云栖大会阿里大数据分论坛精彩演讲1
2017云栖大会-阿里大数据分论坛,我们通过串联7个演讲,将阿里十余年在大数据领域 沉淀的技术能力和应用实践对外分享,系统性介绍我们是如何构建一个从底层的数据采集、处理,到挖掘算法、应用、产品服务的全链路、标准化的大数据体系,使得超过EB级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动阿里巴巴的业务和外部千万用户的发展。
云栖硬核回顾|企查查搜索引擎演进之路
企查查作为企业征信行业的搜索引擎,一直以来都与阿里云开放搜索团队有深度合作。本次朱总独家揭秘,开放搜索陪伴企查查从创业初期到成为企业征信行业的独角兽的过程中,是如何满足企查查产品海量数据的精准搜索需求的。
如何优化Vue项目性能?
当打包构建应用时,JavaScript 包会变得非常大,影响页面加载。如果我们能把不同路由对应的组件分割成不同的代码块,然后当路由被访问的时候才加载对应组件,这样就更加高效了。
赋能平台、提效工具、场景化应用,地产大数据玩转有诀窍
在2017在线峰会——票选最美云上大数据暨大数据技术峰会上,来自明源云的刘峥分享了整个的地产行业的趋势以及探索应用实践。他主要从行业趋势和应用实践两个方面进行了分享。他详细的分享了数据管理平台DMP平台的基础层、画像层、算法层、展示层的架构设计,并通过应用场景诠释了大数据在地产行业的作用。
Java selenium操作下拉滚动条的几种方法
数据采集中,经常遇到动态加载的数据,我们经常使用selenium模拟浏览器操作,需要多次下拉刷新页面才能采集到所有的数据,就此总结了几种selenium操作下拉滚动条的几种方法我这里演示的是Java版本的,使用chromedriver,当然你可以换成python或其他语言,浏览器用firefox或者phantomjs(无头浏览器),大部分都是适用的,不同浏览器有略微的差异。