SolrAdmin已经足够强大了!Solr详情请关注wiki http://wiki.apache.org/solr/CoreAdmin
下面从业务和运维角度总结一下监控项和作用。
1. 基础类并报警
CPU、LOAD、DISK、JVM
CPU利用率、load波动情况;disk使用率、波动情况、jvm使用率、波动情况
2. 业务类报警
OOM outofmemory及时报警
HTTP 一是stats=500,一是请求量
Core core的状态报告:状态定义可以查询、并且查询有结果
Cache filtercache、fieldvaluecache、doucumentcache、queryresutlcache及时调整参数,提高hitratio
FullDump 全量写索引时间、过滤时间、数据获取并网络传输时间、全量索引大小、全量记录总数
qtime 平均响应时间
hit 平均命中数量
datafile 对一些关键临时中间数据进行监控,防止误删、误改
3. 展示不报警
FullDump 执行时间、执行者、执行结果
Lock 获得者
AppView、CoreView
FileHandler 在增量、全量过程打开、关闭,了解文件句柄波动情况,排查和避免file handler leak
4. notice
(1)插件化、服务化,尽量减少硬编码,做到配置即用而兼容不同需求
(2)脚本监控+编码输出监控结合
(3)关注新应用、关注应用接入初期的稳定性
(4)没有报警也应对定期巡查结点情况