本文主要由中生代技术群的技术讨论分享整理而成,作者张子发(花名:穆客)是阿里云Node.js方面的专家。本文主要是Alinode的开发过程总结,同时希望能造福广大Node.js开发者。
今天分享Node.js应用管理方面的心得,对Node.js感兴趣的朋友可以关注下更多内容可以参考团队里面朴灵同学的《深入浅出Node.js》,哈哈~
沿着提出问题->分析问题->解决问题的道路,针对上面的问题,我们做了alinode
下面是一些具体的监控指标在实际应用中的用途
node进程级别的内存数据,主要是内存使用状态和趋势, 到底是v8堆上内存用多了,还是堆外内存使用的多
如果内存不合理,优化的时候就有了方向
这个是具体到v8上各个space的使用情况, 新生代/老生代/大对象空间之类的,也是给优化提供更精确的知道意义
垃圾回收时间占比,因为在垃圾回收的时候,用户代码是停止的,所以这个数值过高,也是需要关注的
这个是qps和timer状态和趋势,qps/rt堆业务是和重要的指标,timer本身是比较耗资源的,如果timer数量不正常,那么需要关注下,因为写代码的人应该知道具体使用timer的情况,所以异常还是比较容易判断的
这个是系统级别(同一服务器上所有node进程总计)的一些load/qps/memory/cpu之类的信息。
下面是一些诊断的试图,在发现系统异常后,可以做堆快照, CPUProfiling来分析,因为代码逻辑错误之外的问题,基本上最终都归于内存和cpu的问题
这个图是比较糊的, 用过chrome devtools的同学应该比较熟悉,就是分析cpuprofiling,有三种视图
与原生的node想必,我们在v8层面多输出了一些信息,所以看到代码是否被优化过
与原生的node想必,我们在v8层面多输出了一些信息,所以看到代码是否被优化过这两个图是堆快照的输出,基本上所有与内存相关的问题,仔细分析下都能知道到原因,可以直接把堆上占用内存排前几位的对象指出,展开后就能分析到对应到代码哪一部分了
下面说几个解决问题的案例
一个是cpu相关的,某用户在高峰期,cpu会到80-90%的样子,找不出原因,profiling后,发现是这样的
处理函数降到了 24%不到一点,其实我们做开发的都知道,如果发现问题了,解决问题不是很难的事情
这里有个很夸张的值,就是发现内存慢慢增长,大了没办法就重启;做了个堆快照后,发现是tlswrap这个独享有几万个...
原来是有个库封装的问题,本来一条链接就可以了,结果每次都创建一个新的。不释放...然后堆起来了
类似的问题很多
可能对群里面的大牛而言,这些错误会犯的比较少,可是对那些不是大牛的同学来讲,有时候还真难以避免这些问题,朴灵同学也犯过内存泄露的错误....因为有个数据库异常没有处理,然后堆起来,v8的堆就爆掉了
接下来分享下做alinode的过程中对v8的学习
我们也不敢说理解了v8了,花了大部分时间在v8的学习上面
下面是一些学习笔记的例子,详细内容就不列了,只列了一些标题
http://alinode.aliyun.com/
Q&A
问题1:mysql在update某行的过程中,其他线程是不是不能读这一行了?等update完毕才能读?
这个不是我的领域哎... 这方面的专家谁帮忙回答下吧
问题2:张老师,你们在调优过程中是否对V8引擎作一些优化呢,是否可以举个案例?
这个也是学习v8的出发点, 其中一个优化是对ArrayJoin的汇编改进了一下,原来只支持ascii,改进后也支持中文
问题3:看您介绍的很多都是宏观上的监测,在调优过程是否有发现像CVE-2015-8027 Denial of Service Vulnerability这样的NodeJS漏洞呢?
安全漏洞倒是没有发现,发现了nodejs本身的一些性能问题,踢给社区了
问题4:NodeJS的性能是否还有很大的潜力挖掘呢?
个人觉得不会有几倍的提升了, 小改进会有
我以前是做c开发的,开始非常难以接受js,后来做alinode的过程中发现,这个东西开发效率太高了,比c高了不知道多少倍,这个非常重要,尤其在一些创业公司中,开发效率的提高,然后还有无数的库的支持,当然这也带来了库本身参差不齐的问题,所以才需要应用性能管理
问题5:张老师,能否简单列举下node.js在ali的主要应用场景?
这个可以参考一下https://www.zhihu.com/question/37379084
里面也有deadhorse同学在天猫那边的应用,基本上,阿里内部有几百个应用在用Node.js了,但是核心交易系统没有用,那个是java的天下,哈哈
问题6 Node.js 进程间缓存共享你们有用到吗?
我写过一个模块,用共享内存的,适合同一台服务器内不同进程间应用,但是没有用到线上,因为线上还要考虑不同服务器之间的问题,使用tair了
问题7 阿里的node主要是前段工程师在写还是服务器端工程师在写
都有,比例我还真的不清楚,估计现在还是前端多点吧。
问题8:慢请求调用链比较长这个怎么排查的
这个先把慢路径找出来,然后再想办法解决吧
问题9:为何选择了node.js,而不是erlang,go这些?除了开发效率和并发之类的考虑,技术选型上是否还有其他关注点?
这个貌似这个群还是另外一个群正在讨论,选Node.js是因为有这方面的人才储备,国内一伙做node比较早的阿里有好几个,然后就是js语言与前端统一,沟通成本降低很多
中生代技术群微信公众号
本文作者 张子发(花名:穆客) 阿里云专家