背景
- 用户投诉无法登录、App卡顿、无法付款,却无从查起;
- 总有某几个用户天天反馈问题,运维却无法自证清白,浪费大量人力排查;
- 某国新上的App投入很多运营成本,新用户却不断流失,总有用户反馈无法使用,却不知道原因在哪里;
- 突然出现大面积业务掉线,但是无法追查具体的维度,比如出问题的地域、客户端的运营商等信息,也无法定位根因;
... ...
如果曾经遇到以上困扰,那么这篇文章就非常适合你。
网络质量和网络性能直接关系着终端用户的体验,而互联网诞生之日起,就是一种尽力而为的模型。长期以来,互联网 SaaS、终端游戏等应用对网络性能不感知,出现网络性能等问题,无法定位网络问题出现在那里,经常导致客户投诉。出现网络性能问题的点,发生在路径的多个位置上,且经常是叠加问题,尤其是跨境的时延敏感性的数据传输。另外,终端出现的网络问题经常是被动发现的。所以,综上问题,需要有一款可以兼顾用户稳定性、网络质量和运维服务的产品。网络质量分析器应运而生,网络质量分析器(云速)是在阿里集团内部孵化,并在多个过亿用户的阿里应用上使用。帮助阿里内部多个业务和客户分析解决了由于网络质量和问题带来的影响。目前已正式作为阿里云产品发布,轻量化集成,希望也帮助阿里的用户解决网络性能和体验上的相关问题。尤其是游戏、视频会议、教育、金融等对时延敏感的应用。
网络质量分析器服务
网络质量分析器是一款针对真实终端用户网络质量性能进行分析的 SaaS 服务。用户可以将网络质量分析器的 SDK 插件集成到App 中,实时感知所有 App 真实用户在线情况、访问互联网的网络质量情况。网络质量分析器提供从在线终端设备发起到您目标服务器的网络质量探测分析,帮助终端用户进行网络问题排查诊断。
应用场景
- 全局用户网络质量概览通过网络质量分析器,您可以了解分布在全球不同地域及运营商的终端用户访问您服务端的网络质量情况;了解不同地域及运营商到您服务端的网络延迟及丢包率。网络质量分析器可以为您的服务优化及网络调优提供方向指引。
- 单用户网络问题诊断网络质量分析器会上传所有在线终端用户访问服务端时的网络日志,帮助您还原具体单个用户在不同时期的网络访问质量情况。网络质量分析器可用于单个特定用户的网络问题诊断排查。
产品优势
- 跨平台、适配性强提供 Android、iOS 等版本 SDK 插件,支持各种操作系统版本,适配兼容性强。
- 真实终端网络分析从真实终端用户采集的网络质量数据,客观还原边缘终端用户网络状况。
- 支持主流探测协议支持常见的 HTTP、MTR、TCPPING、PING 等网络探测协议,满足日志采集需求。
网络质量分析器功能
数据采集
网络质量分析器提供 IOS、Android SDK,集成 SDK 插件到 App 后,只需启动 App,网络质量分析器就会自动进行网络探测,将数据上传到 SLS 的 Logstore 中。同时 SDK 也提供 API,可以针对 HTTP、PING、TCPPING、MTR、DNS 在 App 侧主动发起网络探测。SDK 会自动采集并上报多种网络探测字段,已经满足大部分网络场景,如果有特殊的需求,也可以根据扩展属性添加自定义字段。
数据存储及查询
通过 SDK 采集的数据会存储于用户的 Logstore 中,分成两份数据,一份原始的探测明细数据,存储在 raw Logstore,一份加工过后更利于用户分析的总结性数据,存储在 summary Logstore。借助 SLS 强大的查询分析能力,可大规模低成本实时筛选数据,并支持数据可视化、数据加工、告警、消费与投递,定制用户自己的需求。
网络分析能力
网络质量分析器应用提供网络质量分析报表,用于展示数据延迟、丢包率、探测次数、日活用户等变化趋势,帮助用户了解端侧的网络质量情况。提供多种维度查询方式,包括国家、运营商、用户 ID、设备 ID、客户端、服务器、探测协议、时间等维度,预制的图表维度已涵盖了大部分查询场景,当然也可以通过 Logstore 中的日志自定义制作仪表盘、大屏,掌握更细粒度的可视化数据。
除了延迟、丢包率等趋势图,还提供了探测明细分析和路径诊断。同样明细数据也支持多种维度筛选,详情页则会展示路径诊断,针对不同种探测协议,路径诊断也会有不一样的结果展示。
针对用户及设备级别的分析,可以追溯用户的历史网络情况,便于事后定位、投诉排查。
详细介绍了网络质量分析的现有功能,我们再来看看文章片头提出的几个问题。针对用户的问题,我们可以使用”用户分析“去查看用户维度的延迟、丢包率趋势图,筛选出异常的时间段,在去探测结果明细查看 http、mtr、ping、tcpping 的用户探测详情数据,基本上可以诊断出异常的节点,如果还需要更个性化的分析,可以去 Logstore 中查询原始数据,自己写查询分析语句,统计出用户各个网络维度的数据趋势。针对网络故障的问题,包括运营商、地域等等,可以查看整体延迟、丢包率趋势图,在异常凸起的时刻,也可以查看 Top 排行榜,定位延时、丢包率高的网络线路,再去探测结果明细查看详情数据,同样也可以去 Logstore 中通过查询分析语句,统计出地域、运营商各个维度的网络数据。
后续网络质量分析器规划
目前网络质量分析器 1.0 上线了质量看板、路径分析、多协议探测、整合分析等几个模块。这几个模块也集成了内部版本中主要的几个模块。其他模块还在不断的融合中,从后续上线的版本和长期的规划看,还会提供相应的能力,主要有:
- 仪表盘功能升级,智能告警模块:仪表盘功能做进一步能力和易用性的提升,会关联智能告警模块,在告警算法侧也会做进一步的升级。在及时发现问题的同时,可以在大盘上详细展示。第一时间发现问题和处理问题。
- 采集端的类型和操作系统的丰富:目前支持的端侧类型主要是以手机端 Android、IOS 系统。后续版本会支持电脑端 Windows 和Mac 操作系统。适用部分客户是电脑端的应用场景。
- 自证清白模块支持:目前网络质量分析器主要是以负责系统运维人员观测为主。未提供对系统最终用户检测自己网络质量的能力。后续版本中会提供对最终进行自用网络的检测能力,用于最终用户判断自用网络可达性和质量,或用于辅助系统运维人员和客服人员判断用户网络可达性和质量。
- 音视频会议诊断支持:用于音视频会议客户对视频会议中的多方会议网络质量进行诊断,判断会议中各用户网络质量情况,并用户会议质量分析,或直播质量分析。
- 自定义报表能力:后续版本中会提供自定义报表功能,客户可以自己定义输出网络质量报表的参数、周期、数据等信息。方便客户进行周期的网络质量汇报和分析,或针对特性应用进行分析和展示。
相关信息
- SLS(日志服务)云原生观测分析平台:https://www.aliyun.com/product/sls
- SLS 网络质量分析器文档首页:https://help.aliyun.com/document_detail/455079.html
- 欢迎扫群加入SLS技术交流和服务支持群,获得各类可观察性相关的学习资料
- 系列直播与培训视频会同步到B站,敬请留意