APK瘦身记,如何实现高达53%的压缩效果

简介: 为什么APK要瘦身。对于用户(或者客户)来说,APK越大,在下载安装过程中,他们耗费的流量会越多,安装等待时间也会越长;对于产品本身,意味着下载转化率会越低(因为竞品中,用户有更多机会选择那个体验最好,功能最多,性能最好,包最小的);对于研发来说,是一种优化改进技术的机会。

 APK瘦身记,如何实现高达53%的压缩效果


作者:非戈@阿里聚安全



1、我是怎么思考这件事情的

APKAndroid系统安装包的文件格式,关于这个话题其实是一个老生常谈的题目,不论是公司内部,还是外部网络,前人前辈已经总结出很多方法和规律。不过随着移动端技术近两年的飞速发展,一些新的思维方式和优化方法也逐渐涌现和成熟起来。笔者在实践过程中踩过一些坑,收获了一些经验,在这里做个思考和总结,所以随笔给大家,希望对大家从事相关工作的时候有所帮助和参考,同时也是抛砖引玉,希望大家共同探讨这个开放性的话题。


关于为什么APK要瘦身,这个不多说,只从三个方面唠叨一下,对于用户(或者客户)来说,APK越大,在下载安装过程中,他们耗费的流量会越多,安装等待时间也会越长;对于产品本身,意味着下载转化率会越低(因为竞品中,用户有更多机会选择那个体验最好,功能最多,性能最好,包最小的);对于研发来说,是一种优化改进技术的机会。


欲瘦身,我们先找找胖的原因和问题。按目标-路径-资源的思维模式,找原因和问题有如下几条路径,一是拍脑袋,按自己的经验和判断,甚至是主观想象;二是去搜索引擎找关键字,逛各种技术论坛听技术大牛们怎么说,看各类技术文章抽取提炼;三是用一种可测量的工具或者方法发现问题。


前两种不赘述,我这里说说第三种方法。用一种可测量的工具或者方法来分析,所谓工欲善其事,必先利其器。这个器可以可以自己锻造,也可以用现成的。这里推荐一个在线apk分析工具,因为是外部工具,所以大家请在使用过程中,不要上传未发布出去的产品,为了数据安全,笔者这里拿一个github上开源的Android项目作为瘦身示例。


2、寻找问题

NimbleDroid 是美国哥伦比亚大学的博士创业团队研发出来的分析Android app性能指标的系统,分析的方式有静态和动态两种方式,其中静态分析可以分析出APK安装包中大文件排行榜,各种知名SDK的大小以及占代码整体的比例,各种类型文件的大小以及占排行,各种知名SDK的方法数以及占所有dex中方法数的比例,废话不多说,下面上高清无码大图看看颜值吧。

如果想使用分析功能分析自己的产品,请登录并上传自己产品的apk包,所有功能目前均免费使用,如果是想分析Google Play上已经发布的产品,可以直接点击"Play Apps"查看,还可以使用搜索功能根据应用名和包名查看结果。再次强调下,请不要上传任何未发布的产品。

登录

上传apk文件

分析结果摘要,可以看到一些概览的信息,apk文件大小,总的方法数

文件大小分析详情页,大文件列表,这里列出的是apk文件中超过100k的文件排行,这里的文件大小指的是apk文件中的大小

各种知名SDK的大小以及占代码整体的比例,这里目前能识别出Android SupportJackson JSON parser, Google Play Services, Paypal, Glide, OkHttp, Facebook SDK, Fabric, Gson等等,Application表示App中自己编写的代码部分

各种类型文件的大小以及排行

各种知名SDK占所有dex中方法数的比例

各种知名SDK的方法数排行榜


看完这个apk内剖图是不是有一种神清气爽的感觉!我把这个分析工具比做我们家买的智能体重秤,可以称体重,脂肪含量,骨重,骨密度,肌肉含量等等,那么,我们是不是发现了一些问题,进而把这些问题和我们之前靠经验和一拍脑袋的原因可以用逻辑联系在一起。

那么,我们接下来可以通过分析数据整理出我们的优化目标

1.     大文件排行榜里,有11png文件的大小超过了100k,记住,这可是压缩之后的啊;

2.     大文件排行榜里,resources.arsc的大小接近2M,这也是一个优化点;

3.     大文件排行榜里,classes.dex接近3Mclasses.dex是代码的载体,这块的优化需要细分,再去看看细分SDK的排行榜;

4.     组件占比环图里,Android Support, Jackson JSON ParserGoogle Play Services是三方库的前三甲;

5.     文件类型排行榜里,png, dex arsc是前三甲;


3、梳理优化目标

所以我们的目标是没有蛀牙,不对,是下面的目标:

1. png图片优化;

2. resources.arsc文件的优化;

3. 代码优化

3.1图片优化的尝试

首先是第一个目标,图片的优化,慢点,我们看看这些图为什么这么大先,准确的说,为什么这些图在apk(其实就是zip文件)里这么大,好了,上工具分析。

这次用了一些简单的工具组合,系统自带的cmd就好。

命令执行的结果如下

恩,所有的png文件居然是STORE的方式存储到apk里的,关于zip里的STOREDEFLATE详见 )

通俗的说,当文件是STORED的方式存储到zip,表示这个文件并没有经过压缩,如果是Defl:N的方式,表示通过DEFLATED normal的方式压缩存储到zip

这看起来有点不合理,png原封不动的放入zip,当然最后产出的apk会比较大。那么,如何解决呢?笔者首先尝使用android gradle plugin的方式,发现aaptOptionspackagingOptions都未能解决问题。在github上发现一个开源项目AndResGuard,试了集成到项目中,再看结果如下:

优化前:

10536027字节

优化后:


普通zip压缩: 8786265字节 (压缩了将近17%

采用7zip压缩:8567150字节 (压缩了将近19%

再看看这个工具做了什么,对比下开启资源混淆前后

优化前

优化后

1.     资源(png, xml, jpg等)名称混淆,资源路径名称混淆以及名称长度压缩;

2.     原来以STORED形式存储到zip中的png文件被改成了DEFLATED(普通压缩存储)方式;

3.     意外发现resources.arsc, META-INF/*.SF 以及 META-INF/*.MF变小了,而且是解压之后的文件大小也变小了。

apk反编译神器jadx内窥apk寻找真相

原来apk中资源(png, xml,以及properties文件)的相对路径会存放到META-INF/*.SF 以及 META-INF/*.MF中并为每个资源文件计算SHA1值并存储在这两个文件中,至于为啥这么做以及这两个SHA1有啥区别和作用请参考网络上关于这方面知识的文章,已超出本文的主题所以这里不再赘述。

对于resources.arsc文件

很容易看出来它是资源文件索引表,所以,看到这里大家应该明白这三个文件为啥会变小了吧。

3.2一次意外的发现

顺着resources.arsc往下看,发现一个有趣的东西:

这又将成为一个优化点,去除那些没用的翻译资源,引入一些第三方的SDK,往往这些SDK带了很多翻译资源在里面,比如android support库,去掉后我们来看看效果。

假设我们只保留英文,当然只是个实验,现实中看具体情况了,

采用7zip压缩:8220738字节 (压缩了将近22%,再增加3个点)

当然,真实的项目里不可能这样,但是蚊子肉也是肉啊!

其实,我想说的是这提供了一种优化思路,就是利用gradle的配置干掉无用的资源,同样的可以用在so本地库上,分辨率(gradle配置已deprecated)上。

gradle配置示例如下:

记得包在android{}中间哦。那么,有人要问了,abi里肿么没有x86?据说intel提供了一个解决方案叫houdini,是一个运行在x86设备上的中间件,可以将arm转码为x86的指令,不过效率很低,有些运算型的,比如计算MD5SHA1,甚至不如java,笔者曾经做过测试对比,又是另外一个话题,此处不赘述,感兴趣的读者可以移步。

到此为止,我们已经在朝第一个目标迈进,不经意间发现了第一个目标和第二个目标之间的关系,所以利用资源混淆工具,达成了第二个目标。

利用7zip压缩,我们对整个包进行了2个点的压缩,这是一个超出预期的成果。

3.3图片优化的方

关于第一个目标,我们的路径还没有结束,拍脑袋想出来的路径是压缩png,非alpha图转成jpg,还有什么?所以去各种技术论坛逛了一圈,请教了各种技术大牛,梳理的路径如下:

1.     手动lint检查,手动删除代码中没有引用到的资源,实际效果不等。

Android Studio中打开“Analyze” 然后选择"Inspect Code...",范围选择整个项目,然后点击"OK"

配置如下图

2.     gradle脚本中开启shrinkResources

脚本参考如下

shrinkResources配合minifyEnabled使用效果更佳,详见shrinkResources用法以及注意

采用7zip压缩:8115283字节 (压缩了将近23%,再增加1个点)

3.     使用图片压缩工具,压缩png图的大小,将非alpha的图转换成jpg形式,关于这点同事以及网络上的大牛们已经整理的很详细了,我这里做简单总结,欲知详情,请见附录的参考。

  • 使用tinypng,我只想说咱们在公司做产品,此方案慎用,上传任何未发布产品的内容到外部网络,都有可能引起数据泄漏,所以慎用此方案。下面说替代方案。
  • WASTED
  • pngquant
  • ImageAlpha
  • ImageOptim
  • 以上工具太散,有没有集成化的工具,答案是@心伦 童鞋开发的imagemin
  • @姐夫童鞋开发的MSImageResourcesHelper
  • png转成jpg格式 具体效果不等。

4.     终极大杀器,png转成webp,关于webp,更多详情请参考谷歌官方文档以及安卓开发者在线参考

先上效果图:

采用7zip压缩:4926912字节 (压缩了将近53%,再增加30个点)

没看错吧,是30个点,目前apk的大小是原始apk大小的一半不到,而我做的,一行代码木有改动,仅用了一些工具而已!

说人话,我木有吃减肥药,木有绝食,体重却轻了一半!!!

但是,目前却没能用到项目中,因为有两个坑

  • 在三星的部分机型上,部分有alpha背景部分的图会有一条很明显的黑线,这里就不上图了,这个问题目前通过白名单的方式不去做成webp的图来处理;
  • 在小米2刷成4.xx的手机上,未能正确识别xml文件中描述的webp图片,导致界面起来后加载xml布局文件,文件加载webp失败,报错说resource file not found,导致app发生崩溃。跟踪发现是小米机器代理了类ResourceMIUIResource,但是这个MIUIResource未能正确识别webp,所以导致加载资源文件失败,初步判定,目前暂时没有解决方案,所以只能忍痛放弃这个优化方案。

关于第一个目标,图片资源的优化,就写到这里了。

3.4代码优化

第二个目标已达成,剩下第三个目标,代码的优化,梳理如下优化路径:

1.     开启proguard的代码优化

proguardFiles getDefaultProguardFile('proguard-android.txt'),'proguard-project.txt'

改为proguardFiles getDefaultProguardFile('proguard-android-optimize.txt'),'proguard-project.txt'

开启代码优化后的注意点请参见附录。

2.     去除无用的库

如果apk支持的最低版本是API14,而代码中没有用到高于api14api就可以考虑拿掉整个android support库。

3.     用更小的库替代方案

如果只用到了谷歌统计,那么就不要把整个google play services都集成进来,只集成需要的部分。

4.     定期清理废弃的代码

定期删除无用的逻辑和过期的业务功能模块,以及废弃的A/B test代码。

5.     业务模块采用插件化框架,代码动态从云端拉取

插件化,这是另外一个课题了,这里不赘述。

apk瘦身记最终的成果

10536027字节压缩到4926912字节压缩了将近53%


总结

1.     脚本中开启资源混淆和资源压缩

2.     7zip代替zip

3.     gradle脚本中开启代码混淆优化和无用资源删除

4.     用更小的图,使用压缩工具压缩图片大小

5.     去除无用的资源,语言,本地so库,二方三方库和分辨率

6.     用更小的库

7.     尝试将android support库彻底踢出你的项目

8.     定期清理代码

9.     尝试用H5编写界面,图片云端获取

10.  尝试插件化业务模块

11.  寻找到zip文件夹中所有用STORE形式存储的文件(不限于raw目录下),尝试压缩,以及替代方案加载这些资源

12.  尝试webp的图片加载方案,寻求突破

最后,继续学习和尝试新的优化方案

以此文献给唯瘦身与产品不可辜负的技术们!!!


作者:非戈@阿里聚安全,更多技术文章,请点击阿里聚安全博客



阿里聚安全由阿里巴巴移动安全部出品,面向企业和开发者提供企业安全解决方案,全面覆盖移动安全、数据风控、内容安全、实人认证等维度,并在业界率先提出“以业务为中心的安全”,赋能生态,与行业共享阿里巴巴集团多年沉淀的专业安全能力。


相关文章
|
15天前
|
存储 人工智能 算法
70倍极致压缩!大模型的检查点再多也不怕
【8月更文挑战第27天】ExCP是一种新提出的框架,旨在解决大型语言模型(LLM)训练过程中计算和存储方面的挑战。该框架通过高效地压缩训练检查点,在显著减少存储需求的同时保持几乎无损的性能。ExCP首先计算相邻检查点间的残差以提取关键信息,并采用权重-动量联合收缩方法进一步去除冗余参数。此外,它还运用非均匀量化技术进一步压缩检查点存储。在不同规模的模型上测试显示,ExCP能大幅降低存储需求,如对Pythia-410M模型实现了70倍的压缩比,且保持了原始模型的准确性。ExCP的优势包括几乎无损的性能、广泛的适用性和高效的压缩算法。
27 2
|
28天前
|
监控 Java 开发工具
### 绝招揭秘!Android平台GB28181设备接入端如何实现资源占用和性能消耗的极限瘦身?
【8月更文挑战第14天】本文介绍在Android平台优化GB28181标准下设备接入的性能方法,涵盖环境搭建、SDK集成与初始化。重点讲解内存管理技巧如软引用、按需加载资源,以及通过硬件加速解码视频数据和图像缩放来减轻CPU与GPU负担。同时采用线程池异步处理视频流,确保UI流畅性。这些策略有助于提高应用效率和用户体验。
26 0
|
4月前
|
数据采集 人工智能 测试技术
3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了
【5月更文挑战第21天】CLLM,一种新方法,通过并行解码提升大型语言模型推理速度3-4倍,降低内存成本,超越Medusa2。采用Jacobi解码和微调策略,保证生成质量。无需修改模型架构,训练成本低,可与现有技术集成。但依赖高质量数据集,更大数据集可提高泛化能力。[链接](https://arxiv.org/pdf/2403.00835)
51 2
|
4月前
|
缓存 安全 前端开发
5分钟,我把网站性能优化了3倍
5分钟,我把网站性能优化了3倍
|
存储 Web App开发 编解码
智能存储HEIC&AVIF图片硬件压缩方案详解
图片格式的进化一图抵千文,因此很多的应用都会用图片来表现丰富的内容。提起图片格式,大家耳熟能详的有JPEG,PNG,WEBP等等,这也是当前互联网上主流的图片格式,然而在过去的十年,随着技术的发展,图片的压缩技术又取得了长足的进步,新的图片格式已经涌现,使用这些传统的图片格式已经不再是最优的选择。在过去的10年移动互联网快速发展,使网络速度越来越快,但是手机的摄像头分辨率也越来越高,用户手机的UG
1493 0
智能存储HEIC&AVIF图片硬件压缩方案详解
|
SQL NoSQL 安全
只改了五行代码接口吞吐量提升了10多倍
首先,提升日志打印级别到DEBUG。emm... 提升不大,好像增加了10左右。 然后,拆线程 @Async 注解使用线程池,控制代码线程池数量(之前存在3个线程池,统一配置的核心线程数为100)结合业务,服务总核心线程数控制在50以内,同步增加阻塞最大大小。结果还可以,提升了50,接近200了。
162 0
|
编解码 异构计算
H264的编码负担约是解码的5-10倍
H264的编码负担约是解码的5-10倍
99 0
|
SQL 缓存 搜索推荐
数据层缓存(网站性能翻10倍)
缓存是一把尖刀,合理使用可大大提升吞吐率!
117 0
|
机器学习/深度学习 Web App开发 人工智能
推理速度提升29倍,参数少1/10,阿里提出AdaBERT压缩方法
作为当前最佳的自然语言处理模型,BERT 却存在规模大、成本高和实时性差等缺点。为了能在实际应用中部署这种技术,有必要对 BERT 进行压缩。此前机器之心就已经介绍了几种来自不同研究机构的压缩方案,参阅《内存用量 1/20,速度加快 80 倍,腾讯 QQ 提出全新 BERT 蒸馏框架,未来将开源》和《AAAI 2020 | 超低精度量化 BERT,UC 伯克利提出用二阶信息压缩神经网络》。
172 0
推理速度提升29倍,参数少1/10,阿里提出AdaBERT压缩方法
|
存储 JSON 搜索推荐
1万属性,100亿数据,每秒10万吞吐,架构如何设计?
有一类业务场景,没有固定的schema存储,却有着海量的数据行数,架构上如何来实现这类业务的存储与检索呢?58最核心的数据“帖子”的架构实现技术细节,今天和大家聊一聊。
1535 0
1万属性,100亿数据,每秒10万吞吐,架构如何设计?