【数据压缩】数据压缩原理https://blog.csdn.net/qq_37717687/article/details/123004059
压缩原理
压缩原理其实很简单,就是找出那些重复出现的字符串,然后用更短的符号代替,从而达到缩短字符串的目的。比如,有一篇文章大量使用"中华人民共和国"这个词语,我们用"中国"代替,就缩短了 5 个字符,如果用"华"代替,就缩短了 6 个字符。事实上,只要保证对应关系,可以用任意字符代替那些重复出现的字符串。本质上,所谓"压缩"就是找出文件内容的概率分布,将那些出现概率高的部分代替成 更 短 的 形 式 。 所 以 , 内 容 越 是 重 复 的 文 件 , 就 可 以 压 缩 地 越 小 。 比 如 ,“ABABABABABABAB"可以压缩成"7AB”。
相应地,如果内容毫无重复,就很难压缩。极端情况就是,遇到那些均匀分布的随机字符串,往往连一个字符都压缩不了。比如,任意排列的 10 个阿拉伯数字(5271839406),就是无法压缩的;再比如,无理数(比如 π)也很难压缩。
数据压缩存储技术是一种利用特定的编码机制,用更少的数据比特或其他信息相关的单位表示原有的信息,以达到缩减数据量以减少存储空间,提高其传输、存储和处理效率的目的。这种技术主要依赖于数据的冗余性,即原有数据中存在许多重复或无关紧要的信息。压缩过程中,这些冗余数据会被剔除,只保留能代表原始数据的有效信息,从而实现数据的压缩。此外,对于数字化的多媒体信息尤其是数字视频、音频信号的数据量特别庞大的情况,数据压缩技术的应用显得尤为重要,因为如果不进行有效的压缩,就难以得到实际的应用。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。