备案控制台

开发者社区大数据文章正文

数据处理不等式：Data Processing Inequality

2017-11-02 3807

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我是在差分隐私下看到的，新解决方案的可用性肯定小于原有解决方案的可用性，也就是说信息的后续处理只会降低所拥有的信息量。那么如果这么说的话为什么还要做特征工程呢，这是因为该不等式有一个巨大的前提就是数据处理方法无比的强大，比如很多的样本要分类，我们做特征提取后，SVM效果很好，但是如果用DNN之类的CNN、AuToEncoder，那么效果反而不如原来特征。

我是在差分隐私下看到的，新解决方案的可用性肯定小于原有解决方案的可用性，也就是说信息的后续处理只会降低所拥有的信息量。

那么如果这么说的话为什么还要做特征工程呢，这是因为该不等式有一个巨大的前提就是数据处理方法无比的强大，比如很多的样本要分类，我们做特征提取后，SVM效果很好，但是如果用DNN之类的CNN、AuToEncoder，那么效果反而不如原来特征。这样就能理解了，DNN提取能力更强，那么原始就要有更多的信息，在新特征下无论怎么提取，信息就那么多。

信息量越多越好么？肯定不是，否则为什么PCA要做降噪和去冗余呢？我们的目的是有效的信息最大化。

另外一种理解就是从互信息不为0（信息损失）来解释。

从而

那么如何在处理过程中不丢失有效信息呢？这时候就需要数学上的充分统计量，也就是g是y的充分统计量。

文章标签：

数据处理

机器学习/深度学习

哈沙给

目录

相关文章

流楚丶格念

|

机器学习/深度学习 Web App开发算法

如何寻找论文及其相关代码？

如何寻找论文及其相关代码？

流楚丶格念

1648 1 1

木舟笔记

|

数据挖掘

跟着 Nature 学作图 | 相关性热图（显示相关性散点图）

跟着 Nature 学作图 | 相关性热图（显示相关性散点图）

木舟笔记

993 0 0

clichong

|

机器学习/深度学习开发框架 .NET

YOLOv5的Tricks | 【Trick6】学习率调整策略（One Cycle Policy、余弦退火等）

YOLOv5的Tricks | 【Trick6】学习率调整策略（One Cycle Policy、余弦退火等）

clichong

4222 0 0

YOLOv5的Tricks | 【Trick6】学习率调整策略（One Cycle Policy、余弦退火等）

1941623231718325

|

数据可视化

R语言自定义图形：ggplot2中的主题与标签设置

【8月更文挑战第30天】`ggplot2`作为R语言中功能强大的绘图包，其自定义能力让数据可视化变得更加灵活和多样。通过合理使用`theme()`函数和`labs()`函数，以及`geom_text()`和`geom_label()`等几何对象，我们可以轻松创建出既美观又富有表达力的图形。希望本文的介绍能够帮助你更好地掌握`ggplot2`中的主题与标签设置技巧。

1941623231718325

581 2 2

瓴羊QuickBI

|

11月前

|

供应链数据挖掘大数据

【客户案例】洋河股份：一块屏管理8000+ 经销商

江苏洋河酒厂股份有限公司（苏酒集团）是中国白酒行业领军企业。洋河积极进行数字化转型，通过构建数据驱动的管理体系，大幅提升运营效率和精准度，特别是在组织架构、费用管理和经销商评估等方面取得了显著成效。

瓴羊QuickBI

412 3 3

六卿

|

前端开发

前端基础(五)_CSS文本文字属性、背景颜色属性

本文详细介绍了CSS中关于文本和背景颜色的样式属性。包括字体大小、字体族、字体加粗、字体样式、文本行高、`font`属性、文本颜色、文本对齐方式、文本装饰线、首行缩进等文本属性，以及背景颜色、背景图片、背景重复、背景位置等背景属性。文章通过示例代码展示了这些属性的具体应用和效果。

六卿

564 3 3

前端基础(五)_CSS文本文字属性、背景颜色属性

aliyun3944920541

|

数据采集数据挖掘数据库

单细胞分析 | 使用 Monocle 3 进行发育轨迹分析

单细胞分析 | 使用 Monocle 3 进行发育轨迹分析

aliyun3944920541

1137 0 0

单细胞分析 | 使用 Monocle 3 进行发育轨迹分析

数据知道

|

IDE 开发工具 Python

python3代码编程规范（命名、空格、注释、代码布局、编程建议等）

该文章详细介绍了Python3的编程规范，包括命名、空格使用、注释、代码布局等方面的最佳实践，帮助提升代码的可读性和一致性。

数据知道

1306 0 0

游客762btuqu5wybw666

|

监控算法 Java

深入探索Java虚拟机：性能监控与调优实践

在面对日益复杂的企业级应用时，Java虚拟机（JVM）的性能监控和调优显得尤为重要。本文将深入探讨JVM的内部机制，分析常见的性能瓶颈，并提供一系列针对性的调优策略。通过实际案例分析，我们将展示如何运用现代工具对JVM进行监控、诊断及优化，以提升Java应用的性能和稳定性。

游客762btuqu5wybw666

197 6 7

路边两盏灯

|

缓存 NoSQL Linux

【Azure Redis 缓存】Linux VM使用6380端口(SSL方式)连接Azure Redis (redis-cli & stunnel)

【Azure Redis 缓存】Linux VM使用6380端口(SSL方式)连接Azure Redis (redis-cli & stunnel)

路边两盏灯

272 0 0

热门文章

最新文章

阿里云ECS服务器CentOS7上安装Apache服务

美国国家标准技术局发布应用容器安全指南

CentOS 7 配置nginx的service 脚本例子

阿里云上的几种数据备份方式

用深度神经网络修复H漫：看完这篇你就能眼中无码

linux下ffmpeg安装

MySQL · 引擎特性 · 像NOSQL那样使用MySQL

OpenSearch大模型实践之Havenask篇

MapReduce入门（一篇就够了）

anaconda下载安装，镜像源配置修改及虚拟环境的创建

java的线程池学习

拒绝"数字坟墓"：如何用AI让沉睡的数据开口说话？

阿里云关系型数据库RDS有哪些？RDS云数据库大全

解决mac电脑brew update很慢的问题

2025年选购指南：阿里云轻量应用服务器与云服务器ECS深度对比

基于python的外卖配送及数据分析系统

Pixeltable:一张表搞定embeddings、LLM、向量搜索，多模态开发不再拼凑工具

云计算的下半场：资源是底座，智能才是灵魂

DevOps不是“上工具就完事”，而是“打通人心的工程”——三个真实案例告诉你：成功的DevOps到底长啥样？

《Unity沙盒云服配置实战指南：地形生成与创作协同的算力架构》

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

oss云网关配置