1. 程式人生 > >資料處理不等式:Data Processing Inequality

資料處理不等式:Data Processing Inequality

  我是在差分隱私下看到的,新解決方案的可用性肯定小於原有解決方案的可用性,也就是說資訊的後續處理只會降低所擁有的資訊量。

  那麼如果這麼說的話為什麼還要做特徵工程呢,這是因為該不等式有一個巨大的前提就是資料處理方法無比的強大,比如很多的樣本要分類,我們做特徵提取後,SVM效果很好 ,但是如果用DNN之類的CNN、AuToEncoder,那麼效果反而不如原來特徵。這樣就能理解了,DNN提取能力更強,那麼原始就要有更多的資訊,在新特徵下無論怎麼提取,資訊就那麼多。

  資訊量越多越好麼?肯定不是,否則為什麼PCA要做降噪和去冗餘呢?我們的目的是有效的資訊最大化。

  另外一種理解就是從互資訊不為0(資訊損失)來解釋。

  從而

 

  那麼如何在處理過程中不丟失有效資訊呢?這時候就需要數學上的充分統計量,也就是g是y的充分統計量。

相關推薦

資料處理不等式Data Processing Inequality

  我是在差分隱私下看到的,新解決方案的可用性肯定小於原有解決方案的可用性,也就是說資訊的後續處理只會降低所擁有的資訊量。   那麼如果這麼說的話為什麼還要做特徵工程呢,這是因為該不等式有一個巨大的前提就是資料處理方法無比的強大,比如很多的樣本要分類,我們做特徵提取後,SVM效果很好 ,但是如果用DNN之類

數據處理不等式Data Processing Inequality

ext right 工程 log src enter 可用 proc 互信 我是在差分隱私下看到的,新解決方案的可用性肯定小於原有解決方案的可用性,也就是說信息的後續處理只會降低所擁有的信息量。 那麽如果這麽說的話為什麽還要做特征工程呢,這是因為該不等式有一個巨大

吳裕雄 資料探勘與分析案例實戰(4)——python資料處理工具Pandas

# 匯入模組import pandas as pdimport numpy as np # 構造序列gdp1 = pd.Series([2.8,3.01,8.99,8.59,5.18])print(gdp1)# 取出gdp1中的第一、第四和第五個元素print('行號風格的序列:\n',gdp1[[0,3,

視音訊資料處理入門PCM音訊取樣資料處理

                =====================================================視音訊資料處理入門系列文章:=====================================================上一篇文章記錄了RGB/YUV視訊畫素

利用matlab的SPM12進行功能核磁共振成像資料處理_Auditory fMRI data(四)

懶癌患者可以直接利用SPM12 batch script的程式碼對資料處理進行操作,連資料都不需要下載,直接開啟matlab,執行以下程式碼即可。 data_path = fileparts(mfilename('fullpath')); if isempty(

Python004-資料處理示例以某個資料(欄位)為基準從資料中獲取不同的欄位行數

資料來源樣式如下所示:   需求: 讀取文字,以第一列為基準參考系,每個基準僅輸出滿足需要條數的資料;不滿足,全部輸出。 比如,基準為 6236683970000018780,輸出條數要求為 5。若文字中含有  6236683970000018780 多於

大規模資料處理利器BloomFilter

#include <stdio.h>#include <stdlib.h>#include <string.h>unsigned int jshash(const char *s, unsigned size);unsigned int sdbmhash(const ch

Python空間資料處理2 GDAL柵格影象格式轉換

在《GDAL讀寫遙感影象》中,有提到了GDAL支援多種資料格式,那麼,如何對這些格式進行相互轉換呢? 這其實非常簡單,僅在寫影象時稍加修改即可。例如,當我需要將某種柵格影象轉換為img格式時,只需將《GDAL讀寫遙感影象》中的程式碼進行以下修改: 第42行

分散式資料處理框架Apache Beam

1簡介 大資料時代中,資料從簡單的批處理,擴充套件到實時處理、流處理。起初的MapReduce處理模式早已獨木難支。此外,大資料處理技術也是百花齊放,如 HBase、Hive、Kafka、Spark、Flink 等,對開發者而言,想要將其全部熟練運用幾乎是一項不可能完成的任

視音訊資料處理入門UDP-RTP協議解析

=====================================================視音訊資料處理入門系列文章:=====================================================本文介紹網路協議資料的處理程式。網路

無監督對話資料清洗利器Data Purification Framework

作者/吳金龍現在一提到聊天機器人,大家就會想起各種演算法模型,端到端、生成式、深度增強學習。有一種給我足夠多足夠好的資料,我就能用演算法突破圖靈測試的風範。可恨的是,就是沒夠多夠好的資料。相對於英文,中文可用的公開資料集少之又少。在聊天機器人裡,可用的公開對話資

視音訊資料處理入門AAC音訊碼流解析

=====================================================視音訊資料處理入門系列文章:=====================================================本文繼續上一篇文章的內容,介紹一個音

wpf 在echarts中使用餅狀圖動態獲取後臺資料!難點data的值是{name:'',value:''} --婷婷小姐姐

之前一直以為要用map  或者arr在data中做迴圈操作,還使用了List<string> 將資料轉拼接成一個字串。當我用json資料返回的時候發現數據格式是不對的。引入樣式這些就不說了。直接進入主題1、在後臺獲取資料返回一個集合List1或者dataTable

Python空間資料處理1 GDAL讀寫遙感影象

GDAL是空間資料處理的開源包,支援多種資料格式的讀寫。遙感影象是一種帶大地座標的柵格資料,遙感影象的柵格模型包含以下兩部分的內容: 柵格矩陣:由正方形或者矩形柵格點組成,每個柵格點所對應的數值為該點的像元值,在遙感影象中用於表示地物屬性值;遙感影象有單波段與多波段,波段表

視音訊資料處理入門FLV封裝格式解析

=====================================================視音訊資料處理入門系列文章:=====================================================前兩篇文章介紹了音訊碼流處理程式和視

教程Data Lake Analytics + OSS資料檔案格式處理大全

0. 前言 Data Lake Analytics是Serverless化的雲上互動式查詢分析服務。使用者可以使用標準的SQL語句,對儲存在OSS、TableStore上的資料無需移動,直接進行查詢分析。 目前該產品已經正式登陸阿里雲,歡迎大家申請試用,體驗更便捷的資料分析服務。請參考https://he

機器學習小組知識點27資料處理資料離散化(Data Discretization)

離散化和概念分層產生 通過將屬性域劃分為區間,離散化技術可以用來減少給定連續屬性值的個數。區間的標號可以替代實際的資料值。如果使用基於判定樹的分類挖掘方法,減少屬性值的數量特別有好處。通常,這種方法是遞迴的,大量的時間花在每一步的資料排序上。因此,待排序的不同

翻譯-In-Stream Big Data Processing 流式大數據處理

rto 風格 需要 最重要的 建立 reference 處理器 web 用戶id 相當長一段時間以來,大數據社區已經普遍認識到了批量數據處理的不足。很多應用都對實時查詢和流式處理產生了迫切需求。最近幾年,在這個理念的推動下,催生出了一系列解決方案,Twitter Storm

SDP(0)Streaming-Data-Processor - Data Processing with Akka-Stream

數據庫管理 新的 集成 部分 ont lock 感覺 sharding 數據源 再有兩天就進入2018了,想想還是要準備一下明年的工作方向。回想當初開始學習函數式編程時的主要目的是想設計一套標準API給那些習慣了OOP方式開發商業應用軟件的程序員們,使他們能用一種接近

由散列表到BitMap的概念與應用(三)面試中的海量資料處理

一道面試題 在面試軟體開發工程師時,經常會遇到海量資料排序和去重的面試題,特別是大資料崗位。 例1:給定a、b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4G,找出a、b檔案共同的url? 首先我們最常想到的方法是讀取檔案a,建立雜湊表,然後再讀取檔案b,遍歷檔