1. 程式人生 > >【演算法-點陣圖法】在海量資料中查詢重複元素

【演算法-點陣圖法】在海量資料中查詢重複元素

什麼是點陣圖法?

舉個簡單例子,在java中一個int型別的數有32位,而這32只表示一個數太過浪費,於是就考慮讓這32位可以表示32個數,每一位表示該數是否存在,例如:

這裡用16位的二進位制就能表示十六個數字,1表示存在,0表示不存在,上圖就表示存在(16,12,6,4,1)這五個數。

在海量資料中查詢重複出現的元素或者去除重複出現的元素也是常考的問題。針對此類問題,一般可以通過點陣圖法實現,例如,已知某個檔案內包含一些電話號碼,每個號碼為8位數字,統計不同號碼的個數。

本題最好的解決辦法就是通過點陣圖法來實現。

解題思路:

8位整數可以表示的最大十進位制數值為99999999,如果每個數字對應於點陣圖中的一個bit位,那麼儲存八位整數需要99999999bit大約99Mbit,因為1Byte=8bit,所以99Mbit摺合成記憶體為99/8=12.375MB的記憶體,及可以只用12.375MB的記憶體表示所有的8位數電話號碼的內容。

程式程式碼如下:

import java.util.Random;
public class DuplicateTelephone{
	int randNum=100;
	int min=10000000;
	int max=99999999;
	int len=(max-min+1);
	int bit_per_word=32;
	
	int  word_offset(int b){
		return b/bit_per_word;
	}
	int bit_offset(int b){
		return b%bit_per_word;
	}
	void setBit(int[] words,int n){
		int temp=n;
		temp-=min;
		words[word_offset(temp)]|=(1<<bit_offset(temp));
	}
	void clearBit(int[] words,int n){
		words[word_offset(n)]&=~(1<<bit_offset(n));
	}
	boolean getBit(int[] words,int n){
		int result=words[word_offset(n)]&(1<<bit_offset(n));
		return result!=0;
	}
	public void sort(){
		int arr[]=new int[randNum];
		System.out.println("陣列大小:"+randNum);
		int[] words=new int[len/bit_per_word+1];
		int count=0;
		Random r=new Random();
		for(int j=0;j<randNum;j++){
			arr[j]=r.nextInt(len);
			arr[j]+=min;
			System.out.print(arr[j]+" ");
		}
		System.out.println();
		for(int j=0;j<randNum;j++){
			setBit(words,arr[j]);
		}
		System.out.println("排序後a為:");
		for(int i=0;i<len;i++){
			if(getBit(words,i)){
				System.out.print(i+min+" ");
				count++;
			}
		}
		System.out.println();
		System.out.println("總個數為:"+count);
		
	}
	public static void main(String[] args){
		new DuplicateTelephone().sort();
	}
	
}

執行的結果為:

陣列大小:100

排序後a為:

總個數為:100