從海量資料中找中位數（c語言實現）

阿新 • • 發佈：2019-02-05

題目：5億個int，從中找出第k大的數

演算法：之後補上。。。

實現：

#include <assert.h>
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>

#include <sys/time.h>
#include <sys/types.h>
#include <sys/stat.h>

typedef struct bucket_t {
	int *buf;		/* 輸出緩衝區 */
	int count;		/* 當前有多少個數 */
	int idx;		/* 緩衝區的指標 */
} bucket_t;

static unsigned int BUF_PAGES;		/* 緩衝區有多少個page */
static unsigned int PAGE_SIZE;		/* page的大小 */
static unsigned int BUF_SIZE;		/* 緩衝區的大小, BUF_SIZE = BUF_PAGES*PAGE_SIZE */
static unsigned int nbuckets;		/* 分成多少個桶 */
static unsigned int BUCKET_BUF_SIZE;

static int *buffer;					/* 輸入緩衝區 */

long get_time_usecs();
void write_to_file(bucket_t *bucket, int pos);
int partition(int *a, int s, int t);
int quick_select(int *a, int s, int t, int i);
void swap(int *p, int *q);

int main(int argc, char **argv)
{
	char 				filename[20];
	unsigned int		bp, length, bucket_size, k;
	int					fd, i, bytes;
	bucket_t			*bucket;

	long start_usecs = get_time_usecs();

	strcpy(filename, argv[1]);
	fd = open(filename, O_RDONLY);
	if (fd < 0) {
		printf("can't open file %s\n", filename);
		exit(0);
	}
	nbuckets = 1024;
	k = atoi(argv[2]);
	PAGE_SIZE = 4096;							/* page = 4KB */
	BUF_PAGES = 1024;
	BUF_SIZE = PAGE_SIZE*BUF_PAGES;				/* 4KB * 1024 = 4M */
	BUCKET_BUF_SIZE = PAGE_SIZE*128;			/* 4KB * 128 = 512KB */
	buffer = (int *)malloc(BUF_SIZE);

	//把1-2^32個數分成nbucket個組, nbuckets必須等於2的n次冪
	bucket = malloc(sizeof(bucket_t)*nbuckets);	
	if (bucket == NULL) exit(0);
	for (i = 0; i < nbuckets; i++) {
		bucket[i].buf = malloc(BUCKET_BUF_SIZE);
		if (bucket[i].buf == NULL) {
			exit(0);
		}
		bucket[i].idx = 0;
		bucket[i].count = 0;
	}
	bucket_size = (1<<22);		/* 分成1024個桶，每個桶容納2^22個數 */

	// 讀入第一批資料到輸入緩衝區 
	bytes = read(fd, buffer, BUF_SIZE);
	length = bytes/4;
	bp = 0;

	int 			element, pos;
	unsigned int	base;
	bucket_t		*p;
	
	base = 2147483648;
	while (1) {
		//從輸入緩衝區取出一個數，加到對應的桶
		element = buffer[bp++];
		pos = (((long)element)+base)>>22;
		p = &bucket[pos];
		p->buf[p->idx++] = element;
		p->count++;
		//桶內的緩衝區已滿，寫入檔案
		if (p->idx*4 == BUCKET_BUF_SIZE) {
			write_to_file(p, pos);
			p->idx = 0;
		}
		//輸入緩衝區的數已用完
		if (bp == length) {
			bytes = read(fd, buffer, BUF_SIZE);
			if (bytes == 0) { 
				break;
			}
			length = bytes/4;
			bp = 0;
		}
	}

	//把每個桶剩下的數寫入檔案
	for (i = 0; i < nbuckets; i++) {
		write_to_file(bucket+i, i);
	}

	free(buffer);
	close(fd);

	buffer = malloc(bucket_size*4);
	if (buffer == NULL)  exit(0); 

	//找出第k大的數位於哪個檔案
	unsigned sum = 0;
	for (i = 0; i < nbuckets && sum < k; i++) {
		sum += bucket[i].count;
	}
	i--;

	//把該檔案讀入記憶體
	sprintf(filename, "foo_%d.dat", i);
	printf("第%d大的數位於檔案%s的第%d大的數\n", k, filename, k+bucket[i].count-sum);
	fd = open(filename, O_RDONLY);
	if (fd < 0) {
		printf("can't open file %s\n", filename);
		free(buffer);
		exit(0);
	}
	bytes = read(fd, buffer, bucket_size*4);
	length = bytes/4;

	//選擇檔案內第(k+bucket[i].count-sum)大的數
	int answer;
	answer = quick_select(buffer, 1, length-1, k+bucket[i].count-sum);
	printf("第%d大的數 = %d\n", k, answer);

	close(fd);
	free(buffer);

	//free buckets
	for (i = 0; i < nbuckets; i++) {
		free(bucket[i].buf);
	}
	free(bucket);

	long end_usecs = get_time_usecs();
	double secs = (double)(end_usecs - start_usecs) / (double)1000000;
	printf("it took %.02f seconds.\n", secs);

	return 0;
}

void write_to_file(bucket_t *bucket, int pos)
{
	char	filename[20];
	int		fd, bytes;

	sprintf(filename, "foo_%d.dat", pos);
	fd = open(filename, O_WRONLY | O_CREAT | O_APPEND, 0666);	
	if (fd < 0) {
		printf("can't open file %s\n", filename);
		exit(0);
	}
	bytes = write(fd, bucket->buf, bucket->idx*4);
	if (bucket->idx*4 != bytes) {
		printf("idx = %d, bytes = %d, write error\n", bucket->idx, bytes);
		close(fd);
		exit(0);
	}
	close(fd);
}

long get_time_usecs()
{
	struct timeval time;
	struct timezone tz;
	memset(&tz, '\0', sizeof(struct timezone));
	gettimeofday(&time, &tz);
	long usecs = time.tv_sec*1000000 + time.tv_usec;

	return usecs;
}

void swap(int *p, int *q)
{
	int		tmp;

	tmp = *p;
	*p = *q;
	*q = tmp;
}

/* 把a[t]作為參考，將陣列分成三部分: 小於等於a[t]，
 * a[t]以及大於a[t]，分割完畢後，a[t]所在的下標即是a[t]的順序
 */
int partition(int *a, int s, int t)
{
	int		i, j;	/* i用來遍歷a[s]...a[t-1], j指向大於x部分的第一個元素 */

	for (i = j = s; i < t; i++) {
		if (a[i] < a[t]) {
			swap(a+i, a+j);
			j++;
		}
	}
	swap(a+j, a+t);

	return j;
}

/* 選擇陣列中第i大的元素並返回 */
int quick_select(int *a, int s, int t, int i)
{
	int		p, m;

	if (s == t) return a[t];
	p = partition(a, s, t);
	m = p - s + 1;
	if (m == i) return a[p];
	if (m > i) {
		return quick_select(a, s, p-1, i);
	}
	return quick_select(a, p+1, t, i-m);
}

執行和測試：

尋找第1111大的整數

dd if=/dev/urandom of=random.dat bs=1M count=1024

gcc main.c

./a.out random.dat 1111

從海量資料中找中位數（c語言實現）

題目：5億個int，從中找出第k大的數演算法：之後補上。。。實現： #include <assert.h> #include <fcntl.h> #include <stdio.h> #include <stdlib.h&g

求一個矩陣中的馬鞍點（c語言實現）

資料結構中的求一個矩陣的馬鞍點請編寫一個完整的程式，如果矩陣A中存在這樣的一個元素A[i,j]滿足條件A[i,j]是第i行的值最小的元素，且又是第j列中最大的元素，則稱之為該矩陣的一個馬鞍點。程式碼如下： #include<stdio.h> #d

在楊氏矩陣中查詢一個數（C語言實現）

分析：楊氏矩陣的特點是：這個矩陣中的數字從左到右是遞增的，從上到下也是遞增的。知道了這個特點就好寫程式了。如有以下矩陣： 2 3 4 3 4 5 4 5 6 &nb

資料結構——順序表操作（C語言實現）

//順序表list #include"stdio.h" #define maxsize 15 typedef struct{ int a[maxsize]; int size; }list; //建立 void create(lis

資料結構—二叉樹（C語言實現）

以下所有內容來自網易雲課堂——資料結構（小甲魚版）對於樹來說，一旦可以指明他的分支數，那麼就可以用連結串列來實現了二叉樹是應用廣泛的樹，因為現實世界大部分模型都只包含0，1這兩種情況，非常適合用二叉樹如下： typedef struct BiNode {

資料結構學習筆記-串（C語言實現）

串由零個或多個字元組成，說白了就是字串。串的儲存方式相對於線性表來講有些不同，他分為以下幾種：順序儲存、堆分配儲存、鏈式儲存。順序儲存通常在陣列中的頭元素存放字串長度。堆分配儲存通常會動態分配空間。鏈式儲存分為兩種，一種是每個節點存放一個字元（比較浪費空間），另一種則是每個節

資料結構：迴圈佇列（C語言實現）

生活中有很多佇列的影子，比如打飯排隊，買火車票排隊問題等，可以說與時間相關的問題，一般都會涉及到佇列問題；從生活中，可以抽象出佇列的概念，佇列就是一個能夠實現“先進先出”的儲存結構。佇列分為鏈式佇列和靜態佇列；靜態佇列一般用陣列來實現，但此時的佇列必須是迴圈佇列，否則

資料結構簡單選擇排序（C語言實現）

選擇排序的基本思想：每一趟在n-i+1(i=1,2,3,…,n-1)個記錄中選取關鍵字最小的記錄作為有序序列中第i個記錄。演算法思想第一趟簡單選擇排序時，從第一個記錄開始，通過n-1 次關鍵字比較，從n 個記錄中選出關鍵字最小的記錄，並和第

找零錢問題（C語言實現）——貪心演算法應用（1）

#include<stdio.h> void greedyMoney(int m[],int k,int n); int main(void) { int money[] = {20,10,5,1}; int k; k = sizeof(money)/sizeof(money[0]

資料結構中，幾種樹的結構表示方法（C語言實現）

//***************************************** //樹的多種結構定義 //***************************************** #define MAX_TREE_SIZE 100 typedef int TempType;

圖片中畫框（C語言實現）

在做視覺分析過程中，經常會進行影象格式的轉換以及在原圖上標框，為了更加清晰的認識影象格式，在這裡手動實現了根據YUV資料和RGB資料進行標框的操作。在效能上不及直接使用opencv + cuda，但是可以更加直觀的理解整個原理。 // draw line // 傳入imgData

資料結構—— 一元多項式的表示及相加（C語言實現）

程式碼比較簡單，沒有完全按照嚴蔚敏版《資料結構（C語言版）》上39頁到43頁上的要求，只是實現了簡單功能，且此程式碼輸入多項式時只能按升冪的順序輸入（因為沒有寫多項式排序的函式）個人感覺此程式碼短小精悍，且易理解，看懂了的話可以嘗試完全按照書上的要求自己寫程式

資料結構（C語言實現）：判斷兩棵二叉樹是否相等，bug求解

判斷兩棵二叉樹是否相等。遇到了bug，求大神幫忙！！！ C語言原始碼： #include <stdio.h> #include <stdlib.h> #include <malloc.h> #define OK 1 #define

資料結構學習筆記——線性表之順序表（c語言實現）

1.概念順序表即線性表的順序儲存結構，指的是用一段地址連續的儲存單元依次儲存線性表資料元素。線上性表中，每個資料元素的型別都相同，一般可以用一維陣列來實現順序儲存結構。 2.實現（1）建立順序表的結構利用c語言結構體來建立順序表的結構，順序表結構體中

資料結構學習筆記——堆疊之鏈式儲存結構（c語言實現）

棧的鏈式儲存結構使用單鏈表實現，同線性表一樣，鏈式儲存結構的堆疊在儲存空間的利用上顯得更加靈活，只要硬體允許一般不會出現溢位的情況。但鏈式棧相對於順序棧稍顯麻煩，若所需堆疊空間確定，順序棧顯得方便一些。關於鏈式和順序式的選擇視具體情況而定。 1.棧的鏈式儲存結構

資料結構——入棧，出棧，佇列相關操作（C語言實現）

閱讀過程之中可能會花費比較多的時間：建議直接翻到最後，有完整的程式碼可以使用程式準備工作 #include <stdio.h> #include <malloc.h> #include <stdlib.h> #include<proc

資料結構——哈夫曼樹的實現以及編碼（C語言實現）

1、問題描述利用哈夫曼編碼進行通訊可以大大提高通道利用率，縮簡訊息傳輸時間，降低傳輸成本。構造哈夫曼樹時，首先將由n個字符形成的n個葉子結點存放到陣列HuffNode的前n個分量中，然後根據哈夫曼方法的基本思想，不斷將兩個較小的子樹合併為一個

資料結構之二叉查詢樹（C語言實現）

資料結構之二叉查詢樹 1. 二叉查詢樹的定義二叉查詢樹（binary search tree）是一棵二叉樹，或稱為二叉搜尋樹，可能為空；一棵非空的二叉查詢樹滿足一下特徵：每個元素有一個關鍵字，並且任意兩個元素的關鍵字都不同；因此，所有的關鍵字都是唯

資料結構排序演算法之歸併排序（c語言實現）

博主身為大二萌新，第一次學習資料結構，自學到排序的時候，對於書上各種各樣的排序演算法頓覺眼花繚亂，便花了很長的時間盡力把每一個演算法都看懂，但限於水平有限，可能還是理解較淺，於是便將它們逐個地整理實現出來，以便加深理解。歸併排序就是通過將一個具有n個key記錄的線性表，看

資料結構之二叉排序樹（C語言實現）

一、基本概念1.二叉排序樹二叉排序樹（Binary sort tree，BST），又稱為二叉查詢樹，或者是一棵空樹；或者是具有下列性質的二叉樹： (1)若它的左子樹不為空，則左子樹上所有節點的值均小於它的根節點的值； (2)若它的右

從海量資料中找中位數（c語言實現）

相關推薦