如何在有限的記憶體的情況下，找到大量資料中重複查詢次數最多的語句

阿新 • • 發佈：2019-01-08

//500K記憶體，100萬條資料，尋找裡面重複查詢次數最多的記錄
//思想顯示對100萬條資料分在不同的檔案中，但是在分檔案中的時候，要對起進行一定處理，分到對於的檔案中，比如分成100個
//檔案，那麼對每一條string進行hash得到的整數值%100，這樣就分到不同的檔案中了，然後確保其他檔案中沒有這一條記錄，
//然後對每一個檔案進行處理，取樣hash值，然後存入相應的檔案中。
//然後對每一個檔案中資料進行快速排序，存入資料，這樣保證資料最大的在前面。
//然後對所有檔案的第一個數，進行排序，這樣就能夠得到最大的那條記錄了。
#include <iostream>
#include <fstream>//wenjian
#include <string>
#include <sstream>//stringstream
#include <unordered_map>//undered_map
#include <algorithm>//sort()
#include <utility>//pair()
using namespace std;

//產生100萬條資料，隨機。儲存在data.txt中
bool Generate_Data()
{
ofstream outfile("data.txt");
if(outfile.fail()){
cout<<"Open file failed!"<<endl;
return false;
}
int a = 0;
for(int i = 0; i < 1000000; ++i){
a = rand() % 10000;
outfile<<a<<endl;
}
outfile.close();
return true;
}

inline unsigned int RSHash(string &str)
{
unsigned int b = 378551;
unsigned int a = 63689;
unsigned int hash = 0;
int i = 0;
int size = str.size();
while (i < size)
{
hash = hash * a + str[i];
a *= b;
i++;
}
return (hash & 0x7FFFFFFF);
}
//按照這個規則排序快速排序

bool mysort(const pair<string,int> &x, const pair<string,int> &y)
{
return x.second > y.second;
}

//對100萬行分別hash，然後根據hash值分50組
bool Split_Into_Groups(string &str)
{
ifstream infile(str);
if(infile.fail()){
cout<<"Open file failed!"<<endl;
return false;
}
ofstream outfile[50];
stringstream ss;
string name_num, file_name;
for(int i = 0; i < 50; ++i){
ss.clear();
ss<<i;
ss>>name_num;
file_name = name_num + ".txt";
outfile[i].open(file_name);
if(outfile[i].fail()){
cout<<"Open file failed"<<endl;
return false;
}
}
string tmp;
int hash_val;
while(getline(infile,tmp)){
hash_val = RSHash(tmp) % 50;
outfile[hash_val]<<tmp<<endl;
}
infile.close();
for(int i = 0; i < 50; ++i){
ss.clear();
ss<<i;
ss>>name_num;
file_name = name_num + ".txt";
outfile[i].close();
}
//檔案去重；
for(int i = 0; i < 50; ++i){
ss.clear();
ss<<i;
ss>>name_num;
file_name = name_num + ".txt";
infile.open(file_name);
if(infile.fail()){
cout<<"Open file failed!"<<endl;
return false;
}
unordered_map<string,int>::const_iterator got;
unordered_map<string,int> word_num;
int k = 0;
while(getline(infile,tmp)){
k = 0;
got = word_num.find(tmp);
if(got == word_num.end()){
word_num.insert(make_pair<string,int>(tmp,1));

}
else
++word_num[tmp];
}
infile.close();
outfile[i].open(file_name);
if(outfile[i].fail()){
cout<<"Open file failed"<<endl;
return false;
}
//檔案排序
vector<pair<string,int>> pair_vec;
for(unordered_map<string,int>::iterator it = word_num.begin(); it != word_num.end(); ++it){
pair_vec.push_back(make_pair<string,int> (it->first,it->second));
}
sort(pair_vec.begin(),pair_vec.end(),mysort);
for(vector<pair<string,int>>::iterator it = pair_vec.begin(); it != pair_vec.end(); ++it){
outfile[i]<<it->first<<" "<<it->second<<endl;
}
outfile[i].close();
}
return true;
}

int main()
{
//產生資料
if(!Generate_Data())
return EXIT_FAILURE;
//資料分組為50個組，並好排序
ifstream infile;
stringstream ss;
string name_num, file_name,tmp,tmp1;
int num;
ofstream outfile("result.txt");
string str("data.txt");
if(!Split_Into_Groups(str))
return EXIT_FAILURE;
//獲取每個檔案的第一個，然後排序，儲存結果
vector<pair<string,int>> res;
for(int i = 0; i < 50; ++i){
ss.clear();
ss<<i;
ss>>name_num;
file_name = name_num + ".txt";
infile.open(file_name);
if(infile.fail()){
cout<<"Open file failed!"<<endl;
return false;
}
if(getline(infile,tmp)){
size_t found = tmp.find_last_of(" ");
if(found != string::npos){
tmp1 = tmp.substr(0,found);
num = atoi((tmp.substr(found+1)).c_str());
}
res.push_back(make_pair<string,int>(tmp1,num));
}
infile.close();
}
sort(res.begin(),res.end(),mysort);
for(vector<pair<string,int>>::iterator it = res.begin(); it != res.end(); ++it){
outfile<<it->first<<" "<<it->second<<endl;
}
outfile.close();
cin.get();
return 0;	
}

如何在有限的記憶體的情況下，找到大量資料中重複查詢次數最多的語句

//500K記憶體，100萬條資料，尋找裡面重複查詢次數最多的記錄 //思想顯示對100萬條資料分在不同的檔案中，但是在分檔案中的時候，要對起進行一定處理，分到對於的檔案中，比如分成100個 //檔案，那麼對每一條string進行hash得到的整數值%100，這樣就分到不同

L1-2. 點贊（多組資料中判斷出現次數最多的數）

題目 L1-2. 點贊　　微博上有個“點贊”功能，你可以為你喜歡的博文點個贊表示支援。每篇博文都有一些刻畫其特性的標籤，而你點讚的博文的型別，也間接刻畫了你的特性。本題就要求你寫個程式，通過統

在資金有限的情況下，創業公司如何找到合適的開發師

創業公司原型設計產品經理無論你是想要開發網站還是移動應用，你首先需要做的一件事情，就是給自己找一個合適的開發人員。然而，創業公司想要在資金有限的情況下找到合適的開發不是一件簡單的事。因為，無論是對於開發人員或是創業公司都是雙向的選擇，創業公司在選擇開發人員考慮的是：

在大量資料中進行查詢，有無索引查詢的速度效果測試

首先在JAVA程式中向資料庫中進行資料的插入，因為要利用索引，少量的資料是不能夠測試出索引的效果，所以要插入大量的資料進行測試，這次我們插入50萬條記錄 JAVA程式如下：建立一個表classfor，向其中錄入50萬條記錄 package com.oracle.jdbc

Java面試題之在多線程情況下，單例模式中懶漢和餓漢會有什麽問題呢？

餓漢模式問題之間 static 代碼 clas ava public 餓漢懶漢模式和餓漢模式： public class Demo { //private static Single single = new Single();//餓漢模式

給定一個字串，找出不含有重複字元的最長子串的長度。示例：給定 "abcabcbb" ，沒有重複字元的最長子串是 "abc" ，那麼長度就是3。給定 "bbbbb" ，最長的子串就是 "b

Str = raw_input('plese input Str:') def qiu_chongfu(Str2):#定義判斷字串是否含有重複字元，如有返回0，沒有返回1 biao = 0 for i in range(0,len(Str2)): for j in

給定一個字串，找出不含有重複字元的最長子串的長度。

題目描述：　　給定一個字串，找出不含有重複字元的最長子串的長度。思路1：　　依排列組合的所有可能拿到所有子串，依次傳入重複子穿的判斷方法中進行判斷，每次更新出不重複子串的最大長度！具體程式碼： 1 import java.util.Scanner; 2 3 pu

1、(topK問題)海量日誌資料，提取出某日訪問百度次數最多的10個IP。

#include <iostream>#include <fstream>#include <string.h>#include <ctime>#include <hash_map>#include <sys/socket.h>#incl

LeetCode 第3題：給定一個字串，找出不含有重複字元的最長子串的長度。

public class LeetCode3 { public static void main(String[] args) { /** * LeetCode第3題： * 給定一個字串，找出不含有重複字元的最

給定一個字串，找出不含有重複字元的最長子串的長度(javascript)

var lengthOfLongestSubstring = function(s){ var str = '';//存放當前最大無重複項字串 var len = 0;//存放當前當前最大無重複項字串長度 for(var i=0;i<s.length;

go語言面試題：輸入一段英文字串，找出重複出現次數最多的字母

package main import ( "bufio" "os" "fmt" "strings" ) func main() { reader := bufio.NewReader(os.Stdin) str, err := reader.

資料結構——陣列（3）在有序陣列中找出重複的次數最多的數

先總結有序陣列，無序的後面再總結。。 1.以空間換時間法。演算法思想：目標陣列array[length]，是一個有序陣列，比如int array[]={1,1,2,2,4,4,4,4,4,5,5,6,10};總共有13個元素，其中數字最多的數是4，總計5次

【面試被虐】如何只用2GB記憶體從20億，40億，80億個整數中找到出現次數最多的數？

這幾天小秋去面試了，不過最近小秋學習了不少和位演算法相關文章，例如【面試現場】如何判斷一個數是否在40億個整數中？【演算法技巧】位運算裝逼指南對於演算法題還是有點信心的，，，，於是，發現瞭如下對話。 20億級別面試官：如果我給你 2GB 的記憶體，並且給你 20 億個 int 型整數，讓你來找出次數出

為雜湊表追加不重複的10個值，且每個值都是1-10 之間的隨機數，問哪個數字重複的次數最多，重複了多少次？

#生成字典的結構 import random dictA={} for i in range(1,11): listA = [] for j in range(1,11): temp = random.randint(1, 10)

求一個數組中重複元素出現最多值，最大的元素及出現次數，次數相同時，取最大值，優先考慮次數

#include <iostream> #include <string> #include <map> using namespace std; void maxNumTimes(int a[], int len, int b[])

最新的微軟面試題，題目：求一個字串中連續出現次數最多的子串

題目：求一個字串中連續出現次數最多的子串，請給出分析和程式碼。給出一個由小寫字母組成的串s和一個不超過s的長度的正整數l，求s所有長度不小於l的字串中在s中不重疊地重複出現次數最多的子串。只要輸出這個子串出現的次數就行了。特別強調：子串不是子序列，必須是從s截出來連續的

大量資料併發的情況下，不用自增列怎樣設定主鍵

在平時的專案開發中，我相信有很大一批人都在用這個資料庫自增ID，用資料庫自增ID有利也有弊。優點：節省時間，根本不用考慮怎麼來標識唯一記錄，寫程式也簡單了，資料庫幫我們維護著這一批ID號。缺點：for example, 在做分散式資料庫時，要求資料同步時，這種自增ID就會

python3 在文件確實存在的情況下，運行提示找不到文件

python head file python3 path tor 替換找不到文件成功提示 [Errno 2] No such file or directory: 但是路徑下確實存在此文件，在不改動的情況下，再次運行，執行成功。百思不得其解，看到此鏈接下的回答 h

相同資料來源情況下，使用Kafka實時消費資料 vs 離線環境下全部落表後處理資料，結果存在差異

原因分析：當某個consumer宕機時，消費位點(例如2s提交一次)尚未提交到zookeeper，此時Kafka叢集自動rebalance後另一consumer來接替該宕機consumer繼續消費，因為先前宕機consumer最近的消費位點尚未提交，導致資料重複消費突發流量、跨機房(網路請求延

Vue中解決陣列在被清空的情況下，頁面仍會存在快取資料的問題

一，情況描述 1.1 點選完成按鈕 1.2 發現該資料沒有被清空二，問題所在 2.1 查詢出來的陣列為null 由於使用父子件傳輸的方式進行傳遞資料，因為父元件從介面獲取資料的時候，當獲取到的資料為空，就會變成null。然後將這個

如何在有限的記憶體的情況下，找到大量資料中重複查詢次數最多的語句

相關推薦