【學習排序】 Learning to Rank 中Listwise關於ListNet演算法講解及實現

阿新 • • 發佈：2019-02-05

程式碼如下：

package listNet_xiuzhang;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.InputStreamReader;

public class listNet {
	
	//檔案總行數(標記數)
	private static int sumLabel;                   
	//特徵值 46個 (標號1-46)
	private static double feature[][] = new double[100000][48];                
	//特徵值權重 46個 (標號1-46)
	private static double weight [] = new double[48];
	//相關度 其值有0-2三個級別 從1開始記錄
	private static int label [] = new int[1000000];
	//查詢id 從1開始記錄
	private static int qid [] = new int[1000000];
	//每個Qid的doc數量
	private static int doc_ofQid[] = new int[100000]; 

	private static int ITER_NUM=30;     //迭代次數
	private static int weidu=46;        //特徵數
	private static int qid_Num=0;       //Qid數量
	private static int tempQid=-1;      //臨時Qid數
	private static int tempDoc=0;       //臨時doc數
	
	/**  
	 * 函式功能 讀取檔案
	 * 引數 String filePath 檔案路徑
	 */
	public static void ReadTxtFile(String filePath) {
        try {
        	String encoding="GBK";
        	File file=new File(filePath);
        	if(file.isFile() && file.exists()) { //判斷檔案是否存在
        		InputStreamReader read = new InputStreamReader(new FileInputStream(file), encoding); 
                BufferedReader bufferedReader = new BufferedReader(read);
                String lineTxt = null;
                sumLabel =1; //初始化從1記錄
                //按行讀取資料並分解資料
                while((lineTxt = bufferedReader.readLine()) != null) {
                	String str = null;
                	int lengthLine = lineTxt.length();
                	//獲取資料 字串空格分隔
                	String arrays[] = lineTxt.split(" ");
                	for(int i=0; i<arrays.length; i++) {
                		//獲取每行樣本的Label值
                		if(i==0) {
                			label[sumLabel] = Integer.parseInt(arrays[0]);
                		} 
                		else if(i>=weidu+2){ //讀取至#跳出 0-label 1-qid 2:47-特徵
                			continue;
                		}
                		else {
                			String subArrays[] = arrays[i].split(":"); //特徵:特徵值
                			if(i==1) { //獲取qid		
                				//判斷是否是新的Qid
                				if(tempQid != Integer.parseInt(subArrays[1])) { 
                					if(tempQid != -1){ //不是第一次出現新Qid
                						//賦值上一個為qid_Num對應的tempDoc個文件
                						doc_ofQid[qid_Num]=tempDoc;    
                						tempDoc=0;
                					}
                					//當tempQid不等於當前qid時下標加1 
                					//相等則直接跳至Doc加1直到不等
                					qid_Num++;
                					tempQid=Integer.parseInt(subArrays[1]);    					
                				}
                				tempDoc++; //新的文件 
                				qid[sumLabel] = Integer.parseInt(subArrays[1]);
                			} 
                			else { //獲取46維特徵值
                				int number = Integer.parseInt(subArrays[0]); //判斷特徵
                				double value = Double.parseDouble(subArrays[1]);
                				feature[sumLabel][number] = value; //number陣列標號:1-46
                			}
                		}
                	}
                	sumLabel++;
                }
                doc_ofQid[qid_Num]=tempDoc;
                read.close();
        	} else {
        		System.out.println("找不到指定的檔案\n");
        	}
        } catch (Exception e) {
            System.out.println("讀取檔案內容出錯");
            e.printStackTrace();
        }
    }

	/**
	 * 學習排序
	 * 訓練模型得到46維權重
	 */
	public static void LearningToRank() {
		
		//變數
		double index [] = new double[1000000];
		double tao [] = new double[1000000];
		double yita=0.00003;
		//初始化
		for(int i=0;i<weidu+2;i++) { //從1到136為權重，0和137無用
			weight[i] = (double) 1.0; //權重初值
		}
		System.out.println("training...");				
		//計算權重 學習演算法
		for(int iter = 0; iter<ITER_NUM; iter++) //迭代ITER_NUM次
		{ 
			System.out.println("---迭代次數:"+iter);
			int now_doc=0; //全域性文件索引
			for(int i=1; i<=qid_Num; i++) //總樣qid數  相當於兩層迴圈T和m 
			{ 
				double delta_w[] = new double[weidu+2]; //46個梯度組成的向量
				int doc_of_i=doc_ofQid[i]; //該Qid的文件數
				//得分f(w),一個QID有多個文件，一個文件為一個分,所以一個i對應一個分數陣列
				double fw[] = new double[doc_of_i+2];
				
				/* 第一步 算得分陣列fw fin */
				for(int k=1;k<=doc_of_i;k++) { //初始化
					fw[k]=0.0;
				}
				for(int k=1;k<=doc_of_i;k++) { //每個文件的得分
					for(int p=1;p<=weidu;p++) {
						fw[k]=fw[k]+weight[p]*feature[now_doc+k][p]; //算出這個文件的分數
					}
				}
				
				/*
				 * 第二步  算梯度delta_w向量
				 * a=Σp*x,a是向量  
				 * b=Σexpf(x),b是數字
				 * c=expf(x)*x,c是向量
				 * 最終結果delta_w是向量
				 */
				double[] a=new double[weidu+2],c=new double[weidu+2];
				for(int k=0;k<weidu+2;k++){a[k]=0.0;} //初始化
				for(int k=0;k<weidu+2;k++){c[k]=0.0;} //初始化
				double b=0.0;
				//算a：----
				for(int k=1; k<=doc_of_i; k++) {
					double p=1.0; //先不topK
					double[] temp=new double[48];
					for(int q=1;q<=weidu;q++) {
						//算P: ----第q個向量排XX的概率是多少
						//分母：
						double fenmu=0.0;
						for(int m=1;m<=doc_of_i;m++) {
							fenmu=fenmu+Math.exp(fw[m]); //所有文件得分
						}
						//top-1  exp(s1) / exp(s1)+exp(s2)+..+exp(sn)
						for(int m=1;m<=doc_of_i;m++) {
							p=p*(Math.exp(fw[m])/fenmu);
						}
						//算積
						temp[q]=temp[q]+p*feature[now_doc+k][q];
					}
					for(int q=1; q<=weidu; q++){			
						a[q]=a[q]+temp[q];
					}	
				} //End a
				//算b：---- fin.
				for(int k=1; k<=doc_of_i; k++){
					b=b+Math.exp(fw[k]);
				}
				//算c：----
				for(int k=1; k<=doc_of_i; k++){
					double[] temp=new double[weidu+2];
					for(int q=1; q<=weidu; q++){			
						temp[q]=temp[q]+Math.exp(fw[k])*feature[now_doc+k][q];
					}
					for(int q=1; q<=weidu; q++){			
						c[q]=c[q]+temp[q];
					}	
				}
				//算梯度：delta_x=-a+1/b*c
				for(int q=1; q<=weidu; q++){
					delta_w[q]= (-1)*a[q] + ((1.0/b)*c[q]);
				}
				//**********
				
				/* 第三步 更新權重 fin. */
				for(int k=1; k<=weidu; k++){
					weight[k]=weight[k]-yita*delta_w[k];
				}
				now_doc=now_doc+doc_of_i; //更新當前文件索引
			}
		} //End 迭代次數
		
		//輸出權重
		for(int i=1;i<=weidu;i++) //從1到136為權重，0和137無用
		{
			System.out.println(i+"wei:"+weight[i]);
		}
	}
	
	/**
	 * 輸出權重到檔案fileModel
	 * @param fileModel
	 */
	public static void WriteFileModel(String fileModel) {
		//輸出權重到檔案
		try {
			System.out.println("write start.總行數："+sumLabel);
			FileWriter fileWriter = new FileWriter(fileModel);
			//寫資料
			fileWriter.write("## ListNet");
			fileWriter.write("\r\n");
			fileWriter.write("## Epochs = "+ITER_NUM);
			fileWriter.write("\r\n");
			fileWriter.write("## No. of features = 46");
			fileWriter.write("\r\n");
			fileWriter.write("1 2 3 4 5 6 7 8 9 10 ...  39 40 41 42 43 44 45 46");
			fileWriter.write("\r\n");
			fileWriter.write("0");
			fileWriter.write("\r\n");
			for(int k=0; k<weidu; k++){
				fileWriter.write("0 "+k+" "+weight[k+1]);
				fileWriter.write("\r\n");
			}
			fileWriter.close();
			System.out.println("write fin.");
		} catch(Exception e) {
			System.out.println("寫檔案內容出錯");
            e.printStackTrace();
		}
	}
	
	/**
	 * 預測排序
	 * 正規應對test.txt檔案進行打分排序
	 * 但我們是在Hadoop實現該打分排序步驟 此函式僅測試train.txt打分
	 */
	public static void PredictRank(String fileScore) {
		//輸出得分
		try {
			System.out.println("write start.總行數："+sumLabel);
			String encoding = "GBK";
			FileWriter fileWriter = new FileWriter(fileScore);
			//寫資料
			for(int k=1; k<sumLabel; k++){
				double score=0.0;
				for(int j=1;j<=weidu;j++){
					score=score+weight[j]*feature[k][j];
				}
				fileWriter.write("qid:"+qid[k]+" score:"+score+" label:"+label[k]);
				fileWriter.write("\r\n");
			}	
			fileWriter.close();
			System.out.println("write fin.");	
		} catch(Exception e) {
			System.out.println("寫檔案內容出錯");
            e.printStackTrace();
		}
	}
	
	/**
	 * 主函式
	 */
	public static void main(String args[]) {
		String fileInput = "Fold1\\train.txt";       //訓練
		String fileModel = "model_weight.txt";       //輸出權重模型
		String fileScore = "score_listNet.txt";      //輸出得分
		//第1步 讀取檔案並解析資料
		System.out.println("read...");
		ReadTxtFile(fileInput);
		System.out.println("read and write well.");
		//第2步 排序計算
		LearningToRank();
		//第3步 輸出模型
		WriteFileModel(fileModel);
		//第4步 打分預測排序
		PredictRank(fileScore);
	  }
	
	/*
	 * End
	 */
	
}

【學習排序】 Learning to Rank中Pointwise關於PRank演算法原始碼實現

最近終於忙完了Learning to Rank的作業,同時也學到了很多東西.我準備寫幾篇相關的文章簡單講述自己對它的理解和認識.第一篇準備講述的就是Learning to Rank中Pointwise的認識及PRank演算法的實現.主要從以下四個方面進行講述： 1.學

【學習排序】 Learning to Rank 中Listwise關於ListNet演算法講解及實現

程式碼如下：package listNet_xiuzhang; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileWriter; import

機器學習排序之Learning to Rank簡單介紹

PS:文章主要轉載自CSDN大神hguisu的文章"機器學習排序": http://blog.csdn.net/hguisu/article/details/7989489 最近需要完成課程作業——分散式排序學習系統.它是在

【學習筆記】Learning OpenCV3——Ch8 working with video

　　Reading Video with the cv::VideoCapture Object　　　　物件建立的三種方法：　　　　// 1. Input filename　　　　cv::VideoCapture::VideoCapture(　　　　const string& filename　　　　

【學習筆記】在原生javascript中使用ActiveX和外掛

什麼是外掛現在的瀏覽器提供了大量的內建功能，但仍然有一些工作無法完成，如播放音訊和視訊。外掛及其擴充套件瀏覽器功能就尤為重要。外掛是可下載的應用程式，可以插入到瀏覽器中，現在有很多不同的外掛，常用的有Adobe Flash Palyer ，Microsoft的Silv

【翻譯論文】Learning to Estimate 3D Human Pose and Shape from a Single Color Image （CVPR 2018）

因為科研的需要，最近閱讀了這篇文章，裡邊的一些術語儘量的翻譯的專業一點，如有不恰當的地方歡迎個位評論指正，還有就是如有涉及到版權的問題，請及時聯絡本人，本人會立馬刪除該工作解決了從單個彩色影象估計全身3D人體姿勢和形狀的問題。這是一項普遍存在基於迭代優化的解決方案的任務，

Learning to Rank 中Listwise關於ListNet演算法講解及實現

前一篇文章"Learning to Rank中Pointwise關於PRank演算法原始碼實現"講述了基於點的學習排序PRank演算法的實現.該篇文章主要講述Listwise Approach和基於神經網路的ListNet演算法及Java實現.包括： 1.基於列的學習排序(Listwise

【學習筆記】linux與windows中wchar_t的問題

遇到的問題：做Unity for Android專案時遇到了兩個問題，一是用boost序列時，windows下序列化的二進位制

【學習筆記】Java中生成對象的5中方法

目標獲得 cti com pre lan except 我們 highlight 概述：本文介紹以下java五種創建對象的方式： 1.用new語句創建對象，這是最常用的創建對象的方式。 2.使用Class類的newInstance方法 3.運用反射手段，調用java.la

【lua學習筆記】——2在sublime中配置Lua運行環境

author command ges () 作者 ctrl+ bindings text inf 一、讓Sublime可以運行lua腳本打開sublime 選擇tools-->Build System-->New Build System 在新出現的文件中

【學習記錄】linux中問題解決方法記錄

權限 comm 解決方法 log highlight sha true 學習登陸 1. 將某個用戶x添加到sudoer列表中　　root 權限 visudo 　　在 ## Allow root to run any commands anywhere root

【線上直播】揭祕機器視覺中的深度學習

講師：曲曉峰講師簡介：曲曉峰，清華大學深圳研究生在站博士後。香港理工大學-電子計算學系-人體生物特徵識別研究中心哲學博士。碩士畢業於瀋陽工業大學-視覺檢測技術研究所（德州儀器TIDSP聯合實驗室）、檢測技術與自動化裝置專業。研究方向：人體生物特徵識別、深度學習、機器視覺。從事影

【學習筆記】堆的定義及其建立、排序等基本操作的實現

目錄堆的定義：堆的基本操作的程式碼實現：詳情請參見《演算法筆記》P335，此處只做簡單的學習筆記記錄。堆的定義：堆是一棵完全二叉樹，樹中的每個結點的值都不小於（或不大於）其左右孩子結點。堆一般用於優先佇列的實現（目前不是很懂），故預設

learning to rank學習筆記

learning to rank是這幾年火起來的一個學科，可以應用於檢索、推薦等排序場景中。我們的業務場景大都和排序相關，那麼掌握住learning to rank就又多了一條解決業務問題的方法。常見的排序演算法： 1.文字相關性計算方法：BM25，TF_IDF，word2vec等。

【學習筆記】Pattern Recognition&Machine Learning [1.2] Probability Theory(2) 基於高斯分佈和貝葉斯理論的曲線擬合

高斯分佈不必贅述，這裡記錄個有意思的東西，即從高斯分佈和貝葉斯理論出發看曲線擬合（即選擇引數w）。首先假設我們使用多項式擬合曲線，根據泰勒展開的方法，我們可以用有限項多項式在一定精度內擬合任何曲線。 &nb

【學習筆記】Pattern Recognition&Machine Learning [1.2] Probability Theory(1)貝葉斯理論

這節講了概率論中的一些基本概念，這裡記錄一下對貝葉斯理論的理解。首先簡單描述一下貝葉斯理論。對於一個隨機事件，我們首先給出先驗分佈，不妨設為p(w)

【python學習筆記】40：Pandas中DataFrame的分組/分割/合併

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 DataFrame分組操作注意分組後得到的就是Series物件了，而不再是DataFrame物件。 import pandas as pd # 還是讀取這份檔案 df = pd.read_csv("

【java學習筆記】淺析JavaWeb開發中Model1模式和Model2模式

Model1模式 JavaBean就是java類，JavaBean分兩類：一類是實體Bean，一類是業務Bean model1模式優點：執行效率高，開發效率比較高，適合小型專案 model1模式缺點：邏輯比較混亂，頁面混亂，維護困難，擴充套件不容易 Model2模式

【論文閱讀】Sequence to Sequence Learning with Neural Networks

看論文時查的知識點前饋神經網路就是一層的節點只有前面一層作為輸入，並輸出到後面一層，自身之間、與其它層之間都沒有聯絡，由於資料是一層層向前傳播的，因此稱為前饋網路。 BP網路是最常見的一種前饋網路，BP體現在運作機制上，資料輸入後，一層層向前傳播，然後計算損失函式，得到損失函式的殘差

【C++學習筆記】四、C++中的程式結構、輸入輸出以及語句（選擇、迴圈結構）

1.C++程式結構 c++的每個程式單元由三部分組成：（1）預處理指令：#include 和#define （2）全域性宣告：在函式外部對資料型別、函式以及變數的宣告。它的有效範圍是從宣告開始到本程式單位結束。（3）函式：包含函式首部和函式體，函式體中包含宣告語句和執行語句。

【學習排序】 Learning to Rank 中Listwise關於ListNet演算法講解及實現

相關推薦