詳解Hadoop中的LineReader的readLine函式

阿新 • • 發佈：2019-01-02

Hadoop中的LineReader的readLine函式可以說寫的很不錯，這裡結合自己的理解，詳細的添加了註釋。該函式最精彩的一點就是保證了讀取分片的時候不會出現斷行，針對不同的檔案系統，能夠做到正確的判斷行結束的位置，從而準確的讀出文字中的一行內容。

1、如果當前字元是’\r’，雖然不能立即確定是不是讀到行尾了（後面可能跟著’\n’）,但是這行的內容已經確定了，就是行結束符的長度沒有確定，這個時候需要標記一下，prevCharCR = true，表示讀到了一個’\r’，再讀下一個字元看是不是’\n’，如果是，根據標記可知這是一個Windows檔案，行結束符長度就是2，若不是，可判定為Mac檔案，行結束符長度就是1了。

這裡有一個特殊的情況，如果’\r’在buffer最後面的一個位置，這時不能確定下一個buffer的開始是一個’\n’，因此需要再載入資料到個buffer（可能已經到了下一個分片）才能確定。

//LineReader類中的部分定義
/*
  private InputStream in;
  private byte[] buffer;
  // the number of bytes of real data in the buffer
  private int bufferLength = 0;
  // the current position in the buffer
  private 
 int bufferPosn = 0;
 private static final byte CR = '\r';
/private static final byte LF = '\n';
*/
/**
   * Read one line from the InputStream into the given Text.  A line
   * can be terminated by one of the following: '\n' (LF) , '\r' (CR),
   * or '\r\n' (CR+LF).  EOF also terminates an otherwise unterminated
   * line.
   *
   * @param str the object to 
 store the given line (without newline)
   * @param maxLineLength the maximum number of bytes to store into str;
   *  the rest of the line is silently discarded.
   * @param maxBytesToConsume the maximum number of bytes to consume
   *  in this call.  This is only a hint, because if the line cross
   *  this threshold, we allow it to happen.  It can overshoot
   *  potentially by as much as one buffer length.
   *
   * @return the number of bytes read including the (longest) newline
   * found.
   *
   * @throws IOException if the underlying stream throws
   */
  public int readLine(Text str, int maxLineLength,
                      int maxBytesToConsume) throws IOException {
    /* We're reading data from in, but the head of the stream may be
     * already buffered in buffer, so we have several cases:
     * 1. No newline characters are in the buffer, so we need to copy
     *    everything and read another buffer from the stream.
     * 2. An unambiguously terminated line is in buffer, so we just
     *    copy to str.
     * 3. Ambiguously terminated line is in buffer, i.e. buffer ends
     *    in CR.  In this case we copy everything up to CR to str, but
     *    we also need to see what follows CR: if it's LF, then we
     *    need consume LF as well, so next call to readLine will read
     *    from after that.
     * We use a flag prevCharCR to signal if previous character was CR
     * and, if it happens to be at the end of the buffer, delay
     * consuming it until we have a chance to look at the char that
     * follows.
     */
    str.clear();
    int txtLength = 0; //tracks str.getLength(), as an optimization
    int newlineLength = 0; //length of terminating newline
    boolean prevCharCR = false; //true of prev char was CR
    long bytesConsumed = 0;
    do {
      int startPosn = bufferPosn; //bufferPosn這個類成員變數記錄著讀取buffer的具體位置
      if (bufferPosn >= bufferLength) {//如果之前讀取過一個buffer，此時bufferLength=bufferPosn ，或者第一個分片時bufferPosn =bufferLength=0
        startPosn = bufferPosn = 0;//重新讀取一個buffer
        if (prevCharCR)//這裡對應上面說到的特殊情況，如果上一個buffer最後一個字元是'\r',它在上一個buffer中是沒有
          ++bytesConsumed; //account for CR from previous read//算進bytesConsumed（為了讀取一行資料從buffer中實際讀取的字元數）,所以這裡要算進去
        bufferLength = in.read(buffer);//從緩衝區中讀取資料
        if (bufferLength <= 0)
          break; // EOF
      }
      for (; bufferPosn < bufferLength; ++bufferPosn) { //從緩衝區讀取的資料中尋找換行符，對應於上面提到的幾種情況
        if (buffer[bufferPosn] == LF) {                        //如果是'\n'，確定找到了一行的結束符，看前面的字元是不是'\r'，如果是，行結束符長度為2，否則行結束符為1
          newlineLength = (prevCharCR) ? 2 : 1;
          ++bufferPosn; // at next invocation proceed from following byte//讀取位置由當前位置bufferPosn向前進一個，此時bufferPosn指示的位置還沒有做判斷
          break;//找到了一行的結束符，跳出迴圈
        }
        if (prevCharCR) { //CR + notLF, we are at notLF//如果上一個位置為'\r'，當前位置不是'\n'，
//那麼也得到了一行的結束符，跳出迴圈，此時bufferPosn指示的位置還沒有做判斷
          newlineLength = 1;
          break;                                                 //只要確定了行結束符的長度，newlineLength（初始值為0）就會儲存它，
        }
        prevCharCR = (buffer[bufferPosn] == CR);
      }
      int readLength = bufferPosn - startPosn;
      if (prevCharCR && newlineLength == 0)//只有在buffer中讀取的所有的字元都無法確定行結束符的長度時才會進去，這時說明讀到buffer結尾也沒有出現'\n','\r\n'
        --readLength; //CR at the end of the buffer//但是有可能最後一個字元是'\r',此時在上面的迴圈中prevCharCR 便為true，需要讀取下一個buffer才知道後面跟的是不是'\n'
      bytesConsumed += readLength;//不管那種情況，上面共讀取到多少資料就要把這個資料儲存起來，讀取的總字元數由bytesConsumed 記錄，內容由str在後面追加
      int appendLength = readLength - newlineLength;//將需要追加的內容長度算出來（讀取到的長度減去行結束符的長度）
      if (appendLength > maxLineLength - txtLength) {
        appendLength = maxLineLength - txtLength;
      }
      if (appendLength > 0) {
        str.append(buffer, startPosn, appendLength);
        txtLength += appendLength;
      }
    } while (newlineLength == 0 && bytesConsumed < maxBytesToConsume);


    if (bytesConsumed > (long)Integer.MAX_VALUE)//如果這一行太長，會丟擲異常
      throw new IOException("Too many bytes before newline: " + bytesConsumed);    
    return (int)bytesConsumed;//返回讀到的字元數
  }

詳解Hadoop中的LineReader的readLine函式

Hadoop中的LineReader的readLine函式可以說寫的很不錯，這裡結合自己的理解，詳細的添加了註釋。該函式最精彩的一點就是保證了讀取分片的時候不會出現斷行，針對不同的檔案系統，能夠做到正確的判斷行結束的位置，從而準確的讀出文字中的一行內容。

詳解python中format函式的強大功能

1、引數替換 format函式可以不限定引數個數，不限定引數位置。一、不設定指定位置，按預設順序 &nb

詳解JavaScript中的replace（）函式

　　Javascript中字串物件有一個方法replace（），它的作用非常強大。這裡把它的用法整理一下。　一、方法簡介　　該方法的簽名是：replace([RegExp|String],[String|Function])。　　該方法返回一個新的字串，但並不改變字串本身。

詳解React中setState回撥函式

使用React過程中，中可以使用this.state來訪問需要的某些狀態，但是需要更新或者修改state時，一般而言，我們都會使用setState()函式，從而達到更新state的目的，setState()函式執行會觸發頁面重新渲染UI。但是呢，setState是非同步的！這就難

詳解Python中的join()函式的用法

函式：string.join() Python中有join()和os.path.join()兩個函式，具體作用如下： join()：連線字串陣列。將字串、元組、列表中的元素以指定的字元(分隔符)連線生成

詳解Python中的join()函式的用法（字串和os.path）

函式：string.join() Python中有join()和os.path.join()兩個函式，具體作用如下： join()：連線字串陣列。將字串、元組、列表中的元素以指定的字元(分隔符)連線生成一個新的字串 os.path.

詳解C++中的純虛擬函式（虛擬函式區別）&多型性以及理解

#include <iostream> #include <cstdio> using namespace std; class A { public: void foo() { printf("1\n");

詳解c++中類的六個預設的成員函式

類的6個預設的成員函式包括：建構函式、解構函式、拷貝建構函式、賦值運算子過載函式、取地址操作符過載、const 修飾的取地址操作符過載。這篇文章重點解釋前四個。（一）建構函式建構函式，顧名思義

js中三種作用域詳解（全域性，函式，塊級）

1.全域性變數：宣告在函式外部的變數（所有沒有var直接賦值的變數都屬於全域性變數） 2.區域性變數：宣告在函式內部的變數（所有沒有var直接賦值的變數都屬於全域性變數） JS中變數申明分顯式申明和隱

sql中詳解round(),floor(),ceiling()函式的用法和區別？

round() 遵循四捨五入把原值轉化為指定小數位數，如：round(1.45,0) = 1;round(1.55,0)=2 floor()向下舍入為指定小數位數如：floor(1.45,0)= 1;floor(1.55,0) = 1 ceiling()向上舍入為指定小數位數如：ceiling

舉例詳解Python中的split()函式的使用方法

函式：split() Python中有split()和os.path.split()兩個函式，具體作用如下： split()：拆分字串。通過指定分隔符對字串進行切片，並返回分割後的字串列表（list） os.path.split()：按照路徑將檔名和路徑分割開一、函式說明 1、sp

jQuery動畫高階用法（上）——詳解animation中的.queue()函式

　　如果你拿著一個疑問去找專業人士尋找答案，那麼你的一個疑問會變成三個，因為他會用另外兩個令你更加一頭霧水的名詞來解釋你的這個疑問。我想這是大多數，包括我在內，IT人在學習過程中碰到的最大問題。當你有一段程式碼或是一個概念不是很清楚，百度也好，Google也

詳解應用層open函式如何呼叫到底層驅動中xxx_open函式

在上一篇Linux驅動（三）字元裝置驅動框架中，我們編寫函式操作集合ops，並編寫了應用層程式碼。我們現在來看一看，程式如何從應用到達驅動層的。linux中一切皆檔案，核心如何來區別每一個檔案，這個叫做

【Oracle】詳解Oracle中NLS_LANG變量的使用

make fault tro territory font pin onclick 添加其中目錄結構： // contents structure [-] 關於NLS_LANG參數 NSL_LANG常用的值在MS-DOS模式和Batch模式中

RabbitMQ實例詳解+Spring中的MQ使用

方法 it is col 一致性 cli 服務器發送請求 arguments restrict RabbitMQ實例詳解　　消息隊列中間件是分布式系統中重要的組件，主要解決應用解耦，異步消息，流量削鋒等問題，實現高性能，高可用，可伸縮和最終一致性架構。 Queue Q

詳解Python中的生成器表達式（generator expression）

新元素括號 tuple 列表推導式特點解析式表達式但是 bracket 　　　　介紹　　　　1、生成器表達式（generator expression）也叫生成器推導式或生成器解析式，用法與列表推導式非常相似，在形式上生成器推導式使用圓括號（parenth

詳解Python中的join()函數的用法

pre 說明 bsp 字符指定 .net 絕對路徑字典 -s 函數：string.join() Python中有join()和os.path.join()兩個函數，具體作用如下： join()：連接字符串數組。將字符串、元組、列表中的元素以指定的字符(分

詳解WordPress中簡碼格式標簽編寫的基本方法

filter 所有 oot 執行 body 標簽支持 script tro WordPress 簡碼是一種類似於論壇標簽的東西，格式類似於把尖括號換成中括號的 Html 標簽。簡碼很多人叫做短代碼，但官方的翻譯應該是簡碼，在這裏糾正一下。簡碼的開發的邏輯比較簡單，主要就

詳解 javascript 中的比較（==和===）

不一致 mit 如果 asc onu tin 算法復雜 undefine 抽象相等比較算法比較運算 x==y, 其中 x 和 y 是值，產生 true 或者 false。這樣的比較按如下方式進行：若 Type(x) 與 Type(y) 相同，則若 Type(x)

舉例詳解Python中的split()函數的使用方法

使用方法 imp count say 文章 pri 參考詳解參數這篇文章主要介紹了舉例詳解Python中的split()函數的使用方法,split()函數的使用是Python學習當中的基礎知識,通常用於將字符串切片並轉換為列表,需要的朋友可以參考下函數：spl

詳解Hadoop中的LineReader的readLine函式

相關推薦