1. 程式人生 > >基於多級同質結構的文件佈局分析

基於多級同質結構的文件佈局分析

 

論文:A robust system for document layout analysis using multilevel homogeneity structure

 

論文貢獻:

  1. 有別於MHS方法,論文提出的方法支援多種語言的文件
  2. 對於文字,非文字的分類在MHS的基礎上增加了MLL分類方法
  3. 對於文字分割,提出了文字線的提取和數學拓撲方法
  4. 本文提出的系統包含了一個魯棒的表格檢測方法

 

總體框架:

 

文字/非文字分類的MHS方法:

multilevel homogeneity structure (MHS)方法是Minimum Homogeneity Algorithm (MHA) 方法的改進版本。

主要流程包含了

  1. 連通域檢測connected components (CCs)
  2. 探索式濾波,基於面積,密度,包含的元素數目(Inc),寬高比

  3. multilevel/multi-layer classification (MLL)

  4. 圖片矯正和噪聲去除

 

文字分割和非文字識別:

這裡主要使用了投影和白版分析的方法

具體步驟如下,

  1. 文字線提取
  2. 子圖分割

  3. 文字區域分割

 

非文字區域識別主要包含,

  1. 非文字區域檢測
  2. 線檢測
  3. 表檢測
  4. 佈局分割線檢測
  5. 圖片檢測

表的類別包含了有線表ruling-linetable (RL-T) 和無線表non-ruling line table(NRL-T),

表檢測的流程如下,

 

區域微調和打標籤: