基於多級同質結構的文件佈局分析
阿新 • • 發佈:2019-01-11
論文:A robust system for document layout analysis using multilevel homogeneity structure
論文貢獻:
- 有別於MHS方法,論文提出的方法支援多種語言的文件
- 對於文字,非文字的分類在MHS的基礎上增加了MLL分類方法
- 對於文字分割,提出了文字線的提取和數學拓撲方法
- 本文提出的系統包含了一個魯棒的表格檢測方法
總體框架:
文字/非文字分類的MHS方法:
multilevel homogeneity structure (MHS)方法是Minimum Homogeneity Algorithm (MHA) 方法的改進版本。
主要流程包含了
- 連通域檢測connected components (CCs)
- 探索式濾波,基於面積,密度,包含的元素數目(Inc),寬高比
- multilevel/multi-layer classification (MLL)
- 圖片矯正和噪聲去除
文字分割和非文字識別:
這裡主要使用了投影和白版分析的方法
具體步驟如下,
- 文字線提取
- 子圖分割
- 文字區域分割
非文字區域識別主要包含,
- 非文字區域檢測
- 線檢測
- 表檢測
- 佈局分割線檢測
- 圖片檢測
表的類別包含了有線表ruling-linetable (RL-T) 和無線表non-ruling line table(NRL-T),
表檢測的流程如下,
區域微調和打標籤: