1. 程式人生 > >Atitit 文件資料的摘要與壓縮技術總結abstract tech v4 目錄 1. 概念包含了原文字中的重要資訊,其長度不超過或遠少於原文字的一半” 1 2. 1. 摘要的作用 應用場景 1 2

Atitit 文件資料的摘要與壓縮技術總結abstract tech v4 目錄 1. 概念包含了原文字中的重要資訊,其長度不超過或遠少於原文字的一半” 1 2. 1. 摘要的作用 應用場景 1 2

Atitit 文件資料的摘要與壓縮技術總結abstract tech v4

 

目錄

1. 概念包含了原文字中的重要資訊,其長度不超過或遠少於原文字的一半” 1

2. 1. 摘要的作用 應用場景 1

2.1. 如自動報告生成、新聞標題生成、搜尋結果預覽等。此外,自動文字摘要也可以為下游任務提供支援。 2

2.2. .書寫摘要的基本規範和原則 2

3. 三大層次 純文字內容摘要  目錄 標題摘要 2

3.1. 格式轉換為txt 摘要 3

3.2. 目錄提取 3

3.3. 標題摘要 3

3.4. Keyword提取 3

4. 摘要就是整篇文章和濃縮預覽,四個要素物件、方法、結果、結論四要素 3

5. 主流的文字摘要方式抽取式(extractive),另一種是生成式(abstractive)。 4

5.1. Keyword 雜湊化摘要 5

6. Code 摘要方法列表 5

7. 其他關聯技術 5

7.1. 分詞 5

7.2. Stopword體系 5

 

  1. 概念包含了原文字中的重要資訊,其長度不超過或遠少於原文字的一半”

根據Radev的定義[3],摘要是“一段從一份或多份文字中提取出來的文字,它包含了原文字中的重要資訊,其長度不超過或遠少於原文字的一半”。自動文字摘要旨在通過機器自動輸出簡潔、流暢、保留關鍵資訊的摘要。

  1.  
    1. 摘要的作用 應用場景

摘要也就是內容提要,是文章中不可缺少的一部分。文章摘要是一篇具有獨立性的短文,有其特別的地方。它是建立在對文章進行總結的基礎之上,用簡單、明確、易懂、精闢的語言對全文內容加以概括,留主幹去枝葉,提取文章的主要資訊。作者的觀點、文章的主要內容、研究成果、獨到的見解,這些都應該在摘要中體現出來。好的摘要便於索引與查詢,易於收錄到大型資料庫中併為他人提供資訊。因此摘要在資料交流方面承擔著至關重要的作用。
2

 

自動文字摘要有非常多的應用場景,

    1. 如自動報告生成、新聞標題生成、搜尋結果預覽等。此外,自動文字摘要也可以為下游任務提供支援。
    2. .書寫摘要的基本規範和原則


(1)文章摘要分為中文摘要和外文(一般為英文)摘要。摘要在篇幅方面的限定,不同的學校和機構有不同的要求,通常中文摘要不超過300字,英文摘要不超過250個實詞,中英文摘要應一致。畢業文章摘要可適當增加篇幅。
(2)摘要是完整的短文,具有獨立性,可以單獨使用。即使不看文章全文的內容,仍然可以理解文章的主要內容、作者的新觀點和想法、課題所要實現的目的、採取的方法、研究的結果與結論。
(3)敘述完整,突出邏輯性,短文結構要合理。
(4)要求文字簡明扼要,不容贅言,提取重要內容,不含前言、背景等細節部分,去掉舊結論、原始資料,不加評論和註釋。採用直接表述的方法,刪除不必要的文學修飾。摘要中不應包括作者將來的計劃以及與此課題無關的內容,做到用最少的文字提供最大的資訊量。
(5)摘要中不使用特殊字元,也不使用圖表和化學結構式,以及由特殊字元組成的數學表示式,不列舉例證。

  1. 三大層次 純文字內容摘要  目錄 標題摘要

 

 

    1. 格式轉換為txt 摘要
    2. 目錄提取
    3. 標題摘要
    4. Keyword提取
  1. 摘要就是整篇文章和濃縮預覽,四個要素物件、方法、結果、結論四要素
  • 它被排放在文章的首要位置。
  • 摘要主要要包括文章的四個要素,即:
  1. 題目
  2. 目的
  3. 方法
  4. 結果
  5. 結論
  6. 關鍵字

反映文章的實質性內容,展示文章內容足夠的資訊,體現文章的創新性,展現文章的重要梗概,一般由具體研究的物件、方法、結果、結論四要素組成。

物件——是文章研究、研製、調查等所涉及的具體的主題範圍,體現文章的研究內容、要解決的主要問題,是問題的提出,研究方向的確立與目標的定位。

方法——是文章對研究物件進行研究的過程中所運用的原理、理論、條件、材料、工藝、結構、手段、程式,是完成研究物件的必要手段。

結果——是作者運用研究方法對研究物件進行實驗、研究所得到的結果、效果、資料,被確定的關係等,是進行科研所得的成果。

結論——是作者對結果的分析、研究、比較、評價、應用、提出的問題等,是結果的總結,

釋出於 2016-12-20



 

 

  1. 主流的文字摘要方式抽取式(extractive),另一種是生成式(abstractive)。

 

目前主流的文字摘要自動生成有兩種方式,一種是抽取式(extractive),另一種是生成式(abstractive)。

抽取式顧名思義,就是按照一定權重,從原文中尋找跟中心思想最接近的一條或幾條句子。而生成式是計算機通讀原文,在理解整篇文章意思的基礎上,重新生成概要。

抽取式摘要目前已經相對成熟,但抽取質量及內容流暢度均差強人意。伴隨著深度學習的研究,生成式摘要對質量和流暢度都有很大的提升,但目前也涉及到原文字長度過長、抽取內容不佳等問題的限制。



文字摘要的發展概況

抽取式摘要是一種比較成熟的方案,其中Text rank排序演算法以其簡潔、高效的特點被工業界廣泛運用。大體思想就是先去除文章中的一些停用詞,之後對句子的相似度進行度量,計算每一句相對另一句的相似度得分,迭代傳播,直到誤差小於0.0001,再對上述方法得到的關鍵語句進行排序,即可獲得摘要。抽取式摘要主要考慮單詞詞頻,並沒有過多的語義資訊,像“豬八戒”、“孫悟空”這樣的詞彙都會被獨立對待,無法建立文字段落中完整的語義資訊。



入門_ 文字摘要自動生成技術的前世今生 - 簡書.html

 

    1. Keyword 雜湊化摘要

分詞然後去重

 

  1. Code 摘要方法列表
  2. 其他關聯技術
    1. 分詞
    2. Stopword體系

乾貨|當深度學習遇見自動文字摘要,seq2seq+attention - CSDN部落格.html