1. 程式人生 > >李巨集毅深度學習與人類語言處理-introduction

李巨集毅深度學習與人類語言處理-introduction

**深度學習與人類語言處理(Deep learning for Human Language Processing)** 李巨集毅老師深度學習與人類語言處理課程筆記,請看正文 ----- ### 這門課會學到什麼? ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120354927-14763459.png) - 為什麼叫人類語言處理呢? 現在大家熟知的基本都是自然語言處理,那什麼是自然語言呢? >在自然中發展出來的用於溝通的語言(例如中文、英文) 自然語言相反的是人造語言:例如程式設計(Java、python) 人類的自然語言分為兩種形態:語音、文字 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115707474-352652983.png) 所以這門課叫**深度學習與人類語言處理** 大多數自然語言處理課程中語音處理只佔了一小部分,是因為語音處理不重要嗎? ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115721955-1674524151.png) **世界上只有56%的語言可以被寫出來**,例如閩南語、臺語,但不是每個說閩南語的人都會寫。文字的書寫系統是被創造出來的。所以很多語言機器無法通過文字理解,所以這門課程會用一半的時間講述語音處理。 - 人類語言有多複雜 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115732190-787205409.png) 一秒鐘的聲音訊號含有16K個取樣點,每個取樣點有256個可能的值。 > 古希臘哲學家赫拉克利特說過 "No man ever steps in the same river twice, for it's not the same river and he's not the same man." **沒有人可以說同一段話兩次**,每次的聲音訊號都不一樣 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115747442-872169302.png) 那麼文字有多複雜? 有記錄的最長英文的句子有13955個詞(2014,吉尼斯世界紀錄) 然而,,,下一秒吉尼斯世界記錄就被破了,xx寫“ ”;xx說xx寫了“..." ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115802194-1506141763.png) - 一張圖告訴你本次課程內容 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115815122-393765315.png) **Model是什麼?** ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115840910-446604176.png) 老溼說: > **硬Train一發**是一種信念,是一種夢想,是一種浪漫,是人類亙古以來原始的衝動,總之,沒辦法一句話解釋清楚。 ### 人類語言處理的下一步 2014年seq2seq模型橫空出世,可以解決大多數人類語言相關的問題,在擁有目前為止最強武器Deep learning的情況下,人類自然語言處理的下一步在哪裡? 這門課程將會關注近三年來的研究,再有了*硬train一發*後,接下來還有什麼技術? - 語音到文字(語音識別) ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115855862-1341233456.png) 傳統語音識別,由多個模組構成,組合起來模型很大,2個G ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115905935-165552747.png) 那如果使用端到端的深度學習呢?google的模型只有80M 語音上的seq2seq模型並**不是大家所熟知的基於Attention的seq2seq模型**,我們會揭開語音seq2seq模型的神祕面紗,看看不同領域的seq2seq模型有什麼區別 - 文字到語音(語音合成) ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115917463-211229129.png) 語音合成是怎麼做的?訓練一個神經網路,輸入是文字,輸出是語音,然後就沒有然後了。。。 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115929504-199875778.png) > Tokuda"每次我開除一個語言學家,語音識別的效能就會提升一點。" **所有的問題都被神經網路解決了嗎?** google小姐發生過破音!在輸入多個字是正常發音,輸入單字時破音了,有想了解的可以去看看 :https://www.youtube.com/watch?v=EwbTlnUkctM - 語音到語音 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115940195-1932131221.png) 語音到語音什麼用呢? **1.語音分離**(speech separation) 人類可以從不同說話者中辨別說話人,專注於想要聽的說話人;機器可以嗎?現在用NN已經可以做到了,僅僅硬train一發 **2.聲音轉化**(voice convesion) ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115950490-793676150.png) 讓A和B說同一句話,採集很多樣本,使用NN*硬Train一發*就可以了,但是如何想要把我的聲音轉化成新垣結衣的聲音,就不行了,因為我不能把新垣結衣找來,新垣結衣不會說中文啊。所以我們希望的聲音轉化系統只聽過A的聲音,B的聲音,不一定要念一樣的句子,機器也可以把A聲音轉化為B聲音 - 語音到類別 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120056120-436391806.png) 可以用在說話人識別、語音喚醒 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120109853-1838176442.png) 需要說出指定喚醒詞才可以喚醒它們,但是機器需要不斷的收集聲音,直到聽見喚醒詞,所以模型需要儘量小,降低功耗。 - 輸入是文字 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120121467-1270532874.png) Bert一腳踢翻了瑪利亞之牆 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120132427-233786640.png) 模型越來越大。。。 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120144492-864636014.png) - 輸出是文字 **文字生成**(Text Generation) Autoregressive: $$ I \rightarrow have \rightarrow a \rightarrow dream $$ 句子一定要按順序生成嗎? Non-autoregressive : ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120155133-1942907346.png) - 輸入輸出都是文字 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120204088-802824884.png) 機器翻譯、文字摘要、聊天機器人、問答系統 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120213620-1170828870.png) 直覺上不是文字到文字問題也可以被轉化成文字到文字,例如句法分析(systactic parsing),可以把句法分析樹變成文字 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120222489-216972074.png) 這次課程聚焦於問答系統,其他的應用使用的方法都是大同小異。 ### 更多內容 - 元學習 - 參考影象風格轉化 - 知識圖譜 - 對抗攻擊 - 可解釋AI ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120236045-2134913741.png) 以上就是本次課程涉及的所有內容 >語音和文字相愛想殺的故事 reference: 李巨集毅老溼. http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP