李巨集毅深度學習與人類語言處理-introduction

阿新 • • 發佈：2020-03-13

**深度學習與人類語言處理（Deep learning for Human Language Processing）** 李巨集毅老師深度學習與人類語言處理課程筆記，請看正文 ----- ### 這門課會學到什麼？ ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120354927-14763459.png) - 為什麼叫人類語言處理呢？現在大家熟知的基本都是自然語言處理，那什麼是自然語言呢？ >在自然中發展出來的用於溝通的語言（例如中文、英文）自然語言相反的是人造語言：例如程式設計（Java、python）人類的自然語言分為兩種形態：語音、文字 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115707474-352652983.png) 所以這門課叫**深度學習與人類語言處理** 大多數自然語言處理課程中語音處理只佔了一小部分，是因為語音處理不重要嗎？ ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115721955-1674524151.png) **世界上只有56%的語言可以被寫出來**，例如閩南語、臺語，但不是每個說閩南語的人都會寫。文字的書寫系統是被創造出來的。所以很多語言機器無法通過文字理解，所以這門課程會用一半的時間講述語音處理。 - 人類語言有多複雜 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115732190-787205409.png) 一秒鐘的聲音訊號含有16K個取樣點，每個取樣點有256個可能的值。 > 古希臘哲學家赫拉克利特說過 "No man ever steps in the same river twice, for it's not the same river and he's not the same man." **沒有人可以說同一段話兩次**，每次的聲音訊號都不一樣 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115747442-872169302.png) 那麼文字有多複雜？有記錄的最長英文的句子有13955個詞（2014，吉尼斯世界紀錄）然而，，，下一秒吉尼斯世界記錄就被破了，xx寫“ ”；xx說xx寫了“..." ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115802194-1506141763.png) - 一張圖告訴你本次課程內容 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115815122-393765315.png) **Model是什麼？** ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115840910-446604176.png) 老溼說： > **硬Train一發**是一種信念，是一種夢想，是一種浪漫，是人類亙古以來原始的衝動，總之，沒辦法一句話解釋清楚。 ### 人類語言處理的下一步 2014年seq2seq模型橫空出世，可以解決大多數人類語言相關的問題，在擁有目前為止最強武器Deep learning的情況下，人類自然語言處理的下一步在哪裡？這門課程將會關注近三年來的研究，再有了*硬train一發*後，接下來還有什麼技術？ - 語音到文字（語音識別） ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115855862-1341233456.png) 傳統語音識別，由多個模組構成，組合起來模型很大，2個G ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115905935-165552747.png) 那如果使用端到端的深度學習呢？google的模型只有80M 語音上的seq2seq模型並**不是大家所熟知的基於Attention的seq2seq模型**，我們會揭開語音seq2seq模型的神祕面紗，看看不同領域的seq2seq模型有什麼區別 - 文字到語音（語音合成） ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115917463-211229129.png) 語音合成是怎麼做的？訓練一個神經網路，輸入是文字，輸出是語音，然後就沒有然後了。。。 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115929504-199875778.png) > Tokuda"每次我開除一個語言學家，語音識別的效能就會提升一點。" **所有的問題都被神經網路解決了嗎？** google小姐發生過破音！在輸入多個字是正常發音，輸入單字時破音了，有想了解的可以去看看：https://www.youtube.com/watch?v=EwbTlnUkctM - 語音到語音 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115940195-1932131221.png) 語音到語音什麼用呢？ **1.語音分離**（speech separation) 人類可以從不同說話者中辨別說話人，專注於想要聽的說話人；機器可以嗎？現在用NN已經可以做到了，僅僅硬train一發 **2.聲音轉化**（voice convesion） ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313115950490-793676150.png) 讓A和B說同一句話，採集很多樣本，使用NN*硬Train一發*就可以了，但是如何想要把我的聲音轉化成新垣結衣的聲音，就不行了，因為我不能把新垣結衣找來，新垣結衣不會說中文啊。所以我們希望的聲音轉化系統只聽過A的聲音，B的聲音，不一定要念一樣的句子，機器也可以把A聲音轉化為B聲音 - 語音到類別 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120056120-436391806.png) 可以用在說話人識別、語音喚醒 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120109853-1838176442.png) 需要說出指定喚醒詞才可以喚醒它們，但是機器需要不斷的收集聲音，直到聽見喚醒詞，所以模型需要儘量小，降低功耗。 - 輸入是文字 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120121467-1270532874.png) Bert一腳踢翻了瑪利亞之牆 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120132427-233786640.png) 模型越來越大。。。 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120144492-864636014.png) - 輸出是文字 **文字生成**(Text Generation) Autoregressive： $$ I \rightarrow have \rightarrow a \rightarrow dream $$ 句子一定要按順序生成嗎？ Non-autoregressive : ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120155133-1942907346.png) - 輸入輸出都是文字 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120204088-802824884.png) 機器翻譯、文字摘要、聊天機器人、問答系統 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120213620-1170828870.png) 直覺上不是文字到文字問題也可以被轉化成文字到文字，例如句法分析(systactic parsing)，可以把句法分析樹變成文字 ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120222489-216972074.png) 這次課程聚焦於問答系統，其他的應用使用的方法都是大同小異。 ### 更多內容 - 元學習 - 參考影象風格轉化 - 知識圖譜 - 對抗攻擊 - 可解釋AI ![](https://img2020.cnblogs.com/blog/1043283/202003/1043283-20200313120236045-2134913741.png) 以上就是本次課程涉及的所有內容 >語音和文字相愛想殺的故事 reference：李巨集毅老溼. http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP

李巨集毅深度學習與人類語言處理-introduction

李巨集毅深度學習與人類語言處理-introduction

深度學習與人類語言處理-語音識別(part1)

深度學習與人類語言處理-語音識別(part2)

深度學習與人類語言處理-語音識別(part3)

深度學習與人類語言處理-語言模型

臺大李巨集毅--深度學習tip（模型優化）

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

深度學習與自然語言處理

深度學習與自然語言處理(8)_斯坦福cs224d RNN，MV-RNN與RNTN

深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

深度學習與自然語言處理（一）

深度學習與自然語言處理（三）——深度學習運用到自然語言處理領域的成功案例

【李巨集毅深度強化學習2018】P3 Q-learning（Basic Idea）

【李巨集毅深度強化學習2018】P2 Proximal Policy Optimization (PPO)

李巨集毅機器學習PTT的理解（1）深度學習的介紹

李巨集毅機器學習2016 第八講深度學習網路優化小訣竅

李巨集毅機器學習筆記-6 深度學習簡介（Brief Introduction of Deep Learning）

李巨集毅機器學習課程6~~~深度學習入門

16、【李巨集毅機器學習（2017）】Unsupervised Learning: Deep Auto-encoder（無監督學習：深度自動編碼器）

李巨集毅機器學習課程筆記-4.1分類簡介及其與迴歸的區別

李巨集毅深度學習與人類語言處理-introduction

相關推薦