1. 程式人生 > >商業銀行智慧語音識別技術-筆記

商業銀行智慧語音識別技術-筆記

商業銀行智慧語音識別技術

一、語音識別技術概述

基礎概念

  • 自動語音識別ASR
  • 語音到文字STT
  • 精準識別和翻譯語音資訊

1、語音識別技術發展

  • 基於深度神經網路模型進行建模

2、語音識別的分類

  • 根據說話人的不同
    • 特定人語音識別
    • 用來對特定人的說話內容進行識別,同時基於說話人的聲紋資訊,應用聲紋鑑別技術,實現基於聲音的身份識別
    • 非特定人語音識別
    • 通過採集大量語音資料來進行訓練建模,實現非特定人的語音識別,可以被任何說話人使用,更符合實際需要,通常要難於針對特定人的語音識別任務。
  • 根據識別詞彙物件的不同
    • 孤立詞識別
    • 識別事先已知的詞語,可應用到自動控制領域
    • 連續語音識別
    • 識別自然交流的連續語音,可應用於語音輸入系統
    • 關鍵詞識別
    • 從連續語音中檢測出特定關鍵詞出現的位置,而不需要識別出整個句子,可應用於語音監聽任務。
  • 根據識別服務的實現方式
    • 雲端方式
    • 依賴網路並依託強大的後臺模型,識別更準確,例如基於雲端的語音助手工具
    • 離線方式
    • 不依賴於網路,應用場景更靈活,但識別精確度受到計算資源的限制,一般離線識別會結合專用晶片,通過壓縮模型規模,將計算量控制在合理的水平。

3、語音識別技術原理

  • (1)預處理
    • 主要包括對輸入的原始語音訊號進行取樣,去除個體發音差異以及裝置環境等引起的背景噪聲,通過分幀將語音訊號切分為短片段,並運用端點檢測技術確定出語音的起點和終點。
  • (2)特徵提取
    • 主要包括從預處理過的語音訊號中,抽取出反映語音本質的特徵引數,形成特徵向量序列。通常由頻譜衍生出頻率倒譜系數(MFCC),使用長度為10ms的幀分割語音波形,然後從每幀中提取出特徵向量。
  • (3)聲學模型訓練
    • 基於語音資料庫進行訓練,通過計算語音特徵和發音模板的相似度,為每個聲學單元建立模型引數,識別時將待識別的語音特徵引數與訓練得到的聲學模型進行匹配,獲得識別結果。傳統語音識別系統大多采用GMM-HMM進行聲學模型建模。
  • (4)語音模型訓練
    • 根據語言的語法規則,對訓練文字資料庫進行語法、語義分析,建立描述給定詞序列在語言中出現的概率分佈,在給定若干個詞的情境下能夠判定下一個最可能出現的詞語,縮小搜尋範圍,進而提高語音識別效能以及準確率。
  • (5)語音解碼
    • 語音解碼指語音技術中的識別過程,針對輸入的原始語音訊號,經預處理和特徵提取後,結合訓練得到的聲學模型、語言模型以及發音字典建立一個識別網路,運用搜索演算法尋找到最佳路徑,進而獲取該語音訊號對應的最優詞串。

4、深度學習和語音識別技術

  • 深度學習
    • 深層結構化學習,是一種基於學習資料表徵的機器學習方法,通過構建多隱藏層神經網路,組合低層特徵形成更加抽象的高層表示特徵,以此提升分類或預測的準確性。
  • 語音訊號
    • 一種非平穩的隨機訊號,人腦對其感知的過程是一個複雜的訊號處理過程,深度學習可通過模仿人腦對語音訊號的處理方式,以層次化的方式進行處理,因此比傳統的模型更適合於語音訊號處理。
  • 深度學習優化版
    • 級聯絡統
    • 運用深度神經網路DNN進行特徵提取,優於使用傳統特徵訓練的GMM-HMM識別系統。
    • 可以聯合特徵的上下文資訊形成長時特徵向量
    • 具有深層次的非線性變換能力
    • 能從有限的資料中挖掘出更多的資訊
    • 混合系統
    • 在GMM-HMM聲學模型基礎上,用DNN替換高斯混合模型(GMM)來計算輸出概率密度函式,其中的DNN可替換為其他的深度學習架構,比如迴圈神經網路RNN、卷積神經網路CNN等,不需要重新設計整個傳統聲學模型系統。
    • 端到端模型
    • 基於深度神經網路完成從輸入特徵向量到輸出結果的整個過程,聲學模型和語言模型通過後端解碼進行融合,與傳統識別過程相比,不需要進行分幀以及幀級別的標註操作。
    • 實現方法
      • 方法一:採用連續時序分類CTC和長短記憶網路LSTM結合的聲學模型,對語音的音素序列和對應的語音特徵序列進行序列層面建模
      • 方法二:基於編碼解碼模型以及注意力模型,直接實現從語音聲學特徵序列到最終詞序列的輸出。

二、智慧語音識別技術在商業銀行中的應用

4I應用架構

  • 1、Input資訊輸入:聽得見
    • 語音識別的主要應用
    • 應用場景:將語音資料自動轉換為文字資料,實現自動資訊輸入。
    • 主要功能
    • 1、將音訊資料轉換為文字資料
    • 2、為進一步開展智慧文字挖掘和自然語言處理積累大量文字資訊語料。
    • 商業銀行運營環境的應用點
    • 簡化櫃檯人員業務操作流程
    • 實現客戶經理拜訪客戶後的報告口述撰寫等場景
    • 案例
    • 櫃檯操作簡化流程
      • 通過引入語音識別系統,可以將客戶需求直接轉化為系統可識別的文字內容,櫃檯人員僅需針對錄入的資訊進行復核校驗,減少客戶填寫各種憑證的時間以及運營人員錄入資訊的時間,從而減少客戶等待時間,提升服務效率。
    • 銀行一線人員走出網點 對客戶進行拜訪流程
      • 應用語音識別技術可直接將客戶經理的口述轉換為文字報告,不需要撰寫訪談報告對客戶情況及交談內容進行記錄,提升工作效率。
  • 2、Inspection實時監察:聽得懂
    • 應用場景
    • 需要在銀行服務人員與客戶交流過程中實時識別出客戶需求點及業務風險點,支援更精準地對客戶提供個性化服務,同時保證業務合規性。
    • 功能
    • 通過在語音識別技術的基礎上架構索引機制、引入文字挖掘和自然語言處理技術支援,對實時“聽”到的文字在“關注”字詞庫裡進行搜尋。
    • 應用點
    • 當客戶在櫃檯辦理業務時,通過對客戶與視窗人員的交談內容進行實時監察。
      • 一、可以及時識別銀行員工話術的合規性。當業務人員出現不當銷售、違規引導時,系統及時跳出提醒標識對銀行人員進行警示,儘可能避免對客戶和銀行權益造成損害。
      • 二、銀行可以實時發現客戶的業務需求,並及時讓視窗人員予以相關產品的推介。當客戶的需求與本行產品及服務核心關鍵詞相匹配時,系統展示產品資訊及相關話術對業務人員進行提示,進一步提升銷售成功率。
      • 三、通過對客戶語言文字的分析,及時發現客戶是否存在負面情緒,輔助業務人員減少不當處理,及時調節、化解業務辦理中可能發生的客戶糾紛。
  • 3、Interaction溝通互動:有互動
    • 應用場景
    • 自助機具操作
    • 電話銀行自動應答
    • 銀行呼叫中心自動回訪
    • 廳堂機器人服務互動
    • 外籍客戶服務提升
      • 同聲傳譯
    • 手機銀行
    • 微信銀行
    • 功能
    • 通過語音合成、聲向定位、語義理解、機器翻譯技術結合
    • 識別語音中的要求、請求、命令或詢問來做出正確的響應
  • 4、Identification身份驗證:認得出
    • 通過聲紋識別實現客戶身份驗證
    • 通過每個人獨特的聲音直接辨識客戶,無需設定、記住和鍵入密碼等操作。
    • 基於語音的身份驗證
    • 非接觸
    • 非侵入
    • 易用性強
    • 通過建立客戶聲紋庫並對語音中的聲紋鑑別,銀行可有效對客戶進行識別、歷史檔案查詢、資訊檢索與推薦。)

相關推薦

商業銀行智慧語音識別技術-筆記

商業銀行智慧語音識別技術 原文連結 一、語音識別技術概述 基礎概念 自動語音識別ASR 語音到文字STT 精準識別和翻譯語音資訊 1、語音識別技術發展 基於深度神經網路模型

語音識別學習筆記(三)【動態時間歸正的識別技術

語音識別學習筆記(三)【動態時間歸正的識別技術】   1.概述  在語音識別中,簡單的將輸入模板和參考模板進行比較存在很大的缺陷,因為語音訊號具有很大的隨機性,即便是同一個人在不同時刻說同一句話,也不可能具有完全相同的時間長度,因此時間歸正處理是必不可少的!動態時間彎折(

語音識別學習筆記(二)【基於向量量化的識別技術

語音識別學習筆記(二)【基於向量量化的識別技術】   概述  量化分為標量量化和向量量化(Vector Quantization,VQ)。標量量化是將取樣後的訊號值逐個進行量化,而適量量化是將若干個取樣訊號分成一組,即構成一個向量,然後對此向量一次進行量化。向量量化

盤點麥克風技術及市場,智慧語音識別系統選型麥克風

智慧語音互動市場的火熱逐漸輻射到產業鏈的供應商,其中最直接受益就是作為聲音的感測裝置——麥克風。特別是麥克風陣列的興起,未來可以讓麥克風廠家的銷量翻倍增長。在此之前,由於受制於智慧手機和平板電腦的增長速度下滑,樓氏、歌爾和瑞聲,中電麗聲等麥克風廠商的股票相繼在2016年中

一套基於模板匹配的語音識別技術。提取語音的特徵,並建立模板庫,可以將語音識別技術應用於機器人

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

語音識別學習筆記(一)【概述】

語音識別學習筆記(一)【概述】   概述:  1)語音識別是機器通過識別和理解過程把人類的語音訊號轉變成相應的文字或命令的技術。  2)集 聲學、語音學、計算機、資訊處理、人工智慧等於一身的綜合技術。 難點:  1)語音特徵隨與之相連的語音

移動端網頁錄音上傳,服務端智慧語音識別

移動端網頁錄音上傳,服務端智慧語音識別 最近,看了創業時代的魔鏡,想法突如起來,能不能手機發送一條語音,語音上傳到後臺,自動識別語音的資訊,轉化為文字,將文字分析,然後回覆使用者豔學網的資源。 我們的資源以原始碼為主,一起編集豔學情緣。我們不僅分享原始碼 http://47.98.2

一個整合微軟語音識別技術語音朗讀的類,基於Microsoft SpeechAPI5.1的開發

                //////////////////////////////////////////////////////////1,生成動態連線庫時,要#define USE_SPEECH_DLL,//     並且#define LANE_SPEECH_EXPORTS//2,使用動態連線

一套基於模板匹配的語音識別技術 提取語音的特征,並建立模板庫 可以將語音識別技術應用於機器人

not bitblt switch uil terminal dia process ack context 視圖類,廢話少說,看看帶註釋的源碼 #include "stdafx.h" #include "robot.h" #include"Label.h

利用訊飛語音識別技術開發離線語音控制系統(Windows平臺)

本專案做出的產品是一個Windows下的增強現實系統,系統很龐大,產品功能已經基本完善,考慮到給使用者帶來更好的體驗,故綜合評估後採用訊飛語音識別方案進行嫁接。 專案介紹: 1)開啟系統時啟動語音識別,檢測到使用者說出關鍵詞(如:上一步,下一步,結束等)時,系統自動進行相應

5分鐘弄懂:語音識別技術原理

文/張俊博知乎連結:https://www.zhihu.com/question/2039841

語音識別技術的前世今生

我的微信公眾號 關注微信公眾號「灣區人工智慧」 回覆關鍵字「資料」獲取10G人工智慧和Python資料 灣區人工智慧QQ群:604562980,進群暗號:python python的QQ群:686329232,進群暗號:python 一起學習人工智慧

Android語音識別技術、訊息推送機制、二維碼掃描技術、NDK、JNI

一、常用資料結構:陣列,堆,棧,佇列,連結串列,樹,圖,散列表 陣列:把具有相同型別的若干變數按有序的形式組織起來。 堆:是一個特殊的樹形資料結構,每個結點都有一個值。一般說的堆是指二叉堆。他的最大特點就是根節點的值最小或最大,並且根節點的兩個子樹也是一個堆。 棧:只能在某

語音識別技術在樹莓派平臺上的使用

最近嘗試在樹莓派上完成一些語音方向的應用,例如像語音喚醒和關鍵詞的識別,前期搜尋了一下,可以選擇的國內平臺有百度語音,科大訊飛, 雲之聲等。這幾家都有自己的開發者開放平臺都提供了語音喚醒,語音關鍵詞識別,語音合成等服務。 先嚐試了一下百度語音的開發平臺,

ASR自動語音識別技術

分類 自動語音識別通常有以下幾種分類方法: (1)按系統的使用者情況分:特定人和非特定人識別系統; (2)按系統詞彙量分:小詞彙量、中詞彙量和大詞彙量系統; (3)按語音的輸入方式分:孤立詞、連線詞、連續語音系統等; (4)按輸入語音的發音方式分:朗讀式、口語(自然發音)式; (5)按輸

Amazon Transcribe 語音識別_自動語音識別技術

Amazon Transcribe 是一項自動語音識別 (ASR) 服務,使開發人員能夠輕鬆地為其應用程式新增語音轉文字功能。通過使用 Amazon Transcribe API,您可以分析 Amazon S3 中儲存的音訊檔案,並讓該服務返回一個轉錄的語音文字檔案。 Ama

【人工智慧】智慧語音互動技術與應用

課程介紹: 智慧語音互動,是基於語音識別、語音合成、自然語言理解等技術,為企業在多種實際應用場景下,賦予產品“能聽、會說、懂你”式的智慧人機互動體驗。適用於多個應用場景中,包括智慧問答、智慧質檢、法庭庭審實時記錄、實時演講字幕、訪談錄音轉寫等。 本課程主要講解智慧語音

Java OCR 影象智慧字元識別技術[可識別中文]

http://www.open-open.com/lib/view/open1363156299203.html 國內最專業的OCR軟體只有2家,清華TH-OCR和漢王OCR,看了很多的OCR技術發現好多對英文與數字的支援都很好,可惜很多都不支援中文字元。 Aspri

商業銀行資產託管業務讀書筆記

第一章 概況 兩個業務 : 資產託管業務 和 委託資產管理業務 委託資產管理業務: 證券公司、基金管理公司、信託投資公司或其他具備資格的金融機構,根據委託人要求,對受託資產進行投資管理。目的:安全、有效增值或實現特定目的。 委託資產管理業務 - 委託人 :資

智慧停車與車牌識別技術

核心技術:移動車牌識別技術,ios車牌識別,車牌識別技術移動端,移動端車牌識別技術,手機端車牌識別,OCR車牌識別,手機端車牌識別 隨著生活水平及經濟水平的日益提高,汽車數量的爆增模式為汽車管理帶來了一定的困難。為了方便警務人員交通執法、停車場車輛管理等工作,特意推出了“移動端車牌識別OCR