什麼是OCR ?
OCR能夠做什麼應用?
OCR (Optical Character Recognition) 中文為「光學字元辨識」,是指用電子裝置對圖片、紙本或影像中的文字進行辨識處理,取得容易存放且管理的數位文字檔案的過程。
OCR技術對於企業的數位轉型有相當大的功勞,現今社會提倡無紙化概念,且用紙本保存貴重資料的舊有形式,已經無法再適用現今瞬息萬變的資訊化腳步,OCR在無紙化轉型之中就扮演了相當重要的角色,除此之外,OCR結合AI還可用於瑕疵檢測、車牌辨識、字跡辨識、自動識檢驗別等。
一般人最常見的OCR應用就是一張圖片上面有文字,但我們只想擷取圖片中的文字該怎麼獲得呢,此時利用OCR技術就能輕鬆獲得文檔。另外像是Google翻譯也是OCR的應用,透過行動裝置鏡頭對物體上的文字進行掃描,並立即翻譯成所需的語言。
OCR的重點
現今許多工作流程都需使用到大量的文字文件,例如業務的名片、報帳的發票、客戶合約等,都涉及紙本文書工作,這在存放上及管理上都有許多限制,您可能想說我可以掃描就好了,但掃描僅是保存「影像檔」,最終我們要建立資料匯入資料庫,還是要使用機器能識別的「文字檔」,此時就能使用到OCR的技術。
舉一個實際的例子,小明的團隊在一次展覽上收到了上千張業務的名片,在展後業務主管要求小明將所有名片都保存下來,並在建立Excel表單後上傳雲端資料庫,小明這下開始煩惱了,這麼多張名片我用人工打字,要加班幾天才打得完阿?這時小華建議他用OCR技術將名片中的客戶資料擷取下來後,大大節省作業時間,也讓資料有更完善的方式保存。
此外OCR也被大量應用在各式各樣的製造業的生產流程之中,在產品線中我們可以利用機器視覺來對產品包裝上的文字打印進行辨識及瑕疵檢測。
OCR在各行業的應用
製造業
在工業4.0的進程中,許多工廠都在朝向智慧製造邁進,而數據電子化工作流程可視為智慧製造中最重要且不可或缺的一環,透過數據電子化能夠打造完整的生產履歷,一步步都完善保存在中央數據庫之中,可供實時追蹤及累積數據,在數據為王的時代這些都將成為企業寶貴的資產,能夠更加容易優化生產線並檢查其中漏洞問題。
食品業
各國政府對於對於食品包裝上資訊的要求趨於嚴格,包裝上的打印文字或生產、有效日期若有誤,很可能面臨鉅額罰款,透過機器視覺搭配進行檢測能夠使製造商追蹤從原料到產品包裝的整個過程,並減少錯誤提高效率,產生所謂的「產品履歷」。
醫療業
醫療業往往分秒必爭,每天需要面對成千上萬的病人,然而處理病患或家屬手寫的醫療病歷或初診資料,可能會使前線人員手忙腳亂,運用OCR技術能夠快速將紙本上的資料轉換為數位文檔,匯入醫院或診所的運端系統,且像是藥罐、藥包上細小的打印字同時也可以透過OCR檢測辨識匯入數據庫,立即匹配病患,為醫療機構建立完善檔案。
金融業
傳統的金融業都是以紙張為主,像是所有的傳支票、月結單、發票、財務報表等,透過OCR技術只要掃描支票和簽名即可輕易核對字跡及簽名,更能將所有繁重的紙本作業快速的數位化,實時建立強大資料庫。
物流業
在物流業中也常常被用來追蹤包裹的條碼、地址等文字,人工手動分撿及輸入資訊容易出錯,速度也更慢,此時用OCR搭配機械手臂等自動化裝置便能大幅提升生產效率。
OCR過程
透過各種光學電子設備將圖像中的文檔轉換為機器可識讀之文字,故影像輸入的解析度越高、越清晰,
對於OCR越有利、正確辨識率越高。
對於OCR越有利、正確辨識率越高。
圖像分割
將圖片進行二值化突顯出文字,再進行降噪及傾斜修正處理。
字元分割
將所有文字、字符、標點都切割出來。
字元細線化
將要辨識的字元線條變細,讓整個文字只剩清楚的骨架結構,來消除文字邊緣可能造成辨識錯誤的模糊區域
文字辨識
透過特徵擷取和模式對比來逕行文字的辨別
特徵擷取
將文字進行細部分解為細小的特徵像是一筆一畫的線條及交叉點,靠著這些特徵去比對最相近的字符。
模式比對
當文字被系統辨識後會用預先建立的文字資料庫去進行比對,進而檢視這個處理後的文字與資料庫中最接近的為何。
經過電腦識別分析所有字後,便產出這次光學字符辨識OCR的檔案。
OCR的不同種類
依據我們的產業需求及應用的不同, OCR技術也被分為下列幾類:
最簡易的OCR軟體
較簡易的OCR軟體便是將各種不同的文字及字型模式來當樣本,用模式比對的方法來比對接收到的文字跟資料庫中樣本是否雷同。
比OCR更加強化的ICR
ICR (Intelligence Character Recognition)智能字元辨識技術是將OCR技術做更強大的延伸,ICR是一種識別手寫文本的技術,但是這種技術也有其侷限性,ICR更擅長識別結構化的手寫字跡,像是每個字必須有均勻的間隔,例如在稿紙上書寫,或是帶有框格的欄位。
比ICR更加強化的IWR
IWR (Intelligence Word Recognition) 智能字詞辨識又比ICR更加延伸,簡單來說,ICR更擅長字元辨識,IWR則能夠對單詞、短語甚至句子來做匹配識別,舉例像ICR能夠辨識”C”、”A”、”T”,但IWR會選擇整個單詞”CAT”,它通過比對互聯網數據庫中的單詞自動糾正拼寫錯誤,並根據整個句子的結構給出模糊匹配。