上海2023年12月14日 /美通社/ -- 在大模型訓練過程中,許多專業領域知識是基于書籍等紙質文檔的形式記錄的,常見于教材、期刊論文、特定學科研究等。例如工業、教育等涉及到專業領域的行業應用,大量需要訓練的數據沉淀在紙質版上亟待利用。
澳鵬Appen全新推出文檔智能識別接口,可將圖片、不可編輯的PDF等文檔一鍵識別轉換成可編輯的Word或Markdown格式,方便對其中數據作進一步利用。接口支持識別文檔中不同模態的數據,如文本、插圖、公式、表格等,并支持對不同版面進行識別和還原。
在大模型的訓練過程中,許多企業或行業數據沉淀在不可編輯的PDF、甚至是紙質文檔中。若要將這些數據利用起來,無論是用作基礎大模型的訓練數據,還是用于RAG或微調,都需要先轉化成可編輯的文檔格式。
這些文檔包含的內容有文本、表格、公式、插圖等內容,現有的內容識別技術大多只能識別文字,而對其他形態的內容無法進行識別和轉換。若要開發一個能識別所有格式內容的算法,其研發成本往往較高,識別速度和準確率亦無法得以保證。
澳鵬一站式文檔智能識別解決方案集成了多種算法能力:首先使用版面識別算法,可識別出PDF中每一頁的內容類型,包括文本、表格、公式、插圖等;如頁面中包含多種內容,則將每個獨立的內容塊截取出來;再根據內容塊的內容類型,調用不同的識別算法,包括文本識別算法、表格識別算法、公式識別算法等。
識別完成后再將內容拼接到一個文檔中,可還原成原始版面。同時,澳鵬也提供人工復核服務,進一步提升識別準確率。
在實際應用中,澳鵬一站式文檔智能識別解決方案的優勢主要包括:
-高效率低成本:使用澳鵬文檔智能識別處理文檔時,一個上百頁的PDF只需耗時數分鐘即可完成,遠快于人工轉寫;可批量處理大量文件,降低人力成本。
-高安全性:無需企業外部人員參與文檔內容轉寫過程,降低了敏感數據泄露的風險。
-易于集成:澳鵬文檔智能識別方案可與企業現有的業務流程和系統集成,自動輸入、輸出數據。
助力高科技企業開發行業大模型,澳鵬一站式文檔智能識別解決方案能夠對專業細分學科數據進行結構化處理,將沉淀在紙質版、PDF等形態的數據應用于大模型訓練中,幫助企業自動化地將各種類型的文檔轉化為結構化數據,為高效訓練行業大模型賦能。