• 首頁
  • 關於國際
  • 雲知聲Unisound U1-OCR大模型發布!首個工業級文檔智能基礎大模型,開啟OCR 3.0時代

雲知聲Unisound U1-OCR大模型發布!首個工業級文檔智能基礎大模型,開啟OCR 3.0時代

Admin
Admin 二月 26, 2026 0

北京2026年2月26日 /美通社/ — 就在剛剛,雲知聲正式推出「Unisound U1-OCR」 文檔智能基礎大模型。作為首個工業級文檔智能基座,該模型憑借 「性能 SOTA、可信可驗、開箱即用、高效部署、強適配」 五大核心優勢,打破傳統文檔處理邊界,樹立起行業新標杆。

一、技術跨越:從 OCR 2.0 邁向 3.0

文檔智能(Document Intelligence是指利用人工智能技術自動閱讀和理解文檔影像,並進行內容的讀取、理解、分類及關鍵信息提取。傳統視覺方案(OCR 1.0,以 CRNN 為代表)僅能識別文字,新一代多模態方案(OCR 2.0,以VLM為代表 )具備初步版面理解能力。而 「Unisound U1-OCR」 則正式開啟 OCR 3.0 時代——在理解版面的基礎上,進一步洞察文檔深層語義,實現自動分類與業務級信息抽取,完成了從「字符感知」到「文檔認知」的質的飛躍。

二、實力領跑:多項權威評測穩居全球第一梯隊

「Unisound U1-OCR」是一款達到國際頂尖水平(SOTA)的文檔智能理解模型,其核心優勢在於突破了傳統模型「只讀文字、不懂排版」的瓶頸,能夠像人類專家一樣「看懂」複雜文檔。為適應 OCR 3.0 時代對於文檔業務級結構化抽取的新要求,Unisound U1-OCR 采用 ViT + LLM 架構,其中視覺編碼器部分采用 NaViT 架構,實現文檔分辨率動態處理,模型參數規模 3B 量級,兼顧模型計算效率與文檔深層語義信息理解的能力要求。除此之外,模型還提出了多項創新舉措:

首先,它擁有「先懂結構,再讀內容」的智慧。傳統模型往往按順序死板閱讀,而「Unisound U1-OCR」首創了「語義驅動+動態聚焦」策略。如同人類閱讀習慣,先梳理文檔目錄、標題的層級關系,再按需提取內容。模型能自動構建文檔的「語義地圖」,精准識別標題、圖表與正文的從屬關系,即使面對排版混亂的極端場景,也能條理清晰地提取信息。

其次,它具備敏銳的「空間感知力」。通過強化空間對齊模塊,模型能充分利用文字在頁面上的位置信息,主動理解元素間的空間布局。結合動態分辨率技術,無論是密集表格還是圖文混排,它都能精准還原文檔結構,徹底解決了以往模型「張冠李戴」的空間盲區。

此外,模型采用Multi-Token Prediction(MTP)技術——在預測當前 Token時,同步考慮未來多個Token的概率分布,大幅提升長文檔邏輯連貫性。配合全任務強化學習策略,增強模型對版式結構的全局預見性並在推理階段將模型生成效率提升了80%以上。在訓練階段,采用多任務協同強化訓練方案,實現文檔結構還原、文檔分類與信息抽取的深度對齊。強化訓練策略圍繞「語義+坐標」雙目標優化,針對坐標回溯的 IoU 精度進行專項強化,有效遏制定位幻覺,確保輸出結果的物理可信度。通過多檔位分辨率擾動與Mask采樣策略,顯著提升了模型多場景文檔圖像的理解能力。

憑借這些創新,Unisound U1-OCR在多項權威測試中均獲業界SOTA表現,真正實現了從「識別文字」到「理解文檔」的跨越。

1. OmniDocBench V1.5評測SOTA

在OmniDocBench V1.5評測中,Unisound U1-OCR以95.1分取得SOTA表現(如圖1),領先GLM-OCR,Deepseek-OCR2,Gemini-3-Pro,GPT-5.2等主流模型,實現了精度與泛化能力的雙重突破。

圖1Unisound U1-OCR在OmniDocBench V1.5的評測得分對比
圖1Unisound U1-OCR在OmniDocBench V1.5的評測得分對比

2. D4LA評測SOTA

在D4LA評測中, F1 分數達 90.8,大幅領先 DocLayout-YOLO(87.3)、PP-StructureV3(86.0)。無需微調即可高精度解析學術論文、財務報表等 11 類高複雜度文檔。

3. DocLayNet評測SOTA

DocLayNet評測中,F1 分數 95.9,超越 MinerU 2.5、PP-StructureV3 等模型。在表格識別、跨頁關聯、微小文本檢測等高難任務上優勢顯著,魯棒性極強。

4. 業務相關評測SOTA

在內部業務測試,其信息抽取與文書分類能力超越 Gemini-2.5-Flash、Qwen-235B-VL 等主流通用商業和開源模型。特別是在醫療入院記錄、出院小結等強業務場景中,領先優勢尤為明顯,Unisound U1-OCR 以 3B 規模的參數獲得比更大規模通用 VLM 更好的評測性能。與較小尺寸的文檔解析任務模型相比,得益於模型多項創新舉措,在業務級信息抽取等深層語義信息理解的能力表現更好。

三、面向真實場景:4大核心能力助推U1-OCR從「讀懂」邁向「執行」

作為開  啟OCR 3.0時代的文檔智能基礎大模型,除了在通用評測中斬獲多項SOTA,Unisound U1-OCR更立足工業級場景需求,打造了四大核心能力,實現從讀懂執行的業務落地。

1. 可信可查:精准溯源,結果可驗

模型獨創「坐標-文本-語義」融合架構,實現像素級精准定位與完整證據鏈構建。在完成信息抽取的同時,系統精准標示信息在文檔中的來源位置,使結果審核過程全透明、可追溯,從技術層面保障文檔處理結果的可信度,徹底解決傳統文檔處理「結果不可驗」的行業難題。

例如,在企業審核場景中,審核人員無需大海撈針般翻閱原文,點擊抽取結果即可實時高亮定位原始位置。這種「人機協同」的閉環將審核耗時縮短至秒級,讓人工漏檢率降至最低,真正實現了「可信任的AI」。

2. 業務融合:開箱即用,Agent Ready

通用OCR工具在專業領域存在局限——例如醫保結算單中「自付一」「自付二」與「個人自費」的邏輯關系,或合同中金額大小寫的校驗規則,都需要領域知識支撐。

Unisound U1-OCR在基礎模型之上,融入了雲知聲在醫療、金融等領域的行業知識積累,模型可基於業務邏輯進行多字段關聯校驗。在內部業務測試中,面向50餘種常見業務文書的分類准確率超過99%。

3. 高效部署,安全可控

模型深度支持私有化與離線部署,可在無外網環境下穩定運行,完美匹配政務、醫療、金融等高安全等級行業的數據隱私保護需求。同時,通過版面級並行解碼與多Token預測架構等優化措施,一份十多頁的文檔,整理處理可在數秒內完成,高效的文檔處理能力,讓工業級文檔智能能力觸手可及。

4. 超強適配,攻克複雜場景

針對企業實際業務中遇到的非標准拍照、文檔彎折模糊、複雜花式排版、多語言混排等各類極端複雜文檔場景,Unisound U1-OCR仍能保持穩定、高精度的處理表現,徹底擺脫傳統技術對標准化文檔的依賴,真正適配企業真實業務的全場景需求。

關於國際

查看更多
Milliken & Company 發佈《2025 年可持續發展報告》

南卡羅來納州斯帕坦堡2026年4月18日 /美通社/ — Milliken & Company 發佈《2025 年可持續發展報告》(2025 Sustainability Report),詳述公司在人員、環境及商業操守方面的進展,此乃公司連續第八年編製可持續發展報告。 Milliken 發佈《2025 年可持續發展報告》,詳述公司在人員、環境及商業操守上的進展,此乃公司連續第八年編製可持續發展報告。 2025 年,Milliken 在員工安全表現上持續提升,安全嚴重率較去年下降 39%,因工傷損失的工作天數亦減少 39%,盡顯公司對安全管理系統及員工參與的持續投資。 創新仍是公司可持續發展策略的重心,當中包括在用於消防員防護的不含全氟/多氟烷基化合物 (PFAS) 布料,以及地板重用計劃方面取得進展。 Milliken 董事長兼行政總裁 Halsey Cook 表示:「可持續發展乃 Milliken 的核心價值,2025 年我們的全球團隊繼續將此承諾付諸行動。 從提升安全保障到推進負責任的創新,我們致力建構更強大、更穩健的企業,同時為世代帶來正面影響。」 報告亦披露了 Milliken 在科學基礎溫室氣體排放目標上的表現,這些目標已獲科學基礎減量目標倡議 (Science Based Targets initiative, SBTi) 所確認。 公司以 2018 年為基準,將絕對的範圍 1 及範圍 2 溫室氣體排放量降低了 47%,同時透過供應商參與、提升產品層面數據及循環經濟方案,持續推動減少範圍 3 排放。  近年,Milliken 在淘汰煤炭、提升能源效益及使用可再生能源電力方面,投入了超過 3,500 萬美元。  透過數碼工具,生命週期評估的範圍進一步擴大,讓客戶能夠作出更具數據基礎的產品決策。 Milliken 的《2025 年可持續發展報告》收錄了經獨立核實的溫室氣體排放數據,以及符合氣候相關財務披露工作小組 (TCFD) 標準的氣候相關財務披露。 Milliken 執行副總裁、法務總監兼可持續發展主管 Kasel Knight 指出:「強大管治和可靠數據,對把可持續發展承諾變成實際影響力而言十分重要。 報告體現我們一直以來的工作,憑著所需的紀律、系統及問責機制,以達致透明、管理風險及推動持續改進。」 Milliken 在負責任商業行為及嚴謹管治方面的承諾,繼續得到第三方組織的肯定。 2025 年,公司連續第四年榮獲 EcoVadis 金獎評級,並連續第 19 年獲選為全球最具商業道德企業 (World’s Most Ethical Companies®)。 完整報告及其他披露內容載於 milliken.com。 關於 MillikenMilliken 利用材料科學,將未來的突破帶到當下。 請瀏覽 milliken.com 及關注我們的 Facebook、Instagram 和 LinkedIn 專頁,探索我們創新的紡織品、地板、專用化學品和醫療保健解決方案產品組合。

Admin 四月 18, 2026 0

螞蟻國際、國際金融公司、GCash首創可持續發展影響計分卡,助力中小微企業獲得可持續融資

BingX 推出 SpaceX IPO 前資產的鏈上交易機制,進一步拓展未來高價值資產布局

INS新樂園榮登DJ Mag全球百大俱樂部第12名 創中國俱樂部歷史最高排名,亞洲新晉榜第一

Bank of America 公布 2026 年第一季財務業績

北卡羅來納州夏洛特2026年4月16日 /美通社/ — Bank of America 於今天公佈了 2026 年第一季的財務業績。 有關新聞稿、補充文件及投資者簡報,均可於 Bank of America 的投資者關係網站 https://investor.bankofamerica.com/quarterly-earnings 上瀏覽。 載有 Bank of America 財務業績的 8-K 表格,亦可在美國證券交易委員會 (U.S. Securities and Exchange Commission) 的網站 https://www.sec.gov 上找到。 投資者電話會議資訊主席兼行政總裁 Brian Moynihan 以及執行副總裁兼財務總監 Alastair Borthwick,將在美國東部時間今日上午 8:30 舉行的投資者電話會議上 討論財務業績。 若要使用只收聽模式加入電話會議,請致電 1.877.200.4456(美國)或 1.785.424.1732(國際),會議 ID 為 79795。 請在會議開始前 10 分鐘撥打。 投資者可瀏覽公司投資者關係網站的「活動與簡報」頁面,即時收聽電話會議音訊,並瀏覽簡報投影片。 投資者電話會議重播資訊投資者可以在美國東部時間 4 月 15 日中午至 4 月 24 日晚上 11:59,透過瀏覽投資者關係網站或撥打 1.800.934.4850(美國)或 1.402.220.1178(國際) 收聽電話會議重播。  Bank of AmericaBank of America 是全球頂尖的金融機構,為個人客戶、中小企及大型公司提供全方位的銀行、投資、資產管理等金融及風險管理產品與服務。 公司在美國提供無可比擬的便捷服務,擁有約 3,500 間零售金融中心、約 15,000 部自動櫃員機 (ATM),以及屢獲殊榮、約有 5,900 萬名已認證數碼用戶的數碼銀行服務,服務近 7,000 萬名客戶。 Bank of America 於財富管理、企業與投資銀行業務,以及橫跨多種資產類別的交易領域中皆佔據全球領導地位,為世界各地企業、政府、機構及個人客戶提供服務。 Bank of America 提供一系列簡單易用的創新網上產品與服務,為約 400 萬個小型企業客戶提供業界領先的支援。 公司透過在美國、美國領地及超過 35 個國家的業務營運,為客戶提供服務。 Bank of America Corporation 的股票 (NYSE: BAC) 在紐約證券交易所掛牌上市。 如欲了解更多有關 Bank of America 的最新消息,包括股息公告及其他重要資訊,歡迎到訪 Bank of America 新聞中心,並登記接收新聞電郵通知。 投資者可聯絡 Lee McEntire,Bank of America電話:1.980.388.6780lee.mcentire@bofa.com Jonathan G. Blum, Bank of America(固定收益部)電話:1.212.449.3112jonathan.blum@bofa.com 記者可聯絡 Jocelyn Seidenfeld,Bank of America電話:1.646.743.3356jocelyn.seidenfeld@bofa.com

Admin 四月 16, 2026 0

邁衛健®(地舒單抗注射液)新適應症補充申請獲NMPA受理

Bybit P2P超級大促再度來襲 參與即享好禮

Games of the Future 2026 的最終資格賽將於 6 月在阿斯塔納舉行

Zetrix攜手CAICT 旗下 Astron 推出基於區塊鏈的 AI 信任層,面向AI代理生態系統

全新平台「Avatar」旨在為 AI 代理建立可驗證的身份與憑證體系,並開放其對數字資產的訪問權限,從而推動智能體經濟的發展 香港2026年4月15日 /美通社/ — Zetrix AI Berhad(「Zetrix AI」)與中國信息通信研究院(「CAICT」)於14日共同發佈一項全新倡議,推出基於區塊鏈的人工智能代理信任協議,並將其定位為新興「智能體經濟」的關鍵基礎設施。在這一新型經濟形態中,AI系統將能夠代表個人與企業互動、交易與溝通。 Zetrix AI 首席人工智能官與 Avatar 架構設計者 CZ Wong 在香港舉行的世界互聯網大會亞太峰會上介紹該平台為一項基於區塊鏈的信任層,旨在為 AI 代理建立可驗證的身份 在香港舉行的世界互聯網大會亞太峰會上,該平台「Avatar」(http://avatar.inc)正式亮相。該平台允許個人與企業創建具備自主能力的AI 「數字分身」,這些分身可基於用戶的個性、偏好、知識背景及溝通風格進行訓練。隨後,這些代理可在具備可驗證身份層的基礎上,與用戶、其他 AI 代理及各類線上系統進行交互,並調用相關憑證或數字資產以完成各類任務。 這項聲明發佈之際,企業正逐步從傳統聊天機器人邁向更具自主性的智能系統,這些系統能夠進行協商、協同、執行工作流程,並在數字環境中代表用戶行動。Avatar通過提供信任協議來實現這一點,用以驗證代理所代表的身份、其被授權執行的權限範圍,以及其所使用的資產或憑證是否真實有效。 Avatar採用混合式 OpenClaw 與管道架構,並整合 Astron 與 Zetrix 區塊鏈,旨在讓 AI 代理能夠調用可驗證的各類憑證,包括身份信息、專業資質及數字資產。同時,平台亦將引入經 CAICT 認證的安全框架,並設立開放式 AI 代理任務商店,供第三方開發者發佈各類專業 AI 代理。 中國信息通信研究院Astron副總裁有曉宇先生表示:「由區塊鏈賦能的 AI 代理,將成為下一代自主數字交互的信任基礎。當AI代理開始代表個人與企業執行任務時,其安全可靠的執行能力將成為不可妥協的前提。」 Avatar不只是普通的 AI 助手,而是為新型互聯網活動而打造的基礎設施。其核心在於建立一種可信的機器驅動交互機制,使人與企業能夠與自主軟件代理在可驗證的框架下進行協作與互動。 開發Zetrix 第一層公共區塊鏈的 Zetrix AI 集團董事經理黃天順表示:「代表個人或企業的 AI代理,預示著新一輪智能體任務浪潮的興起。在這一過程中,必須明確交易對象的身份,並能夠獲取完成任務所需的可驗證憑證或數字資產。」 在展示環節中,Zetrix AI 首席人工智能官與 Avatar 架構設計者 CZ Wong 進一步描繪了具備自主能力的 AI 數字人將擁有以下交互模式。 對於企業高管及專業人士,該公司設想數字人可用於新員工入職培訓、解答戰略層面的關鍵問題,並在一定程度上延續與保存組織知識,突破人力在時間與精力上的限制。 對於公眾人物及名人而言,這些數字人則可用於大規模處理粉絲互動及商業溝通,實現同時進行成千上萬次個性化交流,而無需本人親自參與。 對於內容創作者與網紅群體,Zetrix AI 認為 Avatar 將成為一種 AI 原生變現引擎,使用戶能夠將自身專長進行產品化,運營付費社群,提供個性化教學內容,並在遠超實時人力所能覆蓋的範圍內拓展商業影響力。 對於企業而言,這一構想更具顛覆性,即從傳統靜態網站轉向自主企業 AI 代理模式。這類AI代理可以主動尋找潛在客戶,依據不同客群特徵調整溝通內容,並持續開展更精準、更個性化的互動與觸達。 對於消費者而言,該平台則指向更個人化的願景:打造一個基於用戶個人知識與偏好訓練而成的「超級智能分身」,協助用戶完成任務。Zetrix AI 表示,這項能力未來甚至可能演變為一種可驗證的數字傳承形式,讓後代在有關用戶不再參與的情況下,仍能與其持續存在、知識豐富的數字分身進行互動。 最具深遠影響的機遇,或許在於AI代理之間的互動(A2A)。在這一模式下,用戶的 Avatar可在無需即時人工介入的情況下,與其他經過驗證的 Avatar 直接進行談判、協作、信息交換及交易。Zetrix AI 表示,其區塊鏈將在這類機器對機器交互中,承擔信任、身份認證及結算層的關鍵角色。 該戰略的核心組成部分之一,是平台的AI代理商店,第三方開發者可在其中上傳各類專用AI代理,供其他用戶使用。這些AI代理可結合用戶憑證執行特定任務,而開發者也可申請 CAICT 安全認證,以提升在企業及機構中的採用率。 這一舉措凸顯出業界正日益重視區塊鏈驗證機制與 AI 自主能力的融合。在開放式 AI 生態快速擴張之際,外界對身份冒用、權限濫用、模型幻覺,以及缺乏可信身份基礎設施等問題的擔憂持續升溫。 Zetrix AI 相信,在下一階段互聯網演進中,可信代理基礎設施的重要性,或將如同第一代互聯網時代的網站、以及第二代互聯網時代的移動應用程序一樣關鍵。如果這一判斷成立,那 Avatar不僅僅是一項新產品發佈,更是對未來 AI 經濟的一項前瞻性佈局:這一經濟體系將需要一個信任層,而區塊鏈有望承擔這一角色。 關於 Zetrix AI Berhad Zetrix AI Berhad(「Zetrix AI」,前稱 MY E.G. 服務有限公司)正引領區塊鏈技術與人工智能在東盟地區公共與私營部門的應用。Zetrix AI 總部位於馬來西亞,自 2000 年起便作為電子政務服務及相關商業解決方案的先驅。如今,Zetrix AI 已躍升為區域技術變革的先鋒,依托其第一層公共區塊鏈平台 – Zetrix,融合 Web3、人工智能與機器人技術,提供高效、智能且安全的跨境交易、數字身份互通及自動化解決方案,實現個人、企業與政府的無縫互聯。 關於 Zetrix Zetrix 是第一層公共區塊鏈,支持智能合約的運行,並提供隱私性、安全性與可擴展性。其加密基礎設施可應用於多個行業,用於連接政府、企業與公眾,接入全球區塊鏈經濟體系。Zetrix 由 Zetrix AI Berhad(前稱 MY E.G. 服務有限公司)開發,通過與中國的跨境及跨鏈整合,使其能夠作為區塊鏈門戶,推動全球貿易發展,並部署如基於區塊鏈的身份標識(BID)與可驗證憑證(VC)等 Web3 服務的關鍵構建模塊。 關於中國信息通信研究院(CAICT) 中國信息通信研究院(「CAICT」)成立於 1957 年,是中華人民共和國工業和信息化部(MIIT)直屬的科研機構。多年來,CAICT秉持「厚德載業、創新發展」的理念,定位為「政府高端智庫與產業創新發展平台」。作為信息社會創新發展的智庫與推動者,CAICT 在國家信息通信產業的發展過程中,為重大戰略、規劃制定、政策研究、測試評估及認證體系提供了有力支撐,成為推動中國信息通信領域跨越式發展與創新的重要力量。迄今已榮獲多項國家級及省部級科技獎項。 近年來,為適應新的生態社會背景和需求,CAICT 持續加大創新力度,拓展並深化其科研佈局。該院在在 4G、5G 及 6G、工業互聯網、智能製造、移動互聯網、物聯網(IoT)、車聯網(IoV)、雲計算、大數據、區塊鏈、人工智能(AI)、未來網絡、虛擬現實與增強現實(VR/AR)、智能硬件以及網絡與信息安全等領域開展了系統性研究與前瞻性規劃。基於此,CAICT 在信息通信產業相關的戰略與政策研究、技術創新、產業發展以及國際合作等方面發揮著重要作用,並積極推動工業化與信息化的深度融合。

Admin 四月 15, 2026 0

德明利亮相2026環球資源香港展,以全棧AI存儲方案賦能消費電子多場景應用

Les Mills 推出突破性紀錄片系列,尋找全球頂尖健身教練

主賓國為加拿大,全球超3400個品牌參展—-第六屆中國國際消費品博覽會在海南啟幕

0 Comments