文 | 中電數據產業集團有限公司黨委書記、總經理 韓光
在人工智能加速演進的背景下,構建全國統一的數據集管理體系成為強化數據要素賦能人工智能發展、深入推進數字中國建設的重要舉措。在國家數據局的統籌部署下,國家數據集管理服務系統正式發布并啟動試運行,不僅為我國高質量數據集集約化管理提供了基礎支撐,也為中央企業數據資產化價值化開辟了新的路徑。
一、國家數據集管理服務系統是服務全國人工智能發展、強化戰略資源管控的基石底座
高質量數據集對人工智能發展的核心驅動作用日益凸顯,并成為各國數據主權與安全治理的關注焦點。國家層面加快構建數據集管理體系,發布上線國家數據集管理服務系統恰逢其時。
從價值角度來看,國家數據集管理服務系統有利于夯實人工智能發展底座、強化數據賦能人工智能創新發展。當前,人工智能研發重點已從“重點優化模型架構”轉向“模型與數據協同優化”。數據集規模進入高速增長階段,國家數據局發布相關數據顯示,截至2026年第一季度,全國已建成高質量數據集超過11.6萬個,總體量超過960PB。數據集質量作為關鍵因素,對人工智能模型精度、訓練效率影響不斷增強。大量行業實踐證明,通過數據質量優化,模型訓練收斂速度顯著加快,迭代次數可減少30%以上。立足數據集“擴容提質”的發展需求,加快構建統一規范的數據集管理體系,將為我國人工智能創新發展奠定堅實基礎。
從安全角度來看,國家數據集管理服務系統有利于強化國家戰略資源管控、筑牢數據安全屏障。全球各主要經濟體紛紛將高質量數據集視為關乎國家安全的戰略資源,不斷強化主權管控與安全治理。2025年,美國發布《贏得AI競賽:美國AI行動計劃》,將高質量數據集定位為“國家戰略資產”,要求對國防、能源、交通等關鍵領域的專用數據集實施嚴格出境管制與安全審查。2026年,英國發布《政府數據集適配人工智能應用指南與最佳實踐》,要求用于AI訓練的政府數據集必須經過安全評估與合規審查。面對全球數據集和人工智能競爭格局,加快構建系統完備的數據集管理體系,已成為維護國家數據主權、防范化解安全風險的重要任務。
二、國家數據集管理服務系統為數據集建設夯實四項關鍵能力
系統上線試運行,將從四方面為主管部門、中央企業等相關主體提供有力的管理和服務支撐。
一是打造“資源管理器”,提升集中匯聚與統籌調度能力。當前,高質量數據集管理面臨資源分散、口徑不一、底數不清等問題,數據管理部門難以全面掌握高質量數據集建設進度、質量狀況、應用成效等動態。系統通過建立標準化的數據集目錄與管理規范,構建“物理分散、邏輯集中”的數據集管理體系,系統性整合全國各類數據集資源,實現不同行業、不同類型、不同格式數據集的歸集與管理,將為數據管理部門統籌協調資源、精準制定政策提供支撐。
二是提供“賦能工具箱”,提升規模生產與高效加工能力。研究機構Epoch AI預測,可供模型訓練的互聯網高質量文本數據或在2028年面臨枯竭。當前,非結構化處理、智能標注、質量核驗等技術工具體系支撐薄弱,難以適配各行業大規模、多模態、高質量數據集的需求。系統聚焦這一問題精準發力,提供專業化工具鏈與質量評測、憑證申領、封裝發布等全流程服務。通過不斷完善“一站式”生產加工支撐能力,將有效降低數據集建設門檻,提升高質量數據集供給水平。
三是搭建“生態聚合場”,提升供需對接與價值轉化能力。當前,高質量數據集供給端存在發布渠道零散、格式標準各異、質量參差不齊等問題,需求端面臨查找效率低、甄別成本高等痛點。系統圍繞“供需對接、生態聚合”定位,依托查詢檢索、需求發布等公共服務能力,構建數據資源與應用場景的精準對接樞紐。系統的全面推廣應用將廣泛集聚數據、技術、服務等各類主體,助力構建良性循環、協同共生、長效賦能的數據產業生態。
四是構筑“安全壓艙石”,提升安全防控與合規保障能力。數據集安全合規風險日益突出,國外未經授權構建訓練集、涉嫌侵犯版權等案例時有發生,國內虛假信息污染訓練數據、引發“數據投毒”等問題亦不容忽視。系統整合實名認證、憑證申領、內容檢測、區塊鏈存證等功能,將有效引導各類主體壓實管理責任,強化數據采集匯聚、加工處理、數據標注等全流程安全管控和合規保障,為高質量數據集建設和流通利用夯實安全合規根基。
三、以國家數據集管理服務系統上線為契機,發揮中央企業引領作用,支撐數據工作再上新臺階
中央企業作為高質量數據集建設的“國家隊”,依托前期積累的數據、技術與場景優勢,依托本系統,可在技術攻關、生態共建、價值挖掘、安全護航上爭取率先突破,全力支撐我國人工智能高質量發展與數字中國建設大局。
一是加強關鍵技術攻關與工具產品研發。集聚中央企業數據領域研發力量,以自主安全和智能高效為導向,重點突破數據合成、智能標注等關鍵技術,加快構建覆蓋數據清洗、增強、標注、對齊、質檢等環節的核心工具鏈,協同打造具有國際競爭力的數據集技術與產品體系。
二是深化企業之間場景與數據生態合作。發揮中央企業高價值場景牽引作用,支持行業龍頭企業與數據科技型企業深化合作,推動高質量數據集在重點行業、關鍵領域深度融合應用。推動企業間數據共享共用,支持“以數換數、聯合開發”等多元合作模式,培育開放協同的數據集產業生態。
三是探索數據集商業化、資產化創新路徑。加強中央企業數據集長效運營機制建設,積極開展供需對接、掛牌交易,構建數據集“生產、測評、流通、應用”商業化價值閉環。在此基礎上,有序推進高質量數據集的數據資產入表,積極探索質押融資等資產化路徑,充分釋放數據集價值潛能。
四是構建全生命周期安全管控體系。中央企業必須站在維護國家安全的戰略高度,面向數據采集、處理、標注、加工、質檢、評測等方面,完善安全管理制度,壓實各級主體責任,推進自主可控、安全可信的數據集技術工具應用,探索建設數據集安全監測體系,全方位筑牢數據集安全防線。
原標題:專家解讀 | 構建數據集管理體系,推動中央企業數據價值與安全雙提升