文 | 國家數(shù)據(jù)發(fā)展研究院院長 胡堅波
行業(yè)高質(zhì)量數(shù)據(jù)集是驅動“人工智能+”賦能千行百業(yè)、支撐產(chǎn)業(yè)落地的戰(zhàn)略性、基礎性資源。國民經(jīng)濟和社會發(fā)展“十五五”規(guī)劃綱要明確指出,要深化拓展“人工智能+”。為此,國家數(shù)據(jù)局印發(fā)《關于推進行業(yè)高質(zhì)量數(shù)據(jù)集建設行動的實施方案》(以下簡稱“方案”),圍繞行業(yè)高質(zhì)量數(shù)據(jù)集供給、流通、應用等關鍵環(huán)節(jié)作出系統(tǒng)部署,為強化數(shù)據(jù)賦能人工智能創(chuàng)新發(fā)展指明方向。
一、錨定人工智能發(fā)展方向,把握數(shù)據(jù)集建設新要求
《方案》強調(diào)要主動順應人工智能發(fā)展范式躍遷,在動態(tài)發(fā)展中持續(xù)釋放數(shù)據(jù)要素價值。當前,“人工智能+”已進入規(guī)模化落地與產(chǎn)業(yè)深耕的關鍵階段,對行業(yè)高質(zhì)量數(shù)據(jù)集建設提出了全新要求。
人工智能技術正加速向各行業(yè)領域滲透,高質(zhì)量數(shù)據(jù)需求呈現(xiàn)爆發(fā)式增長態(tài)勢。一是公域數(shù)據(jù)紅利消退,行業(yè)私域數(shù)據(jù)成為核心資源。互聯(lián)網(wǎng)上公開數(shù)據(jù)的挖掘空間持續(xù)收窄,模型能力的持續(xù)提升須深度挖掘金融、醫(yī)療、工業(yè)等領域積累的專有、非顯性化數(shù)據(jù),行業(yè)高質(zhì)量數(shù)據(jù)集已從補充性資源轉變?yōu)楫a(chǎn)業(yè)發(fā)展剛需。二是通用模型競爭趨同,專有數(shù)據(jù)構建差異化壁壘。通用大模型能力差距不斷縮小,企業(yè)唯有將業(yè)務數(shù)據(jù)與模型深度融合,才能打造具有行業(yè)特色的智能解決方案,數(shù)據(jù)已從單純的訓練原料升級為企業(yè)戰(zhàn)略資產(chǎn)。三是新興技術范式涌現(xiàn),多模態(tài)行業(yè)數(shù)據(jù)需求大幅提升。具身智能、世界模型等新范式需要理解物理世界的空間結構與運行規(guī)律,直接催生了對3D、視頻等多模態(tài)行業(yè)數(shù)據(jù)的規(guī)模化需求,同時對
數(shù)據(jù)采集與標注的質(zhì)量提出了更高標準。
人工智能產(chǎn)業(yè)鏈分工日益精細化、專業(yè)化,數(shù)據(jù)供應鏈體系正在加速構建并走向成熟。一是數(shù)據(jù)服務向知識密集型升級,亟需規(guī)模化專業(yè)供給能力。數(shù)據(jù)標注已從低端重復勞動升級為需要領域專家深度參與的知識型標注,行業(yè)高質(zhì)量數(shù)據(jù)集的建設需要依托專業(yè)化、智能化、體系化的供給平臺。二是應用落地加速推進,要求數(shù)據(jù)集與場景深度融合。人工智能已進入以應用為導向的發(fā)展新階段,數(shù)據(jù)集建設須緊貼實際業(yè)務需求進行規(guī)劃設計,推動數(shù)據(jù)從“自產(chǎn)自用”向按需流通、精準對接轉變,實現(xiàn)數(shù)據(jù)供給與產(chǎn)業(yè)應用的良性互動。三是數(shù)據(jù)要素市場化提速,亟需構建完善的價值生態(tài)體系。行業(yè)高質(zhì)量數(shù)據(jù)集已從模型附屬品轉變?yōu)榭闪鬓D、復用和交易的生產(chǎn)要素,要加快建立數(shù)據(jù)交易、資產(chǎn)化評估、利益分配等機制,培育數(shù)據(jù)經(jīng)紀等新興市場業(yè)態(tài)。
人工智能治理正告別粗放模式,進入以質(zhì)量和效益為核心的規(guī)范化發(fā)展時期。一是數(shù)據(jù)使用從粗放走向規(guī)范,亟需明確權益邊界。長期以來,人工智能模型對數(shù)據(jù)的使用存在權利邊界模糊、權益保障不足等問題,隨著產(chǎn)業(yè)走向成熟,須建立健全數(shù)據(jù)持有、使用、經(jīng)營等環(huán)節(jié)的權益保障機制,為產(chǎn)業(yè)可持續(xù)發(fā)展奠定制度基礎。二是人工智能安全風險源頭在數(shù)據(jù),須筑牢倫理公平底線。人工智能模型的價值偏好與訓練數(shù)據(jù)高度相關,數(shù)據(jù)中潛藏的偏見、歧視和有害信息會被模型放大并帶來社會風險,需要將倫理規(guī)范和公平普惠要求貫穿數(shù)據(jù)集建設全流程。三是人工智能治理體系正從碎片化走向系統(tǒng)化,需建立全生命周期數(shù)據(jù)管理體系。當前數(shù)據(jù)集建設存在統(tǒng)籌規(guī)劃不足、標準不統(tǒng)一、治理能力滯后等問題,需加快構建覆蓋數(shù)據(jù)采集、標注、流通、使用全流程的管理體系,以科學規(guī)范的治理保障人工智能產(chǎn)業(yè)發(fā)展行穩(wěn)致遠。
二、堅持問題導向,體系化推進六大專項行動
《方案》以支撐人工智能技術規(guī)模化落地為核心目標,聚焦產(chǎn)業(yè)發(fā)展最迫切、最關鍵的重點領域,系統(tǒng)部署六大專項行動,加快構建數(shù)據(jù)要素與人工智能深度融合、協(xié)同演進的產(chǎn)業(yè)共生生態(tài)。
一是實施強基擴容行動,推動行業(yè)高質(zhì)量數(shù)據(jù)集規(guī)模化供給。實現(xiàn)規(guī)模化供給是高質(zhì)量數(shù)據(jù)集賦能人工智能技術創(chuàng)新和應用的基礎條件,為此,要從覆蓋領域、建設模式、行業(yè)協(xié)同、前沿技術需求等方面協(xié)同發(fā)力。為解決重點行業(yè)領域數(shù)據(jù)集覆蓋廣度和深度不足問題,《方案》聚焦19個重點領域和5個創(chuàng)新領域,加快推進數(shù)據(jù)集建設。針對建設應用尚未形成成熟可復制的通用模式,《方案》以應用需求為牽引,以先行先試工作為抓手,打造標桿示范場景,打通數(shù)據(jù)集建設到業(yè)務應用閉環(huán)。面對行業(yè)數(shù)據(jù)孤立分散痛點,著重發(fā)揮鏈主單位頭雁作用,帶動上下游協(xié)同共建與資源整合,做大行業(yè)供給底盤。為順應智能體、具身智能、世界模型等前沿技術數(shù)據(jù)需求,《方案》緊跟技術躍遷趨勢,加快推進相關方向的數(shù)據(jù)集建設,為人工智能技術跨越突破提供堅實支撐。同時,《方案》鼓勵強化與國家數(shù)據(jù)基礎設施建設有機聯(lián)動,逐步推動數(shù)據(jù)集從分散持有向集約化、標準化供給轉變。
二是實施標注攻堅行動,推動數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展。數(shù)據(jù)標注是將行業(yè)知識注入到數(shù)據(jù)集的關鍵環(huán)節(jié),直接決定人工智能模型的行業(yè)適配能力。針對當前標注產(chǎn)業(yè)低端化問題,《方案》明確推動標注模式向“人機協(xié)同”與“專家標注”全面升級。面對標注企業(yè)小散弱、產(chǎn)業(yè)培育模式尚未成熟的現(xiàn)狀,《方案》支持有條件地區(qū)開展試驗區(qū)建設,帶動產(chǎn)業(yè)鏈上下游協(xié)同集聚,培育一批具有核心競爭力的數(shù)據(jù)標注龍頭企業(yè)。針對標注人才結構失衡、職業(yè)發(fā)展路徑不清、崗位認同感低的問題,《方案》將人才建設作為產(chǎn)業(yè)發(fā)展根本支撐,擴大專業(yè)人才供給,完善技能等級認定與分層分類人才評價體系,暢通職業(yè)上升通道,增強行業(yè)吸引力。
三是實施提質(zhì)增效行動,打造人工智能就緒的高質(zhì)量數(shù)據(jù)集供給體系。針對當前數(shù)據(jù)建設普遍存在效率低下、標準不統(tǒng)一、質(zhì)量難保障等痛點,《方案》按照“技術筑基、標準引領、測評把關”的思路推進數(shù)據(jù)集建設提質(zhì)增效。攻堅數(shù)據(jù)采集、標注、處理全流程自動化工具與關鍵技術,發(fā)展合成數(shù)據(jù),提升數(shù)據(jù)生產(chǎn)效率,破解數(shù)據(jù)獲取難、建設成本高的瓶頸。加快構建國家、地方、行業(yè)聯(lián)動的數(shù)據(jù)集標準體系,統(tǒng)一格式、標注等建設規(guī)范。創(chuàng)新“數(shù)據(jù)質(zhì)量驗證+模型應用反饋”的測評機制,推行統(tǒng)一測評方案與工具,實現(xiàn)“一次測評、全國互認”,為數(shù)據(jù)流通筑牢質(zhì)量根基。
四是實施應用賦能行動,以場景建設牽引數(shù)據(jù)集價值釋放。應用落地是檢驗數(shù)據(jù)要素價值的最終標準,只有深度融入實體業(yè)務,數(shù)據(jù)才能轉化為現(xiàn)實生產(chǎn)力。當前,真實業(yè)務場景中產(chǎn)生的人機交互數(shù)據(jù)正成為驅動人工智能能力躍遷的關鍵,但多數(shù)行業(yè)尚未形成數(shù)據(jù)與應用相互促進的良性循環(huán)。《方案》以“人工智能+”應用為牽引,推動數(shù)據(jù)與產(chǎn)業(yè)需求精準對接。建立雙向賦能機制,以模型應用牽引數(shù)據(jù)供給,以數(shù)據(jù)推動模型持續(xù)迭代。同時,打造一批數(shù)據(jù)賦能工場和數(shù)據(jù)賦能智能體標桿工程與典型案例,為人工智能落地應用提供可復制的實戰(zhàn)樣板。
五是實施管理服務行動,構建統(tǒng)籌發(fā)展與安全的數(shù)據(jù)集管理體系。《方案》堅持發(fā)展與安全并重,全面推進數(shù)據(jù)集建設體系更加規(guī)范有序。針對當前數(shù)據(jù)集建設缺乏統(tǒng)籌,低水平重復建設的問題,依托國家數(shù)據(jù)集管理服務系統(tǒng)統(tǒng)籌行業(yè)數(shù)據(jù)集資源,實現(xiàn)全局數(shù)據(jù)互聯(lián)互通。同時,為保障數(shù)據(jù)安全,《方案》探索運用隱私計算等技術,構建覆蓋數(shù)據(jù)全生命周期的追溯體系,確保各環(huán)節(jié)數(shù)據(jù)可管可控,并將倫理規(guī)范與公平要求貫穿數(shù)據(jù)集建設全流程,從源頭防范人工智能安全風險。針對數(shù)據(jù)權益邊界模糊痛點,落實數(shù)據(jù)持有、使用、經(jīng)營三權分置制度,平衡權益保護與創(chuàng)新活力。
六是實施價值釋放行動,打通數(shù)據(jù)集資產(chǎn)化商業(yè)化全鏈路。當前數(shù)據(jù)集仍面臨價值難量化、商業(yè)模式單一、市場付費意愿不足等堵點。《方案》按照“產(chǎn)品化、資產(chǎn)化、市場化”路徑破解數(shù)據(jù)價值釋放難題,培育“為優(yōu)質(zhì)數(shù)據(jù)買單”的市場共識。探索以詞元(Token)為基礎的價值體系,建立健全利益分配機制,推動數(shù)據(jù)交易從基礎數(shù)據(jù)包交易向API調(diào)用、按需訂閱等高附加值形態(tài)升級。針對數(shù)據(jù)資產(chǎn)屬性難以確權和變現(xiàn)的問題,開展數(shù)據(jù)資產(chǎn)盤點、登記與評估等試點工作,創(chuàng)新數(shù)據(jù)質(zhì)押融資、作價入股等資產(chǎn)化模式,讓無形的數(shù)據(jù)轉化為有形資產(chǎn)。
三、完善支撐體系,保障各項行動落地見效
行業(yè)高質(zhì)量數(shù)據(jù)集建設是一項跨部門、跨領域、跨主體的系統(tǒng)工程,涉及多方協(xié)調(diào)和資源整合。為此,《方案》構建了完善的支撐體系,確保各項任務扎實推進、落地見效。
一是強化統(tǒng)籌協(xié)調(diào),構建高效協(xié)同的推進機制。建立“部門協(xié)同、領域聯(lián)動”工作格局,國家層面強化頂層設計和統(tǒng)籌管理,依托國家數(shù)據(jù)集管理服務系統(tǒng),持續(xù)跟蹤建設情況,定期總結建設經(jīng)驗。各地落實屬地管理責任,結合實際制定配套措施,加大組織實施力度。各類市場主體以應用需求為牽引,聚焦重點行業(yè)和關鍵領域開展數(shù)據(jù)集建設,積極參與行業(yè)協(xié)同共建。
二是優(yōu)化產(chǎn)業(yè)發(fā)展環(huán)境,充分激發(fā)市場活力。鼓勵各類主體在依法依規(guī)、風險可控的前提下開展創(chuàng)新探索。構建政府引導、市場主導的多元化投入機制。引導金融機構、耐心資本、產(chǎn)業(yè)基金加大投入力度,支持重點領域數(shù)據(jù)集建設。鼓勵地方設立專項基金,為產(chǎn)業(yè)發(fā)展提供持續(xù)穩(wěn)定的資金支持。
三是嚴守數(shù)據(jù)安全底線,筑牢全流程防護屏障。落實數(shù)據(jù)安全相關法律法規(guī),建立全流程安全治理機制。強化技術防護手段,重點防范數(shù)據(jù)投毒與污染、數(shù)據(jù)泄露等安全風險。確保在安全可控的前提下推進數(shù)據(jù)要素流通應用,為人工智能產(chǎn)業(yè)健康發(fā)展保駕護航。
原標題:專家解讀 | 體系化推進行業(yè)高質(zhì)量數(shù)據(jù)集建設行動 強化數(shù)據(jù)賦能人工智能創(chuàng)新發(fā)展