訂閱
糾錯
加入自媒體

垂直大模型的第一關:把數(shù)據(jù)“煮熟”

來源 | 零壹智庫

國家電子計算機質(zhì)量檢驗檢測中心專家:

垂直大模型的第一關:把數(shù)據(jù)“煮熟”

在應用上下功夫,被很多人認為是中國大模型超車的捷徑。應用就要落腳到各個行業(yè)和場景,也就是垂直大模型。但是做垂直模型也面臨著很多難關。

“很多行業(yè)缺乏權威統(tǒng)一的標準規(guī)范,缺少工作依據(jù),特別是金融行業(yè),雖然有很多部門和政府都在嘗試做,但還未形成統(tǒng)一的數(shù)據(jù)治理標準。”國家電子計算機質(zhì)量檢驗檢測中心(以下簡稱“國家計算機質(zhì)檢中心”)專家認為,這是發(fā)展垂直大模型要過的第一關,否則都將是無米之炊。

2024年8月16日,在零壹智庫與蘇州高鐵新城產(chǎn)業(yè)發(fā)展有限公司聯(lián)合舉辦的“金融數(shù)智化系列研討會之:金融大模型的機遇與門檻”會議上,國家計算機質(zhì)檢中心專家對數(shù)據(jù)治理問題進行了深入闡述。

在會后的訪談中,國家計算機質(zhì)檢中心專家在會議發(fā)言的基礎上,系統(tǒng)闡述了對數(shù)據(jù)治理、數(shù)據(jù)管理等方面的理解。

 01 

垂直模型初具數(shù)據(jù)基礎

零壹財經(jīng):一般認為,大模型的發(fā)展有三大基礎,算力、算法和數(shù)據(jù)。當前討論較多的數(shù)據(jù)更多是各類公開和公共數(shù)據(jù),但隨著大模型向各個產(chǎn)業(yè)、細分領域和場景深入,行業(yè)性數(shù)據(jù)、商業(yè)性數(shù)據(jù)、用戶數(shù)據(jù)等非公開數(shù)據(jù)就成為核心資源,F(xiàn)在是否具備發(fā)展垂直領域大模型的數(shù)據(jù)基礎?

國家計算機質(zhì)檢中心專家:

隨著各行業(yè)數(shù)字化水平持續(xù)提高以及大數(shù)據(jù)前沿技術的進步,許多企業(yè)和單位已經(jīng)建立起自己的數(shù)據(jù)中心、數(shù)據(jù)倉庫等,積累了大量的行業(yè)性數(shù)據(jù)、商業(yè)性數(shù)據(jù)和用戶數(shù)據(jù),其內(nèi)容和種類豐富,已經(jīng)初步具備了發(fā)展大模型的技術和數(shù)據(jù)基礎。

但是在具體實施層面,仍然存在一些挑戰(zhàn)。比如數(shù)據(jù)的有效性和準確性,直接影響大模型的訓練效果;比如在訓練過程中如何保護用戶數(shù)據(jù)隱私,防止泄露。

讓數(shù)據(jù)可用、好用,更加真實地反映行業(yè)和用戶需求,這對于數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全提出了持續(xù)性要求,需要有一套常態(tài)化的數(shù)據(jù)管理手段。

 02 

數(shù)據(jù)管理的國家標準

零壹財經(jīng):看來數(shù)據(jù)管理是關鍵。但數(shù)據(jù)管理是很籠統(tǒng)的說法,可以包含數(shù)據(jù)業(yè)務的方方面面,如何建立合理的數(shù)據(jù)管理標準?

國家計算機質(zhì)檢中心專家:

近年來雖然對于數(shù)據(jù)管理和治理領域的標準重視程度日益提高,但其內(nèi)容和方法確實缺少統(tǒng)一定義,通常以信息化、數(shù)字化系統(tǒng)建設為主要手段。

而不同企業(yè)的數(shù)據(jù)管理現(xiàn)狀差異很大。數(shù)據(jù)治理是一項復雜工程,往往面臨眾多問題,需要系統(tǒng)性指引。

正是基于構建數(shù)據(jù)管理基礎制度的頂層設計,我國從整個體系框架的層面推出了DCMM標準,即《數(shù)據(jù)管理能力成熟度評估模型》。

這是我國在數(shù)據(jù)管理領域的首個國家標準,代表了一種自上而下的數(shù)據(jù)治理方法,經(jīng)過多年的大力推廣,正處于高速發(fā)展期。

DCMM標準體系將企業(yè)數(shù)據(jù)管理成熟度劃分為五個等級,按照從低至高的特征,分別為項目級、部門級、組織級、量化級、優(yōu)化級,清晰地定位不同企業(yè)數(shù)據(jù)管理能力所處的階段。

通過數(shù)千家企業(yè)的評估實踐,已經(jīng)充分證明了DCMM等級劃分的科學性和適用性。

金融行業(yè)同樣也適合借助DCMM標準體系的推廣、貫標以及應用,幫助企業(yè)和行業(yè)機構科學的評估自身的數(shù)據(jù)管理能力,發(fā)現(xiàn)自身在數(shù)據(jù)管理方面的問題和不足,建立起符合自身特點的數(shù)據(jù)管理框架,為金融數(shù)據(jù)資產(chǎn)化、參與數(shù)據(jù)市場流通奠定了堅實基礎。

零壹財經(jīng):具體而言,在哪些環(huán)節(jié)、哪些領域進行改進,才能獲得更好的數(shù)據(jù)管理級別?

國家計算機質(zhì)檢中心專家:

DCMM體系兼顧了技術和管理多方面的要求,從組織、制度、流程、工具等多個維度綜合分析,幫助企業(yè)發(fā)現(xiàn)問題,改進問題。它充分覆蓋了數(shù)據(jù)治理的常見要素,具體包括八個核心能力域——數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)架構、數(shù)據(jù)標準、數(shù)據(jù)應用、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、數(shù)據(jù)生存周期。

具體來說,應當運用先進的技術工具和平臺,支撐大數(shù)據(jù)治理和應用工作落地;同時也要重視全過程的規(guī)范管理,引導企業(yè)的管理部門和業(yè)務部門共同參與,保障數(shù)據(jù)管理工作的閉環(huán)和常態(tài)化執(zhí)行;應當自上而下地推動形成數(shù)據(jù)管理文化和意識,明確數(shù)據(jù)管理的目標、路徑和權責,避免為了治理而治理;積極探索多樣的數(shù)據(jù)分析、數(shù)據(jù)共享方式,挖掘并實現(xiàn)內(nèi)外部數(shù)據(jù)資產(chǎn)價值。

這樣多管齊下,才能全面提升數(shù)據(jù)管理水平。

 03 

挑戰(zhàn):大部分企業(yè)還處于2級階段

零壹財經(jīng):經(jīng)過近幾年的數(shù)據(jù)管理檢測和評級的推進,你們認為現(xiàn)在數(shù)據(jù)管理領域面臨的最大的問題是什么?

國家計算機質(zhì)檢中心專家:

從企業(yè)方面來說,領導層面的認識和決心是最重要的,是數(shù)智化轉(zhuǎn)型的原動力。面對數(shù)據(jù)管理這樣一項涉及眾多部門、需要耗費大量精力和財力的工作,不同行業(yè)和地區(qū)的現(xiàn)狀也差異較大。

以DCMM全國貫標工作的數(shù)據(jù)來看,大部分企業(yè)處于2級階段,也代表著大部分數(shù)據(jù)需求僅限于業(yè)務層面,對于數(shù)據(jù)治理體系和平臺的整體規(guī)劃投入不足,企業(yè)對于數(shù)據(jù)治理的意義和認識有待提升。

從行業(yè)的角度,數(shù)據(jù)管理工作在落地的過程中,往往面臨行業(yè)數(shù)據(jù)標準欠缺的問題。各行業(yè)工作特性差異巨大,勢必需要細致的數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準、數(shù)據(jù)安全等行業(yè)規(guī)范。

如果沒有權威、統(tǒng)一的行業(yè)數(shù)據(jù)治理標準,由企業(yè)自行開展規(guī)劃建設,既增加了數(shù)據(jù)治理的成本和難度,也對數(shù)據(jù)開放共享流通環(huán)節(jié)帶來困難。

而在數(shù)據(jù)管理測評認證方面,雖然數(shù)據(jù)領域的各項標準在積極推進,但全國性的、權威的數(shù)據(jù)治理認證體系仍然不多。

譬如現(xiàn)在國家大力推動的數(shù)據(jù)入表、數(shù)據(jù)要素交易流通等工作,其前提就要求確保數(shù)據(jù)質(zhì)量,由第三方機構出具數(shù)據(jù)質(zhì)量報告。但數(shù)據(jù)質(zhì)量標準在各行業(yè)、各地區(qū)的落地轉(zhuǎn)化、評估認證仍然缺乏統(tǒng)一的體系,尺度和要求不一。

數(shù)據(jù)質(zhì)量報告難以跨行業(yè)、跨地區(qū)的相互認可,這不僅限制了大規(guī)模數(shù)據(jù)交易和應用,也增加了國家和行業(yè)監(jiān)管的難度,無法準確衡量數(shù)據(jù)質(zhì)量和制定監(jiān)管措施,影響數(shù)據(jù)市場的長遠健康發(fā)展。

 04 

政務數(shù)據(jù)的特點與嘗試

零壹財經(jīng):各行各業(yè)都有很多數(shù)據(jù)其實掌握在政府部門。從政府數(shù)據(jù)管理的角度看,目前“數(shù)據(jù)成熟度”如何?

國家計算機質(zhì)檢中心專家:

政府和政務數(shù)據(jù)是我國近年在數(shù)據(jù)治理領域意識比較領先的,發(fā)揮著積極作用。一方面各地政數(shù)局等數(shù)據(jù)主管部門牽頭制定公共數(shù)據(jù)共享服務標準,規(guī)劃和規(guī)范各地區(qū)數(shù)據(jù)治理的頂層設計。

同時一些發(fā)展水平較成熟的地區(qū),積極牽頭建設數(shù)據(jù)交換共享服務平臺,甚至設立數(shù)據(jù)交易流通市場,深度參與到數(shù)據(jù)治理工作中,推動數(shù)據(jù)資源的整合和共享,為政府數(shù)據(jù)管理提供了更加便捷、高效的工具,有助于提升各地數(shù)據(jù)管理的規(guī)范化和標準化水平。

一些數(shù)字化水平較高的行業(yè),也由各地行業(yè)主管部門積極推進,統(tǒng)籌行業(yè)數(shù)據(jù)標準化管理。比如金融、能源、醫(yī)療等行業(yè)的監(jiān)管水平都相對領先。

我們接觸了一些醫(yī)療機構,了解到北京數(shù)交所去年在北京醫(yī)管局選擇了六家醫(yī)院做數(shù)據(jù)共享和交易試點。數(shù)據(jù)交易有多種模式,包括統(tǒng)一的、分場景的、分級分類的,目前主要是集中共享到交易平臺,需求方經(jīng)授權后按需使用,但不能拿走數(shù)據(jù)。

但不管是地方政府或者行業(yè)主管部門,他們在數(shù)據(jù)要素市場中的定位和權責與企業(yè)、公民有很大不同,更多是管理方或監(jiān)管方的身份。

政務數(shù)據(jù)在數(shù)據(jù)安全、數(shù)據(jù)價值等方面的要求和關注點,也與其他種類數(shù)據(jù)有所不同。

因此在數(shù)據(jù)治理和交易流通的鏈條中,仍然需要不同參與方基于自身的訴求和特點,承擔不同的數(shù)據(jù)治理任務,共同構建數(shù)據(jù)治理生態(tài)。

 05 

金融業(yè)數(shù)據(jù)“成熟度”較高

零壹財經(jīng):很多金融機構和金融科技機構在推進金融大模型的發(fā)展和創(chuàng)新。金融業(yè)是數(shù)據(jù)密度、敏感度很高的行業(yè)。在金融數(shù)據(jù)管理方面,目前整體情況如何,是否為金融大模型的發(fā)展做好了準備,您有什么建議?

國家計算機質(zhì)檢中心專家:

金融行業(yè)在數(shù)據(jù)管理方面,目前整體呈現(xiàn)出積極向好的態(tài)勢,建議持續(xù)完善和提升,積極探索金融大模型的發(fā)展。

以DCMM全國貫標工作的統(tǒng)計數(shù)據(jù)來看,金融業(yè)雖然在企業(yè)絕對數(shù)量上不多,在獲得DCMM證書的金融企業(yè)中,DCMM三級以上占比超過一半,取得最高等級的五級企業(yè)(銀行)也有多家,數(shù)據(jù)治理平均能力處于全國領先。

在數(shù)據(jù)治理平臺建設、數(shù)據(jù)分析應用開發(fā)等方面得分較高,在數(shù)據(jù)安全這一其他行業(yè)普遍偏弱的領域,由于金融行業(yè)的特點,也有較高的數(shù)據(jù)管理意識和管理水平。

甚至于DCMM國家標準本身,在起草之初也參考調(diào)研了我國金融行業(yè)的數(shù)據(jù)治理實踐經(jīng)驗。

有力的行業(yè)監(jiān)管和良好的數(shù)字化基礎,強烈的數(shù)據(jù)治理的需求,以銀行為代表的集團公司+子公司的組織形態(tài),這些條件都為金融行業(yè)各機構、各級數(shù)據(jù)管理工作的落實提供了持續(xù)推力和資源保證。

金融數(shù)據(jù)行業(yè)可以充分發(fā)揮自身的優(yōu)勢積累,以行業(yè)頭部機構為優(yōu)勢示范案例和帶頭,在全面深化提升整個行業(yè)的數(shù)據(jù)管理水平的同時,從數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量、數(shù)據(jù)開放共享等方面繼續(xù)完善數(shù)據(jù)治理成果。

加強數(shù)據(jù)要素生態(tài)合作,積極創(chuàng)新實踐,探索發(fā)展適合行業(yè)特點和發(fā)展需求的金融大模型。

       原文標題 : 垂直大模型的第一關:把數(shù)據(jù)“煮熟”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號