5月16日,天津市人民政府辦公廳發(fā)布《天津市促進(jìn)人工智能創(chuàng)新發(fā)展行動(dòng)方案(2025-2027年)》,該方案在重點(diǎn)任務(wù)中提出,要聚焦行業(yè)應(yīng)用,推出一批用于開放訓(xùn)練、標(biāo)準(zhǔn)測(cè)試的高質(zhì)量數(shù)據(jù)集和語(yǔ)料庫(kù),推動(dòng)構(gòu)建AI合成數(shù)據(jù)集。
在次日舉辦的2025數(shù)據(jù)安全發(fā)展大會(huì)上,中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院發(fā)布了《2025高質(zhì)量數(shù)據(jù)集研究》,指出,2024年,九游體育我國(guó)開發(fā)或應(yīng)用人工智能的企業(yè)數(shù)量同比增長(zhǎng)36%,高質(zhì)量數(shù)據(jù)集數(shù)量同比增長(zhǎng)27.4%,有力支撐人工智能訓(xùn)練和應(yīng)用。然而,同時(shí)警示,我國(guó)仍然面臨數(shù)據(jù)存量小產(chǎn)量低等問(wèn)題。
數(shù)據(jù)已成為驅(qū)動(dòng)人工智能技術(shù)突破與產(chǎn)業(yè)變革的核心動(dòng)力,但伴隨AI產(chǎn)業(yè)爆發(fā)式增長(zhǎng),數(shù)據(jù)供給瓶頸日益凸顯——如何突破“數(shù)據(jù)荒”困局成為行業(yè)核心挑戰(zhàn)。在此背景下,“合成數(shù)據(jù)”被推至臺(tái)前,可這一人為制造的“數(shù)據(jù)替代品”,真能成為破局良方嗎?
2024年年底,美國(guó)人工智能巨頭OpenAI公司聯(lián)合創(chuàng)始人兼前首席科學(xué)家伊利亞·蘇茨克維爾在神經(jīng)信息處理系統(tǒng)(NeurIPS)大會(huì)公開警告“AI的訓(xùn)練數(shù)據(jù)如同化石燃料一樣面臨著耗盡的危機(jī)”。
根據(jù)中國(guó)信息通信研究院《人工智能發(fā)展(2024年)》,有研究預(yù)測(cè),到2026年大型語(yǔ)言模型的訓(xùn)練就將耗盡互聯(lián)網(wǎng)上的可用文本數(shù)據(jù),未來(lái)需要借助合成數(shù)據(jù)解決大模型的數(shù)據(jù)瓶頸。
“當(dāng)前數(shù)據(jù)合成主要存在三種方式?!毙菈m數(shù)據(jù)CEO章磊告訴中青報(bào)·中青網(wǎng)記者,第一種是基于模擬引擎或三維建模,通過(guò)構(gòu)建虛擬仿真環(huán)境,批量生成帶有標(biāo)注的圖像或傳感器數(shù)據(jù)。第二種是基于生成式AI,直接依據(jù)已有的真實(shí)數(shù)據(jù)特征或者文本描述,生成全新的圖像、文本、語(yǔ)音等內(nèi)容。第三種是基于混合增強(qiáng),將已有的真實(shí)數(shù)據(jù)與算法生成的內(nèi)容進(jìn)行拼接、混合等處理,進(jìn)而形成新的樣本。
“這種技術(shù)創(chuàng)新帶來(lái)的成本優(yōu)勢(shì)令人矚目。以自動(dòng)駕駛為例,傳統(tǒng)采集數(shù)據(jù)成本可能上千萬(wàn)元甚至上億元?!闭吕谥赋觯谀M環(huán)境中,幾乎可以“無(wú)限”地產(chǎn)生多樣化數(shù)據(jù),且無(wú)須出門“跑測(cè)試”,大幅降低成本?!耙晕覀儍?nèi)部的某自動(dòng)駕駛場(chǎng)景模擬為例,構(gòu)建好仿線萬(wàn)張相關(guān)圖像,可能只需數(shù)小時(shí)或數(shù)天。如果用真實(shí)數(shù)據(jù),往往需要花費(fèi)數(shù)周到數(shù)月的時(shí)間?!?/p>
同時(shí),合成數(shù)據(jù)也可以很好地滿足隱私保護(hù)與合規(guī)條件。據(jù)章磊介紹,對(duì)于醫(yī)療、金融等高敏感行業(yè),因涉及患者隱私或客戶數(shù)據(jù)安全,往往難以直接獲取大規(guī)模真實(shí)數(shù)據(jù)。而合成數(shù)據(jù)不會(huì)包含真實(shí)患者的個(gè)人信息,但可具備真實(shí)病癥特征,用于模型預(yù)訓(xùn)練或補(bǔ)充數(shù)據(jù)集。
中國(guó)信息通信研究院《人工智能發(fā)展(2024年)》援引研究機(jī)構(gòu)Gartner公司預(yù)測(cè),2024年AI及分析項(xiàng)目使用的數(shù)據(jù)中,約60%是合成數(shù)據(jù)。到2030年,AI模型使用的絕大部分?jǐn)?shù)據(jù)將是由AI生成的合成數(shù)據(jù)。
“合成數(shù)據(jù)可靠嗎?”北京航空航天大學(xué)軟件學(xué)院教授石琳告訴中青報(bào)·中青網(wǎng)記者,合成數(shù)據(jù)雖然有多種生成方式,但一般是有偏差的,確實(shí)可能會(huì)放大AI模型的偏差。大多數(shù)合成數(shù)據(jù)是由現(xiàn)有的模型生成的,比如用GPT生成對(duì)話、生成圖像?!斑@些模型本身可能就已經(jīng)帶著一些偏差或者幻覺,如果我們?cè)儆盟鼈兩傻臄?shù)據(jù)去訓(xùn)練新的模型,確實(shí)很容易會(huì)不斷復(fù)制之前的錯(cuò)誤?!?/p>
章磊也提出了數(shù)據(jù)使用時(shí)的風(fēng)險(xiǎn)。他表示,如果合成數(shù)據(jù)的分布或標(biāo)簽本身帶有偏見,模型就會(huì)被局限在這個(gè)不平衡的數(shù)據(jù)分布里,導(dǎo)致偏見進(jìn)一步強(qiáng)化。
為規(guī)避這種“以訛傳訛”的風(fēng)險(xiǎn),國(guó)家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部、國(guó)家廣播電視總局近日聯(lián)合發(fā)布《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法》,明確服務(wù)提供者應(yīng)當(dāng)按照《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》第十六條的規(guī)定,在生成合成內(nèi)容的文件元數(shù)據(jù)中添加隱式標(biāo)識(shí),隱式標(biāo)識(shí)包含生成合成內(nèi)容屬性信息、服務(wù)提供者名稱或者編碼、內(nèi)容編號(hào)等制作要素信息。
但合成數(shù)據(jù)并不必然會(huì)造成更嚴(yán)重的AI幻覺。石琳指出:“如果我們?cè)谑褂们凹尤肴斯徍?、過(guò)濾,或者在目標(biāo)任務(wù)上做一些精調(diào)、對(duì)齊,那合成數(shù)據(jù)反而能幫我們補(bǔ)齊長(zhǎng)尾數(shù)據(jù)、覆蓋那些真實(shí)數(shù)據(jù)采集不到的場(chǎng)景?!?/p>
上海人工智能研究院院長(zhǎng)、全球工業(yè)人工智能卓越中心總干事宋海濤對(duì)于合成數(shù)據(jù)也持有審慎和包容的態(tài)度,他告訴中青報(bào)·中青網(wǎng)記者,實(shí)際操作中,優(yōu)先選擇權(quán)威、可信的數(shù)據(jù)源和引入結(jié)構(gòu)化知識(shí)庫(kù),可以強(qiáng)化模型對(duì)真實(shí)信息的依賴?!傲硗?,在訓(xùn)練中也可以嘗試通過(guò)故意加入錯(cuò)誤信息并明確標(biāo)記,來(lái)幫助模型識(shí)別和避免幻覺。”
據(jù)悉,近日谷歌相關(guān)團(tuán)隊(duì)已驗(yàn)證了這一“錯(cuò)題集”思路,使得模型數(shù)學(xué)推理性能提升8倍,邏輯能力顯著增強(qiáng)。
“標(biāo)注與數(shù)據(jù)管理仍是模型訓(xùn)練前必須的一環(huán),尤其在合成數(shù)據(jù)領(lǐng)域,還需要專業(yè)人員來(lái)設(shè)計(jì)模擬場(chǎng)景、監(jiān)督合成質(zhì)量、對(duì)生成結(jié)果進(jìn)行檢驗(yàn)和再標(biāo)注?!痹谡吕诳磥?lái),新市場(chǎng)也意味著新機(jī)遇,未來(lái)的數(shù)據(jù)服務(wù)不僅僅是標(biāo)注(人類反饋),還可能包含數(shù)據(jù)篩選、清洗、治理、版本管理、安全合規(guī)管理等,甚至幫助客戶搭建端到端的私有化數(shù)據(jù)平臺(tái)。從就業(yè)規(guī)模和市場(chǎng)規(guī)???,數(shù)據(jù)標(biāo)注行業(yè)會(huì)依舊保持增長(zhǎng),同時(shí)也會(huì)催生更多對(duì)于既懂技術(shù)又懂業(yè)務(wù)的復(fù)合型人才的需求。
2月19日,國(guó)家數(shù)據(jù)局在北京召開高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動(dòng)會(huì)。今年的政府工作指出,2025年政府將加快完善數(shù)據(jù)基礎(chǔ)制度,深化數(shù)據(jù)資源開發(fā)利用,促進(jìn)和規(guī)范數(shù)據(jù)跨境流動(dòng)。
“在AI治理上我們首先要注重?cái)?shù)據(jù)安全和隱私保護(hù),同時(shí)要對(duì)合成數(shù)據(jù)的內(nèi)容進(jìn)行審查,避免偏見、歧視、謠言,確保AI發(fā)展符合倫理原則?!笔照J(rèn)為,只有高質(zhì)量的數(shù)據(jù)才能訓(xùn)練出更可靠的模型。
中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院院長(zhǎng)張立在其《暢通數(shù)據(jù)匯聚、供給、利用堵點(diǎn)凝力推進(jìn)數(shù)據(jù)集高質(zhì)量建設(shè)》一文中也指出,未來(lái)應(yīng)制定合成數(shù)據(jù)使用標(biāo)準(zhǔn),平衡好合成數(shù)據(jù)與原始數(shù)據(jù)應(yīng)用的“度”,助力共同發(fā)揮最佳作用。
“合成數(shù)據(jù)作為人工智能發(fā)展的重要數(shù)據(jù)資源,其作用和價(jià)值不容忽視。因此,在合成數(shù)據(jù)的應(yīng)用上,我們既要看到其在豐富數(shù)據(jù)資源、促進(jìn)算法優(yōu)化方面的積極作用,也要審慎評(píng)估潛在風(fēng)險(xiǎn),確保技術(shù)應(yīng)用的正確方向?!彼魏f(shuō)。