合成數(shù)據(jù)：AI發(fā)展的毒藥還是良方

日期：2025-05-21 瀏覽：　

　　5月16日，天津市人民政府辦公廳發(fā)布《天津市促進(jìn)人工智能創(chuàng)新發(fā)展行動(dòng)方案（2025-2027年）》，該方案在重點(diǎn)任務(wù)中提出，要聚焦行業(yè)應(yīng)用，推出一批用于開放訓(xùn)練、標(biāo)準(zhǔn)測(cè)試的高質(zhì)量數(shù)據(jù)集和語(yǔ)料庫(kù)，推動(dòng)構(gòu)建AI合成數(shù)據(jù)集。

　　在次日舉辦的2025數(shù)據(jù)安全發(fā)展大會(huì)上，中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院發(fā)布了《2025高質(zhì)量數(shù)據(jù)集研究》，指出，2024年，九游體育我國(guó)開發(fā)或應(yīng)用人工智能的企業(yè)數(shù)量同比增長(zhǎng)36%，高質(zhì)量數(shù)據(jù)集數(shù)量同比增長(zhǎng)27.4%，有力支撐人工智能訓(xùn)練和應(yīng)用。然而，同時(shí)警示，我國(guó)仍然面臨數(shù)據(jù)存量小產(chǎn)量低等問(wèn)題。

　　數(shù)據(jù)已成為驅(qū)動(dòng)人工智能技術(shù)突破與產(chǎn)業(yè)變革的核心動(dòng)力，但伴隨AI產(chǎn)業(yè)爆發(fā)式增長(zhǎng)，數(shù)據(jù)供給瓶頸日益凸顯——如何突破“數(shù)據(jù)荒”困局成為行業(yè)核心挑戰(zhàn)。在此背景下，“合成數(shù)據(jù)”被推至臺(tái)前，可這一人為制造的“數(shù)據(jù)替代品”，真能成為破局良方嗎？

　　2024年年底，美國(guó)人工智能巨頭OpenAI公司聯(lián)合創(chuàng)始人兼前首席科學(xué)家伊利亞·蘇茨克維爾在神經(jīng)信息處理系統(tǒng)（NeurIPS）大會(huì)公開警告“AI的訓(xùn)練數(shù)據(jù)如同化石燃料一樣面臨著耗盡的危機(jī)”。

　　根據(jù)中國(guó)信息通信研究院《人工智能發(fā)展（2024年）》，有研究預(yù)測(cè)，到2026年大型語(yǔ)言模型的訓(xùn)練就將耗盡互聯(lián)網(wǎng)上的可用文本數(shù)據(jù)，未來(lái)需要借助合成數(shù)據(jù)解決大模型的數(shù)據(jù)瓶頸。

　　“當(dāng)前數(shù)據(jù)合成主要存在三種方式?！毙菈m數(shù)據(jù)CEO章磊告訴中青報(bào)·中青網(wǎng)記者，第一種是基于模擬引擎或三維建模，通過(guò)構(gòu)建虛擬仿真環(huán)境，批量生成帶有標(biāo)注的圖像或傳感器數(shù)據(jù)。第二種是基于生成式AI，直接依據(jù)已有的真實(shí)數(shù)據(jù)特征或者文本描述，生成全新的圖像、文本、語(yǔ)音等內(nèi)容。第三種是基于混合增強(qiáng)，將已有的真實(shí)數(shù)據(jù)與算法生成的內(nèi)容進(jìn)行拼接、混合等處理，進(jìn)而形成新的樣本。

　　“這種技術(shù)創(chuàng)新帶來(lái)的成本優(yōu)勢(shì)令人矚目。以自動(dòng)駕駛為例，傳統(tǒng)采集數(shù)據(jù)成本可能上千萬(wàn)元甚至上億元?！闭吕谥赋觯谀M環(huán)境中，幾乎可以“無(wú)限”地產(chǎn)生多樣化數(shù)據(jù)，且無(wú)須出門“跑測(cè)試”，大幅降低成本?！耙晕覀儍?nèi)部的某自動(dòng)駕駛場(chǎng)景模擬為例，構(gòu)建好仿線萬(wàn)張相關(guān)圖像，可能只需數(shù)小時(shí)或數(shù)天。如果用真實(shí)數(shù)據(jù)，往往需要花費(fèi)數(shù)周到數(shù)月的時(shí)間?！?/p>

　　同時(shí)，合成數(shù)據(jù)也可以很好地滿足隱私保護(hù)與合規(guī)條件。據(jù)章磊介紹，對(duì)于醫(yī)療、金融等高敏感行業(yè)，因涉及患者隱私或客戶數(shù)據(jù)安全，往往難以直接獲取大規(guī)模真實(shí)數(shù)據(jù)。而合成數(shù)據(jù)不會(huì)包含真實(shí)患者的個(gè)人信息，但可具備真實(shí)病癥特征，用于模型預(yù)訓(xùn)練或補(bǔ)充數(shù)據(jù)集。

　　中國(guó)信息通信研究院《人工智能發(fā)展（2024年）》援引研究機(jī)構(gòu)Gartner公司預(yù)測(cè)，2024年AI及分析項(xiàng)目使用的數(shù)據(jù)中，約60%是合成數(shù)據(jù)。到2030年，AI模型使用的絕大部分?jǐn)?shù)據(jù)將是由AI生成的合成數(shù)據(jù)。

　　“合成數(shù)據(jù)可靠嗎？”北京航空航天大學(xué)軟件學(xué)院教授石琳告訴中青報(bào)·中青網(wǎng)記者，合成數(shù)據(jù)雖然有多種生成方式，但一般是有偏差的，確實(shí)可能會(huì)放大AI模型的偏差。大多數(shù)合成數(shù)據(jù)是由現(xiàn)有的模型生成的，比如用GPT生成對(duì)話、生成圖像?！斑@些模型本身可能就已經(jīng)帶著一些偏差或者幻覺，如果我們?cè)儆盟鼈兩傻臄?shù)據(jù)去訓(xùn)練新的模型，確實(shí)很容易會(huì)不斷復(fù)制之前的錯(cuò)誤?！?/p>

　　章磊也提出了數(shù)據(jù)使用時(shí)的風(fēng)險(xiǎn)。他表示，如果合成數(shù)據(jù)的分布或標(biāo)簽本身帶有偏見，模型就會(huì)被局限在這個(gè)不平衡的數(shù)據(jù)分布里，導(dǎo)致偏見進(jìn)一步強(qiáng)化。

　　為規(guī)避這種“以訛傳訛”的風(fēng)險(xiǎn)，國(guó)家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部、國(guó)家廣播電視總局近日聯(lián)合發(fā)布《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法》，明確服務(wù)提供者應(yīng)當(dāng)按照《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》第十六條的規(guī)定，在生成合成內(nèi)容的文件元數(shù)據(jù)中添加隱式標(biāo)識(shí)，隱式標(biāo)識(shí)包含生成合成內(nèi)容屬性信息、服務(wù)提供者名稱或者編碼、內(nèi)容編號(hào)等制作要素信息。

　　但合成數(shù)據(jù)并不必然會(huì)造成更嚴(yán)重的AI幻覺。石琳指出：“如果我們?cè)谑褂们凹尤肴斯徍?、過(guò)濾，或者在目標(biāo)任務(wù)上做一些精調(diào)、對(duì)齊，那合成數(shù)據(jù)反而能幫我們補(bǔ)齊長(zhǎng)尾數(shù)據(jù)、覆蓋那些真實(shí)數(shù)據(jù)采集不到的場(chǎng)景?！?/p>

　　上海人工智能研究院院長(zhǎng)、全球工業(yè)人工智能卓越中心總干事宋海濤對(duì)于合成數(shù)據(jù)也持有審慎和包容的態(tài)度，他告訴中青報(bào)·中青網(wǎng)記者，實(shí)際操作中，優(yōu)先選擇權(quán)威、可信的數(shù)據(jù)源和引入結(jié)構(gòu)化知識(shí)庫(kù)，可以強(qiáng)化模型對(duì)真實(shí)信息的依賴?！傲硗?，在訓(xùn)練中也可以嘗試通過(guò)故意加入錯(cuò)誤信息并明確標(biāo)記，來(lái)幫助模型識(shí)別和避免幻覺。”

　　據(jù)悉，近日谷歌相關(guān)團(tuán)隊(duì)已驗(yàn)證了這一“錯(cuò)題集”思路，使得模型數(shù)學(xué)推理性能提升8倍，邏輯能力顯著增強(qiáng)。

　　“標(biāo)注與數(shù)據(jù)管理仍是模型訓(xùn)練前必須的一環(huán)，尤其在合成數(shù)據(jù)領(lǐng)域，還需要專業(yè)人員來(lái)設(shè)計(jì)模擬場(chǎng)景、監(jiān)督合成質(zhì)量、對(duì)生成結(jié)果進(jìn)行檢驗(yàn)和再標(biāo)注?！痹谡吕诳磥?lái)，新市場(chǎng)也意味著新機(jī)遇，未來(lái)的數(shù)據(jù)服務(wù)不僅僅是標(biāo)注（人類反饋），還可能包含數(shù)據(jù)篩選、清洗、治理、版本管理、安全合規(guī)管理等，甚至幫助客戶搭建端到端的私有化數(shù)據(jù)平臺(tái)。從就業(yè)規(guī)模和市場(chǎng)規(guī)?？?，數(shù)據(jù)標(biāo)注行業(yè)會(huì)依舊保持增長(zhǎng)，同時(shí)也會(huì)催生更多對(duì)于既懂技術(shù)又懂業(yè)務(wù)的復(fù)合型人才的需求。

　　2月19日，國(guó)家數(shù)據(jù)局在北京召開高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動(dòng)會(huì)。今年的政府工作指出，2025年政府將加快完善數(shù)據(jù)基礎(chǔ)制度，深化數(shù)據(jù)資源開發(fā)利用，促進(jìn)和規(guī)范數(shù)據(jù)跨境流動(dòng)。

　　“在AI治理上我們首先要注重?cái)?shù)據(jù)安全和隱私保護(hù)，同時(shí)要對(duì)合成數(shù)據(jù)的內(nèi)容進(jìn)行審查，避免偏見、歧視、謠言，確保AI發(fā)展符合倫理原則?！笔照J(rèn)為，只有高質(zhì)量的數(shù)據(jù)才能訓(xùn)練出更可靠的模型。

　　中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院院長(zhǎng)張立在其《暢通數(shù)據(jù)匯聚、供給、利用堵點(diǎn)凝力推進(jìn)數(shù)據(jù)集高質(zhì)量建設(shè)》一文中也指出，未來(lái)應(yīng)制定合成數(shù)據(jù)使用標(biāo)準(zhǔn)，平衡好合成數(shù)據(jù)與原始數(shù)據(jù)應(yīng)用的“度”，助力共同發(fā)揮最佳作用。

　　“合成數(shù)據(jù)作為人工智能發(fā)展的重要數(shù)據(jù)資源，其作用和價(jià)值不容忽視。因此，在合成數(shù)據(jù)的應(yīng)用上，我們既要看到其在豐富數(shù)據(jù)資源、促進(jìn)算法優(yōu)化方面的積極作用，也要審慎評(píng)估潛在風(fēng)險(xiǎn)，確保技術(shù)應(yīng)用的正確方向?！彼魏f(shuō)。

亚洲欧美综合区丁香五月小说,色丁香婷婷综合缴情综,精品一卡2卡三卡4卡免费乱码,九九热这里只有精品

九游 (NineGame官方網(wǎng)站) 體育領(lǐng)航未來(lái)

合成數(shù)據(jù)：AI發(fā)展的毒藥還是良方