激情五月亚洲,国产色视频无码网站www色视频,日韩欧美a∨中文字幕,在线观看免费毛片,99成人免费在线观看,国产免费爱在线观看视频,五月丁香六月缴情人

搜索 解放軍報(bào)

讓人工智能成為人類的“智囊”,持續(xù)釋放巨大潛力

來(lái)源:中國(guó)軍網(wǎng)-解放軍報(bào) 作者:蔣雨鋮 王琪睿 宋世杰 責(zé)任編輯:孫悅
2025-03-28 07:11:35

AI大模型需要什么樣的數(shù)據(jù)

■蔣雨鋮 王琪睿 解放軍報(bào)特約通訊員 宋世杰

人工智能概念圖。資料圖片

作為新型生產(chǎn)要素,數(shù)據(jù)正在快速融入社會(huì)生活的方方面面,深刻改變著人類的生產(chǎn)生活方式。當(dāng)前,隨著人工智能(AI)發(fā)展突飛猛進(jìn),各類學(xué)習(xí)模型不斷涌現(xiàn),數(shù)據(jù)作為驅(qū)動(dòng)AI這臺(tái)“引擎”的“燃料”,發(fā)揮著越來(lái)越重要的作用。與此同時(shí),一些現(xiàn)實(shí)問(wèn)題也悄然浮出水面。

數(shù)據(jù)真?zhèn)?/strong>

大模型“撒謊”的原因

AI也會(huì)撒謊?

據(jù)路透社報(bào)道,OpenAI旗下的ChatGPT在回答問(wèn)題時(shí),錯(cuò)誤地聲稱澳大利亞墨爾本西部赫本郡的市長(zhǎng)布賴恩·胡德是賄賂丑聞的有罪方。此前,胡德曾在一家公司工作,他向監(jiān)管機(jī)構(gòu)舉報(bào)了公司內(nèi)部向外國(guó)官員行賄以贏得貨幣印刷合同的情況。ChatGPT錯(cuò)誤地將胡德作為控方證人出席庭審的經(jīng)歷,作為其受審的例證。目前,大型語(yǔ)言模型的“幻覺”問(wèn)題(即生成虛假信息)已經(jīng)成為學(xué)界和業(yè)界共同關(guān)注的問(wèn)題,訓(xùn)練及處理的數(shù)據(jù)質(zhì)量下降是產(chǎn)生該問(wèn)題的主要原因。

那么,生成“謠言”的“證據(jù)”從何而來(lái)?這就需要提到大模型獲取數(shù)據(jù)的兩種主要方式:主動(dòng)采集技術(shù)和被動(dòng)采集技術(shù)。主動(dòng)采集技術(shù)主要包括網(wǎng)絡(luò)爬取和傳感器采集;被動(dòng)采集技術(shù)包括用戶上傳數(shù)據(jù)和日志記錄數(shù)據(jù)。其中,最易被“偽造”的數(shù)據(jù),來(lái)源于網(wǎng)絡(luò)爬取數(shù)據(jù)和用戶上傳數(shù)據(jù)。

網(wǎng)絡(luò)爬取是從互聯(lián)網(wǎng)上自動(dòng)抓取數(shù)據(jù)的技術(shù)。互聯(lián)網(wǎng)公開數(shù)據(jù)中混雜著大量噪聲數(shù)據(jù),使得訓(xùn)練數(shù)據(jù)受到污染,進(jìn)而導(dǎo)致模型產(chǎn)生輸出偏差。2024年,麻省理工學(xué)院、上海交通大學(xué)、哈佛大學(xué)、微軟研究院、IBM公司、劍橋大學(xué)等聯(lián)合召開了首屆數(shù)據(jù)污染研討會(huì)。會(huì)議報(bào)告顯示:各類模型的訓(xùn)練數(shù)據(jù)中,可能包含大量從網(wǎng)頁(yè)和數(shù)據(jù)集內(nèi)抓取到的虛假信息。這些低質(zhì)量的數(shù)據(jù)不僅無(wú)法為模型提供有效的訓(xùn)練素材,還可能對(duì)模型的判斷產(chǎn)生誤導(dǎo),導(dǎo)致模型性能下降。

另外,合成數(shù)據(jù)的濫用,可能導(dǎo)致模型輸出產(chǎn)生偏差。為了解決數(shù)據(jù)資源不足的問(wèn)題,合成數(shù)據(jù)被廣泛應(yīng)用以彌補(bǔ)真實(shí)數(shù)據(jù)的不足。美國(guó)萊斯大學(xué)與斯坦福大學(xué)的研究團(tuán)隊(duì)指出,將AI生成的內(nèi)容喂給模型,會(huì)導(dǎo)致模型性能下降,輸出錯(cuò)誤率升高。研究人員稱這種現(xiàn)象為“模型自噬障礙”——就像近親繁殖導(dǎo)致基因缺陷被不斷放大、重復(fù)掃描打印同一份照片會(huì)使照片畫面模糊一樣,模型使用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練,認(rèn)知偏差就會(huì)像滾雪球般擴(kuò)大,最終導(dǎo)致模型掉入“認(rèn)知陷阱”。

篩選標(biāo)注

大模型“填喂”的選擇

那么,什么樣的數(shù)據(jù)才能滿足大模型“大而挑剔”的“胃口”呢?總體看來(lái),大模型對(duì)數(shù)據(jù)的數(shù)量、質(zhì)量、種類都有著極高的要求:只有足夠的數(shù)據(jù)量才能對(duì)體量、參數(shù)龐大的大模型進(jìn)行充分訓(xùn)練;只有準(zhǔn)確性、完整性、一致性較高的數(shù)據(jù),才能避免在訓(xùn)練中對(duì)模型產(chǎn)生誤導(dǎo);只有涵蓋多個(gè)領(lǐng)域的多類數(shù)據(jù),才能讓大模型學(xué)到更廣泛的知識(shí),更好地處理綜合性問(wèn)題。

在數(shù)據(jù)的海洋中,我們?cè)撊绾魏Y選出適合大模型的數(shù)據(jù)呢?

一是采集數(shù)據(jù)時(shí)選擇可靠的數(shù)據(jù)來(lái)源。首先是官方和權(quán)威機(jī)構(gòu)發(fā)布的數(shù)據(jù),比如政府部門發(fā)布的統(tǒng)計(jì)數(shù)據(jù)、專業(yè)科研機(jī)構(gòu)公布的研究成果和文獻(xiàn)資料等。這些數(shù)據(jù)一般都經(jīng)過(guò)了嚴(yán)格的審核和驗(yàn)證,具有較高的準(zhǔn)確性、可信度。其次是在一些領(lǐng)域領(lǐng)先的企業(yè)發(fā)布的數(shù)據(jù),這些企業(yè)一般對(duì)行業(yè)標(biāo)準(zhǔn)、技術(shù)標(biāo)準(zhǔn)等具有較高的話語(yǔ)權(quán),數(shù)據(jù)質(zhì)量相對(duì)可靠。

二是預(yù)處理數(shù)據(jù)時(shí)進(jìn)行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化。在采集到的數(shù)據(jù)中,識(shí)別并篩去重復(fù)的數(shù)據(jù),防止重復(fù)數(shù)據(jù)的權(quán)重放大,造成結(jié)果失真失衡;對(duì)于完整性較差的數(shù)據(jù),可以將不同格式的數(shù)據(jù)統(tǒng)一格式,以便大模型順利完成訓(xùn)練。

三是標(biāo)注數(shù)據(jù)時(shí)進(jìn)行嚴(yán)格規(guī)范。數(shù)據(jù)標(biāo)注是指給原始數(shù)據(jù)添加標(biāo)簽的過(guò)程。這些標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行歸類,幫助模型在遇到從未見過(guò)的數(shù)據(jù)時(shí),也能準(zhǔn)確識(shí)別數(shù)據(jù)中的內(nèi)容。待標(biāo)注數(shù)據(jù),需要制定嚴(yán)格的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)操作規(guī)范,并對(duì)已標(biāo)注的數(shù)據(jù)進(jìn)行抽樣審核,避免讓不正確分類的數(shù)據(jù)影響到模型的訓(xùn)練。

四是評(píng)估數(shù)據(jù)時(shí)進(jìn)行內(nèi)外檢驗(yàn)。模型自檢時(shí),可以將數(shù)據(jù)集分成多個(gè)子集,通過(guò)輪流將不同子集作為驗(yàn)證集,來(lái)評(píng)估模型面對(duì)未知數(shù)據(jù)時(shí)的表現(xiàn),檢驗(yàn)數(shù)據(jù)的一致性。在模型訓(xùn)練過(guò)程中,要持續(xù)監(jiān)控準(zhǔn)確率、召回率等評(píng)估指標(biāo),檢驗(yàn)數(shù)據(jù)的適用性。外部驗(yàn)證時(shí),可以將采集數(shù)據(jù)和處理結(jié)果與權(quán)威模型進(jìn)行對(duì)比,來(lái)評(píng)估數(shù)據(jù)的質(zhì)量。

實(shí)景運(yùn)用

大模型“軍用”的梗阻

數(shù)據(jù)體量、質(zhì)量等現(xiàn)實(shí)難題,不僅困擾著民用模型,同樣也橫亙?cè)谲娪么竽P偷陌l(fā)展路徑上。相對(duì)于民用模型,軍用大模型有一定的優(yōu)勢(shì),但也面臨高質(zhì)量軍事數(shù)據(jù)資源不足、模型框架選擇難、安全問(wèn)題多元化等挑戰(zhàn)。

戰(zhàn)場(chǎng)數(shù)據(jù)獲取困難,是高質(zhì)量軍事數(shù)據(jù)資源不足的主要原因之一。軍事網(wǎng)絡(luò)和民用網(wǎng)絡(luò)存在物理隔離,由民用網(wǎng)絡(luò)采集的大量戰(zhàn)場(chǎng)數(shù)據(jù)很難傳輸?shù)杰娪镁W(wǎng)絡(luò)。此外,戰(zhàn)場(chǎng)中的多源信號(hào)還缺乏有效的跨模態(tài)對(duì)齊標(biāo)注。比如,一款戰(zhàn)機(jī)存在很多特征信息:紅外熱源信號(hào)(溫度)、雷達(dá)反射信號(hào)(波長(zhǎng)波形)、外形特征(可見光圖像)等。如何讓模型將這些不同種類的特征信號(hào)統(tǒng)一聯(lián)系起來(lái),幫助其快速識(shí)別、獲取該型戰(zhàn)機(jī)信息,還存在較大困難。要解決這些問(wèn)題,可以探索建立安全的軍事數(shù)據(jù)采集傳輸通道,收集時(shí)效性高、質(zhì)量好的軍事數(shù)據(jù);加強(qiáng)跨模態(tài)數(shù)據(jù)處理技術(shù)的研發(fā),運(yùn)用高質(zhì)量標(biāo)注數(shù)據(jù)、壓減標(biāo)注錯(cuò)誤率的方法,構(gòu)建專業(yè)、精準(zhǔn)的軍事多模態(tài)數(shù)據(jù)集,以實(shí)現(xiàn)對(duì)軍事設(shè)施、裝備等的精準(zhǔn)識(shí)別。

合成數(shù)據(jù)的偏差問(wèn)題,會(huì)影響軍用大模型的訓(xùn)練。實(shí)戰(zhàn)數(shù)據(jù)的缺失,將導(dǎo)致越來(lái)越多合成數(shù)據(jù)被投入模型訓(xùn)練中。不加篩選、偏離實(shí)際的合成數(shù)據(jù),會(huì)對(duì)模型訓(xùn)練成果造成不利影響。例如,虛擬引擎生成的地表對(duì)陽(yáng)光的反射率與實(shí)際環(huán)境相差較大,導(dǎo)致紅外傳感器將較高的地表反射信號(hào)當(dāng)成目標(biāo)的溫度信號(hào),進(jìn)而發(fā)生誤判。要減小合成數(shù)據(jù)對(duì)模型的影響,需深入采集戰(zhàn)場(chǎng)環(huán)境中人員、裝備、環(huán)境等各類信息,以大量實(shí)際數(shù)據(jù)訓(xùn)練模型,從而生成最接近真實(shí)戰(zhàn)場(chǎng)的合成數(shù)據(jù),并做好合成數(shù)據(jù)的篩選和標(biāo)注工作,減少合成數(shù)據(jù)與現(xiàn)實(shí)的偏差。

模型框架的選擇,阻礙著軍用大模型的使用。如果簡(jiǎn)單地把民用模型遷移到軍事領(lǐng)域,模型會(huì)因?yàn)闊o(wú)法理解軍語(yǔ)等問(wèn)題,導(dǎo)致生成結(jié)果準(zhǔn)確率大幅下降。不同模型框架所需的規(guī)模、性能、部署成本和安全性、可靠性以及支持的應(yīng)用場(chǎng)景等也需要綜合考慮。此外,在數(shù)據(jù)樣本少的情況下,如何進(jìn)行軍用大模型的能力測(cè)試,也是十分現(xiàn)實(shí)的問(wèn)題。未來(lái)可以針對(duì)軍事數(shù)據(jù)以及相關(guān)業(yè)務(wù)特點(diǎn)開發(fā)專門的小模型,通過(guò)分發(fā)各個(gè)作戰(zhàn)單元,收集整理相關(guān)語(yǔ)言庫(kù),隨后與大模型融合,提升高度封閉條件下模型對(duì)語(yǔ)義的理解和軍事語(yǔ)言生成能力;在實(shí)驗(yàn)驗(yàn)證中,對(duì)滿足基本條件的大模型進(jìn)行多輪能力評(píng)估,全面考察不同模型在軍事應(yīng)用中的性能優(yōu)劣和成本效益,綜合優(yōu)勢(shì)進(jìn)行整合歸一。

軍用大模型存在較多安全問(wèn)題。首先是使用數(shù)據(jù)的倫理合規(guī)性。盡管軍事行動(dòng)存在特殊性,數(shù)據(jù)使用也需遵循國(guó)際法規(guī)和倫理準(zhǔn)則。此外,模型應(yīng)用于智能自主化武器系統(tǒng)可能存在道德風(fēng)險(xiǎn)。應(yīng)制定模型在軍事應(yīng)用中的準(zhǔn)則,錄入底層邏輯和決策標(biāo)準(zhǔn)等,避免出現(xiàn)武器系統(tǒng)為達(dá)成目標(biāo)選擇攻擊民用設(shè)施的情況。

軍用大模型的安全、保密要求也是需要注意的問(wèn)題。面對(duì)戰(zhàn)爭(zhēng),任何一個(gè)決策都可能導(dǎo)致人員陷入危險(xiǎn)境地。因此,如果使用模型進(jìn)行決策,決策的可靠性、可控性、保密性、穩(wěn)定性需要多重評(píng)估,確保它在戰(zhàn)場(chǎng)上行之有效。

AI大模型的數(shù)據(jù)問(wèn)題已經(jīng)不只是技術(shù)問(wèn)題,還廣泛涉及法律、倫理與地緣政治等。在這場(chǎng)復(fù)雜隱蔽同時(shí)關(guān)乎未來(lái)的“認(rèn)知戰(zhàn)爭(zhēng)”中,勝負(fù)的關(guān)鍵在于能否構(gòu)建起牢不可破的“數(shù)據(jù)防線”。因此,建立行之有效的數(shù)據(jù)采集、管理、評(píng)估機(jī)制刻不容緩。就像一名業(yè)內(nèi)人士所說(shuō),數(shù)據(jù)治理是人工智能發(fā)展的基礎(chǔ),良好的數(shù)據(jù)治理是AI應(yīng)用的前提。只有技術(shù)創(chuàng)新和治理框架同步進(jìn)化,大模型才能擺脫“數(shù)據(jù)困境”,成為人類的“智囊”,持續(xù)釋放巨大潛力,真正成為推動(dòng)社會(huì)進(jìn)步、保障國(guó)家安全的重要力量。