最近,復(fù)旦大學(xué)附屬華山醫(yī)院感染科主任張文宏“被帶貨”事件很受關(guān)注。不法分子利用AI技術(shù),將張文宏在其他場(chǎng)合的講話視頻篡改為“張文宏在推廣一種蛋白棒”,部分消費(fèi)者信以為真。對(duì)此,張文宏接受媒體采訪時(shí)辟謠,并表示AI生成信息像蝗災(zāi)一樣,一次又一次發(fā)生,雖然向平臺(tái)投訴,但感覺難以解決問(wèn)題。
AI生成的視頻真的沒(méi)辦法識(shí)別、治理嗎?申城好網(wǎng)民專家、中國(guó)圖象圖形學(xué)學(xué)會(huì)(CSIG)文檔圖像分析與識(shí)別專委會(huì)常務(wù)委員、上海市圖像圖形學(xué)學(xué)會(huì)(SIGA)理事、合合信息圖像算法研發(fā)總監(jiān)郭豐俊給出了積極的回答。
眨眼、轉(zhuǎn)頭、站立可讓假視頻露餡
對(duì)一些粗制濫造或技術(shù)不太成熟的AI視頻,觀看者通過(guò)一些細(xì)節(jié)就能識(shí)別。
例如,“張文宏帶貨”屬于非實(shí)時(shí)視頻,觀看者可以從“動(dòng)作重復(fù)性”“眼球運(yùn)動(dòng)”“面部細(xì)節(jié)”等來(lái)發(fā)現(xiàn)AI生成的漏洞。目前,社交平臺(tái)上的很多數(shù)字人也有同樣的瑕疵。
具體來(lái)看,AI生成的視頻可能會(huì)頻繁重復(fù)某種動(dòng)作,因?yàn)樯赡P驮趧?dòng)作匹配上存在局限,只學(xué)習(xí)到幾個(gè)關(guān)鍵動(dòng)作,然后通過(guò)重復(fù)來(lái)呈現(xiàn)一段視頻。眼球運(yùn)動(dòng)、面部細(xì)節(jié)等是AI生成視頻最容易“露餡”的地方,AI生成人物的眨眼頻率、嘴部動(dòng)作等往往不自然、不真實(shí)。
針對(duì)AI生成的實(shí)時(shí)視頻,如用AI換臉等技術(shù)生成的“某位明星給你打電話”“某位朋友向你借款”等視頻,也有識(shí)別辦法。這個(gè)時(shí)候,觀看者可以要求對(duì)方做一些大幅度的動(dòng)作,包括轉(zhuǎn)頭、站起來(lái)等,再根據(jù)畫面、面部扭曲程度來(lái)判定真?zhèn)巍R驗(yàn)锳I合成的實(shí)時(shí)視頻往往無(wú)法在短時(shí)間內(nèi)實(shí)現(xiàn)高質(zhì)量渲染,從而出現(xiàn)漏洞。
目前,很多AI生成視頻都存在缺乏個(gè)性化表情動(dòng)作、畫面抖動(dòng)、違反物理規(guī)律等現(xiàn)象,它們屬于“連續(xù)偽造畫面的時(shí)序瑕疵”,有針對(duì)性地對(duì)鑒偽模型進(jìn)行優(yōu)化,就能從技術(shù)層面識(shí)別這類造假行為。還有,不少AI生成的視頻人物面部會(huì)有明顯瑕疵,包括內(nèi)臉區(qū)域的五官與外臉區(qū)域的發(fā)型等不一致;在針對(duì)特定名人的AI造假視頻中,這類問(wèn)題更明顯。技術(shù)研發(fā)者可以有的放矢地訓(xùn)練對(duì)應(yīng)的鑒偽大模型,從而提高鑒偽效率。
注入“數(shù)字水印”,進(jìn)行主動(dòng)防御
隨著AI技術(shù)發(fā)展,AI生成的視頻已經(jīng)越來(lái)越“精美”乃至“完美”,不要說(shuō)人眼無(wú)法識(shí)別,可能連普通的鑒偽大模型都無(wú)能為力。這個(gè)時(shí)候,還有什么辦法來(lái)識(shí)別AI造假?
郭豐俊表示,“用技術(shù)打敗技術(shù)”已經(jīng)成為很多AI開發(fā)者的共識(shí),目前有不少開發(fā)者發(fā)布了深度偽造(Deepfake)專業(yè)檢測(cè)器工具。比如,深度偽造檢測(cè)平臺(tái)Reality Defender可以為企業(yè)和政府檢測(cè)圖像、視頻、音頻、文本中的深度偽造等。
不過(guò),這類檢測(cè)都屬于“被動(dòng)防御”,就是利用技術(shù)來(lái)判斷圖像、視頻中是否存在AI造假的情況。在此基礎(chǔ)上,很有必要引入“主動(dòng)防御”策略,通過(guò)在圖像和視頻中注入“半脆弱性數(shù)字水印”,從源頭預(yù)防造假行為,并為“被動(dòng)防御”提供更有力的技術(shù)支撐。
所謂“半脆弱性數(shù)字水印”,是指在不破壞原有圖像、視頻內(nèi)容的基礎(chǔ)上,在人臉等重要表征上嵌入隱藏的、肉眼不可見的水印信息。圖像或視頻一旦被編輯修改,水印就會(huì)被破壞;而使用數(shù)字水印檢測(cè)器能很容易發(fā)現(xiàn)圖像或視頻是否進(jìn)行過(guò)編輯,以及在哪里進(jìn)行了編輯。
簡(jiǎn)而言之,“半脆弱性數(shù)字水印”與目前AI生成圖像、視頻時(shí)產(chǎn)生的“水印”不一樣——它們并不直接呈現(xiàn)在圖像或視頻上,而是“刻”在圖像與視頻里,一經(jīng)剪輯就會(huì)被破壞。
植入“半脆弱性數(shù)字水印”的身份證圖像生動(dòng)展示了這一新技術(shù)的價(jià)值:用肉眼看,這些身份證圖像沒(méi)有任何異常;但專業(yè)檢測(cè)系統(tǒng)一掃描,立刻提示它們進(jìn)行過(guò)編輯,并標(biāo)注出編輯的部分——因?yàn)閳D像的“半脆弱性數(shù)字水印”被破壞了。
郭豐俊說(shuō),一方面,通過(guò)教育和宣傳,能提高公眾對(duì)AI造假慣用場(chǎng)景、識(shí)別方法的了解。另一方面,也要強(qiáng)化視頻制作者、發(fā)布平臺(tái)的責(zé)任感,除了在視頻發(fā)布后有“被動(dòng)防御”舉措,更要有“主動(dòng)防御”意識(shí)。如果創(chuàng)作者在發(fā)布原始視頻時(shí),就使用“半脆弱性數(shù)字水印”,或者平臺(tái)為始發(fā)的視頻、圖像注入這一數(shù)字水印,那么此后不僅能通過(guò)數(shù)字水印檢測(cè)器驗(yàn)證視頻的真實(shí)性和完整性,還能實(shí)現(xiàn)溯源管理。
本報(bào)記者 任翀
(審核:葉瑋)