
【導語】在AI行業追求高效與節能的當下,生成式AI的可擴展推理麵臨嚴峻挑戰。近期,加州大學洛杉磯分校的研究團隊突破性地將“光”引入AIGC領域,成功實現基於係統硬件物理定律的全新圖像光學生成。這一成果不僅媲美數字神經網絡的性能,更為節能且可擴展的推理任務開辟了新路徑。光學生成式模型不僅有望應用於增強現實和虛擬現實領域,還可能帶來三維圖像生成的新機遇。相關研究成果已發表在權威科學期刊《Nature》上,標誌著AI與光學融合的新篇章。

快(kuài)速(sù)、節(jié)能(néng)地(de)實(shí)現(xiàn)生(shēng)成(chéng)式(shì) AI 的(de)可(kě)擴(kuò)展(zhǎn)推(tuī)理(lǐ),是(shì)當(dāng)前(qián) AI 行(xíng)業(yè)麵(miàn)臨(lín)的(de)最(zuì)緊(jǐn)迫(pò)挑(tiāo)戰(zhàn)之(zhī)一(yī)。
今(jīn)天,AI 行業發展更進一步,將“光”引入 AIGC 領域,完全基於係統硬件物理定律,首次實現了具備特定特征的全新(未見過的)圖像生成。
來自加州大學洛杉磯分校的研究團隊成功實現了手寫數字、時尚糖心APP官网进入、蝴蝶、人臉及藝術品(如梵高風格)的單色與多色圖像光學生成,且整體性能媲美基於數字神經網絡的生成式模型。
相關研究論文以“Optical generative models”為題,已發表在權威科學期刊 Nature 上。

研究團隊表示,這一光學生成式模型有望為節能且可擴展的推理任務開辟新路徑,進一步挖掘光學與光子學在 AIGC 領域的潛力。同時,這種光學係統與機器學習方法的融合,有望應用於增強現實(AR)和虛擬現實(VR)領域。
在一篇同期發表的新聞與觀點文章中,法國國家科學研究中心 FEMTO‑ST 研究所研究員 Daniel Brunner 認為,這項成果具有重要的技術與科學意義,是邁向利用(yòng)非(fēi)常(cháng)規(guī)物(wù)理(lǐ)係(xì)統(tǒng)構(gòu)建(jiàn)生(shēng)成(chéng)式(shì)計(jì)算(suàn)模(mó)型(xíng)的重要一步。

在 Brunner 看來,由於光子處理信息具有天然優勢,如可以同時處理整個三維體積中的數據,“光學生成式模型也有望具備生成三維圖像的潛力”。
Brunner 表示,要使未來的光學生成式模型更強、更靈活,可能還需要構建“同時采用光學編碼器與光學解碼器的模型”,並嚐試構建多層解碼係統,運用更複雜的光學現象。
然而,正如 Brunner 所言,這項研究的“未來價值取決於能否實現完全落地”,但任重而道遠。
“理想情況下需借助可擴展的集成電路技術,同時避免當前數字硬件編碼所需耗時耗能的數據預處理環節。即便在電子學、光學物理計算及兩者融合領域曆經數十年研究後,這仍將是一項極具挑戰性的任務。”
光學生成式模型:讓光“動手畫(huà)畫(huà)”
近年來,生成式數字模型已經發展到能夠合成多樣化的高質量圖像、類人的自然語言、全新的音樂作品,甚至設計出全新的蛋白質。這些新興的生成式 AI 技術在包括大語言模型(LLM)、具身智能以及 AIGC 等應用中發揮著重要作用。
然而,隨著生成式模型的成功應用,其規模也迅速擴大,對電力、內存資源的消耗日益加重,同時推理時間也顯著增長。其可擴(kuò)展(zhǎn)性(xìng)和(hé)碳(tàn)足(zú)跡(jī),正(zhèng)成(chéng)為(wèi)日(rì)益(yì)關注(zhù)的(de)問(wèn)題(tí)。
盡(jǐn)管(guǎn)已(yǐ)有(yǒu)多(duō)種(zhǒng)方(fāng)法(fǎ)試(shì)圖(tú)降(jiàng)低(dī)模(mó)型(xíng)規(guī)模(mó)與(yǔ)能(néng)耗(hào),並(bìng)提(tí)升(shēng)推(tuī)理速度,但依然迫切需要新的路徑,來構建高能效、可擴展的生成式 AI 模型。
在此背景下,研究團隊提出了一種受擴散模型啟發的光學生成式模型,其編碼器為傳統數字實現,而解碼器則由光學元件構成。
在這一架構中,一個淺層(céng)、快(kuài)速(sù)的(de)數(shù)字(zì)編(biān)碼(mǎ)器(qì)首(shǒu)先(xiān)將(jiāng)隨(suí)機(jī)噪(zào)聲(shēng)映(yìng)射(shè)為(wèi)相(xiāng)位(wèi)圖(tú)案(àn),這(zhè)些(xiē)圖(tú)案(àn)作(zuò)為(wèi)目(mù)標(biāo)數(shù)據(jù)分(fēn)布(bù)的(de)光(guāng)學生成種子。隨後,一個聯合訓練的、基於自由空間傳播的可重構解碼器對這些種子進行全光學處理,從而生成前所未見的圖像,並遵循預期的數據分布。
值得注意的是,除了淺層編碼器階段用於產生照明功率與隨機種子(zi),該(gāi)光(guāng)學(xué)生(shēng)成式模型在圖像生成的過程中幾乎不消耗任何(hé)計(jì)算(suàn)資(zī)源。

圖|光學生成式模型示意圖。
研究團隊提出了兩種圖像光學生成路徑:快照式和迭代式。
在快照光學生成式模型中,每幅圖像或輸出數據的快照光學生成,可在需要時通過隨機訪問這些預先計算的光學生成種子之一來實現。所需圖像合成完全依賴光在自由空間中的傳播過程,並由一個優化後的、固定狀態的衍射解碼器完成。

圖|快照光學生成式模型
迭代光學生成式模型則在每一個時間步,前一步生成的帶噪聲圖像被輸入光學係統。經過波的傳播後,多色信息被記錄下來,用於提供給下一次光學迭代,同時加入一些預設的噪聲。在最後一個時間步,圖像傳感器陣列記錄輸出強度以完成最終圖像生成。當模型完成訓練後,在盲推理階段,迭代光學生成式模型會逐步從高斯噪聲分布重建目標數據分布。

圖|迭代光學生成式模型
此外,研究團隊還展示了如何通過在空間光調製器(SLM)上直接實現從強度到相位的轉換,並結合在圖像傳感器平麵上的光電轉換。他們能夠利用迭代光學生成式模型實現複雜的域映射——盡管其性能和圖像多樣性相比使用數字編碼器的迭代光學生成式模型有所降低。
光真“畫”出了數字和梵高
為了展示快照式和多色光學生成式模型,研究人員搭建了一個基於自(zì)由(yóu)空(kōng)間(jiān)、工(gōng)作(zuò)於(yú)可(kě)見(jiàn)光(guāng)波(bō)段(duàn)的(de)硬(yìng)件(jiàn)係(xì)統(tǒng)。波(bō)長(zhǎng)為(wèi) 520 nm 的(de)激(jī)光(guāng)被(bèi)準(zhǔn)直(zhí)後(hòu),用(yòng)以(yǐ)均(jūn)勻(yún)照(zhào)射(shè) SLM。SLM 顯示的是由淺層數字編碼器處理並預先計算得到的相位圖案,也就是光學生成種子。
這些編碼後的相位圖案通過分束器後調製光場,接著被另一塊 SLM 處理,該 SLM 作為固定或靜態的解碼器使用。對於每一個光學生成式模型而言,優化後的解碼器表麵狀態是固定的,而同一套光學架構可通過切換狀態,生成符合不同目標分布的圖像。在快照式光學生成式模型的輸出端,生成圖像的光強信息由圖像傳感器捕獲。
根據所訓練的數據集,該光學生成式模型能夠輸出梵高風格的人物、建築或植物圖像,也可以生成 0 到 9 的手寫數字圖像,或是時尚配飾的圖像。其中,數字和配飾圖像為黑白圖像,而梵高風格的圖像則為彩色圖像。通過一個純粹基於硬件物理規律實現的機器學習模型,直接生成具有特定特征的全新圖像,此前尚未實現。

圖|多色光學生成式模型的數值和實驗結果,用於創作絢麗的梵高風格藝術作品。與采用 1000 步迭代的教師數字擴散模型對比
當向模型輸入隨機種子時,雖然生成的圖像各不相同,但仍屬於與訓練數(shù)據(jù)相(xiāng)同(tóng)的(de)類(lèi)別(bié)。例(lì)如(rú),使(shǐ)用(yòng)梵(fàn)高(gāo)風(fēng)格(gé)肖(xiào)像(xiàng)作(zuò)為(wèi)訓(xun)練(liàn)數(shù)據(jù)的(de)模(mó)型(xíng),會(huì)輸(shū)出(chū)一(yī)係(xì)列(liè)具(jù)有(yǒu)梵(fàn)高(gāo)畫風的人物圖像,而不同的隨機種子可以生成戴帽子或不戴帽子的人物形象。
研究人員將他們的實驗結果與實驗模擬結果及完全數字化的生成模型進行了比較。他們發現,輸入相同的隨機種子,這些模型所生成圖像的質量與光學生成式模型基本相當。
光學生成,充滿新機遇
研究團隊通過衍射網絡架構,從噪聲圖案中演示了快照式光學圖像生成。他們的框架能夠從噪聲中光學生成多樣化圖像,展現出一種高度理想的“創造性”快照圖像生成能力,超越了以往研究的範圍。
此外,在不更改架構或物理硬件的前提下,僅通過將衍射解碼器重新配置為新的優化狀態,就能實現適應不同數據分布的光學生成。這種光學生成式模型的靈活性,對於邊緣計算、增強現實、虛擬現實顯示等領域具有重要意義,也適用於各類娛樂相關應用。
研究結果還表明,在教師擴散概率模型(DDPM)的引導下,可以對目標分布的知識進行蒸餾。通過模擬擴散過程,迭代光學生成式模型能夠以自監督方式學習目標分布,避免模式崩塌,並生成比原始數據集更加多樣的結果。迭代式光學生成式模型還具有去除數字編碼器的潛力,可根據不同數據分布生成多樣化輸出。
當然,光學生成式模型仍麵臨一些普遍性挑戰。其中之一是光學硬件或係統配置中可能出現的錯位和物理缺陷;另一個挑戰在於光調製器設備或其表麵可實現的相位位深有限,而這些器件用於物理呈現生成的光學生成種子及解碼層。
為應對這些挑戰,可以在訓練過程中直接引入相關限製條件,使數值優化係統更好地符合物理限製與本地硬件的性能條件。這一策略相較於忽略位深限製的訓練方法,在性能上實現了明顯提升。
該分析中的一個關鍵發現是,僅需使用三個離散相位水平的相對簡單解碼器表麵,就已足以完成圖像生成。這為用被動的、薄層表麵替代解碼器帶來了可能。
基於該方法,還可以設計空間或光譜複用的光學生成式模型。光學生成式模型還可實現三維圖像的體積生成,為增強現實、虛擬現實和娛樂等應用帶來新機遇。
AI校園體育抖音號
AI校園體育視頻號
AI城市更新抖音號
AI城市更新視頻號
微信公眾號