2024年2月15日,OpenAI發表新的AI模型Sora,可以用文字生成影片。造成轟動的是,Sora展示的視頻都是1920×1080 HD高傳真,長達一分鐘的影片。影片的創意水平,角度切換,燈光呈現,細微真實度,如同來自硬體攝影機。把目前所有AI圖像生成的產品,一網打盡,丟入深淵。能做60個一分鐘影片,就能剪接成一個小時電影。回想,一年前AI換臉技術才剛剛起步。如今,AI科技進步之快,真的超乎大家的預期。正如我說,2023是水兔年,兔屬陰木,是小草,代表快速成長,想象創新;也是雜草,相互競爭。2024是甲辰木龍年,龍中也有陰木小草,甲木是大樹,異軍突起,一枝獨秀,傲視群雄。2024不能跑在AI前端的公司,那就太慢了,很難追上。Sora將會在2024年推出。我們應該要與時俱進,盡量去了解AI科技,不然很快會變成AI文盲。
AI 領頭羊 openai.com
OpenAI有三個電腦系統平台。最紅的產品是眾所熟知的ChatGPT人工智慧的對話生成模型。它可以幫我們,信息查詢,創意寫作,情感諮詢,娛樂消遣。它可以成為我們在工作上事事通曉的得力助理。最新版本是GPT-4。現在GPT-5已經在發展中,目前最大的考量是它的安全性,2024年底會發表進度。
第二個產品是DALL·E人工智慧的圖像生成模型,能夠根據文字描述生成相應的圖像。可以根據使用者提供的文字描述創建多樣且逼真的圖像。DALL·E的應用範圍廣泛,包括創意設計、圖像生成、視覺效果等領域。DALL·E3的最新版本可以將圖片的細微和美學處理到淋漓盡致。
第三個產品是Sora是OpenAI開發的一種人工智慧工具,能夠將文字轉換為影片內容。簡單的說是將上述兩個系統整合,再向前推進。把圖片轉成動態影片。我們可以通過簡單的文字輸入來生成影片,而不需要專業的電影編輯技能和昂貴的設備。Sora將改變影片創作的方式,只要擁用電腦,去描述自己想要的情節影像,就能創造出自己的作品。https://openai.com/sora
高科技軟體公司Google谷歌前後推出的Bard和Gemini,聊天機器人和圖像生成,不斷釋出不正確的圖片和信息,Google都承認那是完全不能接受的錯誤。可見生成式Generative AI的推演,Google和OpenAI的基礎和功力,差距甚遠。其他國家或公司就不用比了。所以,OpenAI.com是生成式AI科技的領頭羊。
核心科技Diffusion and Transformer
Sora是如何生成影片呢?它是整合ChatGPT和DALL·E,文字和影像處理的兩個工具,稱為Diffusion Transformer Model擴散變壓器模型。語言文字的Transformer是將一個句子的所有關鍵字取出,每一個關鍵字設成一個結點node或(Token)。再將每一關鍵字和其他關鍵字之間找出相關性屬性,並計算出重要性的分數。它需要多次的修正,稱為編碼encoder。再來進行解碼decoder,將每一結點的關鍵字和句子的每一結點,逐字列出,也要多次的修正。如此就能知道句子最重要的含意。結點nodes相互連結的關念,被稱之為neural networks神經網路。
AI圖像生成需要先建立「圖像和文字」關係的neural networks神經網路。也就是OpenAI預先讀取4億張有文字標籤的圖像的對比關係,訓練出來的數據庫模型。此模型 (CLIP) 用來評估哪個標題最適合給DALL-E生成的圖像。此訓練過程稱Forward diffusion,主要利用Gaussian noise處理聲音影像原理,將圖像多次加上不同程度的噪音亂碼(像灑鹽吧)。從而獲得每一步驟有關圖像色彩光度質量參數,它是一系列具有不同峰值信噪的矩陣對比值,用來控制圖像質量。這些圖像的重要特徵,如同圖像的DNA,被儲存在數據庫的模型。它需要相當複雜的數學運算。簡單的關念,它是在做數字「底片」的資料庫,以後需要它,再把它取出來,還原影像印出照片。
DALL·E3文字生成圖像時,會參考數據庫圖像「底片」,進行Reverse Diffusion多次去除噪音亂碼,還原圖片到預定的解析度,同時修正補丁,添補新內容。也可以加入不同元素,融合不同風格等等,會經過不同圖像生成引擎修正細節,創造出全新的藝術作品。
至於文字生成影片的科技,本來市場上就有了,但是能力太差,品質太假,限制太多。OpenAI的 Sora 能夠生成多重人物,每人不同動作,可以瞬間變換主題,加入複雜背景,力求細節和精確,保證視覺質量。它能生成不同射影角度的鏡頭,讓影片準確保留角色和視覺風格(同時生成不同版本短片)。同時,Sora對語言的深度了解大幅提升,可以精準地生成帶有生動情感,有氣質的吸睛角色。
Sora文字生成影片的突破方法,首先要收集所有視覺數據visual data成統一的格式,以便進行大規模的生成模型訓練。它的生成模型必須要可以擴展影片和圖像的連續時間,長寬比率,高傳真解析度。2020到2023有四篇Vision Transformer重要文獻,可以解決這些問題。它剛好可以套用已經很熟悉的大型語言模型Transformer。就是把Sora的visual patches視覺補丁當成Tokens,就能適用於在各種類型的影片和圖像上訓練生成模型。
影片是由一串的連續圖像的組合。把每一張圖像依照解析度和寬高比,劃分成矩陣形的最小區塊叫做 patches補丁,記錄它的位置(空間)和持續時間,稱為Spacetime patches「時空區塊」。神經網路的訓練,就輸入原始影片,Transformer將「時空區塊」時間和空間的參數同時一起編碼壓縮變成latent「潛在規格」(想成digital底片,容易了解)。如此,影片生成時,補丁就能排列成適當大小的網格,輸出可調控的視頻大小和解析度。
每一張電影的畫面的生成,同樣要使用Diffusion擴散模型。將Gaussian noise噪音亂碼加入patches補丁來還原成高傳真的影像。讓人物影像在空間和時間的位移十分平滑,容易向前或向後擴展加長視頻時間,可以改變視頻風格,將不同兩個內容完美融合,影片亦可無縫循環接軌。千言萬語,不如親眼目睹實相。
https://openai.com/research/video-generation-models-as-world-simulators
AI 的遠慮近憂
OpenAI一直強調他們相當謹慎地發展具有「倫理道德」的人工智慧。如果OpenAI處理不當,他們的產品會遭遇美國國會的爭議,甚至停擺。為了應對這些擔憂,DALL-E3和Sora已經包含了限制生成暴力、成人或仇恨內容的安全措施。它還避免生成公眾人物的圖像,保護個人聲譽和隱私,減少誤導信息的風險。馬上面臨的棘手問題就是技術濫用,製造假信息,用來金錢詐騙,抹黑他人名譽,增加法律訴訟,用來洗腦大眾,造成社會恐慌,操縱公眾意見,影響教育學習,國家安全。DALL-E3和Sora會將每一影像圖片鑲入一個生成製造檔案。有人還建議加入「隱形浮水印」。但是,這些都可以用不同公司的AI工具,輕而易舉地去除。
基礎模型是人工智慧的基石。這些模型需要收集龐大的「高品質」數據進行訓練。GPT-3 的數據庫大致有4500 GB,使用叄數高達1750億個。GPT-4 的數據庫的估計將會增加到1,000,000 GB,使用叄數高達17兆個。依據AI研究機構估計,高品質的文字數據輸入,大概會在2026年完成。那就進入 artificial general intelligence (AGI) 時代。當AGI的模型植入機器人,對人類會造成相當程度的威脅。「低品質」數據是否再進入訓練,會有激烈的爭議和辯論。也會討論是否輸入AI自己創造生成的數據和圖片進入AI模型,再度進化。
輸入不同的「選擇性」數據也會造成AI的偏見,影響它的公平性和正確性。如同不同教育機構教導出來的學生,具有不同的才智。AI learning algorithms 人工智能的學習有不同的演算法,都十分深奧,會越來越複雜。將來訓練出問題,很難找到邏輯的過失或理論的缺陷。大多數的人們還是會把AI錯誤的資料當真。由於,人類的好奇和創新力,必定有人偷偷地設計狡滑,厚黑,邪惡,鬼計多端的AI模型。AI模型的對決,會發生。AI模型給人建議的決策如何取捨,會遇到挑戰。
免費的 Stable Diffusion 3
發展AI科技需要相當大的長期資金。2015年底,成立的OpenAI本來是非營利組織。它開發的軟體是開源的。因為投資者很不情願燒錢,OpenAI在2019年開始轉型,在非營利架構下,成立了一個商業營利單位。chatGPT在2022年11月問世,可以免費使用。2023年2月推出ChatGPT Plus付費版本,月費美金20元。2023收入超過16億美元。估計2024年收入會超過50億美元。因為資金的投入,微軟成為最大受益者,成為全球最大市值公司,超過30兆美元。
chatGPT和DALL·E都在網站伺服器運算,成本很高,所以要收費。真正免費服務需要把AI應用程式安裝在個人電腦。stability.ai擁有最強的免費圖像生成的AI模型Stable Diffusion,它可以在個人電腦生成高品質的圖片和動畫。2024年2月也宣佈Stable Diffusion 3可以用文字生成影片,生成3D模型,以及用文字修改圖像。同時,黃仁勳的Nvidia輝達公司也推出Chat with RTX的初版,讓我們可以在個人電腦上運行AI聊天機器人。2024確定是AI文明的大躍進之年。今年底一定會有新的驚喜。
謝謝你的 精心分享!
Perfect timing….