AI現在有眼睛了？Sora將帶動新的革命，文本生成影片堪比當年iphone橫空出世！

窮奢極欲 | 時政類 | Mar 6, 2024

此影片謄本由正体不明製作

★非作商業用途，本檔案版權歸版權持有人獨有★

大家好,這裡是窮奢極欲，一個離不開錢的頻道。2024年剛開始不久，科技界就傳出大消息。之前因為CHAT GPT一戰成名的OpenAI又丟出震撼彈。公司團隊在2月15日發布影片生成模型SORA，能夠根據文字指令創造出栩栩如生的畫面。雖然模型還沒有全面開放給外界使用，但已經在網路上引起熱議。本期要來介紹SORA釋出的內容，並聊聊有可能造成哪些影響。

今年AI技術堪稱有飛躍性的發展，其中最受矚目的機構便是OpenAI。這個組織成立於2015年，短短3年就利用自然語言處理和機器學習技術，開發出AI對話生成模型的雛形，並在2022年正式發布CHAT GPT ，瞬間改變文字內容產製的模式。與此同時，生成式的人工智慧技術持續拓展，除了一般人相對熟悉的文本生成圖像，還有一個重點領域也在進步，那就是影片生成。大約從2022下半年開始，Google和阿里巴巴等美中科技巨擘以及多家小型新創公司陸續進軍AI影片生成領域。不過產品良優不齊，用AI做出的影片常會看起來怪怪的，像是在去年有美國網友利用AI工具把威爾史密斯吃義大利麵這段文字生成影片，畫面只能說是相當駭人。不過當時各大媒體還是很看好這項技術的發展，《紐約時報》更把文本生成影片視為科技領域的下一個重大事件，堪比當年蘋果手機 iPhone航空出世，但沒想到才短短一年就出大事了。OpenAI釋出人工智慧模型SORA的測試結果，這個名字取材自日文的天空，OpenAI把它用來比喻SORA能激發出來的創作潛力。

下載檔案

所有資料非作商業用途，若有內容侵權，請即通知我們移除。

接著就來看看官方釋出的畫面。首先是一位女子走在五光十色的街頭，地面的積水映射出廣告看板和女子的光影，人物臉上的小瑕疵看起來也相當自然。影片背後的指引則是「一位時尚的女人，穿著黑架刻和紅色長裙，走在東京熙來攘往的街頭，街頭上有霓虹燈，潮濕的路面營造出光彩繽紛的效果」對照畫面，指令元素基本上都能得到高品質的呈現。除了這段防震影片，SORA也能重現歷史，例如掏金熱年代時的加州場景，或是超現實的畫面，像是讓史前動物萌馬像走在白雪矮矮的山谷。從畫面來看，SORA的表現確實非常出色。雖然細看還是能挑出問題，但已經超過其他的深層模型。Twitter上就有人比對SORA和皮卡的模型，在同樣的指示底下，畫面中貓咪本身的精細度，到動作的自然程度，以及環境的光影表現，都能看出SORA的優勢。

至於SORA的研究團隊是由兩位研究負責人，一位系統主管，以及十多名主要成員組成。這兩位負責人都是應屆博士畢業生，2023年才剛拿到加州大學學位。不過他們早在業界打磨，尤其針對影像生成領域。團隊內還有一位21歲的成員，年紀輕輕就踏入尖端研發工作。另外有相關人士透露，SORA團隊是用難以想像的高強度工作狀態，拼了一年交出成果。他們運用的技術，則是建立在過往GPT和AI繪圖模型DALL-E的研究。官方文件也提到，團隊是從大型語言模型得到靈感。從畫面中能看到AI生成的柴犬模樣，隨著訓練計算的增加變得更貼近真實。

另外SORA還有一個特點，他們藉由GPT技術，把簡短的指令衍生成更詳細的內容，讓SORA能更準確的依照指令生成影片。在官網上有一個小測試，他們提供一段指令，一共包括四個元素: 分別是主角、她身上的穿著、散步地點以及背後場景。像是選擇一位女性、穿著綠洋裝和遮陽帽、印度的孟買、背景是繽紛的慶典，卻會生成畫面上非常真實的影像。這套技術還不止於此，連靜態的圖片都能轉換成動態的畫面。而且團隊還解決影片生成模型的一大挑戰，那就是在產出長時間影片時無法保持內容的一致性，但SORA能做到場景中的物體就算被遮擋或是離開畫面，還能保持持續性的動作。例如畫面中的小狗被斷斷續續的行人擋住，但她的動作還是很自然。不過SORA因為還在測試階段，生成影片的過程中也存在一些問題，像是她無法準確模擬複雜場景的物理動作，也沒有辦法完全理解物質變化的因果關係，模型也可能搞錯指令。畫面中的男子本來應該在跑步機正常運動，但他卻往反方向跑。再看到這隻叫醒主人的貓咪也明顯出現破綻，生出不該存在的第三隻前腳。此外，AI當前還在處理資安問題，透過紅隊演練的方式，避免模型產生不恰當的內容。

雖然目前SORA還有瑕疵，但可以推測不用多久，OpenAI就能解決這些問題。因此外界也開始討論，等到全面開放使用的那天，會對哪些產業帶來改變?從自媒體的角度來看，許多創作者都會面臨沒有素材可用，或是素材的高成本問題。成熟的影片生成模型將會降低內容創作的技術門檻，未來大家在網路上看到的影片，可能有很多都是AI生成。但反過來說，技術人員或素材提供者有可能會受到衝擊。例如當前短影音當道已經有很多AI剪片模型問世，就算是素人也能剪出不錯的畫面。假如是要讓文字配上簡單的畫面，也能由人工智慧代勞。大型素材商似乎也受到衝擊，像是擁有4億5千多萬張圖片的Shutterstock，在SORA消息一出後，股價一度下挫。還有一個問題也在網路上引起討論，那就是影片生成模型有可能助長假消息的氾濫程度。2023年的世界新聞媒體年會曾經討論過，生成是AI對媒體的威脅。其中比利時媒體集團Media Hughes的改革總監就擔心「未來AI生成的內容將達到全球內容產業的九成」如今影片生成技術大躍進，假消息的說服力恐怕將上升不止一個檔次。但回過頭來說，每一次的技術革新都是一場職缺的大風吹，有人的專業技能跌價，也有人能從中找到機會。可以想像未來有足夠創意，或是內容含金量更高的創作者，將有更多武器能拉高作品的品質。至於新聞從業人員也不是完全失去優勢，無論是CHATGPT或SORA，都凸顯出深度文本的重要性。換句話說，AI技術對各大產業就像是雙面刃，好壞機會同時湧現。

不過在美中科技戰的戰場上 SORA的問世，意味著美國在尖端研發領域仍然超越中國，像是OpenAI發布SORA不久後，中國就傳出消息，號稱字節跳動推出顛覆性的文本生成影片模型Buximator，能通過文字自由控制影片內容。這篇來自AIGC開放社區的文章還比對Buximator和Pika等其他生成模。像是畫面中女生手上與傘被吹飛的影像，認為中國版SORA對文本語意能精確理解，以及對動作控制的功能強大。不過這番話遭到不少中國網友質疑，有人認為差距很大。也有網友指出，Buximator和SORA在功能上並不相同。更重要的是，字節跳動本身也出面闢謠，回應說Buximator是影片生成領域中，控制物件運動的研究專案，目前還無法作為完善的商品。跟國外領先的影片生成模型相比，Buximator在畫面品質和片長等方面還存在很大的差距。除了以上案例，中國網路安全公司360的創辦人周鴻義也指出「SORA將對廣告業、電影預告片剪輯和短影銀行業帶來巨大的顛覆，也代表美中兩國的人工智慧差距正在拉大」。

曾獲得富比士中國最佳創投人的徐思青也抱持同樣觀點，不過他還提出另一個論點「SORA還沒有達到完全的商業目標，未來發展的過程中，將帶給相關產業很大的成長空間」。從其他科技領域也能看到，中國企業追趕的速度相當快，字節跳動在過去一年把公司內的強匠調到AI業務，阿里巴巴等公司也持續在領域內佈局。總結來說，近年AI技術的發展讓人類社會面臨變革。更驚人的是，科技發展的速度縮短人類能夠適應的時間。要如何應用這些技術，恐怕是當前位於職場第一線的朋友都可以好好思考的問題。
好了，這集的窮奢就到這裡，我們下一集再見，掰掰。