top of page

1

AI現在有眼睛了?Sora將帶動新的革命,文本生成影片堪比當年iphone橫空出世!

窮奢極欲 | 時政類 | Mar 6, 2024

此影片謄本由正体不明製作

★非作商業用途,本檔案版權歸版權持有人獨有★

大家好,這裡是窮奢極欲,一個離不開錢的頻道。2024年剛開始不久,科技界就傳出大消息。之前因為CHAT GPT一戰成名的OpenAI又丟出震撼彈。公司團隊在2月15日發布影片生成模型SORA,能夠根據文字指令創造出栩栩如生的畫面。雖然模型還沒有全面開放給外界使用,但已經在網路上引起熱議。本期要來介紹SORA釋出的內容,並聊聊有可能造成哪些影響。

今年AI技術堪稱有飛躍性的發展,其中最受矚目的機構便是OpenAI。這個組織成立於2015年,短短3年就利用自然語言處理和機器學習技術,開發出AI對話生成模型的雛形,並在2022年正式發布CHAT GPT ,瞬間改變文字內容產製的模式。與此同時,生成式的人工智慧技術持續拓展,除了一般人相對熟悉的文本生成圖像,還有一個重點領域也在進步,那就是影片生成。大約從2022下半年開始,Google和阿里巴巴等美中科技巨擘 以及多家小型新創公司陸續進軍AI影片生成領域。不過產品良優不齊,用AI做出的影片常會看起來怪怪的,像是在去年有美國網友利用AI工具把威爾史密斯吃義大利麵這段文字生成影片,畫面只能說是相當駭人。不過當時各大媒體還是很看好這項技術的發展,《紐約時報》更把文本生成影片視為科技領域的下一個重大事件,堪比當年蘋果手機 iPhone航空出世,但沒想到才短短一年就出大事了。OpenAI釋出人工智慧模型SORA的測試結果,這個名字取材自日文的天空,OpenAI把它用來比喻SORA能激發出來的創作潛力。

下載檔案

下載檔案

1

1

所有資料非作商業用途,若有內容侵權,請即通知我們移除。

1

接著就來看看官方釋出的畫面。首先是一位女子走在五光十色的街頭,地面的積水映射出廣告看板和女子的光影,人物臉上的小瑕疵看起來也相當自然。影片背後的指引則是「一位時尚的女人,穿著黑架刻和紅色長裙,走在東京熙來攘往的街頭,街頭上有霓虹燈,潮濕的路面營造出光彩繽紛的效果」對照畫面,指令元素基本上都能得到高品質的呈現。除了這段防震影片,SORA也能重現歷史,例如掏金熱年代時的加州場景,或是超現實的畫面,像是讓史前動物萌馬像走在白雪矮矮的山谷。從畫面來看,SORA的表現確實非常出色。雖然細看還是能挑出問題,但已經超過其他的深層模型。Twitter上就有人比對SORA和皮卡的模型,在同樣的指示底下,畫面中貓咪本身的精細度,到動作的自然程度,以及環境的光影表現,都能看出SORA的優勢。

至於SORA的研究團隊是由兩位研究負責人,一位系統主管,以及十多名主要成員組成。這兩位負責人都是應屆博士畢業生,2023年才剛拿到加州大學學位。不過他們早在業界打磨,尤其針對影像生成領域。團隊內還有一位21歲的成員,年紀輕輕就踏入尖端研發工作。另外有相關人士透露,SORA團隊是用難以想像的高強度工作狀態,拼了一年交出成果。他們運用的技術,則是建立在過往GPT和AI繪圖模型DALL-E的研究。官方文件也提到,團隊是從大型語言模型得到靈感。從畫面中能看到AI生成的柴犬模樣,隨著訓練計算的增加變得更貼近真實。

另外SORA還有一個特點,他們藉由GPT技術,把簡短的指令衍生成更詳細的內容,讓SORA能更準確的依照指令生成影片。在官網上有一個小測試,他們提供一段指令,一共包括四個元素: 分別是主角、她身上的穿著、散步地點以及背後場景。像是選擇一位女性、穿著綠洋裝和遮陽帽、印度的孟買、背景是繽紛的慶典,卻會生成畫面上非常真實的影像。這套技術還不止於此,連靜態的圖片都能轉換成動態的畫面。而且團隊還解決影片生成模型的一大挑戰,那就是在產出長時間影片時無法保持內容的一致性,但SORA能做到場景中的物體就算被遮擋或是離開畫面,還能保持持續性的動作。例如畫面中的小狗被斷斷續續的行人擋住,但她的動作還是很自然。不過SORA因為還在測試階段,生成影片的過程中也存在一些問題,像是她無法準確模擬複雜場景的物理動作,也沒有辦法完全理解物質變化的因果關係,模型也可能搞錯指令。畫面中的男子本來應該在跑步機正常運動,但他卻往反方向跑。再看到這隻叫醒主人的貓咪也明顯出現破綻,生出不該存在的第三隻前腳。此外,AI當前還在處理資安問題,透過紅隊演練的方式,避免模型產生不恰當的內容。

雖然目前SORA還有瑕疵,但可以推測不用多久,OpenAI就能解決這些問題。因此外界也開始討論,等到全面開放使用的那天,會對哪些產業帶來改變?從自媒體的角度來看,許多創作者都會面臨沒有素材可用,或是素材的高成本問題。成熟的影片生成模型將會降低內容創作的技術門檻,未來大家在網路上看到的影片,可能有很多都是AI生成。但反過來說,技術人員或素材提供者 有可能會受到衝擊。例如當前短影音當道已經有很多AI剪片模型問世,就算是素人也能剪出不錯的畫面。假如是要讓文字配上簡單的畫面,也能由人工智慧代勞。大型素材商似乎也受到衝擊,像是擁有4億5千多萬張圖片的Shutterstock,在SORA消息一出後,股價一度下挫。還有一個問題也在網路上引起討論,那就是影片生成模型有可能助長假消息的氾濫程度。2023年的世界新聞媒體年會曾經討論過,生成是AI對媒體的威脅。其中比利時媒體集團Media Hughes的改革總監就擔心「未來AI生成的內容將達到全球內容產業的九成」如今影片生成技術大躍進,假消息的說服力恐怕將上升不止一個檔次。但回過頭來說,每一次的技術革新都是一場職缺的大風吹,有人的專業技能跌價,也有人能從中找到機會。可以想像未來有足夠創意,或是內容含金量更高的創作者,將有更多武器能拉高作品的品質。至於新聞從業人員也不是完全失去優勢,無論是CHATGPT或SORA,都凸顯出深度文本的重要性。換句話說,AI技術對各大產業就像是雙面刃,好壞機會同時湧現。

不過在美中科技戰的戰場上 SORA的問世,意味著美國在尖端研發領域仍然超越中國,像是OpenAI發布SORA不久後,中國就傳出消息,號稱字節跳動推出顛覆性的文本生成影片模型Buximator,能通過文字自由控制影片內容。這篇來自AIGC開放社區的文章還比對Buximator和Pika等其他生成模。像是畫面中女生手上與傘被吹飛的影像,認為中國版SORA對文本語意能精確理解,以及對動作控制的功能強大。不過這番話遭到不少中國網友質疑,有人認為差距很大。也有網友指出,Buximator和SORA在功能上並不相同。更重要的是,字節跳動本身也出面闢謠,回應說Buximator是影片生成領域中,控制物件運動的研究專案,目前還無法作為完善的商品。跟國外領先的影片生成模型相比,Buximator在畫面品質和片長等方面還存在很大的差距。除了以上案例,中國網路安全公司360的創辦人周鴻義也指出 「SORA將對廣告業、電影預告片剪輯和短影銀行業帶來巨大的顛覆,也代表美中兩國的人工智慧差距正在拉大」。

曾獲得富比士中國最佳創投人的徐思青也抱持同樣觀點,不過他還提出另一個論點「SORA還沒有達到完全的商業目標,未來發展的過程中,將帶給相關產業很大的成長空間」。從其他科技領域也能看到,中國企業追趕的速度相當快,字節跳動在過去一年把公司內的強匠調到AI業務,阿里巴巴等公司也持續在領域內佈局。總結來說,近年AI技術的發展 讓人類社會面臨變革。更驚人的是,科技發展的速度縮短人類能夠適應的時間。要如何應用這些技術,恐怕是當前位於職場第一線的朋友都可以好好思考的問題。
好了,這集的窮奢就到這裡,我們下一集再見,掰掰。

1

1

1

1

1

1

1

IMG_1410.PNG

牆內能夠接觸外間資訊的渠道寥寥可數,Youtube 機頂盒為每星期從 Youtube 上挑選不同種類的專題影片並製作成謄本、印刷成信件的長期計劃。

其他最新謄本

https-::www.youtube.com:watch?v=TSJwMZvw

#PSY|4 個方法支援有情緒需要的朋友:批評無助他人渡過低潮! 如何鼓勵其他人尋求專業幫助?|#五分鐘心理學

樹洞香港 TreeholeHK | 心理類

https-::www.youtube.com:watch?v=TSJwMZvw

#PSY|給善良人的心理學 2.0:如何成為善良而有力量的人|#五分鐘心理學

樹洞香港 TreeholeHK | 心理類

https-::www.youtube.com:watch?v=TSJwMZvw

入到U特別易出Pool?大學真係唔使讀書? 28/4《Terry遊學團》大學文化睇真啲

毛記電視 | 娛樂類

https-::www.youtube.com:watch?v=TSJwMZvw

Google Pixel Fold 外觀曝光 | Nothing Phone (2)今夏登場|Phone Link終於支援 iPhone|廣東話【Price Weekly #164 2023年4月 】

Price.com.hk 香港格價網 | 科技類

https-::www.youtube.com:watch?v=TSJwMZvw

iOS17 6大重點新功能、AMD 處理器連環燒、WhatsApp 支援多機登入|廣東話【Price Weekly #164 2023年4月 】

Price.com.hk 香港格價網 | 科技類

0

bottom of page