AI 影片生成的突破:OpenAI 的 Sora 是什麼?Sora 完整介紹、3 大重點特色、跟Runway、Pika 差在哪

AI 影片生成的突破:OpenAI 的 Sora 是什麼?Sora 完整介紹、三大重點特色、跟Runway、Pika 差在哪

AI 影片生成的重大革命突破!OpenAI 在今天推出的 Sora ,簡單幾個文字想法就可以轉化為生動影片。
不管你是要經典黑白到動畫風格,一切都是可能的。

快來發掘 Sora是什麼,到底厲害在哪吧!

Sora 是什麼?

Sora 是 OpenAI 在 2/15 發布的新影片生成模型,是一個 text-to-video (文字轉影片)模型。

你可以透過簡單的文字指令 (Prompt) 、圖片,生成各種風格的影片,像是黑白、動漫、真實電影感的 HD 1080p影片,目前最長可以達到一分鐘。

Sora 厲害在哪?

OpenAI 的 Sora 是什麼?Sora 完整介紹、三大重點特色、跟Runway、Pika 差在哪

Sora 透過過去DALL·E 和 GPT 模型的研究和資料打造而成,所以相較於市面上的 AI 影片生成,Sora 更能精準地生成影片中的文字指令。

當你下一個文字指令時,Sora 還懂得這些人物和物品在真實世界裡是怎麼存在的。

舉例來說,如果你讓它畫一個人跳舞,Sora就知道怎麼畫出這個人跳舞時的正確姿勢。

Sora還能在一個影片裡面換好幾個場景,但是讓這些場景裡的人物和風格都保持一致。


就像我們看電影一樣,故事會從一個場景換到另一個場景,故事也都是連貫的。

人物還是那些人物,準確地保留角色和視覺風格。

聽起來很厲害對吧!文章等等我也會列出三個 Sora 厲害的特色,幫助你更容易理解。

Sora 有什麼缺點?

現在Sora 還在開發中,所以他也可能會無法精準的模擬一些比較複雜的場景,或是一些因果關係。
舉例來說,像是一個人咬了餅乾,但餅乾上面卻沒有咬痕,類似這樣因果關係的辨別錯誤。

另外在時間軸上可能也會辨別錯誤,像是有些隨著時間推移發生的事情,他就不一定可以成功產出。
舉例來說,像是以下這個影片,Sora 沒能將椅子建模成剛性物體,所以你就可以看出他的物理互動有點怪。

Sora 有什麼缺點?時間軸上可能也會辨別錯誤,像是有些隨著時間推移發生的事情,他就不一定可以成功產出。

三大重點讓你簡單理解 Sora 有哪些特色

在研究過國內外媒體的介紹後,我整理了三大重點,幫助你簡單了解 Sora 的特色,就讓我們繼續看下去吧!

重點一:能理解物理世界存在、運作的方式,並且預測推估他的動作

這有什麼特別的嗎?我用例子來舉例比較好理解:

從 NVIDIA 研究科學家 Jim Fan 的 Tweet 可以看出,他只下一個指令是"兩艘海盜船在一杯咖啡內航行時互相戰鬥的逼真特寫影片"。

你可以看到 Sora 產出影片的方式是建立在理解物件存在、運作的方式上:

  • 物件在航行並避開彼此路徑
  • 咖啡的流體動力學和船周圍的泡沫

重點二:可以依照時間上向前或向後擴展影片

Sora 還能夠在時間上向前或向後擴展影片,這是什麼意思呢?

可以參考官方的影片,Sora可以為原本的影片生成額外的內容,進而增強敘事或視覺故事線,未來可以有更多創意發想的來源了!

重點三:可以把 DALL·E 的圖片變成動畫

除了可以用文字指令生成影片外,Sora 還可以用以圖片、影片當作指令。

舉例來說,下面左圖是一個平面設計風格的怪物插圖,透過 Sora 轉化後可以變成動畫,如右圖一般。

看起來真厲害!我光看這些範例都捏了一把冷汗 XD

Sora- 可以把 Dall-E 的圖片變成動畫

跟其他 AI 影片生成 有什麼不一樣?跟Runway, Pika 差異在哪?

接續著剛剛上面的把圖片生成動畫,現在也有很多 AI 生成工具可以做到,像是 Runway 和 Pika。這兩個工具我之前也有多少碰過,在此跟大家分享他們差異在哪:

Runway

Runway 是在2018 年推出,透過第二代更新,Runway 引入了導演模式和自訂攝影機控制,提供對攝影機移動、縮放等級和運動組合更精細的控制。 它支援高達 4K 的高解析度視訊匯出,最多可以支持18秒。

Runway 是在2018 年推出,透過第二代更新,Runway 引入了導演模式和自訂攝影機控制,提供對攝影機移動、縮放等級和運動組合更精細的控制。

它支援高達 4K 的高解析度視訊匯出,最多可以支持18秒。

Pika

主要通過Discord操作,他影片產生的電影效果有名,很多人都用它拿來做“假電影預告片”。 相較Runway,Pika 更專注於捕捉細膩的人類動作和情感,但比較沒有精密的相機和動作控制,一次只能生出 3 秒。

主要通過Discord操作,他影片產生的電影效果有名,很多人都用它拿來做“假電影預告片”。相較Runway,Pika 更專注於捕捉細膩的人類動作和情感,但比較沒有精密的相機和動作控制,一次只能生出 3 秒。

Sora 哪裡不一樣?

根據以上,你可以看到只要透過簡單的文字指令、圖片指令就可以創造現實且富有想像力的場景。

他的能力甚至遠遠超過其競爭對手。

Sora 不只可以生成長達 60 秒的影片,他甚至具備複雜的攝影機角度,也可以細部描繪人類的動作和情感,不禁讓我們思考,他真的是產業遊戲規則的重大革命啊。

Sora 開放了嗎?現在誰可以用?

Sora 開發尚未完成,現在只開放給一些人使用,像是視覺設計、藝術者,或是電影製作者試用,並從他們那邊獲取有幫助的使用反饋。

現在尚未全面開放給一般民眾使用,大家可以再等等囉!

使用 Sora 做的影片會侵權嗎?

你可能會擔憂:Sora製作的影片內容是否會侵權?

研究員Peeble表示目前 Sora 的訓練資料都是來自他們已授權的內容以及公開的內容。

不過未來等到開放,使用者拿其他動畫師的影片下指令請Sora做出的影片,這類型的內容可能要等到以後上市才會有更嚴格的規範。

未來 Sora 還會怎麼改善呢?

根據 OpenAI 官方表示,他們現在也正在跟紅隊成員(red teamer)合作,測試是否有錯誤訊息、仇恨內容以及偏見等等內容,進而了解Sora 模型的缺陷。

什麼是 Red teamer 紅隊成員 ?

紅隊成員簡單來說是網路安全專業人員,會透過攻擊和破壞這些相同的框架來幫助公司改進 IT 安全框架。更多詳細內容可以參考:What is a red teamer? All you need to know

另外, OpenAI 內部也在著手建立偵測分類器,幫助判斷是否為 Sora 所生成的影片。以及也會透過文字偵測器,檢查使用者的文字輸入指令是否都有符合規定,像是暴力、性內容、仇恨圖像、名人肖像或他人智慧財產權的文字輸入指令都會被拒絕。

未來如果 OpenAI 打算將 Sora 導入他們其他模型中,也會規畫將詮釋資料 C2PA Metadata 加入影片中,幫助大家能夠更方便驗證來源和相關資訊。

------------

看完以上的資訊,我到現在都還在消化 XD

文章最後再放上幾個 Twitter上大家生成的影片,讓人真的覺得又興奮又緊張呀!

我有料想到這個 AI 生成影片的世界會來臨,但沒想到這麼快哈哈!

就讓我們繼續期待未來Sora開放的那時候吧~

你可能對這些文章有興趣...

ChatGPT 的 GPTs 是什麼? GPTs 建置、實際功能與流程圖解教學一看就懂

GPT Store 商店正式上線:人人打造GPT的時代來臨了!3個實際案例帶你一次瞭解

全面啟動成真了?Prophetic AI 推出清醒夢的 AI 做夢儀器

評論

暫時沒有評論。為什麼不開始討論呢?

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *