Kling 3.0 vs Seedance 2 vs Veo 3.1 vs Sora 2: The Ultimate AI Video Comparison

摘要

Dom the AI Tutor 用 20 個完全相同的 prompt 分別餵給 Kling 3.0、Seedance 2.0、Sora 2 和 Veo 3.1 四款 AI 影片生成器,產出 80 段影片進行並排比較。影片沒有旁白或明確評分,讓觀眾自行判斷。測試涵蓋物理模擬、多語言唇形同步、情感敘事、一致性、風格化動畫等多個維度,是目前最全面的四模型橫向對比。

重點筆記

測試方法論

  • 控制變量:20 個相同 prompt,跨 4 個模型
  • 展示格式:每個測試依序展示各模型輸出,左上角標示模型名稱,底部顯示完整 prompt
  • 不給結論:作者刻意不評分,讓觀眾自行判斷(結尾:「What do you think, which AI video generator is the best right now?」)

20 個測試類別與 Prompt 設計

影片的 prompt 設計極為精細,每個都指定了鏡頭語言、風格、物理細節和情感氛圍。以下為重點測試:

1. 高速 FPV 無人機工廠穿越(物理 + 運動控制)

“High-speed FPV drone racing through abandoned factory corridors, sharp turns, broken windows, dust clouds, beams of sunlight, extreme motion control.”

  • Veo 3.1 明顯差異:其他模型生成第一人稱穿越畫面,Veo 3.1 卻生成了無人機本體在畫面中飛行的第三人稱視角——對同一 prompt 的理解完全不同

2. 多語言唇形同步(英語 + 中文普通話)

“[Global Style: Hyper-realistic, shallow depth of field, warm candlelight.] [0s-4s: Medium Close-up] A sharp-dressed man stares intensely. He speaks in English: ‘I told you, the code stays with me until I see the money.’ [4s-5s: Seamless Transition] He pauses, slight smirk… [5s-12s: Close-up] Without a cut, he switches to fluent Mandarin: ‘现在,把箱子打开,别让我再说第二遍。’”

  • 這是一個極具挑戰性的測試:同一人物、同一鏡頭中切換語言,要求唇形同步和語調都自然
  • Prompt 結構採用分段時間碼格式(0s-4s、4s-5s、5s-12s),精確控制每段內容

3. 積木物理(Jenga 倒塌)

“A macro shot of a hand pulling a center block from a tall Jenga tower. The tower must wobble for two seconds before collapsing. Every block must collide and bounce realistically, staying on the table after the fall.”

  • 測試重點:剛體碰撞物理——木塊間的碰撞、彈跳、摩擦是否合理

4. 飛機駕駛艙(Image-to-Video)

“POV tracking shot through a private jet cabin during a crash landing scenario…”

  • 部分模型測試 text-to-video,部分測試 image-to-video(Sora 2 標示為 “TEXT TO VIDEO”)

5. 世界領袖格鬥遊戲

“Mortal Kombat gameplay footage but the characters are famous world leaders.”

  • 測試 AI 對遊戲 UI 風格的理解:血條、計時器、角色名稱等 HUD 元素
  • Sora 2 的輸出非常逼真,生成了完整的格鬥遊戲介面

6. 情感敘事(士兵歸來)

“A weary soldier in a dust-covered uniform walks onto the creaking porch of an old farmhouse, holding a folded US flag in trembling hands. He knocks. A woman in her fifties opens the door… With tears in his eyes, the soldier whispers, ‘I am so sorry.’ She breaks down instantly…”

  • 測試 AI 的微表情生成情感敘事能力
  • 所有模型都能生成悲傷場景,但表情的真實感和情感張力差異明顯

7. 武俠水墨動畫 + 書法

“Chinese ink-wash style wuxia art anime short. An old man holds a bamboo staff… Every time the staff drags across the ground, it forms ink traces. In the final shot… the ink traces previously formed by the staff on the ground form the traditional Chinese character for ‘horse’…”

  • 測試非寫實風格的一致性和概念理解(筆觸軌跡最後要組成「馬」字)

8. 360 度環繞鏡頭(雨中小提琴手)

“One continuous uncut 360-degree orbit around a street violinist performing at night in pouring rain.”

  • 測試長時間連續鏡頭的一致性——環繞 360 度時人物、環境不能變形

9. Vlog 鏡子故障(一致性測試)

“Ultra-realistic vlog-style fixed shot in a bathroom. A girl brushes her teeth… As she leaves the frame, the reflection stays behind, smirks mischievously… then ‘glitches’ fast-forward to catch up.”

  • 測試 AI 理解時間因果性和鏡像一致性——鏡中倒影要先獨立行動再同步回去

10. 巨型哥吉拉貓(重慶偽紀錄片)

“Mockumentary: In Chongqing’s 8D cityscape, a Godzilla-sized orange cat is wedged between skyscrapers… Features ultra-realistic fur physics and CG/real footage blend.”

  • 測試真實場景 + 超現實元素的融合品質

11. 微距紅酒倒注 + 毛細現象

“An extreme macro, high-angle shot… The wine pours in a steady, turbulent stream, creating tiny bubbles and ripples… The wine flows down the stem and pools onto a dark wooden table surface… As the liquid hits a stack of white paper napkins, it realistically wicks into the fibers, showing rapid capillary action…”

  • 測試流體物理模擬——表面張力、凹凸面、毛細現象

四模型畫面對比(龍捲風場景)

從四格對比中可以觀察到各模型在同一 prompt 下的風格差異:碎片密度、光影處理、構圖選擇都有明顯不同。

我的想法

  • 與影視颶風筆記的互補YouTube - 改變視頻行業的AI快來了 by 影視颶風 從單一模型(Seedance 2.0)的深度體驗出發,這支影片則提供了四模型橫向比較的廣度。兩者合看可以更全面理解 2026 年 AI 影片生成的現狀
  • Prompt 設計的價值:這 20 個 prompt 本身就是極好的參考——它們展示了如何用精確的時間碼、鏡頭語言和物理細節來控制 AI 影片生成。這比看結果更有實用價值
  • 「不給結論」的設計:作者刻意不評分,暗示四個模型已經沒有壓倒性的勝出者——各有擅長的領域,使用者需要根據具體需求選擇
  • Veo 3.1 的 prompt 理解差異值得注意:同樣的 FPV 無人機 prompt,其他模型給第一人稱,Veo 3.1 給第三人稱。這不一定是「錯」,但顯示不同模型對同一指令的語意解析方式不同

衍生的永久筆記

原始連結