Kling 3.0 Surprised Me! Compared To Veo 3.1 & Sora 2
摘要
Dan Kieft 實測 Kling 3.0 及 Kling 3.0 Omni 的新功能,並與 Veo 3.1、Sora 2 做比較。Kling 3.0 最大的突破是 Multi-shot 功能——可以在一次生成中規劃 15 秒影片的三個分鏡,各自定義 prompt、起始畫面和元素,讓 AI 影片首次擁有結構化的敘事能力。
重點筆記
Multi-shot 功能(核心新功能)
- 一次生成 最長 15 秒影片,拆成 每段最多 5 秒 的三個分鏡
- 每個 shot 可獨立設定:prompt、起始畫面(Start Frame)、元素引用
- 分鏡之間畫面自動銜接,人物和場景保持一致性
- Credit 費用和 Kling 2.6 相同(約 30 credits/次)


Kling 3.0 Omni
- 支援在一段影片中加入最多 7 張圖片或元素
- 可以在 prompt 中用 tag 標記引用特定元素
- 適合需要多角色、多物件的複雜場景

音訊品質大幅提升
- Kling 3.0 的音訊品質是四款模型中最好的——對話自然、音效合理
- 相比 Kling 2.6 有顯著進步
- Sora 2 的語音演出也不錯,但音樂一致性較差
關鍵差異:人物圖像動畫化
- Kling 3.0 可以將人物照片轉為影片(image-to-video)
- Sora 2 無法接受人物圖像作為輸入——這是 OpenAI 的內容限制
- 對於需要角色一致性的創作者,這是選擇 Kling 的決定性因素
情感真實度測試
- Kling 3.0 生成的情感場景「幾乎讓人以為是真實影片」
- Sora 2 也表現優秀,但整體可信度稍低
進階 Multi-shot 範例

展示了從遠景 → 中近景 → 硬切到全景的分鏡結構,攝影機運動和焦點轉換具電影感。
我的想法
- Multi-shot 是遊戲規則改變者:過去 AI 影片只能生成單一連續鏡頭,Multi-shot 讓 AI 第一次有了「分鏡腳本」的概念。這直接對應了 AI 影片生成的三個關鍵突破 中的「分鏡連續性」——Kling 3.0 把這個能力從模型內部行為變成了使用者可控的工作流
- Sora 2 的人物限制是致命的:對於商業應用(廣告、MV、產品展示),無法使用人物照片做 image-to-video 是巨大限制
- 與 Dom 的比較互補:YouTube - Kling 3.0 vs Seedance 2 vs Veo 3.1 vs Sora 2 AI Video Comparison by Dom the AI Tutor 用統一 prompt 比較畫質,Dan 則聚焦在功能差異和工作流層面