Google Gemini Omni是什麼?一句話就能生成影片?4功能亮點一次看!

104職場力
2天前
2038次觀看

Google推出全新多模態AI模型Gemini Omni,首發Omni Flash可用圖、文、影、音任意組合生成高品質影片,還能用聊天的方式改片,職場力帶你一次看懂功能、官方實測亮點與職場應用,看這款AI如何成為上班族翻倍工作效率的數位特助!

文/《104職場力

本文導覽

過去拍一支影片,要拍、要剪、還要後製,現在Google表示:「跟AI聊天就好」。

Google宣布正式推出全新多模態AI模型「Gemini Omni」,並率先釋出第一款模型Gemini Omni Flash,它能將圖片、音訊、影片、文字任意混搭作為輸入,生成高品質影片,還能透過聊天編輯內容。

這篇就帶各位一次看懂它能做什麼、誰能用,以及對職場工作者的意義。

Gemini Omni是什麼?

Google從一開始就強調Gemini是「原生多模態」打造而成(文字、圖像、聲音、影片從底層就一起處理),去年推出的Nano Banana把這份能力延伸到影像生成與編輯,官方資料指出已幫助數百萬使用者修復老照片、把草圖變成設計、實現過去想像不到的創意。

而這次的Gemini Omni,Google 的定位是:一款結合Gemini邏輯推理創作能力的全新模型,能以任何輸入素材創造出任意形式的內容,並率先支援影片生成。用白話來說就是:你給它什麼都可以,Gemini Omni會先想清楚,再幫你做出來

首波釋出的版本,是Omni系列中的第一款模型「Gemini Omni Flash」,今天起開始導入Gemini應用程式、Google Flow與YouTube Shorts,Google也說明,未來會逐步支援圖片與音訊等更多元的輸出形式。


它厲害在哪?Gemini Omni Flash 4大功能一次看

功能1:用「對話」就能編輯影片,AI會記得你前面說過什麼

過去用AI改片最頭痛的是「設定跑掉」的問題,一旦換個角度,角色就變另一個人,或改個動作背景就不一樣,超困擾。

Google強調Gemini Omni改掉這個毛病了!它讓使用者能用最自然的對話編輯影片,而且每一次指令都會承接上一步的脈絡,達到以下效果

  • 角色外觀保持一致性
  • 場景擁有合理的物理邏輯
  • 場景會記住前一幕發生的細節

依官方提供的情境,使用者可以這樣玩:

  • 改變眼前的世界:針對畫面中的特定物件微調,或是徹底抽換整個世界背景。
  • 重新想像動作與情節:上傳一段拍好的影片,直接要求Omni改變其中的情境。
  • 反覆微調影片細節:調整環境、視角、風格甚至是某個小細節,仍能保留影片原始場景的連續性。

這些功能幫助需要產出社群、行銷、教學影片的工作者省下大量重複生成時間

功能2:不只「做得像」,還「想得通」

Google特別強調,Gemini Omni不是只把畫面做得逼真就好,它會推理「接下來該發生什麼事」,把對物理現象的理解,結合Gemini對歷史、科學與文化知識,拉近「擬真畫面」與「深刻敘事」之間的距離。

這功能的優點具體展現在3個面向:

  • 更符合真實物理法則:對重力、動能、流體力學的理解大幅提升。
  • 融合知識與創意:超越單純的模式比對,在語言、影像與背後的深層意涵之間建立更深的理解,例如官方示範:A到Z字母短片,每個字母搭配一件不尋常的物品(C配水豚、D配迪斯可球、L配熔岩燈),全程搭配舒緩音樂。
  • 複雜概念視覺化:只要簡短的提示詞,就能做出生動的解說影片,例如:黏土動畫風格、定格動畫等,對需要備課、做簡報的使用者來說是福音。

Google指出,它不只讓影片「好看」,還要「好看的有道理」。

功能3:圖、文、影、音任你丟,AI自己會揉成一支片

這也是Gemini Omni名字裡Omni(全面)的精神,官方說明它能將圖像、文字、影片、音訊等任何參考來源,揉合轉化成一個風格連貫的影片成品。

實際用法如下:

  • 可參考任何東西:例如同時丟一張圖、一段影片、一段音樂,AI會把3者融成一支「畫面隨音樂節拍亮起、風格在多種視覺中切換」的科幻短片。
  • 從手邊的素材開始:使用者可以用既有的角色圖、場景圖,甚至是手繪草圖當作參考,創作出符合心中想像的作品。
  • 套用風格、動態或特效:可以用一段影片提供動作參考,再用另一張圖提供材質風格,Omni會融合所有輸入產生一致的成品。

小提醒:在音訊輸入這塊,Google初期先開放語音檔作為參考素材,其他類型的音訊輸入之後才會陸續加入。

這代表創作者可以用更接近導演工作流的方式來使用AI:先選好角色、選好風格、決定動態,再交給模型完成。

功能4:可用虛擬化身Avatars做出另一個自己

Google同步推出虛擬化身(Avatars)功能,讓使用者可以建立一個數位版本的自己,並生成無論在外貌或聲音上都極具個人特色的影片。

Google這次採取較謹慎的開放策略:一開始可以用虛擬化身製作具有個人特色的影片,至於進一步編輯影片以修改音訊和語音的功能,Google表示仍在持續測試與評估。

對需要做個人簡報、教學影片、社群短片,或經營個人品牌的工作者來說,這是「不用補妝、不用打燈、不用重錄第17次」的解方。


怎麼分辨是不是AI做的影片?

AI影片越逼真,真假難辨的疑慮就越大,對此Google的做法是:所有由Omni創作的影片,都會包含無法以肉眼察覺的SynthID數位浮水印

使用者可以透過以下3個管道,驗證一支影片是否由Gemini Omni生成:

  • Gemini應用程式
  • Chrome瀏覽器中的Gemini
  • Google搜尋

對職場與學習者來說,這呼應了一個越來越重要的觀念:「會用AI」跟「能辨識AI」是同等重要的兩種素養


誰可以用Gemini Omni?開放對象與使用平台

Gemini Omni Flash自發表當天起陸續開放,依使用者身份不同有不同入口:

對象入口何時可以用
Google AI Plus、Pro、Ultra 方案訂閱用戶Gemini應用程式、Google Flow即日起搶先體驗
一般使用者(免費)YouTube Shorts、YouTube Create應用程式本週起免費體驗
開發人員與企業客戶透過API接入接下來幾週內陸續開放

這次無論付費與否,幾乎所有人都能玩到,只是開放時間不同,且初期仍有額度限制。


Gemini Omni對工作與學習的影響?

雖然Google官方並沒有特別針對「職場」與「學習」額外說明什麼,但小編統整,至少有4件事情值得大家先放在心上:

  • 影片製作門檻被打掉一大層:過去要拍、要剪、要後製,現在一句話可以生成,對需要產出社群、行銷、教學素材的人,這是直接可用的生產力工具
  • 「解說型內容」會變得超容易做:模型能把複雜概念視覺化,未來舉凡教育工作者、知識型創作者、企業內訓講師都可以請AI把概念畫出來,當作備課流程的一環。
  • 更方便經營個人品牌:透過虛擬化身(Avatars),不必每次都實際出鏡也能維持個人形象的一致性。
  • 「用語言精準描述畫面」成為新核心能力:過去談prompt工程,現在則延伸到「能不能把腦中的畫面講清楚」,這對學習者是值得從現在開始練的能力。

如果你是內容工作者、影音創作者、簡報常勝軍,或單純想跟上AI工具的新一輪節奏,現在就是試試看的好時機,不一定要馬上做出什麼大作,但去摸一摸、體會一下跟AI聊天就能生影片是什麼感覺,會對未來的工作方式更有畫面。

(影片、資料來源:Google台灣官方部落格


延伸閱讀:

職場專業情報第一選擇:履歷範本、自傳範例、求職面試、職場溝通、經營管理、工作心法、職涯規劃、中年失業、就業機會等。不只幫你找工作、找方向,更要提升你的職場競爭力。新鮮人、上班族、二度就業必看!