Google推出全新多模態AI模型Gemini Omni,首發Omni Flash可用圖、文、影、音任意組合生成高品質影片,還能用聊天的方式改片,職場力帶你一次看懂功能、官方實測亮點與職場應用,看這款AI如何成為上班族翻倍工作效率的數位特助!
文/《104職場力》
本文導覽
過去拍一支影片,要拍、要剪、還要後製,現在Google表示:「跟AI聊天就好」。
Google宣布正式推出全新多模態AI模型「Gemini Omni」,並率先釋出第一款模型Gemini Omni Flash,它能將圖片、音訊、影片、文字任意混搭作為輸入,生成高品質影片,還能透過聊天編輯內容。
這篇就帶各位一次看懂它能做什麼、誰能用,以及對職場工作者的意義。
Google從一開始就強調Gemini是「原生多模態」打造而成(文字、圖像、聲音、影片從底層就一起處理),去年推出的Nano Banana把這份能力延伸到影像生成與編輯,官方資料指出已幫助數百萬使用者修復老照片、把草圖變成設計、實現過去想像不到的創意。
而這次的Gemini Omni,Google 的定位是:一款結合Gemini邏輯推理與創作能力的全新模型,能以任何輸入素材創造出任意形式的內容,並率先支援影片生成。用白話來說就是:你給它什麼都可以,Gemini Omni會先想清楚,再幫你做出來。
首波釋出的版本,是Omni系列中的第一款模型「Gemini Omni Flash」,今天起開始導入Gemini應用程式、Google Flow與YouTube Shorts,Google也說明,未來會逐步支援圖片與音訊等更多元的輸出形式。
過去用AI改片最頭痛的是「設定跑掉」的問題,一旦換個角度,角色就變另一個人,或改個動作背景就不一樣,超困擾。
Google強調Gemini Omni改掉這個毛病了!它讓使用者能用最自然的對話編輯影片,而且每一次指令都會承接上一步的脈絡,達到以下效果:
依官方提供的情境,使用者可以這樣玩:
這些功能幫助需要產出社群、行銷、教學影片的工作者省下大量重複生成時間。
Google特別強調,Gemini Omni不是只把畫面做得逼真就好,它會推理「接下來該發生什麼事」,把對物理現象的理解,結合Gemini對歷史、科學與文化知識,拉近「擬真畫面」與「深刻敘事」之間的距離。
這功能的優點具體展現在3個面向:
Google指出,它不只讓影片「好看」,還要「好看的有道理」。
這也是Gemini Omni名字裡Omni(全面)的精神,官方說明它能將圖像、文字、影片、音訊等任何參考來源,揉合轉化成一個風格連貫的影片成品。
實際用法如下:
小提醒:在音訊輸入這塊,Google初期先開放語音檔作為參考素材,其他類型的音訊輸入之後才會陸續加入。
這代表創作者可以用更接近導演工作流的方式來使用AI:先選好角色、選好風格、決定動態,再交給模型完成。
Google同步推出虛擬化身(Avatars)功能,讓使用者可以建立一個數位版本的自己,並生成無論在外貌或聲音上都極具個人特色的影片。
Google這次採取較謹慎的開放策略:一開始可以用虛擬化身製作具有個人特色的影片,至於進一步編輯影片以修改音訊和語音的功能,Google表示仍在持續測試與評估。
對需要做個人簡報、教學影片、社群短片,或經營個人品牌的工作者來說,這是「不用補妝、不用打燈、不用重錄第17次」的解方。
AI影片越逼真,真假難辨的疑慮就越大,對此Google的做法是:所有由Omni創作的影片,都會包含無法以肉眼察覺的SynthID數位浮水印。
使用者可以透過以下3個管道,驗證一支影片是否由Gemini Omni生成:
對職場與學習者來說,這呼應了一個越來越重要的觀念:「會用AI」跟「能辨識AI」是同等重要的兩種素養。
Gemini Omni Flash自發表當天起陸續開放,依使用者身份不同有不同入口:
| 對象 | 入口 | 何時可以用 |
| Google AI Plus、Pro、Ultra 方案訂閱用戶 | Gemini應用程式、Google Flow | 即日起搶先體驗 |
| 一般使用者(免費) | YouTube Shorts、YouTube Create應用程式 | 本週起免費體驗 |
| 開發人員與企業客戶 | 透過API接入 | 接下來幾週內陸續開放 |
這次無論付費與否,幾乎所有人都能玩到,只是開放時間不同,且初期仍有額度限制。
雖然Google官方並沒有特別針對「職場」與「學習」額外說明什麼,但小編統整,至少有4件事情值得大家先放在心上:
如果你是內容工作者、影音創作者、簡報常勝軍,或單純想跟上AI工具的新一輪節奏,現在就是試試看的好時機,不一定要馬上做出什麼大作,但去摸一摸、體會一下跟AI聊天就能生影片是什麼感覺,會對未來的工作方式更有畫面。
(影片、資料來源:Google台灣官方部落格)
延伸閱讀: