104學習

104職場力

2026.05.20 ｜ 6339次觀看

AI gemini 工作術

Google Gemini Omni是什麼？一句話就能生成影片？4功能亮點一次看！

104職場力

2026.05.20

6339次觀看

Google推出全新多模態AI模型Gemini Omni，首發Omni Flash可用圖、文、影、音任意組合生成高品質影片，還能用聊天的方式改片，職場力帶你一次看懂功能、官方實測亮點與職場應用，看這款AI如何成為上班族翻倍工作效率的數位特助！

文／《104職場力》

本文導覽

Gemini Omni是什麼？
它厲害在哪？Gemini Omni Flash 4大功能一次看
怎麼分辨是不是AI做的影片？
誰可以用Gemini Omni？開放對象與使用平台
Gemini Omni對工作與學習的影響？

過去拍一支影片，要拍、要剪、還要後製，現在Google表示：「跟AI聊天就好」。

Google宣布正式推出全新多模態AI模型「Gemini Omni」，並率先釋出第一款模型Gemini Omni Flash，它能將圖片、音訊、影片、文字任意混搭作為輸入，生成高品質影片，還能透過聊天編輯內容。

這篇就帶各位一次看懂它能做什麼、誰能用，以及對職場工作者的意義。

Gemini Omni是什麼？

Google從一開始就強調Gemini是「原生多模態」打造而成（文字、圖像、聲音、影片從底層就一起處理），去年推出的Nano Banana把這份能力延伸到影像生成與編輯，官方資料指出已幫助數百萬使用者修復老照片、把草圖變成設計、實現過去想像不到的創意。

而這次的Gemini Omni，Google 的定位是：一款結合Gemini邏輯推理與創作能力的全新模型，能以任何輸入素材創造出任意形式的內容，並率先支援影片生成。用白話來說就是：你給它什麼都可以，Gemini Omni會先想清楚，再幫你做出來。

首波釋出的版本，是Omni系列中的第一款模型「Gemini Omni Flash」，今天起開始導入Gemini應用程式、Google Flow與YouTube Shorts，Google也說明，未來會逐步支援圖片與音訊等更多元的輸出形式。

它厲害在哪？Gemini Omni Flash 4大功能一次看

功能1：用「對話」就能編輯影片，AI會記得你前面說過什麼

過去用AI改片最頭痛的是「設定跑掉」的問題，一旦換個角度，角色就變另一個人，或改個動作背景就不一樣，超困擾。

Google強調Gemini Omni改掉這個毛病了！它讓使用者能用最自然的對話編輯影片，而且每一次指令都會承接上一步的脈絡，達到以下效果：

角色外觀保持一致性
場景擁有合理的物理邏輯
場景會記住前一幕發生的細節

依官方提供的情境，使用者可以這樣玩：

改變眼前的世界：針對畫面中的特定物件微調，或是徹底抽換整個世界背景。
重新想像動作與情節：上傳一段拍好的影片，直接要求Omni改變其中的情境。
反覆微調影片細節：調整環境、視角、風格甚至是某個小細節，仍能保留影片原始場景的連續性。

這些功能幫助需要產出社群、行銷、教學影片的工作者省下大量重複生成時間。

功能2：不只「做得像」，還「想得通」

Google特別強調，Gemini Omni不是只把畫面做得逼真就好，它會推理「接下來該發生什麼事」，把對物理現象的理解，結合Gemini對歷史、科學與文化知識，拉近「擬真畫面」與「深刻敘事」之間的距離。

這功能的優點具體展現在3個面向：

更符合真實物理法則：對重力、動能、流體力學的理解大幅提升。
融合知識與創意：超越單純的模式比對，在語言、影像與背後的深層意涵之間建立更深的理解，例如官方示範：A到Z字母短片，每個字母搭配一件不尋常的物品（C配水豚、D配迪斯可球、L配熔岩燈），全程搭配舒緩音樂。
複雜概念視覺化：只要簡短的提示詞，就能做出生動的解說影片，例如：黏土動畫風格、定格動畫等，對需要備課、做簡報的使用者來說是福音。

Google指出，它不只讓影片「好看」，還要「好看的有道理」。

功能3：圖、文、影、音任你丟，AI自己會揉成一支片

這也是Gemini Omni名字裡Omni（全面）的精神，官方說明它能將圖像、文字、影片、音訊等任何參考來源，揉合轉化成一個風格連貫的影片成品。

實際用法如下：

可參考任何東西：例如同時丟一張圖、一段影片、一段音樂，AI會把3者融成一支「畫面隨音樂節拍亮起、風格在多種視覺中切換」的科幻短片。
從手邊的素材開始：使用者可以用既有的角色圖、場景圖，甚至是手繪草圖當作參考，創作出符合心中想像的作品。
套用風格、動態或特效：可以用一段影片提供動作參考，再用另一張圖提供材質風格，Omni會融合所有輸入產生一致的成品。

小提醒：在音訊輸入這塊，Google初期先開放語音檔作為參考素材，其他類型的音訊輸入之後才會陸續加入。

這代表創作者可以用更接近導演工作流的方式來使用AI：先選好角色、選好風格、決定動態，再交給模型完成。

功能4：可用虛擬化身Avatars做出另一個自己

Google同步推出虛擬化身（Avatars）功能，讓使用者可以建立一個數位版本的自己，並生成無論在外貌或聲音上都極具個人特色的影片。

Google這次採取較謹慎的開放策略：一開始可以用虛擬化身製作具有個人特色的影片，至於進一步編輯影片以修改音訊和語音的功能，Google表示仍在持續測試與評估。

對需要做個人簡報、教學影片、社群短片，或經營個人品牌的工作者來說，這是「不用補妝、不用打燈、不用重錄第17次」的解方。

怎麼分辨是不是AI做的影片？

AI影片越逼真，真假難辨的疑慮就越大，對此Google的做法是：所有由Omni創作的影片，都會包含無法以肉眼察覺的SynthID數位浮水印。

使用者可以透過以下3個管道，驗證一支影片是否由Gemini Omni生成：

Gemini應用程式
Chrome瀏覽器中的Gemini
Google搜尋

對職場與學習者來說，這呼應了一個越來越重要的觀念：「會用AI」跟「能辨識AI」是同等重要的兩種素養。

誰可以用Gemini Omni？開放對象與使用平台

Gemini Omni Flash自發表當天起陸續開放，依使用者身份不同有不同入口：

對象	入口	何時可以用
Google AI Plus、Pro、Ultra 方案訂閱用戶	Gemini應用程式、Google Flow	即日起搶先體驗
一般使用者（免費）	YouTube Shorts、YouTube Create應用程式	本週起免費體驗
開發人員與企業客戶	透過API接入	接下來幾週內陸續開放

這次無論付費與否，幾乎所有人都能玩到，只是開放時間不同，且初期仍有額度限制。

Gemini Omni對工作與學習的影響？

雖然Google官方並沒有特別針對「職場」與「學習」額外說明什麼，但小編統整，至少有4件事情值得大家先放在心上：

影片製作門檻被打掉一大層：過去要拍、要剪、要後製，現在一句話可以生成，對需要產出社群、行銷、教學素材的人，這是直接可用的生產力工具。
「解說型內容」會變得超容易做：模型能把複雜概念視覺化，未來舉凡教育工作者、知識型創作者、企業內訓講師都可以請AI把概念畫出來，當作備課流程的一環。
更方便經營個人品牌：透過虛擬化身（Avatars），不必每次都實際出鏡也能維持個人形象的一致性。
「用語言精準描述畫面」成為新核心能力：過去談prompt工程，現在則延伸到「能不能把腦中的畫面講清楚」，這對學習者是值得從現在開始練的能力。

如果你是內容工作者、影音創作者、簡報常勝軍，或單純想跟上AI工具的新一輪節奏，現在就是試試看的好時機，不一定要馬上做出什麼大作，但去摸一摸、體會一下跟AI聊天就能生影片是什麼感覺，會對未來的工作方式更有畫面。

（影片、資料來源：Google台灣官方部落格）

延伸閱讀：

AI gemini 工作術

104職場力

職場專業情報第一選擇：履歷範本、自傳範例、求職面試、職場溝通、經營管理、工作心法、職涯規劃、中年失業、就業機會等。不只幫你找工作、找方向，更要提升你的職場競爭力。新鮮人、上班族、二度就業必看！