Google 終於推出了 Gemini 2.0,這個全新的人工智慧模型被譽為「代理式 AI 時代的基石」。 Gemini 2.0 不僅在性能上超越了前一代,更重要的是,它引入了原生圖像和音訊輸出、工具使用等新功能,為打造能獨立完成任務的代理式 AI 奠定了基礎。
目前 Google 已釋出 Gemini 2.0 Flash 實驗版,這是一個注重速度和效率的輕量級模型,可供開發人員和信任測試者使用,現在已經可以透過網頁版的 Gemini 進行試用。預計未來會推出更多模型,包括功能更強大的 Gemini 2.0 Pro。
什麼是代理式 AI(AI Agent)?
代理式 AI (AI Agent) 是一種新型態的 AI 系統,它不僅能夠理解資訊,還能夠根據指示採取行動並完成任務。
- 與傳統 AI 不同的是,代理式 AI 並非被動地等待指令,而是能夠主動地規劃步驟、做出決策,並在使用者監督下執行任務。
- 這種自主性和行動能力使得 AI Agent 更像是一個能夠協作的夥伴,而非單純的工具。
聽起來很複雜,但簡單來說,以前我們使用 AI,還是僅限於一個指令一個動作,代理式 AI 會更聰明,它會記憶之前對話的內容,並根據情境或是推測的你的需求,回答就會更準確,更能舉一反三。
Gemini 2.0 的代理式 AI 實例
以下是 Google 展示的多個代理式 AI 原型:
Project Astra
一個通用的代理式 AI ,可以透過手機鏡頭辨識物件、提供導航服務、提醒使用者遺失物品位置等。
- 目標: 打造一個通用的 AI 助理,在日常生活中提供協助。
- 主要功能:
- 多語言對話: 能夠以多種語言和混合語言進行對話,並且更好地理解口音和罕見詞彙。
- 工具使用: 可以使用 Google 搜尋、Google Lens 和 Google 地圖來協助回答使用者的問題。
- 記憶功能: 擁有長達 10 分鐘的會話記憶,並且可以記住過去的更多對話,因此可以更好地針對使用者進行個人化設定。
- 低延遲: 透過原生音訊理解和新的串流功能,可以以接近人類對話的延遲速度理解語言。
- 目前狀態: 正在 Android 手機上進行測試,並且將擴展到原型眼鏡等其他形式。
- 未來發展: Google 計劃將 Astra 整合到 Gemini 應用程式和眼鏡等其他形式。
Project Mariner
一個可以操控瀏覽器的代理式 AI ,可以根據指令自動完成網頁上的任務,例如搜尋資訊、填寫表格、比較商品價格等。
- 目標: 探索人機互動的未來,從瀏覽器開始。
- 主要功能:
- 網頁理解和推理: 能夠理解和推理瀏覽器螢幕中的資訊,包括像素和網頁元素,例如文字、程式碼、圖像和表單。
- 任務執行: 可以透過實驗性的 Chrome 擴充功能,使用上述資訊為使用者完成任務。
- 安全性考量: 只能在瀏覽器的活動分頁中執行操作,並且會要求使用者確認某些敏感操作,例如購物。
- 目前狀態: 受信任的測試人員正在使用實驗性的 Chrome 擴充功能進行測試。
- 未來發展: Google 計劃與網路生態系統合作,進一步開發和完善 Mariner。
Jules
一個專為開發者設計的代理式 AI ,可以協助生成程式碼、除錯、程式碼審查等。
- 目標: 協助開發人員編寫和修復程式碼。
- 功能:
- 可以理解程式碼和開發人員的指示。
- 可以生成程式碼、除錯和進行程式碼審查。
- 可以與 GitHub 工作流程整合。
- 實際應用例子:
- Jules 可以幫助您找到程式碼中的錯誤,並提供修復建議。
- Jules 可以根據您的描述自動生成程式碼片段。
- 未來發展: Google 計劃繼續開發 Jules,使其成為開發人員的強大助手。
遊戲代理
可以分析遊戲畫面,提供遊戲建議,甚至可以作為玩家的 AI 隊友,共同完成遊戲任務。
- 目標: 作為虛擬遊戲夥伴,幫助玩家更好地享受遊戲。
- 功能:
- 可以理解遊戲規則和挑戰。
- 可以分析遊戲畫面,提供遊戲建議。
- 可以與玩家進行即時對話。
- 實際應用例子:
- 在 Clash of Clans 等策略遊戲中,遊戲代理可以提供兵種配置建議。
- 遊戲代理可以透過 Google 搜尋找到遊戲相關資訊,例如攻略和技巧。
- 未來發展: Google 計劃與 Supercell 等遊戲開發商合作,探索遊戲代理的更多應用。
其他應用
- Google 搜尋: Gemini 2.0 將為 Google 搜尋中的 AI 概覽提供更進階的推理能力,使其能夠處理更複雜的查詢和主題。
- Gemini 應用程式: Gemini 2.0 將為 Gemini 應用程式帶來更強大的功能,例如多模態輸入和輸出,使其成為更實用的 AI 助理。
- 辦公: 協助撰寫報告、處理 Excel 報表、規劃行程、安排會議等。
- 通用助理: 整合各種工具和服務,提供更全面、更個人化的協助,例如語音翻譯、地圖導航、資訊檢索等。
Gemini 2.0 更新重點
- 性能提升:
- Gemini 2.0 Flash 實驗版現已推出,速度是 Gemini 1.5 Pro 的兩倍,同時在多個基準測試中表現更出色。
- 根據 Google 內部測試,Gemini 2.0 Flash 在程式和圖像分析方面有顯著改進,其卓越的數學能力和「事實性」使其取代 1.5 Pro 成為 Gemini 的旗艦模型。
- 多模態能力:
- Gemini 2.0 原生支援圖像和音訊輸出,可以生成和修改文字、圖像和音訊。
- 它可以接收照片、影片和錄音輸入,並回答相關問題。
- 音訊生成功能可自訂,可以調整語速、音調,甚至使用不同的聲音風格。
Gemini 2.0 Flash vs 1.5 Pro
- 速度: Gemini 2.0 Flash 以速度著稱,根據 Google 的說法,它在關鍵基準測試中的速度是 Gemini 1.5 Pro 的兩倍。 甚至在某些領域的測試資料集,包括 MMLU-Pro、Natural2Code、LiveCodeBench、MATH 等,都勝過了 1.5 Pro。
- 多模態輸出: Gemini 2.0 Flash 原生支援輸出聲音和圖像,並支援即時串流輸入聲音和影像並做出回應,而 1.5 Pro 只能生成文字。
- 工具使用: 2.0 Flash 可以原生呼叫工具,例如 Google 搜尋、程式碼執行以及第三方使用者定義的函數。 這使得它比 1.5 Pro 更具通用性和實用性。
Gemini 2.0 開放了嗎?該如何使用?
目前 Gemini 2.0 Flash 實驗版已經可以使用了,可透過以下方式使用:
- 網頁版: 可以透過選擇 Gemini 網頁應用程式中的新模型來使用 Gemini 2.0 Flash 實驗版。
- Android:
- Gemini 應用程式: 已經開放給部分 Android 機型,可以在模型選單中選擇 2.0 Flash 模型。
- Google 應用程式測試版: 透過 Google 應用程式測試版也可以試用 Gemini 2.0 Flash,從模型選單中選擇 2.0 Flash 實驗版即可。
- iOS:
- Gemini 應用程式: iOS 版 Gemini 應用程式已更新,包含模型選擇器,可選擇最新的 2.0 Flash 實驗版模型。
- 其他使用 Gemini 2.0 Flash 的方法:
- Google AI Studio: 您可以在 Google AI Studio 中透過 Gemini API 使用 Gemini 2.0 Flash 實驗版。
- Vertex AI: 開發人員也可以透過 Vertex AI 使用 Gemini 2.0 Flash 實驗版。
其他 Gemini 2.0 功能和應用程式,例如 Project Astra、Project Mariner 和 Jules,目前仍處於實驗階段,尚未公開發布。未來,Google 將會把 Gemini 2.0 應用到更多 Google 產品和服務中。