邁向代理式 AI 時代的 Google Gemini 2.0 新功能以及如何使用？

Google 終於推出了 Gemini 2.0，這個全新的人工智慧模型被譽為「代理式 AI 時代的基石」。 Gemini 2.0 不僅在性能上超越了前一代，更重要的是，它引入了原生圖像和音訊輸出、工具使用等新功能，為打造能獨立完成任務的代理式 AI 奠定了基礎。

目前 Google 已釋出 Gemini 2.0 Flash 實驗版，這是一個注重速度和效率的輕量級模型，可供開發人員和信任測試者使用，現在已經可以透過網頁版的 Gemini 進行試用。預計未來會推出更多模型，包括功能更強大的 Gemini 2.0 Pro。

什麼是代理式 AI（AI Agent）？

代理式 AI (AI Agent) 是一種新型態的 AI 系統，它不僅能夠理解資訊，還能夠根據指示採取行動並完成任務。

與傳統 AI 不同的是，代理式 AI 並非被動地等待指令，而是能夠主動地規劃步驟、做出決策，並在使用者監督下執行任務。
這種自主性和行動能力使得 AI Agent 更像是一個能夠協作的夥伴，而非單純的工具。

聽起來很複雜，但簡單來說，以前我們使用 AI，還是僅限於一個指令一個動作，代理式 AI 會更聰明，它會記憶之前對話的內容，並根據情境或是推測的你的需求，回答就會更準確，更能舉一反三。

Gemini 2.0 的代理式 AI 實例

以下是 Google 展示的多個代理式 AI 原型：

Project Astra

一個通用的代理式 AI ，可以透過手機鏡頭辨識物件、提供導航服務、提醒使用者遺失物品位置等。

目標： 打造一個通用的 AI 助理，在日常生活中提供協助。
主要功能：
- 多語言對話： 能夠以多種語言和混合語言進行對話，並且更好地理解口音和罕見詞彙。
- 工具使用： 可以使用 Google 搜尋、Google Lens 和 Google 地圖來協助回答使用者的問題。
- 記憶功能： 擁有長達 10 分鐘的會話記憶，並且可以記住過去的更多對話，因此可以更好地針對使用者進行個人化設定。
- 低延遲： 透過原生音訊理解和新的串流功能，可以以接近人類對話的延遲速度理解語言。
目前狀態： 正在 Android 手機上進行測試，並且將擴展到原型眼鏡等其他形式。
未來發展： Google 計劃將 Astra 整合到 Gemini 應用程式和眼鏡等其他形式。

Project Mariner

一個可以操控瀏覽器的代理式 AI ，可以根據指令自動完成網頁上的任務，例如搜尋資訊、填寫表格、比較商品價格等。

目標： 探索人機互動的未來，從瀏覽器開始。
主要功能：
- 網頁理解和推理： 能夠理解和推理瀏覽器螢幕中的資訊，包括像素和網頁元素，例如文字、程式碼、圖像和表單。
- 任務執行： 可以透過實驗性的 Chrome 擴充功能，使用上述資訊為使用者完成任務。
- 安全性考量： 只能在瀏覽器的活動分頁中執行操作，並且會要求使用者確認某些敏感操作，例如購物。
目前狀態： 受信任的測試人員正在使用實驗性的 Chrome 擴充功能進行測試。
未來發展： Google 計劃與網路生態系統合作，進一步開發和完善 Mariner。

Jules

一個專為開發者設計的代理式 AI ，可以協助生成程式碼、除錯、程式碼審查等。

目標： 協助開發人員編寫和修復程式碼。
功能：
- 可以理解程式碼和開發人員的指示。
- 可以生成程式碼、除錯和進行程式碼審查。
- 可以與 GitHub 工作流程整合。
實際應用例子：
- Jules 可以幫助您找到程式碼中的錯誤，並提供修復建議。
- Jules 可以根據您的描述自動生成程式碼片段。
未來發展： Google 計劃繼續開發 Jules，使其成為開發人員的強大助手。

遊戲代理

可以分析遊戲畫面，提供遊戲建議，甚至可以作為玩家的 AI 隊友，共同完成遊戲任務。

目標： 作為虛擬遊戲夥伴，幫助玩家更好地享受遊戲。
功能：
- 可以理解遊戲規則和挑戰。
- 可以分析遊戲畫面，提供遊戲建議。
- 可以與玩家進行即時對話。
實際應用例子：
- 在 Clash of Clans 等策略遊戲中，遊戲代理可以提供兵種配置建議。
- 遊戲代理可以透過 Google 搜尋找到遊戲相關資訊，例如攻略和技巧。
未來發展： Google 計劃與 Supercell 等遊戲開發商合作，探索遊戲代理的更多應用。

其他應用

Google 搜尋： Gemini 2.0 將為 Google 搜尋中的 AI 概覽提供更進階的推理能力，使其能夠處理更複雜的查詢和主題。
Gemini 應用程式： Gemini 2.0 將為 Gemini 應用程式帶來更強大的功能，例如多模態輸入和輸出，使其成為更實用的 AI 助理。
辦公： 協助撰寫報告、處理 Excel 報表、規劃行程、安排會議等。
通用助理： 整合各種工具和服務，提供更全面、更個人化的協助，例如語音翻譯、地圖導航、資訊檢索等。

Gemini 2.0 更新重點

性能提升：
- Gemini 2.0 Flash 實驗版現已推出，速度是 Gemini 1.5 Pro 的兩倍，同時在多個基準測試中表現更出色。
- 根據 Google 內部測試，Gemini 2.0 Flash 在程式和圖像分析方面有顯著改進，其卓越的數學能力和「事實性」使其取代 1.5 Pro 成為 Gemini 的旗艦模型。
多模態能力：
- Gemini 2.0 原生支援圖像和音訊輸出，可以生成和修改文字、圖像和音訊。
- 它可以接收照片、影片和錄音輸入，並回答相關問題。
- 音訊生成功能可自訂，可以調整語速、音調，甚至使用不同的聲音風格。

Gemini 2.0 Flash vs 1.5 Pro

速度： Gemini 2.0 Flash 以速度著稱，根據 Google 的說法，它在關鍵基準測試中的速度是 Gemini 1.5 Pro 的兩倍。甚至在某些領域的測試資料集，包括 MMLU-Pro、Natural2Code、LiveCodeBench、MATH 等，都勝過了 1.5 Pro。
多模態輸出： Gemini 2.0 Flash 原生支援輸出聲音和圖像，並支援即時串流輸入聲音和影像並做出回應，而 1.5 Pro 只能生成文字。
工具使用： 2.0 Flash 可以原生呼叫工具，例如 Google 搜尋、程式碼執行以及第三方使用者定義的函數。這使得它比 1.5 Pro 更具通用性和實用性。

Gemini 2.0 開放了嗎？該如何使用？

目前 Gemini 2.0 Flash 實驗版已經可以使用了，可透過以下方式使用：

網頁版： 可以透過選擇 Gemini 網頁應用程式中的新模型來使用 Gemini 2.0 Flash 實驗版。
Android：
- Gemini 應用程式： 已經開放給部分 Android 機型，可以在模型選單中選擇 2.0 Flash 模型。
- Google 應用程式測試版： 透過 Google 應用程式測試版也可以試用 Gemini 2.0 Flash，從模型選單中選擇 2.0 Flash 實驗版即可。
iOS：
- Gemini 應用程式： iOS 版 Gemini 應用程式已更新，包含模型選擇器，可選擇最新的 2.0 Flash 實驗版模型。
其他使用 Gemini 2.0 Flash 的方法：
- Google AI Studio： 您可以在 Google AI Studio 中透過 Gemini API 使用 Gemini 2.0 Flash 實驗版。
- Vertex AI： 開發人員也可以透過 Vertex AI 使用 Gemini 2.0 Flash 實驗版。

其他 Gemini 2.0 功能和應用程式，例如 Project Astra、Project Mariner 和 Jules，目前仍處於實驗階段，尚未公開發布。未來，Google 將會把 Gemini 2.0 應用到更多 Google 產品和服務中。