在今年的 Google I/O 發表會上,Google 正式推出全新升級的 Gemini 2.5 系列模型,主打更高的智慧、更快的運算效率,以及對現實世界更深層的理解力。這場發表不只是一場技術展示,更是 Google 將「生成式 AI」全面融入產品與生活的轉折點。
Gemini 2.5 Pro 是這波更新的主角。根據 Google CEO Sundar Pichai 的說明,這款模型在各大基準評比中表現領先,Elo 分數比前一代提升超過 300 分,在 LMArena、WebDev Arena 等平台都拿下榜首。不只語言能力提升,在編碼任務上也突破許多限制,顯示它已能勝任真實世界的專業工作需求。
這次特別引發討論的,是即將開放的「Deep Think 模式」,這是 Gemini 模型的深度推理模式,能夠進行更耗時也更精密的邏輯推理。
舉例來說,它已在美國數學奧林匹亞(USAMO)等高難度測試中展現解題能力。目前 Deep Think 還只開放給受信測試者使用,Google 表示會進一步蒐集回饋後再正式推出。
除了語言與推理的進化,Gemini 也朝向「多模態」的方向持續擴張。Gemini Live 現已在 Android 與 iOS 裝置上全面推出,讓使用者可以透過語音與助理互動,甚至直接共享鏡頭畫面或螢幕內容,獲得即時的理解與建議。這讓手機助理不再只是「指令回應器」,而是能與你進行視覺、語音、情境互動的數位夥伴。
曾在過往 I/O 初次亮相的 Project Astra 也正式整合進 Gemini Live,展示了 AI 如何「看得懂」周遭環境。發表會中展示了一段互動影片,Gemini 精準辨識街景、建築與日常物品,甚至能幽默地指出「你看到的敞篷車其實是垃圾車」。這種智慧化辨識與語言生成的結合,讓人對未來日常使用 AI 助理的方式有了全新想像。
Gemini 不只強化了語言與感官理解,還透過「個人上下文(Personal Context)」進一步貼近使用者的生活。這項功能允許 Gemini 根據使用者過去在 Gmail、Docs、Drive 中的資訊(在使用者授權下)來生成更貼近語氣與風格的內容。舉例來說,當朋友詢問旅行建議時,Gemini 可自動抓取你過往旅遊的筆記與行程資料,組成一封完整又像你親自寫的推薦信。這功能預計於夏季開放給訂閱用戶使用。
這一連串功能已整合進 Gemini App。根據 Google 提供的數據,目前全球已有超過 4 億名每月活躍使用者在使用 Gemini,且使用量與互動時間都有明顯提升。這顯示,生成式 AI 已不再是實驗性的新玩具,而是開始真正扮演生活助手的角色。
從模型性能到應用場景,從單向查詢到多感官互動,Gemini 展現了 Google 對 AI 未來發展的全新藍圖。接下來,就看使用者是否願意讓這位助理走得更深入,也更個人化地參與到日常生活中。