Google 自一年前公佈 Gemini 模型以來,本周公佈下一代-Gemini 2.0 多項最新研發成果,也逐步開放消費者及企業使用。
Google 本周公佈 Gemini 2.0 Flash 正式版、並發表 Gemini 2.0 Flash-Lite 及 Gemini 2.0 Pro 實驗版。此外,去年公佈測試版的 Gemini 2.0 Flash 現在則推出正式版。
Google DeepMind 技術長 Koray Kavukcuoglu 說,今天公佈的所有 Gemini 2.0 模型都具備多模態輸入及文字輸出能力,Google 預告未來幾個月內會逐步增加新的模態能力。
包括 DeekSeek-Ri 或 OpenAI o3-mini 模型等競爭者,都還不支援多模態輸入,如圖片及檔案上傳。雖然 R1 網站或手機 App 可接受圖片,但卻是以光學字元辨識從圖片萃取出文字,而非真的理解圖片內容。
不過 DeepSeek R1 和 o3-mini 卻是新式推理模型,它們會利用「思維鏈」,花時間思考,並修正錯誤再回答。這和一般的 LLM 包括 Gemini 2.0 pro 系列不同。因此,Google 拿 Gemini 2.0 和這兩個模型來比,是蘋果和橘子的比較。
但 Google 也有推理模型研發成果。 Google 執行長 Sundar Pichai 在 X 網站(原 Twitter)上宣佈,Gemini 2.0 Flash Thinking 實驗版已部署至桌機和手機 (Android, iOS) 版 App,連結 Google 應用如 Google Maps 、 YouTube 和 Google Search,實現以 DeepSeek 和 OpenAI 也做不到的研究和互動。筆者測試,讓它尋找上個月 Youtube 十大熱門影片共通點,以及鄰近地區的診所營業時間,很快就提供結果。
去年 12 月公佈測試版的 Gemini 2.0 Flash,現在正式上線。這款模型主打高效低延遲,支援多模態推理,且擁有比競爭者更大的 context windows(100 萬 tokens),提供更完整而流暢的互動。
本文目錄
Gemini 2.0 Flash Pro 、 Gemini 2.0 Flash Lite
新的 Gemini 2.0 Flash Pro 具備 200 萬 tokens 的 context windows,可分析和理解更多資訊,提升編輯速度和處理複雜提示的能力,以及更強的理解和推論能力,且能使用工具如 Google Search 或執行程式。
最新 Gemini 2.0 Flash Lite 定位等同 Gemini 1.5 Flash,標竿測試結果為 MMLU Pro (77.6% vs. 67.3%),Bird SQL programming (57.4% vs. 45.6%) 。兩者價格皆為文字/圖片/影片輸入為 0.075 美元,音訊輸入也是 0.075 美元,文字輸入為 0.30 美元。
Google 表示,Gemini 2.0 Flash-Lite 以 Gemini 1.5 Flash 同樣速度和成本,但提供更好的回應品質。 Gemini 2.0 Flash-Lite 和 Gemini 2.0 Flash 一樣具備 100 萬 tokens 的 context windows 和多模態輸入能力。在 AI Studio 花不到 1 美元,就可為 4 萬幅圖片生成一行的文字圖說。
如何取得
如果你是開發人員,可以在 Google AI Studio 及 Vertex AI 透過 API 存取 Flash 正式版、 Flash Lite 公開預覽版及 Pro 實驗版。而一般消費者則可透過桌機版和手機版 Gemini App 使用 Flash,付費版 Gemini Advanced 用戶還可使用 Pro 。
Flash Thinking Experimental 已經推向了 Gemini App,所有桌機版和手機版用戶都能經由下拉選單啟用。
來源:VentureBeat
