Apple 近日推出了一款名為 ReALM (Reference Resolution As Language Modeling) 的新型小語言模型,此模型目標在手機上運行,透過協助理解上下文和含糊的參照,旨在提升 Siri 等語音助理的智慧水平。
該模型預計將在 2024 年 6 月 WWDC 大會上推出 iOS 18 時發表,我們將有機會看到結合 Gen AI 的 Siri 2.0,不過目前尚不清楚這款模型是否會及時整合至 Siri 中。
本文目錄
Apple 為 Siri 2.0 發展 ReALM?
過去數月,Apple 在人工智慧領域的探索不止於此,新模型的推出、提高小型設備 AI 效率的工具開發以及伙伴關係的建立,均顯示 Apple 意在將 AI 作為其業務的核心。
ReALM 是 Apple 日益壯大的 AI 研究團隊的最新成果,也是首次專注於提升現有模型的效能,目標是使這些模型更快、更智慧且更高效。 Apple 自稱,ReALM 在特定任務上的表現甚至超越了 OpenAI 的 GPT-4 。
詳細資料於上週五由 Apple 新發布的一份開放研究論文中披露,但對於該研究及其是否會成為 iOS 18 的一部分,Apple 尚未做出評論。
關於 ReALM 對 Apple AI 領域的意義,目前 Apple 似乎正採取一種全面投入以探索成效的策略。有傳言指出 Apple 正與 Google 、百度乃至 OpenAI 建立合作關係。此外,Apple 推出了多款令人印象深刻的模型和工具,以便於在本機端更輕鬆地執行 AI 。
Apple 已進行超過 10 年的 AI 研究,大多數成果被融入到應用程式或服務中。直到最新一代的 MacBook 發布,Apple 才開始在其行銷中突出 AI 。
研究主要聚焦於在本機端執行 AI 模型的方法,無需依賴雲端處理大量資料。這不僅對於降低執行 AI 應用的成本至關重要,也符合 Apple 的嚴格隱私標準。
ReALM 的運作原理
關於 ReALM 的運作方式,與 GPT-4 等大型模型相比,ReALM 的規模要小得多,但這是因為其功能專一。 ReALM 的主要目的是為 Siri 等 AI 模型提供上下文理解。
ReALM 是一個視覺模型,能夠重建螢幕畫面並標記每個螢幕元件及其位置,進而建立螢幕視覺格局的文字敘述,這些資訊可用於向語音助理提供處理用戶請求的上下文線索。
Apple 聲稱,儘管 ReALM 的規模更小、速度更快,但在許多關鍵性能指標上,其表現與 GPT-4 相當。
對於 Siri 而言,這意味著若未來版本的 ReALM 被部署到 Siri—或甚至是目前這個版本—那麼 Siri 在解釋「打開這個應用」或「解釋圖片中的這個詞」等用戶指令時,將具有更佳的理解能力。
這也意味著 Siri 將擁有更多的對話能力,而不必完全依賴於部署像 Gemini 這樣規模的大型語言模型。
與 Apple 最近的其他研究論文結合來看,這些研究允許 AI 從單一提示中獲得答案,顯示出 Apple 仍在 AI 助理領域進行積極投資,而不僅僅是依靠外部模型。
