OpenAI 執行長 Sam Altman 年初才說 AI 代理人 (agent) 將在 2025 年大爆發,現在 OpenAI 也推出自有 AI 代理人 Operator,能代替使用者上網、搜尋資訊或使用電腦等任務。

Operator 是一個通用型 AI 代理人,可以控制瀏覽器,並獨立執行任務,像是搜尋評價 4.5 星級的餐廳,上訂票網站搜尋便宜機票,或上網買東西。目前 Operator 是研究實驗版,已經於上周開放給美國月付 200 美元的 Pro 用戶,但 OpenAI 計畫再推向 Plus 、 Teams 和 Enterprise 方案用戶,也會推向美國以外的地區。
Operator 擁有獨立網站,對已經上線的地區可以從 operator.chatgt.com 開始使用,但 OpenAI 說計畫將 Operator 整合到所有 ChatGPT 客戶端。 Operator 網頁中上方是類似 Google 搜尋列的提示輸入框,下方有許多任務類別供使用者選取,像是購物、外送、餐飲、旅遊,並列出和 ChatGPT 一樣的提示建議,但用戶也可以直接輸入想做的事,例如到 OpenTable 訂好吃的義大利料理的位子。輸入自然語言指令後,Operator 就會開始動作,包括輸入關鍵字、條件等。找到後如果用戶覺得滿意,Operator 會問你要不要它預約,一切都自動化進行。
在 ChatGPT 用戶啟用 Operator 時,會出現一個小視窗顯示 Operator 專用的瀏覽器,還會解釋它現在在做什麼。在 Operator 作業時,使用者還是能主控螢幕。
從技術面而言,Operator 底層是 Computer-Using Agent (CUA) 模型,它結合了 GPT-4o 模型的電腦視覺,以及 OpenAI 以強化式學習 (reinforcement) 訓練的進階推理能力。 CUA 被訓練來和網站前端互動,這意謂它並不使用 API 來介接其他服務。
也就是說,CUA 可以像人類一樣「看」網頁,也具有按鍵和滑鼠功能,如打字、下拉選單、填文字表格。
OpenAI 表示已和多家服務業者合作,包括 DoorDash 、 eBay 、 Instacart 、 Priceline 、 StubHub 和 Uber,確保 Operator 能遵循這些公司的服務條款,當然這也能在用戶想搜尋時優先推薦他們的網站。
為了不讓 Operator 擅自使用用戶信用卡買東西或轉帳,它的 CUA 模型被訓練成在完成重大決定前,像是寄送 Email 或下單會尋求用戶確認,或是請他們再次檢查。而牽涉金錢或帳號密碼時,它也會要求用戶自己來,而這事 Operator 也不會蒐集或拍攝。 OpenAI 說 Operator 已經證實可用在許多種情境,他們也會致力提升穩定性。
AI 代理人是大廠們的最新戰局。 Google 也在去年公佈 AI 代理人 Project Mariner 。
來源:Techcrunch
