有......" />
北京2025年8月5日 /美通社/ -- 亞馬遜云科技日前宣布,推出Amazon Nova Act SDK有限預覽版,可快速幫助客戶將基于瀏覽器的Agent從原型部署至生產環境。該SDK可與亞馬遜云科技的多項服務集成,包括用于安全身份管理的Amazon Identity and Access Management (Amazon IAM)、用于數據存儲與策略控制的Amazon Simple Storage Service (Amazon S3),以及全新推出的、支持大規模云端瀏覽器執行的Amazon Bedrock AgentCore Browser Tool。
Amazon Nova Act SDK最初于2025年初以研究預覽版形式推出,旨在幫助開發者構建可穩定完成網頁任務的Agent。隨著企業對自動化能力的需求不斷增長,該SDK在眾多實際業務場景中得以落地,成為推動Agent流程自動化的重要工具,具備高可靠性、靈活性與可擴展性。
傳統業務自動化流程面臨的挑戰
日常業務操作往往依賴瀏覽器,例如提交休假申請、處理發票、訪問供應商門戶或查看儀表盤。由于缺乏API覆蓋,許多流程仍需手動完成:團隊需要在多個標簽頁間復制粘貼數據,手動執行多步驟流程,點擊大量界面來完成工作。
傳統基于規則的瀏覽器自動化框架在動態網頁環境中面臨諸多挑戰。頁面結構的微小變化(如新增表單字段或下拉選項)常常導致選擇器失效,團隊需要投入大量精力進行維護,而非構建新的自動化任務。更重要的是,這類框架難以擴展。例如,若某一業務場景需要在50個不同網站上運行,團隊就必須構建50套特定自動化邏輯,因為基于規則的框架無法泛化。
人類執行任務的能力可以適應不同的工具和界面。例如,掌握了如何在Outlook中撰寫郵件后,即使從未使用過Gmail,也能在其中完成同樣的任務。大型語言模型(LLM)通過海量用戶界面訓練樣本,賦予AI Agent類似于人類的這種識別能力。憑借語言理解、指令執行和跨領域推理能力,大語言模型已廣泛應用于聊天、摘要生成、編程助手等場景。如今,生成式AI正邁入"以行動為核心"的新階段。Agentic AI在大語言模型基礎上向執行層延伸,旨在完成動態、多步驟的復雜流程,如填寫復雜表單、與不斷變化的界面交互,或大規模完成真實業務任務。Agentic AI并非取代大語言模型,而是對其進行擴展,釋放新的自動化能力,讓我們在企業環境中更接近真正的任務完成。
借助Amazon Nova Act SDK實現Agentic AI
借助Amazon Nova Act SDK,客戶能夠構建并部署可靠的瀏覽器Agent,這些Agent由專為Agentic AI打造并精調的Amazon Nova Act模型驅動。該模型經過強化學習訓練,并結合大量瀏覽器交互領域數據,能夠精準執行逐步工作流程。在最新版本中,亞馬遜云科技通過服務集成進一步擴展了這一功能,使客戶能夠將Agent從原型轉化為生產環境。用戶只需一條命令即可安裝SDK,使用Python和自然語言編寫Agent、實時調試,并可直接集成至持續集成與交付(CI/CD)流程中。通過亞馬遜云科技提供的企業級安全性、可觀測性和基礎設施,Amazon Nova Act SDK為希望構建可大規模和可交付的Agent的團隊提供了一條快速、靈活的路徑。用戶只需一條命令即可完成安裝,可使用Python和自然語言的組合方式編寫Agent,在工作流運行期間進行調試,并通過CI/CD流水線進行部署。
Amazon Nova Act SDK還可與Amazon Bedrock AgentCore Browser Tool(一個快速、安全的云端瀏覽器)集成,支持AI Agent與網站進行大規模交互。它具備企業級安全能力,包括虛擬機級別隔離與聯合身份集成。該工具還通過實時查看、Amazon CloudTrail日志記錄和會話重放等提供內置的可觀測性,以支持故障排查、質量維護和合規性要求。
Amazon Nova Act SDK的優勢
Amazon Nova Act SDK可靠性高、部署快速,專為安全、大規模瀏覽器自動化場景而構建。
優勢1——可靠性:構建準確度高、可重復性強的瀏覽器自動化
借助Amazon Nova Act SDK,開發者可將復雜工作流拆解為可靠的原子命令(例如,收集網頁中的所有表單元素,并返回包含表單所有必填字段的字符串)。SDK支持添加詳細指令以根據需要優化這些命令(例如,關閉彈窗橫幅),具備調用API的能力,并可選擇通過Playwright進行直接瀏覽器操作以提升執行可靠性(例如,在輸入密碼時)。開發者可以在自動化流程中穿插使用Python代碼,例如編寫測試用例、設置流程中斷點或判斷條件,以及采用并發任務機制來提升執行效率,特別是在網頁加載速度受限的情況下,這些方式能有效優化整體性能。最新版Amazon Nova Act SDK在早期企業級應用中已展現出超過90%的可靠性,涵蓋自動化質檢、復雜表單處理和流程執行等場景。推理能力與故障恢復機制的提升,使Agent能夠適應不斷變化的用戶界面,持續穩定地完成復雜操作序列。
優勢2——上市速度:從原型到生產僅需數日,而非數周
Amazon Nova Act SDK專為加速自動化開發而設計,無需依賴脆弱的腳本邏輯。客戶可通過一條命令完成SDK安裝,使用Python、自然語言或二者結合定義Agent,邊運行邊調試流程、檢查網頁的結構化頁面元素(DOM)、設置步驟間的暫停點,并快速迭代優化。該SDK支持以下功能:
客戶無需更改現有基礎設施或重構內部工具鏈,基于Amazon Nova Act構建的agent可無縫融入當前開發流程,助力從試驗階段快速邁入生產環境。
優勢3——安全性:依托亞馬遜云科技,部署值得信賴的自動化流程
Amazon Nova Act SDK集成了Amazon IAM實現訪問控制,模型訪問方式與其他亞馬遜云科技服務一致。該SDK支持在macOS、Linux、Windows和WSL2等系統上運行,運行時環境彼此隔離,輸入、輸出數據均支持加密處理。Amazon Nova Act SDK專為企業環境設計,具備生產系統所需的可靠性、可觀測性與安全性。
實際應用展示:自動化信息采集,加速金融決策流程
在金融服務領域——特別是投資銀行、并購咨詢和戰略研究等場景中,成敗往往取決于團隊能多快、多準地將碎片化的公開數據轉化為可執行的洞察。
Amazon Nova Act SDK應用場景
當今企業中瀏覽器相關的業務流程極為常見,但許多仍依賴手動操作,重復性高且易出錯。Amazon Nova Act SDK幫助企業自動化這些任務,使團隊能夠專注于更高價值的工作,提升準確率,減少運營延遲。憑借其高可靠性,該SDK可適配多個行業與業務場景。
場景1——自動化數據錄入與表單填寫
Amazon Nova Act SDK通過自動化處理表單提交、文件上傳與數據更新,減少在基于Web的系統(如CRM、人力資源工具、財務平臺)中的重復人工輸入。在醫療場景中,工作人員需協助用戶完成各州差異化極大的福利申請流程;而公共部門的個案工作者也常需在多個系統中重復錄入家庭數據。Amazon Nova Act SDK能夠穩定處理這些動態流程,可靠應對字段變動、下拉菜單及彈窗,無需依賴脆弱腳本或定制代碼。
Rackspace Technology是一家混合架構與AI解決方案服務商,正在與Alvee Health合作,利用Amazon Nova Act SDK實現公共福利成員的自動注冊。Alvee首席執行官Nicole Cook表示:"許多公共項目的注冊表單又長又復雜,很多成員因此錯過本可獲得的幫助。通過Amazon Nova Act SDK,并結合Alvee系統中已有的信息,我們不僅簡化了繁瑣文書工作,更實現了對健康生活資源的及時、精準連接。我們預計該方案可使福利成功注冊率提升30%,整體個案處理能力提升多達10倍,幫助醫療服務提供者將更多精力投入患者關懷,而非行政事務。這正是AI技術助力公共福祉、提升社區健康水平的典型示例。"
場景2——為客戶支持賦能
在零售、旅游及SaaS等行業,客戶支持團隊往往需要在內部工具與第三方門戶之間頻繁切換,以完成服務工單。例如,零售員工可能需在合作方網站上提交退貨申請,旅行顧問可能需登錄航空公司后臺請求賠償,技術支持人員則可能需在客戶管理后臺重置授權碼。Amazon Nova Act SDK能夠自動執行這些基于瀏覽器的操作,幫助agent專注于客戶對話的同時,后臺任務可高效、可靠地完成。
差旅與費用管理平臺Navan正在使用Amazon Nova Act SDK,通過自動化填寫不同供應商的付款表單,簡化旅行顧問的操作流程。Navan產品高級副總裁Yuval Refua表示:"將Amazon Nova Act SDK集成進agent工作流程后,我們極大減少了重復性任務,這是擴展運營規模、服務更多客戶的關鍵一步。我們也嘗試過其他自動化工具,但Amazon Nova Act在可靠性與靈活性上的表現,使我們能用同一個腳本完成多個酒店品牌不同付款表單的填寫任務。目前我們正擴展該自動化覆蓋范圍,預期可進一步提升運營能力,更高效地滿足日益增長的客戶需求。"
場景3——自動化高風險管理流程
資質驗證、身份核查及其他高度依賴合規的任務,常需在上百個界面結構各異的第三方門戶中操作。Amazon Nova Act SDK使這些流程的自動化成為可能,兼具高準確率、靈活性與可控性,助力團隊在擴展規模的同時保持精準度。
全球Agent流程自動化(Agentic Process Automation, APA)領導者Automation Anywhere正通過Amazon Nova Act SDK拓展其自動化能力,率先開展專業資質驗證這一高風險、重復性強的關鍵任務,該任務對于合規性、成員安全與日常運營至關重要。Automation Anywhere首席產品官Adi Kuruganti表示:"通過將Amazon Nova Act SDK深度集成進我們的流程推理引擎(Process Reasoning Engine,PRE),我們在企業自動化的‘計算執行能力'方面實現了重大突破。我們的目標導向型AI agent不僅僅是點擊模擬器,而是能夠實時理解并推理基于UI的流程,具備如同人類專家般的網站操作能力。這為此前難以實現的自動化場景打開了通路,例如醫療項目注冊測試等對準確性與可擴展性要求極高的任務。"
場景4——動態界面下的用戶體驗與質量測試
在銀行、保險、政府等行業,用戶體驗(UX)與質量保證(QA)測試通常需要模擬用戶在動態網站上的真實操作。通過Amazon Nova Act SDK,團隊可以使用自然語言或Python編寫與更新測試用例,快速響應UI變化,無需依賴脆弱的選擇器或頻繁手動改寫腳本。
Tyler Technologies是面向公共部門的一體化軟件與技術服務領先提供商,正在利用Amazon Nova Act SDK實現軟件測試自動化,提升版本發布的可靠性。Tyler Technologies數據與洞察部門總裁Franklin Williams表示:"Amazon Nova Act提供的自然語言接口讓我們能在數分鐘內將原本的手動測試計劃轉化為自動化測試套件,無需編寫任何代碼,這不僅為我們節省了數百小時的工作量,也大幅擴展了測試覆蓋范圍并提升了產品質量。目前我們正計劃在公司全產品線中進一步推廣Nova Act SDK的使用。"
Amazon Nova Act SDK的未來
亞馬遜云科技正與早期客戶密切合作,共同推動Amazon Nova Act SDK的發展路線圖。盡管當前聚焦于瀏覽器相關的工作流程,Amazon Nova Act SDK實際上是亞馬遜云科技打造"可在多種環境中穩定運行的Agent"的更廣泛戰略組成部分。我們正持續將模型能力從Web拓展至更復雜的現實任務中,并將強化學習應用于更多真實業務流程。同時,Amazon Nova Act SDK也在不斷深化與亞馬遜云科技生態的集成,幫助開發者更高效地從原型構建邁向安全、可擴展的Agent系統部署。
立即開始使用Amazon Nova Act SDK
Amazon Nova Act SDK研究預覽版現已開放,技術負責人與開發者可前往Amazon Nova Act頁面獲取訪問權限,開始構建原型。該SDK提供穩定、逐步執行的瀏覽器自動化工具,面向真實業務流程而非演示用途。
Amazon AGI Lab是亞馬遜的應用研究團隊,致力于構建能夠在數字與物理環境中執行真實任務的AI agent;其研究方向涵蓋大語言模型(LLM)、強化學習、世界建模等多個領域。更多信息及最新技術進展可通過Amazon AGI Labs頁面獲取。