北京2025年8月5日--亚马逊云科技日前宣布,推出AmazonNovaActSDK有限预览版,可快速帮助客户将基于浏览器的Agent从原型部署至生产环境。该SDK可与亚马逊云科技的多项服务集成,包括用于安全身份管理的AmazonIdentityandAccessManagement(AmazonIAM)、用于数据存储与策略控制的AmazonSimpleStorageService(AmazonS3),以及全新推出的、支持大规模云端浏览器执行的AmazonBedrockAgentCoreBrowserTool。
AmazonNovaActSDK最初于2025年初以研究预览版形式推出,旨在帮助开发者构建可稳定完成网页任务的Agent。随着企业对自动化能力的需求不断增长,该SDK在众多实际业务场景中得以落地,成为推动Agent流程自动化的重要工具,具备高可靠性、灵活性与可扩展性。
传统业务自动化流程面临的挑战
日常业务操作往往依赖浏览器,例如提交休假申请、处理发票、访问供应商门户或查看仪表盘。由于缺乏API覆盖,许多流程仍需手动完成:团队需要在多个标签页间复制粘贴数据,手动执行多步骤流程,点击大量界面来完成工作。
传统基于规则的浏览器自动化框架在动态网页环境中面临诸多挑战。页面结构的微小变化(如新增表单字段或下拉选项)常常导致选择器失效,团队需要投入大量精力进行维护,而非构建新的自动化任务。更重要的是,这类框架难以扩展。例如,若某一业务场景需要在50个不同网站上运行,团队就必须构建50套特定自动化逻辑,因为基于规则的框架无法泛化。
人类执行任务的能力可以适应不同的工具和界面。例如,掌握了如何在Outlook中撰写邮件后,即使从未使用过Gmail,也能在其中完成同样的任务。大型语言模型(LLM)通过海量用户界面训练样本,赋予AIAgent类似于人类的这种识别能力。凭借语言理解、指令执行和跨领域推理能力,大语言模型已广泛应用于聊天、摘要生成、编程助手等场景。如今,生成式AI正迈入"以行动为核心"的新阶段。AgenticAI在大语言模型基础上向执行层延伸,旨在完成动态、多步骤的复杂流程,如填写复杂表单、与不断变化的界面交互,或大规模完成真实业务任务。AgenticAI并非取代大语言模型,而是对其进行扩展,释放新的自动化能力,让我们在企业环境中更接近真正的任务完成。
借助AmazonNovaActSDK实现AgenticAI
借助AmazonNovaActSDK,客户能够构建并部署可靠的浏览器Agent,这些Agent由专为AgenticAI打造并精调的AmazonNovaAct模型驱动。该模型经过强化学习训练,并结合大量浏览器交互领域数据,能够精准执行逐步工作流程。在最新版本中,亚马逊云科技通过服务集成进一步扩展了这一功能,使客户能够将Agent从原型转化为生产环境。用户只需一条命令即可安装SDK,使用Python和自然语言编写Agent、实时调试,并可直接集成至持续集成与交付(CI/CD)流程中。通过亚马逊云科技提供的企业级安全性、可观测性和基础设施,AmazonNovaActSDK为希望构建可大规模和可交付的Agent的团队提供了一条快速、灵活的路径。用户只需一条命令即可完成安装,可使用Python和自然语言的组合方式编写Agent,在工作流运行期间进行调试,并通过CI/CD流水线进行部署。
AmazonNovaActSDK还可与AmazonBedrockAgentCoreBrowserTool(一个快速、安全的云端浏览器)集成,支持AIAgent与网站进行大规模交互。它具备企业级安全能力,包括虚拟机级别隔离与联合身份集成。该工具还通过实时查看、AmazonCloudTrail日志记录和会话重放等提供内置的可观测性,以支持故障排查、质量维护和合规性要求。
AmazonNovaActSDK的优势
AmazonNovaActSDK可靠性高、部署快速,专为安全、大规模浏览器自动化场景而构建。
优势1——可靠性:构建准确度高、可重复性强的浏览器自动化
借助AmazonNovaActSDK,开发者可将复杂工作流拆解为可靠的原子命令(例如,收集网页中的所有表单元素,并返回包含表单所有必填字段的字符串)。SDK支持添加详细指令以根据需要优化这些命令(例如,关闭弹窗横幅),具备调用API的能力,并可选择通过Playwright进行直接浏览器操作以提升执行可靠性(例如,在输入密码时)。开发者可以在自动化流程中穿插使用Python代码,例如编写测试用例、设置流程中断点或判断条件,以及采用并发任务机制来提升执行效率,特别是在网页加载速度受限的情况下,这些方式能有效优化整体性能。最新版AmazonNovaActSDK在早期企业级应用中已展现出超过90%的可靠性,涵盖自动化质检、复杂表单处理和流程执行等场景。推理能力与故障恢复机制的提升,使Agent能够适应不断变化的用户界面,持续稳定地完成复杂操作序列。
优势2——上市速度:从原型到生产仅需数日,而非数周
AmazonNovaActSDK专为加速自动化开发而设计,无需依赖脆弱的脚本逻辑。客户可通过一条命令完成SDK安装,使用Python、自然语言或二者结合定义Agent,边运行边调试流程、检查网页的结构化页面元素(DOM)、设置步骤间的暂停点,并快速迭代优化。该SDK支持以下功能:
基于Git的CI/CD(持续集成与持续部署)流程集成
可复用的Agent模块
支持敏感任务(如密码输入)使用Playwright回退操作
多线程与并行执行机制,加速执行
客户无需更改现有基础设施或重构内部工具链,基于AmazonNovaAct构建的agent可无缝融入当前开发流程,助力从试验阶段快速迈入生产环境。
优势3——安全性:依托亚马逊云科技,部署值得信赖的自动化流程
AmazonNovaActSDK集成了AmazonIAM实现访问控制,模型访问方式与其他亚马逊云科技服务一致。该SDK支持在macOS、Linux、Windows和WSL2等系统上运行,运行时环境彼此隔离,输入、输出数据均支持加密处理。AmazonNovaActSDK专为企业环境设计,具备生产系统所需的可靠性、可观测性与安全性。
实际应用展示:自动化信息采集,加速金融决策流程
在金融服务领域——特别是投资银行、并购咨询和战略研究等场景中,成败往往取决于团队能多快、多准地将碎片化的公开数据转化为可执行的洞察。
AmazonNovaActSDK应用场景
当今企业中浏览器相关的业务流程极为常见,但许多仍依赖手动操作,重复性高且易出错。AmazonNovaActSDK帮助企业自动化这些任务,使团队能够专注于更高价值的工作,提升准确率,减少运营延迟。凭借其高可靠性,该SDK可适配多个行业与业务场景。
场景1——自动化数据录入与表单填写
AmazonNovaActSDK通过自动化处理表单提交、文件上传与数据更新,减少在基于Web的系统(如CRM、人力资源工具、财务平台)中的重复人工输入。在医疗场景中,工作人员需协助用户完成各州差异化极大的福利申请流程;而公共部门的个案工作者也常需在多个系统中重复录入家庭数据。AmazonNovaActSDK能够稳定处理这些动态流程,可靠应对字段变动、下拉菜单及弹窗,无需依赖脆弱脚本或定制代码。
RackspaceTechnology是一家混合架构与AI解决方案服务商,正在与AlveeHealth合作,利用AmazonNovaActSDK实现公共福利成员的自动注册。Alvee首席执行官NicoleCook表示:"许多公共项目的注册表单又长又复杂,很多成员因此错过本可获得的帮助。通过AmazonNovaActSDK,并结合Alvee系统中已有的信息,我们不仅简化了繁琐文书工作,更实现了对健康生活资源的及时、精准连接。我们预计该方案可使福利成功注册率提升30%,整体个案处理能力提升多达10倍,帮助医疗服务提供者将更多精力投入患者关怀,而非行政事务。这正是AI技术助力公共福祉、提升社区健康水平的典型示例。"
场景2——为客户支持赋能
在零售、旅游及SaaS等行业,客户支持团队往往需要在内部工具与第三方门户之间频繁切换,以完成服务工单。例如,零售员工可能需在合作方网站上提交退货申请,旅行顾问可能需登录航空公司后台请求赔偿,技术支持人员则可能需在客户管理后台重置授权码。AmazonNovaActSDK能够自动执行这些基于浏览器的操作,帮助agent专注于客户对话的同时,后台任务可高效、可靠地完成。
差旅与费用管理平台Navan正在使用AmazonNovaActSDK,通过自动化填写不同供应商的付款表单,简化旅行顾问的操作流程。Navan产品高级副总裁YuvalRefua表示:"将AmazonNovaActSDK集成进agent工作流程后,我们极大减少了重复性任务,这是扩展运营规模、服务更多客户的关键一步。我们也尝试过其他自动化工具,但AmazonNovaAct在可靠性与灵活性上的表现,使我们能用同一个脚本完成多个酒店品牌不同付款表单的填写任务。目前我们正扩展该自动化覆盖范围,预期可进一步提升运营能力,更高效地满足日益增长的客户需求。"
场景3——自动化高风险管理流程
资质验证、身份核查及其他高度依赖合规的任务,常需在上百个界面结构各异的第三方门户中操作。AmazonNovaActSDK使这些流程的自动化成为可能,兼具高准确率、灵活性与可控性,助力团队在扩展规模的同时保持精准度。
全球Agent流程自动化(AgenticProcessAutomation,APA)领导者AutomationAnywhere正通过AmazonNovaActSDK拓展其自动化能力,率先开展专业资质验证这一高风险、重复性强的关键任务,该任务对于合规性、成员安全与日常运营至关重要。AutomationAnywhere首席产品官AdiKuruganti表示:"通过将AmazonNovaActSDK深度集成进我们的流程推理引擎(ProcessReasoningEngine,PRE),我们在企业自动化的‘计算执行能力'方面实现了重大突破。我们的目标导向型AIagent不仅仅是点击模拟器,而是能够实时理解并推理基于UI的流程,具备如同人类专家般的网站操作能力。这为此前难以实现的自动化场景打开了通路,例如医疗项目注册测试等对准确性与可扩展性要求极高的任务。"
场景4——动态界面下的用户体验与质量测试
在银行、保险、政府等行业,用户体验(UX)与质量保证(QA)测试通常需要模拟用户在动态网站上的真实操作。通过AmazonNovaActSDK,团队可以使用自然语言或Python编写与更新测试用例,快速响应UI变化,无需依赖脆弱的选择器或频繁手动改写脚本。
TylerTechnologies是面向公共部门的一体化软件与技术服务领先提供商,正在利用AmazonNovaActSDK实现软件测试自动化,提升版本发布的可靠性。TylerTechnologies数据与洞察部门总裁FranklinWilliams表示:"AmazonNovaAct提供的自然语言接口让我们能在数分钟内将原本的手动测试计划转化为自动化测试套件,无需编写任何代码,这不仅为我们节省了数百小时的工作量,也大幅扩展了测试覆盖范围并提升了产品质量。目前我们正计划在公司全产品线中进一步推广NovaActSDK的使用。"
AmazonNovaActSDK的未来
亚马逊云科技正与早期客户密切合作,共同推动AmazonNovaActSDK的发展路线图。尽管当前聚焦于浏览器相关的工作流程,AmazonNovaActSDK实际上是亚马逊云科技打造"可在多种环境中稳定运行的Agent"的更广泛战略组成部分。我们正持续将模型能力从Web拓展至更复杂的现实任务中,并将强化学习应用于更多真实业务流程。同时,AmazonNovaActSDK也在不断深化与亚马逊云科技生态的集成,帮助开发者更高效地从原型构建迈向安全、可扩展的Agent系统部署。
立即开始使用AmazonNovaActSDK
AmazonNovaActSDK研究预览版现已开放,技术负责人与开发者可前往AmazonNovaAct页面获取访问权限,开始构建原型。该SDK提供稳定、逐步执行的浏览器自动化工具,面向真实业务流程而非演示用途。
AmazonAGILab是亚马逊的应用研究团队,致力于构建能够在数字与物理环境中执行真实任务的AIagent;其研究方向涵盖大语言模型(LLM)、强化学习、世界建模等多个领域。更多信息及最新技术进展可通过AmazonAGILabs页面获取。