Gemini 3.5 Flash 把 Computer Use 做成了内置工具

6 月 24 日,Google DeepMind 宣布 Gemini 3.5 Flash 正式支持 Computer Use——不再是单独的模型,而是直接集成到主力 Flash 模型里。

之前想用 Gemini 做屏幕操控,得调 Gemini 2.5 Computer Use 这个独立模型。现在 3.5 Flash 自带这个能力,和函数调用、Search、Maps Grounding 放在同一个工具箱里。

能做什么

简单说,3.5 Flash 现在能"看到"屏幕、理解屏幕上发生了什么、然后用鼠标和键盘去操作。浏览器、桌面应用、移动端都在覆盖范围内。

这意味着开发者可以搭出这样的 Agent:自己打开网页、填表单、点按钮、读取结果,全程不需要人工介入。Google 举的典型场景包括持续性的软件测试、跨应用的知识工作自动化。

安全措施

Computer Use 在开放环境里跑,安全风险比封闭 API 调用大得多。Google 在 3.5 Flash 里做了几件事:

Google 建议开发者把这些安全功能和沙箱环境、人工审核、严格的访问控制组合使用。

合作伙伴

Google 公布了几个早期合作伙伴的反馈:

怎么用

通过 Gemini API 和 Gemini Enterprise Agent Platform 都可以调用。Google 提供了参考实现和文档。

背景

Computer Use(让 AI 直接操控电脑屏幕)是过去一年 Agent 领域最热的方向之一。Anthropic 的 Claude 率先在 2024 年底推出了 Computer Use 功能,OpenAI 也跟进了 Operator。现在 Google 把这个能力内置到 Flash 这个偏轻量的模型里,降低了使用的门槛。

之前 Gemini 2.5 的 Computer Use 是独立模型,想用屏幕操控就得牺牲 Flash 的速度和成本优势。整合之后,开发者不用在功能和效率之间做选择了。