据最新消息,谷歌正筹备在12月推出其大型动作模型“project jarvis”。据悉,这一项目将为用户在网页上执行多项日常任务提供自动化支持,如研究收集、产品购买及航班预订等。
“jarvis”将由谷歌gemini的未来版本驱动,并特别针对chrome浏览器进行优化。该工具通过截取屏幕截图、解析内容及自动执行点击、输入等操作,以实现网页任务的自动化。值得注意的是,目前该工具在执行操作时存在数秒的间隔。
当前,各大ai公司均在研发类似功能的模型,包括微软的copilot vision、苹果的apple intelligence、anthropic的claude测试版及openai的相关项目。
谷歌计划首先向少量测试者发布“jarvis”,以便发现并修复潜在的bug,因此具体展示计划可能会有所调整。