12月13日,豆包手机助手发布技术说明。近期有网友发布视频,对豆包手机助手技术实现方式存在错误解读。豆包手机助手采用的是原生截屏接口(WindowManagerService.captureDisplay),严格遵循应用声明的Secure标记,无法截屏银行安全键盘等声明受保护的界面内容。任何持有豆包手机助手技术预览版的用户,都可以自行测试验证AI无法看到受保护内容。
豆包进一步说明,READ_FRAME_BUFFER权限是为了让AI在后台完成操作,让三方应用运行在虚拟屏空间中。该权限及对应方法无法读取包括银行App在内的任何三方应用设置为Secure的内容。CAPTURE_SECURE_VIDEO_OUTPUT权限的使用是因为受保护页面在虚拟屏投影中会显示为黑屏,用户无法查看和操作,所以需要此权限将内容正常展示给用户并能被操作,但投影后页面仍会标记为Secure,仅能被用户查看,无法被截屏。
豆包手机助手操作手机功能的实现原理是:用户下达指令,截屏发送给云端豆包大模型,模型理解后返回具体操作,手机端执行操作指令,不断重复直到完成任务。每步操作间隔约为3秒钟。由于大模型参数较大受限于芯片性能,暂时无法运行在手机端侧,需要截图上传云端处理。目前国内多家手机厂商的AI助手产品也是类似实现原理,会使用相关系统权限。
豆包强调,豆包手机助手仅在有用户指令时才会开始截屏,且无法截屏三方应用Secure标记页面。上传至云端大模型的截屏仅用于视觉理解和推理,完成任务后不会存储在云端。豆包手机助手表示高度重视用户隐私安全,欢迎社会各界提出宝贵意见,会以负责任的态度沟通产品技术问题,把安全和信任做好。