Topic Timeline

#多模态 agent

这个主题在过往早报中的出现记录。深度条目直达研究报告,其余条目回到当日 edition。

观点观察 2026-06-30 · 周二 重要度 3/5

演示式自动化新范式:Clips 录屏 + 口述 → 让 Claude 复刻 GUI 操作流程

Steve(Steve8708,136 赞)演示如何用 macOS 自带的 Clips 录屏 + 语音讲解(实操过程会同步口述额外规则),把生成的『视频 + 字幕』链接直接丢给 Claude,让 Claude 复刻他刚刚在 Rippling 里审批 PTO 之类的 GUI 操作流程。本质上是给 Claude『看 + 听』一遍就能模仿执行的演示式自动化。

这是**多模态 agent 从『看截图』升级到『看视频 + 听口述』**的一次具体应用尝试——传统的 GUI 自动化要么靠 RPA(成本高、维护难),要么靠截图识别(对动态 UI 鲁棒性差);**演示式自动化的核心创新是把『人类演示』作为 agent 的输入信号**,Clips 录屏捕捉视觉,语音讲解捕捉规则,Claude 同时处理视频帧与字幕,生成可复用的 GUI 操作脚本。这条路径如果成熟,**RPA(Blue Prism、UiPath)的传统市场可能被 agent 厂商直接颠覆**——企业不再需要昂贵的 RPA 实施服务,只需要让业务人员演示一遍流程,agent 就能自动生成可重复执行的脚本。