Yoo趣儿 › 探索分享 › 奇思妙想 › 用视觉和 AI 把 Vimium 功能弄到全屏幕任意按钮 ...

用视觉和 AI 把 Vimium 功能弄到全屏幕任意按钮

查看 169|回复 1

作者：garywill 发布时间：2023-5-22 08:45:27

不管你用过 vim 没，vimium 应该体验过
搞的一个实验性玩意，目前只需要 300 行 python 代码，能粗浅地识别屏幕上任意位置的“物件”，并用键盘去点击它们

现在就只是简单地用了 opencv 的 MSER 算法
使用视觉的优势有：
[ol]

跨平台

无论 GUI 库

无论 Accesebility API 是否可用
[/ol]
也已经有其他的能够在 Mac/Windows 上通过某些 API 找到按钮的项目（在 readme 里列出了）
虽然这种类型的软件里，好像只有浏览器上的 Vimium 成功了。其他的者还算在实验状态
若能把 AI 、API 、视觉三者结合，可能会比较好用。目前的演示看起来界面有点杂乱，想像改进后应该会好吧
各位有什么 idea 来 share 一下

vimium, API, 视觉, 按钮

公告

返回顶部

用视觉和 AI 把 Vimium 功能弄到全屏幕任意按钮

相关帖子

热门主题

有人意外发现LINUX DO的关键词替换，屎黄会

单IP服务器上建设多个站点，或者使用共享IP

互联网就业：卡年龄卡学历，脑力劳动强度大

收2台狐蒂云春节香港120元1年的服务器（顺

2025年研究生教育招生143.8万人，在学研究

哪里有便宜的香港服务器，只拿来测试用

使用谷歌账号登录的 v2 账号，要怎么修改密

codex， cc 怎么用 U 充值

收一个Dmit TYO.AS3.T1.WEE

开源自己去年实验性质的一个AI Agent 炒币

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

用视觉和 AI 把 Vimium 功能弄到全屏幕任意按钮

相关帖子

热门主题

有人意外发现LINUX DO的关键词替换，屎黄会

单IP服务器上建设多个站点，或者使用共享IP

互联网就业：卡年龄卡学历，脑力劳动强度大

收2台狐蒂云春节香港120元1年的服务器（顺

2025年研究生教育招生143.8万人，在学研究

哪里有便宜的香港服务器，只拿来测试用

使用谷歌账号登录的 v2 账号，要怎么修改密

codex， cc 怎么用 U 充值

收一个Dmit TYO.AS3.T1.WEE

开源自己去年实验性质的一个AI Agent 炒币

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告