搞的一个实验性玩意,目前只需要 300 行 python 代码,能粗浅地识别屏幕上任意位置的“物件”,并用键盘去点击它们
现在就只是简单地用了 opencv 的 MSER 算法
使用视觉的优势有:
[ol]
[/ol]
也已经有其他的能够在 Mac/Windows 上通过某些 API 找到按钮的项目(在 readme 里列出了)
虽然这种类型的软件里,好像只有浏览器上的 Vimium 成功了。其他的者还算在实验状态
若能把 AI 、API 、视觉三者结合,可能会比较好用。目前的演示看起来界面有点杂乱,想像改进后应该会好吧
各位有什么 idea 来 share 一下