


最后导出的视频:https://www.youtube.com/watch?v=KcqQadtzAm8
Gemini 是目前试下来视频支持比较好的模型,虽然内部其实也是在以 1 帧每秒的形式去读截图,但关键是它能够输出视频画面对应的精确时间戳,这样才能用于后续的剪辑。至于视频的 token 消耗其实比我想象得要低,每秒大概 300 token ,用 Gemini 3 Flash 分析一小时的视频也就 $0.5 。
我的视频真的就是旅行的时候随手拍拍,没有脚本,也没有旁白,于是我这个工具就定位在了剪辑这种「无脚本」视频,只专注在剪辑上,并不会用 AI 生成任何的图像或解说(但背景音乐算个例外,是 AI 生成的)。
其实我做这个项目一开始只是想自己用,不然也不会用命令行界面了,现在就有点犹豫后续是改成一个基于网页的界面(甚至可以做 SaaS ),还是直接开源。

