以前用命令行为每个模型启动一个 llama-server,管理起来挺麻烦的,尤其是切换模型看日志的时候。 最近写了个 Web 管理工具,核心功能: 多实例管理 - 同时运行多个 llama-server ,通过卡片管理实时日志 - SSE 推送,启动/停止自动切换到对应实例参数可视化 - 模型路径、端口、线程数、GPU 层数点点就配守护进程 - 独立进程,Web UI 重启不影响运行中的实例 技术栈: Python Flask + SQLiteVue 3 (CDN ,无构建步骤)SSE 实时推送 项目地址: https://github.com/leaves615/llama-manager 有类似需求的可以试试,欢迎 Star Issue 和 PR 。 AI 辅助生成