可能是目前唯一完整支持 Gemini 1.5 Pro 和 Gemini 1.5 Flash 多模态模型的开源聊天框架

查看 16|回复 0
作者:amery2010   
半个月前我在 V2EX 上首发了我的开源项目 TalkWithGemini,一天内收到了不错的反响,非常感谢支持项目的朋友们。
之前的文章: [开源] Gemini Pro 极简聊天框架,支持图文聊天和语音对话模式 https://gemini.u14.app/
这半个月来 AI 届发生了两件大事,一件是 AI 届大佬 Openai 发布了令人惊叹的 GPT-4o 模型,而且也给免费用户开放了少量的访问次数。不得不说 GPT-4o 的发布会现场演示着实令人吃惊,感觉科幻电影中的 Her 马上就能出现在日常生活中。第二件事,自然是 Google I/O 2024 ,虽然 Google 一次性发布了很多与 AI 结合的新功能,比如无延迟的 AI 语音聊天 Gemini Live 、视频生成模型 Veo 、搜索集成 Gemini overview 、智能助理 Project Astra 。然而让我最在意的是 Google 开放了 100 万 Token 上下文的 Gemini 1.5 Pro 和更快的 Gemini 1.5 Flash 模型。这让我开发的 TalkWithGemini 有了全新的能力,能够理解文本文档、图片、音频以及视频文件!
Gemini 1.5 Flash 可以通过 ApiKey 免费使用,这个新模型支持 100 万 Token 的上下文,一天有 1500 次的使用额度,这让开发者有了极大的发挥空间。Gemini 1.5 Flash 响应速度很快,是 Gemini 1.5 Pro 的两倍,接近于 GPT-4o 。相对于 GPT-4o 而言,Gemini 1.5 Flash 可以说是一次超大杯的赠送。
通过几天熬夜开发及测试,我终于将 TalkWithGemini 升级到了多模态模式,这是一种质的飞跃。你可以在一次聊天过程中最多上传 3600 张图片或长达 9.5 小时的音频或 1 小时的视频,以及大量的文本内容。当然这些需要在你能正常使用 Google 服务的情况下才可以实现,而部署在 vercel 或 netlify 等平台上的项目,由于平台限制,无法上传大文件。
我测试了 Gemini 1.5 Flash 的视频理解能力,我拍了一段 10s 的短视频,他可以正确的描述整个视频片段的内容,并能够在后续提问中确认视频中某个事物出现的时间点,这跟 Project Astra 演示中点表现基本一致。而在图像测试中,Gemini 1.5 Flash 不愧是 Gemini 1.5 Pro 的 lite 版本,理解能力远高于之前的 Gemini Pro Vision 模型。

我还重构了话题广场,引入了 lobechat 的助理市场,让 Gemini 也能拥有数百个精选的系统指令。这可能是第一个无缝使用 Chatgpt 系统指令的项目。这得益于 Gemini 1.5 Pro 和 Gemini 1.5 Flash 新增的系统指令支持。

除了支持多模态模型和助理市场功能以外还做了以下大量更新:
  • feat:添加系统指令支持
  • feat:支持媒体文件作为提示内容
  • feat:聊天 UI 支持附件,完成文件上传功能
  • feat:添加了服务器端反向代理(实验性)
  • feat:支持模型设置
  • feat: 由于 0.9.3 版本以来数据存储结构发生变化,增加数据迁移功能
  • refactor:重构主题广场,引入助理市场
  • refactor:重构助理推荐功能
  • refactor:重构设置面板,优化小屏幕上的页面布局
  • refactor:消息列表使用官方数据格式
  • refactor:优化错误信息的显示逻辑
  • refactor:优化视觉模型和文本模型的处理逻辑
  • refactor:使用 localforage 替换 localStorage 实现
  • refactor:在某些无法使用对话模式的浏览器中隐藏功能模块
  • refactor:优化访问密码处理逻辑
  • doc:更新 README 文档,添加一些常见问题及解决方案,并添加更多功能截图
  • doc:添加 Cloudflare Worker 创建指南
  • fix:修复语音合成初始化参数设置错误的问题
  • fix:修复部分场景下重新生成答案无法生效的问题
  • chore:部分页面组件改为延迟加载,提高首页加载速度。

    你现在可以通过 https://gemini.u14.app/ 进行体验。
    注意:该项目部署在 vercel 上,如果使用服务端 api ,上传文件大小将受到限制(无法上传超过 5MB 的文件),建议自建服务或者通过 api key ,使用本地代理或接口代理访问。
    项目地址:https://github.com/Amery2010/TalkWithGemini
    希望能得到更多人的支持( star ),你们的支持是我项目开发的最大动力!
  • 您需要登录后才可以回帖 登录 | 立即注册

    返回顶部