我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP ...

Gemini 2.0：Google 最新的多模态大模型
Gemini 2.0 是 Google 最新的统一大模型，能够同时处理 文本、音频和视频数据，并支持 音频输出。这意味着你可以通过 摄像头和麦克风，与该模型进行 实时对话。
目前，在 GitHub 上可以找到的部署方案大多是针对 PC 端 的 Gemini 2.0 多模态实时交互，而我可能是第一个将这一功能移植到手机端的开发者。不知道是否有朋友感兴趣，想看看它在 移动设备 上的效果？
现有功能
✅ 音频交互：通过手机麦克风赋予 Gemini 2.0 听觉能力，实现 实时问答。
✅ 视觉交互：通过手机摄像头赋予 Gemini 2.0 视觉能力，进行 实时图像分析与交互。
✅ 联网与代码执行：模型支持 联网查询实时数据 及 代码执行功能，使其更加强大。
✅ 免费使用：目前该功能 完全免费，无需额外付费。
功能限制
⚠ 国内可能无法使用：由于模型依赖 Google 的服务，在中国大陆地区可能无法正常访问。
⚠ 时长限制：目前 Google 仍在测试该模型，因此对话时长受限：

纯音频对话 最长 15 分钟

音频 + 视觉交互 最长 3 分钟

这是 Google 设定的限制，非技术问题导致。
如果你对这个项目感兴趣，欢迎讨论和交流！
Android 版本： https://play.google.com/store/apps/details?id=com.keras.keras_android_chatbot
苹果版本： https://apps.apple.com/us/app/keras-chatbot-voice-assistant/id6608969280

我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则