我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

查看 4|回复 0
作者:smalltong02   
Gemini 2.0:Google 最新的多模态大模型
Gemini 2.0 是 Google 最新的统一大模型,能够同时处理 文本、音频和视频数据,并支持 音频输出。这意味着你可以通过 摄像头和麦克风,与该模型进行 实时对话。  
目前,在 GitHub 上可以找到的部署方案大多是针对 PC 端Gemini 2.0 多模态实时交互,而我可能是第一个将这一功能移植到手机端的开发者。不知道是否有朋友感兴趣,想看看它在 移动设备 上的效果?  
现有功能
音频交互:通过手机麦克风赋予 Gemini 2.0 听觉能力,实现 实时问答
视觉交互:通过手机摄像头赋予 Gemini 2.0 视觉能力,进行 实时图像分析与交互
联网与代码执行:模型支持 联网查询实时数据代码执行功能,使其更加强大。
免费使用:目前该功能 完全免费,无需额外付费。  
功能限制
国内可能无法使用:由于模型依赖 Google 的服务,在中国大陆地区可能无法正常访问。
时长限制:目前 Google 仍在测试该模型,因此对话时长受限:  
  • 纯音频对话 最长 15 分钟
  • 音频 + 视觉交互 最长 3 分钟

    这是 Google 设定的限制,非技术问题导致。  
    如果你对这个项目感兴趣,欢迎讨论和交流!
    Android 版本: https://play.google.com/store/apps/details?id=com.keras.keras_android_chatbot
    苹果版本: https://apps.apple.com/us/app/keras-chatbot-voice-assistant/id6608969280
  • 您需要登录后才可以回帖 登录 | 立即注册

    返回顶部