公司项目分享:硅谷人工智能公司 Nexa AI 发布端侧 AI 部署新思路

查看 13|回复 1
作者:RemiliaForever   
2025 年,是 AI 硬件的全面爆发之年:AI 手机、AIPC 、AI 陪伴、AI 眼镜、AI 智慧座舱……然而,云端大模型主导的 AI 硬件正在显露隐忧:高昂的 API 调用成本让中小企业望而却步,隐私数据上传云端的安全风险如影随形,网络延迟与垂域适配不足更是制约着端侧的场景创新。
开源端侧小模型崛起正在改写游戏规则:根据小模型能力密度发展趋势( Densing Law ),小模型能力大约每 3.5 个月就翻一倍,边缘 AI 推理场景正在从想象变为现实。甚至英伟达也在论文《 Small Language Models are the Future of Agentic AI 》宣告:小模型才是 Agentic AI 的未来。
1. 部署难、表现差?端侧 AI 发展仍面临痛点
当开发者们摩拳擦掌,想要用先进小模型打造创新应用时,现实又浇了一盆冷水:
  • 部署门槛高:端侧平台的推理框架并不像云端那样容易适配:工具链有 CUDA 、QNN 、ANE 、ROCm 、Openvino, openCL, metal, vulkan 等等五花八门……耗费数月踩坑仍难跑通最新模型;
  • 性能表现差:即使顺利通过部署,由于推理引擎适配不当导致精度下降、输出缓慢、能耗飙升,让端侧应用体验大打折扣
  • 跨平台噩梦:不同硬件( PC ,手机,车机,IoT )、芯片(高通、Intel 、AMD 、苹果)间的适配壁垒,让跨设备应用开发重复 “踩坑”,效率极低。例如可以在高通 PC 上运行的多模态模型无法自动移植到高通车载端。
  • 最新的模型支持差:NPU 上普遍只能跑 1 年以前发布的模型,无法使用最新的模型(如 Mistral3, Qwen3-VL ),需要等待非常久的时间。

    2. 端侧 AI 部署的新思路
    最近美国硅谷明星端侧 AI Startup Nexa AI 公司在 github 上发布的 Nexa SDK ,为全球开发者带来了破局新思路。这个项目致力于解决长期存在于端侧模型部署中的共性问题,让 AI 模型在手机、PC 、汽车、IoT 等边缘设备上的落地变得前所未有的简单。
    github 项目链接: https://github.com/NexaAI/nexa-sdk
    Nexa SDK 构建了 4 大核心优势,解决端侧 AI 部署的核心痛点:
  • 跨平台统一推理框架:NexaSDK 由 NexaML 引擎提供支持,该引擎是从芯片 Kernel 层打造的跨硬件平台统一推理引擎(电脑,手机,车,IoT ,机器人,以及 XR 眼镜),并支持三种端侧模型格式:GGUF 格式、MLX 格式以及 Nexa AI 自主研发的 .nexa 格式。这一引擎的能力也被 IBM 认为是比肩 vLLM, MLX, llama.cpp 的四大 inference engine 之一。
  • NPU, GPU, CPU 深度适配:NexaSDK 可在多种算力平台的 NPU 、GPU 、CPU 上本地运行各类人工智能模型 —— 它不仅使用简单、灵活性高,而且性能佳。特别是支持各大算力平台的 NPU 芯片(覆盖高通 Hexagon NPU, 苹果 NPU ,AMD Ryzen AI NPU ,以及 Intel NPU ),充分利用 NPU 性能,可以解决过往端侧模型在 CPU/GPU 上运行带来的输出速度慢、能耗畸高的问题,推理性能可达到 CPU 1.5 倍 ,GPU 4 倍,能效比提升 2–8 倍。
  • 任意多模态模型 Day-0 支持:面对快速更新的开源模型市场,Nexa SDK 能够做到在新模型推出的第一时间适配各个硬件后端( NPU, GPU, CPU ),并且支持多种模态 Vision, Text, Audio, 以及 CV 模型;
  • 低代码极致易用:使用一行代码即可调用本地模型,OpenAI API 兼容设计让开发者无缝衔接代码,大大降低了端侧 AI 的应用门槛。

    Nexa SDK 与其他端侧 SDK 的比较优势:
    [td]Features[/td]
    [td]NexaSDK[/td]
    [td]Ollama[/td]
    [td]llama.cpp[/td]
    [td]LM Studio[/td]
    NPU 支持
    ✅ NPU 优先



    Android SDK 支持
    ✅ NPU/GPU/CPU 支持
    ⚠️
    ⚠️

    支持 GGUF 、MLX 、NEXA 任意一种格式的模型
    ✅ 底层控制

    ⚠️

    全面支持多模态
    ✅ 图像、音频、文字模型
    ⚠️
    ⚠️
    ⚠️
    跨平台支持
    ✅ 桌面端、移动端、车载端, IoT 端
    ⚠️
    ⚠️
    ⚠️
    一行代码调用


    ⚠️

    兼容 OpenAI API + 函数调用




    ✅完全支持 ⚠️部分或有限支持 ❌ 不支持
    NEXA SDK 一经发布也获得了包括 AMD/高通的诸多行业认可:


    3. 快速上手:快速解锁端侧 AI 能力
    根据使用方式和平台,Nexa SDK 提供不同的工具包:
  • Nexa CLI:可在 MacOS/Windows/Linux 使用命令行终端速测试模型及运行本地服务器;同时支持在 Linux 系统的容器化环境中运行 AI 模型;
  • Nexa SDK Python 开发工具:可在 MacOS/Windows/Linux 平台使用 Python 完整运行 SDK
  • Nexa SDK Android/iOS 开发工具: 支持在移动端设备跨 NPU/GPU/CPU 推理的安卓/iOS 开发工具包
    Nexa SDK 实现了全平台支持,全球首次统一支持苹果 NPU 、Intel NPU 、AMD NPU 、高通 NPU 等 4 类 NPU 推理加速芯片,让端侧模型边缘推理拥有了更广泛的实现和应用场景。

    3.1 Nexa SDK CLI 快速体验
    下载路径:
    可以从 github: https://github.com/NexaAI/nexa-sdk 或者 https://sdk.nexa.ai 下载 Nexa CLI 。

    一行代码运行模型
    Nexa SDK 支持 LLM 、多模态、音频( ASR\TTS )、CV 、生图等多种端侧模型。例如:
    多模态模型

    NexaSDK 在 Qwen3VL 发布当天 Day-0 跨平台支持,领先 llama.cpp/ollama 三周,并得到 Qwen 官方认可

    nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF
    车载多模态模型(适配高通 NPU )
    nexa infer NexaAI/AutoNeural
    相比于其他框架,NexaSDK 对于新模型的支持速度还是非常迅速,可以访问 Nexa AI 官方模型仓库 https://huggingface.co/NexaAI 查看使用更多精选的模型。

    目前 Nexa CLI 支持 MacOS 、Windows 、Linux (并支持 Docker 运行),同时提供 Python API, IOS Swift API 、Android Kotlin/JAVA API 开发工具包,
    兼容 OpenAI API
    NEXA CLI 还提供 OpenAI 兼容的 REST API ,一行命令即可访问服务接口,无缝覆盖对话生成、文本嵌入、文档重排序、图像生成等核心场景,满足多样化开发需求。
    nexa serve
  • /v1/chat/completions - 用于 LLM 和 VLM 的对话生成
  • /v1/embeddings - 为文本生成向量嵌入
  • /v1/reranking - 根据查询相关性对文档重新排序
  • /v1/images/generations - 根据提示生成图像
  • 更多命令可以查看: https://docs.nexa.ai/nexa-sdk-go/NexaAPI

    3.2 Nexa SDK Python 开发工具包
    Nexa SDK Python 工具包,适配 MacOS 、Windows 、Linux 等全平台优化后端,无论是本地开发还是企业级应用,都能使用 Python 更高效落地。可以使用 Python API 一键运行 LLM 、VLM 、OCR 、ASR 、TTS 、图像生成、说话人分离、键值缓存、采样配置、对话模板以及错误处理等。

    更多文档参阅: https://docs.nexa.ai/nexa-sdk-python/overview
    3.3 Nexa SDK Android/iOS 开发工具包( 3 行代码快速开始)
    下载地址:
    Nexa SDK Android 工具包:可直接从 Maven 中央仓库获取,或访问 github: https://github.com/NexaAI/core
    dependencies {
        implementation("ai.nexa:core:0.0.12")
    }
    Nexa SDK iOS 工具包: https://github.com/NexaAI/nexasdk-mobile-iOS-framework
  • Android 设备上支持直接运行的包括 LLM 、VLM 、Embedding 模型、OCR 模型、CV 模型、ASR 模型、rerank 模型以及生图模型,且支持通过 NPU 、GPU 和 CPU 进行推理。通过 Kotlin/Java API 轻松集成,性能提升 2 倍,能效比优化 9 倍,重塑移动智能体验。

    更多文档参阅: https://docs.nexa.ai/nexa-sdk-android/overview
  • 使用简洁的 Swift API ,开发者可在 iOS/macOS 设备上直接运行 LLM 、VLM 、Embedding 模型、ASR 模型以及 rerank 模型。目前,ASR 模型与 Embedding 模型已支持 苹果神经网络引擎( ANE )加速,其他模型则基于图形处理器( GPU )与中央处理器( CPU )运行,同时可以达到性能提升 2 倍,能效比优化 9 倍的惊艳体验。

    更多文档参阅: https://docs.nexa.ai/nexa-sdk-ios/quickstart

    4. 为开发者带来丝滑体验:创意无需妥协
  • 一行命令跑通:nexa infer 极简操作,告别复杂配置;
  • OpenAI API 无缝兼容 :现有代码零修改,直接迁移端侧运行;
  • 95% NPU 利用率:性能优于 Qualcomm GENIE ,极致发挥硬件潜力;
  • 首发支持前沿模型:Qwen3 、Granite 、Liquid 、Gemma 3n 、Parakeet 等最新模型快速适配;
  • 结构化输出:天然适配 AI Agent 工作流,加速应用创新;
  • 持续更新的前沿端侧模型库:Nexa Model Hub 不断扩充,让最先进端侧小模型触手可及。


    5. 结束语:从个人到产业 —— 端侧 AI 想象力不再设限
    当部署不再是难题,当性能不再妥协,端侧 AI 的革命,正在每一个场景悄然发生:
  • 📱 手机:离线助手,日程提醒、生活助理……
  • 💻 PC:文件管理、个人知识库构建、Agent 协作……
  • 🚗 汽车:车内 AI 助手,实时路况提醒,安全监测……
  • 🤖 IoT & 机器人:工厂巡检、缺陷检测……

    端侧 AI 的低成本、高隐私、低延迟特性,正在重构产品形态,催生全新商业模式。
    希望今天分享的 Nexa SDK 能让每一位热爱端侧 AI 的人都能参与到端侧 AI 的浪潮中,无需复杂的工具链,消解沉重的技术壁垒,赋能每一位开发者,解锁端侧 AI 落地的无限可能!
    github 项目链接: https://github.com/NexaAI/nexa-sdk (如果认为对您工作有帮助,欢迎为开源作者 star )

    端侧AI, NexaSDK, 跨平台

  • bigoxEvan   
    就是原来我跑不动的模型用这个就能跑动了吗?
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部