对 Qwen 2 模型代理能力的完整测试

就在前天，阿里正式发布了 Qwen 2 开源大语言模型，这次发布包括基础语言模型和指令调整语言模型，参数范围从 0.5 到 720 亿，还包括了 Mixture-of-Experts 模型。
作为一个一直使用 Qwen 直到 Qwen 1.5 模型的忠实用户，我对这次的发布感到格外兴奋。因为在全球权威测评中，Qwen 2 72B 模型的性能已经超过最强开源模型的王者 Llama3 70B 模型。要知道，Llama3 距今发布可还不到两个月的时间！

模型测试
虽然 Qwen 2 刚刚推出，但已经有很多人对其进行了广泛的测试。这些测试主要涵盖语义理解、语言生成质量、世界知识准确性、问题回答和对话能力、安全性，以及鲁棒性和稳定性等方面。由于这些方面的测试已经很多，我此次测试的重点将更侧重于模型在代理方面的能力。我将为 Qwen 2 添加代码解释器，以评估其任务分解和代码编写能力。此外，我还会为其添加本地知识库、搜索引擎、Function Calling 和 Google 工具箱，测试模型在多种工具情境下自动选择并正确调用合适工具的能力。
本次测试使用的工具包括：
Python 代码解释器 (可以执行 Python 代码和本机脚本语言)
本地知识库 (使用 PS5 用户手册文档构建的知识库)
搜索引擎 (duckduckgo)
Function Calling (包含三个函数，获取本地时间，本地位置，向 [email protected] 发送修理单邮件)
Google 工具箱
（ 1 ）从 Google Mail 中搜索和发送邮件
（ 2 ）从 Google Drive 中搜索，上传和下载文档
（ 3 ）从 Google Calendar 中检查和添加提醒事件
（ 4 ）从 Youtube 中搜索视频
（ 5 ）从 Google Map 中搜索位置
本次测试主要有三个大测试以及多个小任务组成：
Qwen2 7B Instruct 任务分解和代码编写能力测试
股票绘图任务：绘制 Tesla 和 Apple 今年的股票价格曲线。
浪漫之心任务：使用 python 语言绘制一个浪漫之心并显示它。
词云任务：读取本地文件"D:\lord_of_the_rings.txt"内容，统计词频并绘制词云图像。
使用的工具：代码解释器
Qwen2 7B Instruct 扮演 PS5 客服代理测试
介绍 PS5 产品任务：预期通过预制的代理提示词介绍产品。
介绍 PlayStation 新产品任务：预期自动使用搜索引擎结果来归纳并回答。
介绍 PS5 的特殊特性任务：预期自动从本地知识库中搜索后回答。
提交修理单任务：预期自动调用提交修理单函数，向 [email protected] 发送修理单邮件。
使用的工具：本地知识库，搜索引擎 (duckduckgo)，Function Calling
Qwen2 7B Instruct 扮演个人助理代理测试
自我介绍任务：预期通过预制的代理提示词介绍自己。
检索新闻任务：预期自动使用搜索引擎结果来归纳并回答。
检索工作邮件任务：预期自动使用邮件检索工具来回答。
添加提醒任务：预期自动检查空闲时间，并协助添加新的提醒事件。
分享文档任务：预期自动从 Google Drive 中下载工作文档，并通过邮件分享给组员。
分享视频任务：预期自动从 Youtube 中搜索视频，并通过邮件分享给朋友。
使用的工具：本地知识库，搜索引擎 (duckduckgo)，Google 工具箱
完整的视频演示：

对 Qwen 2 模型代理能力的完整测试

浏览过的版块

热门主题

ioio事件是什么鬼？

养老贷又来了，贷贷相传啊

今天要撸2次

好评有礼给的是红包还是优惠卷

现在干啥都太难了，珍惜吧

淘宝现在也好难搞啊

现在的ai能生产图文结合的内容吗

周固固突然发飙了，谁惹他了呢？吃光群众等

怎么吵架了啊

老坛们看过来，周固固同志狂撒金币。折射一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

对 Qwen 2 模型代理能力的完整测试

浏览过的版块

热门主题

ioio事件是什么鬼？

养老贷又来了，贷贷相传啊

今天要撸2次

好评有礼给的是红包还是优惠卷

现在干啥都太难了，珍惜吧

淘宝现在也好难搞啊

现在的ai能生产图文结合的内容吗

周固固突然发飙了，谁惹他了呢？吃光群众等

怎么吵架了啊

老坛们看过来，周固固同志狂撒金币。折射一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告