aipy实战:Deepseek-V3、Hunyuan&Qwen分析618平板攻略

简介: Aipy是一款结合LLM与Python的智能工具,用户通过简单指令即可让LLM分析并生成代码,实时解决问题。本次v0.1.28版本新增联网搜索、案例分享等功能,并引入混元和Qwen模型。测评中,三个模型完成“618平板选购攻略”任务表现各异:deepseek-v3界面精美、信息全面但价格有偏差;hunyuan-turbos-latest信息不全但界面简洁;qwen-plus-latest推荐合理但数据失真。总体而言,Aipy在操作友好性和分析界面上显著提升,适合解决实际问题。

1.背景

Aipy是一款结合LLM和Python的工具,工作模式为:用户提供简单的指令,LLM拆解分析指令并撰写响应代码,Python及时相应,在此过程中如果代码出错,LLM就会及时调整代码以满足运行需求,最后达到帮你解决生活中确切的实际问题的效果。

今天爱派(AiPy)v0.1.28 正式上线啦!改进主要包括:联网搜索、分享案例、私密记录、模型配置和新手引导五个方面。博主认为最重要的改进就是引入了混元和Qwen模型。今天我们最主要的任务就是在aipy上配置这两个模型,并且对deepseek-v3,hunyuan-turbos-latest,qwen-plus-latest三个模型完成同一任务进行测评。

至于任务选择,最近618想买平板,但是确实市面上款式太多都挑花眼了,所以就将任务定为618平板攻略吧。

2.任务过程

(1)prompt输入

6.18快到了,我想购买一个平板,需求是追剧、阅读文献、无纸化学习和板绘。你需要完成以下任务:1.找出市面主流的品牌,包括苹果、华为、小米、三星、oppo和vivo出的新款平板,需要列举出他们的参数,包括处理器、内存、相机参数和重量。2、从京东和淘宝给我列举出以上平板的价格。3、计算四川省数码国补之后平板的最低价格。4、按照我的需求,给我推荐三款最适合我的平板,同时还要兼顾性价比。5、将以上内容整理为格式精美的pad.html格式

(2) deepseek-v3
总体来说,DS的任务完成度很高。

首先在界面方面,分成了三个主要的界面:推荐、参数对比和需求分析。在颜色选择上对重要信息加以标红、粗体、emoji等,让报告更加清晰可读,同时将最重要的推荐部分放在了最上面,能够一眼抓到重点,排版布局都很不错。最后,在信息的搜集上,这是唯一一搜集了内存和存储信息并且加以区分的报告。

但是在价格方面,我认为苹果和三星的价格低1k-2k左右,其他款的价格略高300-1k。信息搜集上还是有待提升。
ds平板1.png
ds平板2.png

(3)hunyuan-turbos-latest
总体来说,混元任务完成度不高。

在信息搜集上价格差距与平台官网都很大,苹果价格低1k-2k,撒逆行和华为价格高2k-3k。同时没有列举出小米、vivo和oppo的平板数据。最后也没有给我结合我的购买原因进行推荐。

唯一值得一提的是,确实界面看起来很简洁明了。
混元平板1png.png

(4) qwen-plus-latest
总体来说,Qwen表现基本满意。

首先,在界面呈现上主要是采取了4个表格的形式将参数、价格、国补后价格和推荐清晰呈现,但是价格部分和国补价格部分略有冲突,信息冗杂。其次,界面简洁明了,最重要的价格信息标红加粗显示,一眼就可以阅读。同时,在推荐部分也结合了我的需求,最值得一提的是,在推荐部分拆解我的需求中,推荐性价比最高的vivo平板时候没有提到板绘,我觉得这一点很智能(没有推荐我无脑入苹果哈哈哈)

缺点主要有两个,第一个是我要求推荐新款平板,我没有找到vivopadv1的数据。第二就是在价格上都比现价大概高1-2倍左右,数据比较失真。
qw平板1.png
qw平板2.png

总结:

从表格中可以看出来,ds耗时最长,完成度是最好的;混元在耗时很短的过程中,基本给出了推荐信息,只是不够完整,需要继续改进prompt调试一下;Qwen耗时使用,基本完成任务。在信息读取,尤其是价格方面,三个模型都有失误且价格不一致,我推测是API不固定,再次进行类似分析活动时可以给出具体API以完成任务。
1.png

总的来说,这次Aipy改进还是很大的,比如配置模型时就可以直接导入,去分析失败原因时也可以在work目录里读隐私json文件来查看到底是哪一步出错了。比起上一般来说耗费的时间更短、操作更友好、分析界面也更加友善美观!

相关文章
|
24天前
|
机器学习/深度学习 自然语言处理 算法框架/工具
实战 | Qwen2.5-VL模型目标检测(Grounding)任务领域微调教程
在目标检测领域,众多神经网络模型早已凭借其卓越的性能,实现了精准的目标检测与目标分割效果。然而,随着多模态模型的崛起,其在图像分析方面展现出的非凡能力,为该领域带来了新的机遇。多模态模型不仅能够深入理解图像内容,还能将这种理解转化为文本形式输出,极大地拓展了其应用场景。
1495 74
|
1月前
|
机器学习/深度学习 人工智能 监控
实战 | Qwen3大模型微调入门实战(完整代码)
Qwen3是阿里通义实验室最近开源的大语言模型,发布时便登顶了开源LLM榜单第一名。同时,Qwen系列模型也超越LLaMA,成为了开源模型社区中最受欢迎的开源LLM。
1355 23
|
27天前
|
机器学习/深度学习 人工智能 算法
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
该研究系统梳理了大型多模态推理模型(LMRMs)的技术发展,从早期模块化架构到统一的语言中心框架,提出原生LMRMs(N-LMRMs)的前沿概念。论文划分三个技术演进阶段及一个前瞻性范式,深入探讨关键挑战与评估基准,为构建复杂动态环境中的稳健AI系统提供理论框架。未来方向聚焦全模态泛化、深度推理与智能体行为,推动跨模态融合与自主交互能力的发展。
108 13
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
|
29天前
|
人工智能 自然语言处理 JavaScript
通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
通义灵码基于自然语言需求,快速生成完整Vue组件。例如,用Vue 2和JavaScript实现贪吃蛇游戏:包含键盘控制、得分系统、游戏结束判定与Canvas动态渲染。AI生成的代码符合规范,支持响应式数据与事件监听,还能进阶优化(如增加启停按钮、速度随分数提升)。传统需1小时的工作量,使用通义灵码仅10分钟完成,大幅提升开发效率。操作简单:安装插件、输入需求、运行项目即可实现功能。
105 4
 通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
|
1月前
|
人工智能 并行计算 监控
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
本文详细介绍了在AMD硬件上构建大型语言模型(LLM)推理环境的全流程。以RX 7900XT为例,通过配置ROCm平台、部署Ollama及Open WebUI,实现高效本地化AI推理。尽管面临技术挑战,但凭借高性价比(如700欧元的RX 7900XT性能接近2200欧元的RTX 5090),AMD方案成为经济实用的选择。测试显示,不同规模模型的推理速度从9到74 tokens/秒不等,满足交互需求。随着ROCm不断完善,AMD生态将推动AI硬件多元化发展,为个人与小型组织提供低成本、低依赖的AI实践路径。
294 1
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
|
24天前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
220 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
1月前
|
SQL 自然语言处理 关系型数据库
通义灵码2.5来袭!MCP 功能直接让开发效率提升300%(附实战案例)
通义灵码2.5是阿里云推出的AI编码助手,以智能协作为核心,深度融合开发全流程。其三大升级点包括:编程智能体实现任务自主规划、MCP工具生态支持自然语言生成SQL、记忆进化系统个性化适配开发者习惯。通过自然语言即可完成数据库操作、代码生成与优化,大幅提升开发效率。此外,还具备工程级变更管理、多文件协同编辑及版本控制功能,适用于多种IDE环境,为企业提供安全高效的开发解决方案。
|
1月前
|
JavaScript 前端开发 测试技术
通义灵码全栈开发实战测评报告
本内容详细评测了通义灵码在开发中的表现,涵盖环境配置、基础能力验证、自主开发能力、记忆与上下文理解、MCP工具集成及性能对比。测试显示,其代码补全响应更快(1.2s vs 1.8s),复杂任务准确率更高(78% vs 65%),并具备跨文件上下文记忆能力。实际应用中,可显著降低重复解释成本,提升中小型项目初期开发效率约40%,尤其适合快速原型开发、多技术栈整合及持续迭代维护场景。但仍需改进第三方文档同步延迟和TypeScript高级类型支持问题。
|
29天前
|
自然语言处理 监控 安全
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询
195 0
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
|
27天前
|
人工智能 Python
aipy实战:Deepseek-V3、Hunyuan&Qwen做商品分析之端午怎么买粽子
爱派(AiPy)是一款基于LLM大模型与Python生态结合的任务型AI系统,通过“大模型规划+Python代码执行”实现全链路闭环。v0.1.28版新增联网搜索、分享案例等功能,并引入混元和Qwen模型。本文测试了deepseek、混元、Qwen在端午粽子推荐任务中的表现,从信息度、美观度和反应时间等方面对比分析。