aipy实战:Deepseek-V3、Hunyuan&Qwen分析618平板攻略

简介: Aipy是一款结合LLM与Python的智能工具,用户通过简单指令即可让LLM分析并生成代码,实时解决问题。本次v0.1.28版本新增联网搜索、案例分享等功能,并引入混元和Qwen模型。测评中,三个模型完成“618平板选购攻略”任务表现各异:deepseek-v3界面精美、信息全面但价格有偏差;hunyuan-turbos-latest信息不全但界面简洁;qwen-plus-latest推荐合理但数据失真。总体而言,Aipy在操作友好性和分析界面上显著提升,适合解决实际问题。

1.背景

Aipy是一款结合LLM和Python的工具,工作模式为:用户提供简单的指令,LLM拆解分析指令并撰写响应代码,Python及时相应,在此过程中如果代码出错,LLM就会及时调整代码以满足运行需求,最后达到帮你解决生活中确切的实际问题的效果。

今天爱派(AiPy)v0.1.28 正式上线啦!改进主要包括:联网搜索、分享案例、私密记录、模型配置和新手引导五个方面。博主认为最重要的改进就是引入了混元和Qwen模型。今天我们最主要的任务就是在aipy上配置这两个模型,并且对deepseek-v3,hunyuan-turbos-latest,qwen-plus-latest三个模型完成同一任务进行测评。

至于任务选择,最近618想买平板,但是确实市面上款式太多都挑花眼了,所以就将任务定为618平板攻略吧。

2.任务过程

(1)prompt输入

6.18快到了,我想购买一个平板,需求是追剧、阅读文献、无纸化学习和板绘。你需要完成以下任务:1.找出市面主流的品牌,包括苹果、华为、小米、三星、oppo和vivo出的新款平板,需要列举出他们的参数,包括处理器、内存、相机参数和重量。2、从京东和淘宝给我列举出以上平板的价格。3、计算四川省数码国补之后平板的最低价格。4、按照我的需求,给我推荐三款最适合我的平板,同时还要兼顾性价比。5、将以上内容整理为格式精美的pad.html格式

(2) deepseek-v3
总体来说,DS的任务完成度很高。

首先在界面方面,分成了三个主要的界面:推荐、参数对比和需求分析。在颜色选择上对重要信息加以标红、粗体、emoji等,让报告更加清晰可读,同时将最重要的推荐部分放在了最上面,能够一眼抓到重点,排版布局都很不错。最后,在信息的搜集上,这是唯一一搜集了内存和存储信息并且加以区分的报告。

但是在价格方面,我认为苹果和三星的价格低1k-2k左右,其他款的价格略高300-1k。信息搜集上还是有待提升。
ds平板1.png
ds平板2.png

(3)hunyuan-turbos-latest
总体来说,混元任务完成度不高。

在信息搜集上价格差距与平台官网都很大,苹果价格低1k-2k,撒逆行和华为价格高2k-3k。同时没有列举出小米、vivo和oppo的平板数据。最后也没有给我结合我的购买原因进行推荐。

唯一值得一提的是,确实界面看起来很简洁明了。
混元平板1png.png

(4) qwen-plus-latest
总体来说,Qwen表现基本满意。

首先,在界面呈现上主要是采取了4个表格的形式将参数、价格、国补后价格和推荐清晰呈现,但是价格部分和国补价格部分略有冲突,信息冗杂。其次,界面简洁明了,最重要的价格信息标红加粗显示,一眼就可以阅读。同时,在推荐部分也结合了我的需求,最值得一提的是,在推荐部分拆解我的需求中,推荐性价比最高的vivo平板时候没有提到板绘,我觉得这一点很智能(没有推荐我无脑入苹果哈哈哈)

缺点主要有两个,第一个是我要求推荐新款平板,我没有找到vivopadv1的数据。第二就是在价格上都比现价大概高1-2倍左右,数据比较失真。
qw平板1.png
qw平板2.png

总结:

从表格中可以看出来,ds耗时最长,完成度是最好的;混元在耗时很短的过程中,基本给出了推荐信息,只是不够完整,需要继续改进prompt调试一下;Qwen耗时使用,基本完成任务。在信息读取,尤其是价格方面,三个模型都有失误且价格不一致,我推测是API不固定,再次进行类似分析活动时可以给出具体API以完成任务。
1.png

总的来说,这次Aipy改进还是很大的,比如配置模型时就可以直接导入,去分析失败原因时也可以在work目录里读隐私json文件来查看到底是哪一步出错了。比起上一般来说耗费的时间更短、操作更友好、分析界面也更加友善美观!

相关文章
|
3月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
373 101
|
4月前
|
物联网
直播预告 | Qwen-lmage 技术分享+实战攻略直播
通义千问团队最新开源的图像生成模型 Qwen-Image,凭借其出色的中文理解与文本渲染能力,自发布以来获得了广泛关注与好评。
209 0
|
4月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
685 0
|
2月前
|
存储 监控 算法
1688 图片搜索逆向实战:CLIP 多模态融合与特征向量落地方案
本文分享基于CLIP模型与逆向工程实现1688图片搜同款的实战方案。通过抓包分析破解接口签名,结合CLIP多模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80ms,日均选品效率提升4倍,全程合规可复现。
|
3月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
422 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
3月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
483 12
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
3月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
|
4月前
|
人工智能 缓存 监控
大模型性能测试实战指南:从原理到落地的全链路解析
本文系统解析大模型性能测试的核心方法,涵盖流式响应原理、五大关键指标(首Token延迟、吐字率等)及测试策略,提供基于Locust的压测实战方案,并深入性能瓶颈分析与优化技巧。针对多模态新挑战,探讨混合输入测试与资源优化