Claude 4发布了,号称有无数个突破,无数个超越,那实际效果到底怎么样?是不是像传说中那么神?今天我们用国内首款办公提效AI牛马智能体AiPy来测评下,在端午旅游规划这个场景下,谁更强!
提示词:
租住在西二旗地铁站旁,一个月后计划结束北漂了,想留个念想,怎么趁今年端午节好好游玩下,给我做个规划,花销控制在1500元以内,结果保存成一份精美HTML报告,放在当前目录下。
测评智能体:
智能体:爱派(AiPy) v0.1.28
下载地址:www.aipy.app
项目特点:项目免费、开源,内置大模型种类丰富,搭配大模型,可操控电脑上任意软件/文件、手机APP、智能家居设备等。
测评大模型:
Claude Opus 4
DeepSeek v3 0324
qwen-plus-latest
hunyuan-turbos-latest
测评结论:
测评实际结果显示,Claude果然有过人之处,国产大模型需要加油了!当然Claude也贵,高于国产大模型十倍以上的差距,不得不为DeepSeek开创的高性价比模式点赞!
最后看实际生成的报告内容:
以下为AiPy使用Claude 4生成报告
以下为AiPy使用Deepseek生成报告
以下为AiPy使用Qwen生成报告
以下为AiPy使用Hunyuan生成报告