文档备案控制台

开发者社区开发与运维文章正文

中文LLM测评

2023-08-23 255

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 下面是针对 Modelscope 的代码相关；写作创作；中文游戏三个方面的问题，并附上一段测评内容。

代码测评

最近在学pandas，就让llm帮写pandas代码。

针对下列题目，给出基于pandas的代码：
给定World 表：

+-------------+---------+
| Column Name | Type |
+-------------+---------+
| name | varchar |
| continent | varchar |
| area | int |
| population | int |
| gdp | bigint |
+-------------+---------+
name 是该表的主键（具有唯一值的列）。
这张表的每一行提供：国家名称、所属大陆、面积、人口和 GDP 值。

如果一个国家满足下述两个条件之一，则认为该国是大国：

面积至少为 300 万平方公里（即，3000000 km2），或者
人口至少为 2500 万（即 25000000）
编写解决方案找出大国的国家名称、人口和面积。

按任意顺序返回结果表。

得到两个结果

文章标签：

Python

关键词：

LLM测评

朱纪麟

目录

相关文章

官方客服

|

数据采集人工智能自然语言处理

文档智能与检索增强生成结合的LLM知识库方案测评：优势与改进空间

《文档智能 & RAG让AI大模型更懂业务》解决方案通过结合文档智能和检索增强生成（RAG）技术，构建企业级文档知识库。方案详细介绍了文档清洗、向量化、问答召回等步骤，但在向量化算法选择、多模态支持和用户界面上有待改进。部署过程中遇到一些技术问题，建议优化性能和增加实时处理能力。总体而言，方案在金融、法律、医疗等领域具有广泛应用前景。

官方客服

467 11 11

鱼的爱情看不出泪水

|

8月前

|

弹性计算关系型数据库 API

自建Dify平台与PAI EAS LLM大模型

本文介绍了如何使用阿里云计算巢（ECS）一键部署Dify，并在PAI EAS上搭建LLM、Embedding及重排序模型，实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。

鱼的爱情看不出泪水

670 58 58

自建Dify平台与PAI EAS LLM大模型

aliyun9170107523-43660

|

5月前

|

监控安全 Docker

10_大模型开发环境：从零搭建你的LLM应用平台

在2025年，大语言模型(LLM)已经成为AI应用开发的核心基础设施。无论是企业级应用、科研项目还是个人创新，拥有一个高效、稳定、可扩展的LLM开发环境都至关重要。

aliyun9170107523-43660

685 0 0

aliyun9170107523-43660

|

5月前

|

人工智能监控安全

06_LLM安全与伦理：部署大模型的防护指南

随着大型语言模型(LLM)在各行业的广泛应用，其安全风险和伦理问题日益凸显。2025年，全球LLM市场规模已超过6400亿美元，年复合增长率达30.4%，但与之相伴的是安全威胁的复杂化和伦理挑战的多元化

aliyun9170107523-43660

722 0 0

汀丶人工智能

|

8月前

|

机器学习/深度学习人工智能编解码

AI-Compass LLM合集-多模态模块：30+前沿大模型技术生态，涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型

AI-Compass LLM合集-多模态模块：30+前沿大模型技术生态，涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型

汀丶人工智能

759 6 7

AI-Compass LLM合集-多模态模块：30+前沿大模型技术生态，涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型

汀丶人工智能

|

8月前

|

人工智能自然语言处理数据可视化

AI-Compass LLM评估框架：CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统

AI-Compass LLM评估框架：CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统

汀丶人工智能

708 4 4

AI-Compass LLM评估框架：CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统

蚝油菜花

|

机器学习/深度学习存储人工智能

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用，支持多模态交互、多种主流模型选择、离线运行及性能优化。

蚝油菜花

11286 81 82

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

热门文章

最新文章

无缝融入，即刻智能[二]：Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南，42K+星标见证专属智能方案

AI2 开源新 LLM，重新定义 open AI

OneLLM，将所有模态和LLM Align的统一框架

【LLM】能够运行在移动端的轻量级大语言模型Gemma实践

【大模型】如何提高LLM决策的可解释性和可解释性？

X-R1：3090也能训7B模型！开源框架X-R1把训练成本打下来了：10美元训出企业级LLM

【网安AIGC专题10.19】论文6（顶会ISSTA 2023）：提出新Java漏洞自动修复数据集：数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会

利用Playwright MCP与LLM构建复杂的工作流与AI智能体

10个大型语言模型(LLM)常见面试问题和答案解析

MCP零基础学习（6）｜与大型语言模型（LLM）的深度融合

LLM安全新威胁：为什么几百个毒样本就能破坏整个模型

RAG 切片利器 LumberChunker 是如何智能地把文档切割成 LLM 爱吃的块

使用TensorRT LLM构建和运行Qwen模型

利用Playwright MCP与LLM构建复杂的工作流与AI智能体

向量存储vs知识图谱：LLM记忆系统技术选型

Google开源Tunix：JAX生态的LLM微调方案来了

139_剪枝优化：稀疏模型压缩 - 分析结构化剪枝的独特速度提升与LLM部署加速实践

138_绿色计算：碳排放优化 - 估算部署的碳足迹与LLM环境友好型部署最佳实践

137_安全强化：输入过滤与水印 - 实现输出水印的检测算法与LLM安全防护最佳实践

136_生产监控：Prometheus集成 - 设置警报与指标选择与LLM部署监控最佳实践

相关电子书

更多

PAI灵骏智算构建全链路LLM服务的最佳实践

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

相关实验场景

更多

SAE极速部署个人LLM效能工具

下一篇

云安全中心：病毒查杀