文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理文章正文

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

2024-12-13 2666

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CodeArena 是一个在线平台，用于测试和比较不同大型语言模型（LLM）的编程能力。通过实时显示多个 LLM 的代码生成过程和结果，帮助开发者选择适合的 LLM，并推动 LLM 技术的发展。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

平台功能：支持多个 LLM 同时解决相同的编程问题，实时比较代码生成过程和结果。
技术栈：基于 Together AI、Sandpack、Next.js、TypeScript 等技术构建。
应用场景：适用于企业选型、学术研究、编程教育等领域。

正文

CodeArena 是什么

公众号: 蚝油菜花 - codearena

CodeArena 是一个在线平台，旨在通过让多个大型语言模型（LLM）同时构建相同的应用程序，实时显示排名结果，比较不同 LLM 的代码生成能力。该平台主要用于评估和比较不同 LLM 的代码生成能力，帮助开发者选择适合的 LLM，并推动 LLM 技术的发展。

CodeArena 的技术栈包括 Together AI 用于运行 LLM，Sandpack 用于渲染 UI 代码，以及 Next.js、TypeScript、Shadcn UI 组件和 Tailwind CSS 用于前端构建。

CodeArena 的主要功能

实时代码生成比较：支持多个 LLM 同时解决相同的编程问题，用户可以实时观察每个模型的代码生成过程和结果。
性能排名：平台根据 LLM 解决问题的效率、准确性和代码质量等因素进行排名。
代码质量评估：用户可以比较不同 LLM 生成的代码，包括代码的可读性、效率和错误率等。
开发者工具集成：集成开发者工具，如代码编辑器和调试工具，便于用户更深入地分析和测试 LLM 生成的代码。

CodeArena 的技术原理

大型语言模型（LLM）：CodeArena 的核心是使用多个不同的 LLM，这些模型能够理解和生成自然语言及代码。
并行处理：平台同时处理多个 LLM 的输入和输出，实现实时比较。
实时渲染：使用 Sandpack 实时渲染 LLM 生成的代码，用户可以即时查看代码的变化。
前端技术栈：使用 Next.js、TypeScript 等现代 JavaScript 技术栈构建用户界面。
UI 组件和样式：使用 Shadcn UI 组件和 Tailwind CSS 等工具设计和定制用户界面。

如何运行 CodeArena

克隆仓库：git clone https://github.com/Nutlope/codearena
创建 .env 文件：添加 Together AI API 密钥：TOGETHER_API_KEY=
创建 PostgreSQL 数据库：推荐使用 Neon，并将连接详情添加到 .env 文件中：DATABASE_URL=
安装依赖并运行：npm install 和 npm run dev

资源

项目官网：https://www.llmcodearena.com
GitHub 仓库：https://github.com/Nutlope/codearena
Together AI：https://dub.sh/together-ai
Sandpack：https://sandpack.codesandbox.io/
Next.js：https://nextjs.org/
Shadcn UI：https://ui.shadcn.com/
Tailwind CSS：https://tailwindcss.com/

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

文章标签：

自然语言处理

人工智能

前端开发

JavaScript

开发者

自然语言处理

关键词：

LLM编程

编程测试

LLM开源

测试开源

竞技场测试

蚝油菜花

目录

相关文章

蚝油菜花

|

人工智能自然语言处理测试技术

能够双向推理的LLM！Dream-7B：港大联合华为开源的扩散推理模型，能够同时考虑前后文信息

Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型，采用独特的掩码扩散范式，在文本生成、数学推理和代码编写等任务中展现出卓越性能。

蚝油菜花

768 3 3

能够双向推理的LLM！Dream-7B：港大联合华为开源的扩散推理模型，能够同时考虑前后文信息

dasein58

|

人工智能自然语言处理安全

学不会编程也能写测试？AI让测试更平权

在传统的软件开发体系中，测试常被划分为“技术型测试”（如自动化、性能、安全）和“业务型测试”（如功能验证、用户体验）。前者掌握技术话语权，后者则更多依赖经验和流程规范。然而，随着大语言模型（LLM）等AI技术的迅猛发展，这一固有格局正被悄然打破：

dasein58

487 10 11

小华同学ai

|

人工智能数据可视化 API

36.7K star！拖拽构建AI流程，这个开源LLM应用框架绝了！

`Flowise` 是一款革命性的低代码LLM应用构建工具，开发者通过可视化拖拽界面，就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**，被开发者誉为"AI时代的乐高积木"。

小华同学ai

1098 8 10

Deephub

|

9月前

|

机器学习/深度学习算法物联网

Google开源Tunix：JAX生态的LLM微调方案来了

Tunix是Google推出的基于JAX的LLM后训练库，支持微调、强化学习与知识蒸馏，集成Flax NNX，主打TPU优化与模块化设计，支持QLoRA等高效训练方法，适用于高性能分布式训练场景。

Deephub

596 13 13

Google开源Tunix：JAX生态的LLM微调方案来了

sysin

|

9月前

|

Linux 网络安全 iOS开发

Metasploit Framework 6.4.95 (macOS, Linux, Windows) - 开源渗透测试框架

Metasploit Framework 6.4.95 (macOS, Linux, Windows) - 开源渗透测试框架

sysin

1059 1 1

Metasploit Framework 6.4.95 (macOS, Linux, Windows) - 开源渗透测试框架

sysin

|

10月前

|

Linux 网络安全 iOS开发

Metasploit Framework 6.4.90 (macOS, Linux, Windows) - 开源渗透测试框架

Metasploit Framework 6.4.90 (macOS, Linux, Windows) - 开源渗透测试框架

sysin

603 1 1

Metasploit Framework 6.4.90 (macOS, Linux, Windows) - 开源渗透测试框架

安全风信子

|

9月前

|

机器学习/深度学习人工智能自然语言处理

37_开源LLM：LLaMA与Mistral的突破_深度解析

在人工智能领域，2025年已经成为开源大语言模型的黄金时代。从Meta的LLaMA系列到欧洲初创公司Mistral AI的创新突破，开源LLM正在重塑整个AI生态系统的格局。截至2025年4月，Meta的LLaMA系列已成为全球下载量最高、社区使用最活跃的开源大语言模型之一，并被集成于数百个学术项目、创业平台和AI产品之中

安全风信子

957 1 1

sysin

|

10月前

|

安全 Linux 网络安全

Metasploit Framework 6.4.88 (macOS, Linux, Windows) - 开源渗透测试框架

Metasploit Framework 6.4.88 (macOS, Linux, Windows) - 开源渗透测试框架

sysin

711 0 0

安全风信子

|

9月前

|

自然语言处理 API 开发工具

14_代码生成初试：LLM辅助编程

在软件开发领域，代码编写是最基础也是最耗时的工作之一。随着人工智能技术的快速发展，特别是大语言模型（LLM）的出现，代码生成技术正在经历前所未有的变革。LLM不仅能够理解自然语言描述的需求，还能生成符合语法规范、逻辑合理的代码片段甚至完整的程序。

安全风信子

978 0 0

sysin

|

Linux 网络安全 iOS开发

Metasploit Framework 6.4.63 (macOS, Linux, Windows) - 开源渗透测试框架

Metasploit Framework 6.4.63 (macOS, Linux, Windows) - 开源渗透测试框架

sysin

295 4 4

Metasploit Framework 6.4.63 (macOS, Linux, Windows) - 开源渗透测试框架

ModelScope模型即服务

自然语言处理

热门文章

最新文章

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

Bamba-9B：基于 Mamba2 架构的仅解码语言模型，旨在提高大型语言模型在推理时的效率

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

告别单轮静态测评！WorldForge 多动态环境基准，量化 Agent 组件协同能力

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Jina Reader：一键将网页内容转为适合 LLM 处理的文本格式，自动抓取和清洗网页内容，支持多种输出格式

让AI读懂K线图！ChatTS-14B：字节开源的时间序列理解和推理大模型，自然语言提问秒解趋势密码！

Botgroup.chat：超有趣的开源 AI 聊天室！多个 AI 在线互怼，一键搭建你的专属 AI 社群

从零搓一个语言模型，然后把它变成认知体的声带

分层结构化决策对话智能体灵钥 V5.1 全新升级｜具备观点边界、关系感知的深度思辨 Agent，配套线上 Demo 与真实用户数据采集方案

告别单轮静态测评！WorldForge 多动态环境基准，量化 Agent 组件协同能力

保密检查在本项目中的总体链路：从按钮到任务清单：免费开源的文档编审软件WPS AI插件.察元AI 文档助手

语义压缩，才是提示词工程的底层心法

一句话查高铁票并写入文件：揭秘 IntentOrch 的意图驱动编排黑科技

[大模型实战 05] 大模型实战的杀手锏：模型微调

[大模型实战 03预备] 云端炼丹房 1：Google Colab 上手指南

[大模型实战 06] 我的模型我做主：在 Kaggle 上用 Unsloth 极速微调 Qwen3

[大模型实战 03] 拆解 Transformers：从原理图解到 HuggingFace Transformers 实战

相关课程

更多

MSE微服务测试最佳实践 - 自动化回归

相关电子书

更多

移动互联网测试到质量的转变

给ITer的技术实战进阶课-阿里CIO学院独家教材（四）

F2etest — 多浏览器兼容性测试整体解决方案

相关实验场景

更多

SAE极速部署个人LLM效能工具

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！