本周 AI Benchmark 方向论文推荐

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每周一览 AI Benchmark,AI 发展方向不迷惘。快来看看「机智流」、「ModelScope」和「司南评测集社区」推荐的 AI BenchMark 相关论文吧!!!

FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation

论文链接:

https://modelscope.cn/papers/125249  

简要介绍:

由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。

核心图片:

image.png  


WritingBench: A Comprehensive Benchmark for Generative Writing

论文链接:

https://modelscope.cn/papers/124147  

简要介绍:

由阿里巴巴集团和中国人民大学的宁吴等人提出的 WritingBench,是一个全面评估 LLMs 生成写作能力的基准测试,覆盖 6 个核心写作领域和 100 个子领域。它引入了查询相关的动态评估框架,使模型能生成特定实例的评估标准。实验显示,7B 参数模型在数据策划能力上接近 SOTA 水平,验证了框架的高效性。

核心图片:

image.png  


MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

论文链接:

https://modelscope.cn/papers/124656  

简要介绍:

由耶鲁大学的向如唐等人提出的 MedAgentsBench,是一个针对复杂医疗推理的基准测试,评估 LLMs 在多步骤临床推理、诊断和治疗规划中的表现。从七个医疗数据集构建了 862 个任务,结果显示 DeepSeek R1 和 OpenAI o3 等模型在复杂任务中表现突出,为医疗 AI 研究提供了新方向。

核心图片:

image.png


Do I look like a cat.n.01 to you? A Taxonomy Image Generation Benchmark

论文链接:

https://modelscope.cn/papers/126535  

简要介绍:

由 Skoltech 和汉堡大学的维克多·莫斯科夫列茨基等人提出,该基准测试探索文本到图像模型生成分类学概念图像的可行性。包含 WordNet 概念的全面评估显示,Playground-v2 和 FLUX 在不同指标中表现优异,揭示了自动化结构化数据生成的新潜力。

核心图片:

image.png


VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering

论文链接:

https://modelscope.cn/papers/125193  

简要介绍:

由中国人民大学的 Yanling Wang 等人提出的 VisualSimpleQA,是一个多模态事实寻求 QA 基准测试,支持对大型视觉语言模型(LVLMs)的视觉与语言能力进行解耦评估。它引入难度标准并提取了 VisualSimpleQA-hard 子集,实验显示即使 GPT-4o 在复杂任务中正确率仅 30%+,凸显改进空间。

核心图片:

image.png


Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol

论文链接:

https://huggingface.co/papers/2503.05860  

简要介绍:

由 Roham Koohestani 等人提出的工作通过审查 173 项研究,识别了 204 个 AI4SE 基准测试,并分析其局限性。他们开发了 BenchScout 搜索工具和 BenchFrame 增强方法,以 HumanEval 为例推出 HumanEvalNext,显著提升了评估难度和质量。

核心图片:

image.png


LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding

论文链接:

https://modelscope.cn/papers/123554  

简要介绍:

由北京大学的 Jia Li 等人提出的 LONGCODEU,是一个长代码理解基准测试,从四个方面(8 个任务)评估 LCLMs 的能力。实验表明,当代码长度超 32K 时,模型性能急剧下降,远低于其宣称的 128K-1M 上下文窗口,为软件工程优化提供了洞见。

核心图片:

image.png


ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks

论文链接:

https://modelscope.cn/papers/124404  

简要介绍:

由澳大利亚国立大学的 Yan Yang 等人提出的 ProBench,是一个开放式多领域专家任务基准测试,包含 4,000 个高质量样本,覆盖 10 个领域和 56 个子领域。实验显示,即使最佳开源模型与专有模型接近,视觉感知和高级推理仍具挑战性。

核心图片:

image.png


MinorBench: A hand-built benchmark for content-based risks for children

论文链接:

https://modelscope.cn/papers/126387  

简要介绍:

由新加坡政府科技局的 Shaun Khoo 等人提出的 MinorBench,是一个手工构建的基准测试,评估 LLMs 在拒绝儿童不安全查询方面的能力。通过中学案例研究,结果显示主流 LLMs 在儿童安全合规性上差异显著,强调了定制化 AI 的重要性。


本周的 AI Bench 研究成果涵盖了代码生成、医疗推理、图像生成和儿童安全等多个领域。这些基准测试不仅揭示了当前模型的局限,也为未来研究指明了方向。让我们共同期待 AI 技术在这些前沿领域的突破吧!🌟

目录
打赏
0
1
1
0
232
分享
相关文章
『GitHub项目圈选17』推荐5款本周 火火火 的AI开源项目
『GitHub项目圈选17』推荐5款本周 火火火 的AI开源项目
1674 1
『GitHub项目圈选06』推荐5款本周 超火 的开源AI项目
『GitHub项目圈选06』推荐5款本周 超火 的开源AI项目
934 0
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
67 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科研工具,基于大型语言模型(LLM)代理,支持从研究想法到论文发表的全流程自动化,涵盖文献综述、算法设计、实验验证和论文撰写等功能。
132 8
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
379 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
2月前
|
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
95 27
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第8天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
429 1
【通义】AI视界|苹果AI本周正式上线,将引入四大功能
本文由【通义】自动生成,涵盖苹果AI上线、特斯拉被华尔街重新评估、谷歌开发控制计算机的AI、Meta与路透社合作及Waymo获56亿美元融资等科技动态。点击链接或扫描二维码获取更多信息。
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
109 4
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
141 1

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等