自然语言处理-文章-阿里云开发者社区-阿里云

1121881179234614

|

5天前

|

人工智能自然语言处理监控

|

博文

AI生成内容幻觉检测技术难点：从事实核查到逻辑溯源的深层挑战

幻觉检测面临知识边界模糊、推理链条黑箱及实时性滞后三大核心难题。百搜科技、哈耶普斯广告、智擎营销、DOUBAOMKT及doubaoAD等服务商正通过构建权威知识库与自研监测系统，尝试在GEO服务中突破这一技术瓶颈，确保品牌信息的准确呈现。

125 1 2

阿尔的代码屋

|

1月前

|

JSON 人工智能自然语言处理

|

博文

[大模型实战 05] 大模型实战的杀手锏：模型微调

本文通过Kaggle实操对比Base与Instruct模型，图解大模型预训练→指令微调→人类对齐三阶段演进，并厘清Prompt工程、RAG（注知识）与微调（塑性格）的技术边界与选型策略，助你科学决策模型优化路径。

290 5 5

阿尔的代码屋

|

1月前

|

人工智能缓存 Java

|

博文

[大模型实战 03预备] 云端炼丹房 1：Google Colab 上手指南

本文教你用免费Google Colab（Tesla T4 GPU）解决本地显存不足、无法运行7B+大模型的痛点；通过挂载Google Drive持久化保存模型，避免运行时重置丢失；手把手配置云端环境，为后续RAG实战打下坚实基础。（239字）

345 6 6

阿尔的代码屋

|

1月前

|

人工智能数据可视化物联网

|

博文

[大模型实战 06] 我的模型我做主：在 Kaggle 上用 Unsloth 极速微调 Qwen3

本文介绍如何用Unsloth+QLoRA高效微调Qwen3-4B模型，仅需Kaggle免费T4显卡，速度提升2–5倍、显存节省60%；三步实现“灵魂认主”，让模型自认“AlgiebaLLM AI”，全程代码简洁，零基础可上手。

480 7 7

阿尔的代码屋

|

1月前

|

机器学习/深度学习存储人工智能

|

博文

[大模型实战 03] 拆解 Transformers：从原理图解到 HuggingFace Transformers 实战

本文图解Transformer核心原理（注意力机制+位置编码），在Kaggle双T4 GPU环境下实战拆解Hugging Face“铁三角”（Config/Tokenizer/Model），并详解Temperature与Top_p两大生成调控参数，助你真正理解并掌控大模型推理。

530 11 11

阿尔的代码屋

|

1月前

|

人工智能 Linux API

|

博文

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

大模型实战系列第一篇。拒绝晦涩理论，直接上手！我会带着各位友人们零基础安装 Ollama，利用国内 ModelScope 极速下载模型，详解服务端口配置与 Python 脚本调用，涵盖显存计算与常见避坑指南。

2300 2 3

游客ogm6hgopdrgay

|

2月前

|

人工智能自然语言处理 C++

|

博文

写小说时，Claude 4.0 和 4.5 的差别在哪里？

本文对比Claude Sonnet 4.0与4.5在小说创作中的实际表现，聚焦人物一致性、剧情连续性与长期可控性。基于Anthropic官方能力说明及多轮实测，指出4.5在多阶段续写、逻辑连贯性与风格稳定性上显著提升，更适配中长篇连载场景，助力AI写作从“能写”迈向“能长期写”。（239字）

716 9 10

LianHe_BI

|

2月前

|

JSON 人工智能自然语言处理

|

博文

基于Qwen-3B-Raw的本地化SD Prompt生成器研究

本项目用NLP技术把人类的模糊美学意图，蒸馏成可重复、可微调、可部署的图像生成指令引擎。

241 13 14

maoyutinga1

|

4月前

|

存储数据采集人工智能

|

博文

最佳实践丨让苏东坡“复活”！我用Qwen3-8B实现了与千古文豪的跨时空对话

随着人工智能技术的不断发展，虚拟角色不再只是冰冷的对话机器，而是能够承载历史人物的气质、知识体系乃至精神风貌的“数字化身”。今天，我们将完整揭秘如何基于Qwen3-8B大模型，借助LLaMA-Factory Online平台，打造一个沉浸式的“苏东坡数字分身”，让前沿技术为文化传承注入新的活力。

801 10 13

ZhangCraig

|

4月前

|

人工智能前端开发关系型数据库

|

博文

MajorRAG 概述（1/3）

一个RAG项目，全文共三个部分：MajorRAG概述、MajorRAG文件内容提取实现分析、MajorRAG聊天问答系统实现分析。 1）第一次做RAG，欢迎带着指导意见评论 2）希望指出不足时可以附带替换方法

212 1 1

CodeFuse

|

9月前

|

机器学习/深度学习自然语言处理安全

|

博文

ACL 2025 | GALLa：用图结构增强代码大模型，让代码理解更精准！

通过级联多模态架构将代码结构图对齐到大模型表征中

676 69 69

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能算法

|

博文

小米7B参数推理大模型首次开源！Xiaomi MiMo：数学代码双杀，超越32B巨头

小米开源的MiMo推理大模型通过联动预训练与强化学习算法，在7B参数规模下实现数学推理与代码生成能力的突破性提升，技术报告显示其性能超越部分32B级模型。

1615 74 76

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能 JSON

|

博文

这个AI把arXiv变成代码工厂，快速复现顶会算法！Paper2Code：AI论文自动转代码神器，多智能体框架颠覆科研复现

Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架，通过规划、分析和代码生成三阶段流程，将机器学习论文自动转化为可执行代码仓库，显著提升科研复现效率。

1439 19 21

蚝油菜花

|

11月前

|

人工智能自然语言处理监控

|

博文

Cooragent：清华 LeapLab 开源 AI Agent 协作框架，一句话召唤AI军团！

Cooragent 是清华大学 LeapLab 团队推出的开源 AI Agent 协作框架，支持基于简单描述快速创建 Agent 并实现多 Agent 协作，具备 Prompt-Free 设计和本地部署能力。

1203 6 9

蚝油菜花

|

11月前

|

人工智能自然语言处理监控

|

博文

LongPort MCP：证券业首个券商MCP，AI赋能智能投资新时代，散户也能玩转机构级交易

LongPort MCP是长桥集团推出的证券行业首个券商模型上下文协议，通过标准化接口实现AI与金融服务的无缝对接，支持自然语言交互的智能投资服务。

1715 8 9

蚝油菜花

|

11月前

|

人工智能自然语言处理数据可视化

|

博文

让AI单次生成4万字！WriteHERE：开源AI长文写作框架，单次生成超长文本，小说报告一键搞定！

WriteHERE是基于异质递归规划技术的开源AI写作框架，能动态分解写作任务并管理任务依赖关系，支持单次生成超过4万字的专业报告。

2061 55 57

蚝油菜花

|

11月前

|

人工智能缓存自然语言处理

|

博文

全球首款开源通用型AI智能体上线！Suna：自动处理Excel/爬数据/写报告等复杂任务一句话搞定

Suna是由Kortix推出的开源通用型AI智能体项目，通过自然语言交互实现浏览器自动化、文件管理、数据分析等复杂任务处理，支持自托管部署，为研究分析和日常工作提供智能辅助。

2406 55 56

蚝油菜花

|

11月前

|

人工智能自然语言处理知识图谱

|

博文

Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库

Yuxi-Know是一个结合大模型RAG知识库与知识图谱技术的智能问答平台，支持多格式文档处理和复杂知识关系查询，具备多模型适配和智能体拓展能力。

2941 55 56

蚝油菜花

|

11月前

|

人工智能自然语言处理运维

|

博文

让AI读懂K线图！ChatTS-14B：字节开源的时间序列理解和推理大模型，自然语言提问秒解趋势密码！

ChatTS-14B是字节跳动开源的时间序列专用大模型，基于Qwen2.5-14B微调优化，通过合成数据对齐技术显著提升分析能力，支持自然语言交互完成预测推理等复杂任务。

2523 1 1

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

还在想开题报告？SurveyGO卷姬：清华开源学术论文AI写作神器，一键生成文献综述

SurveyGO是清华与面壁智能联合开源的AI论文写作工具，采用LLMxMapReduce-V2技术实现文献智能聚合，能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。

1452 1 1

蚝油菜花

|

11月前

|

人工智能搜索推荐

|

博文

「社会实验室」成真！SocioVerse：复旦联合小红书开源社会模拟世界模型，用AI预演群体行为

SocioVerse是由复旦大学联合小红书等机构开源的社会模拟框架，基于大语言模型和千万级真实用户数据构建，能精准模拟群体行为并预测社会事件演化趋势。

887 2 2

蚝油菜花

|

11月前

|

人工智能 IDE API

|

博文

白板秒变IDE，草图直接生成可运行代码！Pad.ws：白板+代码编辑器深度结合，创意到实现无缝衔接

Pad.ws是一款创新的在线开发环境，将交互式白板与完整IDE工具深度结合，支持多人实时协作和多种编程语言，无需安装即可通过浏览器访问。

647 1 1

蚝油菜花

|

11月前

|

人工智能 API 开发者

|

博文

FastAPI开发者福音！FastAPI-MCP：将FastAPI秒变MCP服务器的开源神器，无需配置自动转换！

FastAPI-MCP是一款能将FastAPI应用端点自动转换为符合模型上下文协议(MCP)的开源工具，支持零配置自动发现接口并保留完整文档和模式定义。

5502 113 121

XiaoPenYou

|

11月前

|

机器学习/深度学习算法 NoSQL

|

博文

记录转大模型—InitCommit

嗯，写点东西记录一下转大模型的经历。

237 14 14

蚝油菜花

|

11月前

|

人工智能自然语言处理监控

|

博文

基于DeepSeek R1改进的AI安全模型！MAI-DS-R1：微软开源AI安全卫士，敏感话题响应率高达99.3%

微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型，通过后训练优化将敏感话题响应率提升至99.3%，同时将有害内容风险降低50%，保持原版推理能力并增强多语言支持。

1318 3 3

蚝油菜花

|

11月前

|

人工智能 JSON 自然语言处理

|

博文

让AI听懂你的建模需求！BlenderMCP：自然语言指令直接操控 Blender，一句话生成复杂3D场景

BlenderMCP通过MCP协议实现Blender与Claude AI的无缝集成，支持通过自然语言指令完成3D建模、材质调整等复杂操作，显著提升创作效率。

1342 1 1

蚝油菜花

|

11月前

|

人工智能自然语言处理测试技术

|

博文

自然语言生成代码一键搞定！Codex CLI：OpenAI开源终端AI编程助手，代码重构+测试全自动

Codex CLI是OpenAI推出的轻量级AI编程智能体，基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制，支持代码生成、重构、测试及数据库迁移等功能。

2416 0 0

蚝油菜花

|

11月前

|

人工智能自然语言处理 JavaScript

|

博文

测试工程师要失业？Magnitude：开源AI Agent驱动的端到端测试框架，让Web测试更智能，自动完善测试用例！

Magnitude是一个基于视觉AI代理的开源端到端测试框架，通过自然语言构建测试用例，结合推理代理和视觉代理实现智能化的Web应用测试，支持本地运行和CI/CD集成。

1641 15 15

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能算法

|

博文

GPT-4.5 竟成小丑！OpenAI 推出 GPT-4.1：百万级上下文多模态语言模型，性价比远超 GPT-4o mini

OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化，实现百万级token处理能力，在编码任务中准确率提升21.4%，推理成本降低83%，支持多模态内容理解与低延迟响应。

615 27 27

蚝油菜花

|

11月前

|

人工智能数据可视化数据挖掘

|

博文

AI竟能独立完成顶会论文！The AI Scientist-v2：开源端到端AI自主科研系统，自动探索科学假设生成论文

The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统，通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化，其生成论文已通过国际顶会同行评审。

817 34 36

蚝油菜花

|

11月前

|

人工智能开发框架决策智能

|

博文

谷歌开源多智能体开发框架 Agent Development Kit：百行代码构建复杂AI代理，覆盖整个开发周期！

谷歌开源的Agent Development Kit（ADK）是首个代码优先的Python工具包，通过多智能体架构和灵活编排系统，支持开发者在百行代码内构建复杂AI代理，提供预置工具库与动态工作流定义能力。

2094 3 4

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能算法

|

博文

超越 DeepSeek-R1！Seed-Thinking-v1.5：字节跳动开源MoE架构推理模型，200B总参数仅激活20B，推理效率提升5倍

字节跳动推出的200B参数混合专家模型，在AIME/Codeforces/GPQA等基准测试中实现多项突破，采用强化学习框架与流式推理系统，支持7大领域复杂推理任务。

762 13 13

蚝油菜花

|

11月前

|

人工智能开发框架安全

|

博文

AgentPrune：开源多智能体通信优化框架，无缝兼容AutoGen，让对话成本直降95%！

同济大学与香港中文大学联合研发的AgentPrune框架，通过时空图建模与低秩稀疏剪枝技术，显著优化多智能体系统的通信效率。该框架在保持性能的同时减少72.8%的通信量，并具备防御对抗攻击能力。

655 7 7

蚝油菜花

|

11月前

|

人工智能自然语言处理数据处理

|

博文

还在手动验证文献引用？ScholarCopilot：开源AI学术写作工具，生成时实时插入文献引用

基于 Qwen-2.5-7B 模型的 ScholarCopilot 通过动态检索标记和联合优化技术，实现学术文本生成与文献引用的精准匹配，在 50 万篇论文库中实现 40.1% 的检索准确率，生成文本的学术严谨性评分达 16.2/25。

1635 5 5

蚝油菜花

|

11月前

|

人工智能搜索推荐开发者

|

博文

GPT-4o测评准确率竟不到1%！BrowseComp：OpenAI开源AI代理评测新基准，1266道高难度网络检索问题

OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题，覆盖影视、科技、艺术等九大领域，其最新Deep Research模型以51.5%准确率展现复杂信息整合能力，为AI代理的浏览能力评估建立新标准。

800 4 4

蚝油菜花

|

11月前

|

数据采集人工智能 Java

|

博文

1天消化完Spring全家桶文档！DevDocs：一键深度解析开发文档，自动发现子URL并建立图谱

DevDocs是一款基于智能爬虫技术的开源工具，支持1-5层深度网站结构解析，能将技术文档处理时间从数周缩短至几小时，并提供Markdown/JSON格式输出与AI工具无缝集成。

507 1 1

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

用AI精准定位问题代码，调试时间直接砍半！LocAgent：斯坦福开源代码调试神器，多跳推理锁定问题代码

LocAgent是由斯坦福大学、耶鲁大学等顶尖机构联合开发的代码定位框架，通过将代码库转化为图结构并利用大语言模型的多跳推理能力，实现精准的问题代码定位。

1095 1 1

蚝油菜花

|

11月前

|

人工智能自然语言处理 Rust

|

博文

【内附榜单】评估AI大模型的代码修复能力！Multi-SWE-bench：字节开源代码修复能力评估基准，覆盖7大主流编程语言

Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准，包含1632个真实GitHub问题样本，通过严格筛选与人工验证确保数据质量。

1097 0 0

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能决策智能

|

博文

推理速度开挂！谷歌推出 Gemini 2.5 Flash：在保持Gemini 2.5精度的同时，延迟降低到竞品的1/3

谷歌最新推出的Gemini 2.5 Flash AI模型在保持低延迟和成本效益的同时，通过引入思考能力为开发者解锁了智能代理构建、代码辅助等新应用场景。

457 1 1

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能文件存储

|

博文

Llama Nemotron：英伟达开源基于Llama架构优化的推理模型，253B参数持平DeepSeek R1！

NVIDIA推出的Llama Nemotron系列推理模型，基于Llama架构优化，包含Nano/Super/Ultra三款，在数学推理、编程和工具调用等任务中展现卓越性能。

429 5 5

蚝油菜花

|

11月前

|

人工智能自然语言处理测试技术

|

博文

能够双向推理的LLM！Dream-7B：港大联合华为开源的扩散推理模型，能够同时考虑前后文信息

Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型，采用独特的掩码扩散范式，在文本生成、数学推理和代码编写等任务中展现出卓越性能。

571 3 3

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能 IDE

|

博文

14B小模型代码成绩紧逼O3-Mini！DeepCoder-14B-Preview：基于Deepseek-R1蒸馏优化的开源代码生成模型

DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型，通过强化学习微调在LiveCodeBench达到60.6%准确率，开源训练数据与系统优化方案。

547 3 3

蚝油菜花

|

11月前

|

数据采集人工智能安全

|

博文

32.7K Star！Awesome MCP Servers：开源MCP资源聚合平台，覆盖20+垂直领域

Awesome MCP Servers 是一个开源项目，汇集了3000多个基于Model Context Protocol的服务器实现，支持本地和云端部署，为AI大模型提供丰富的外部数据访问和工具调用能力。

1911 2 2

蚝油菜花

|

11月前

|

人工智能自然语言处理算法

|

博文

科研论文翻译神器！BabelDOC：开源AI工具让PDF论文秒变双语对照，公式图表全保留

BabelDOC 是一款专为科学论文设计的开源AI翻译工具，采用先进的无损解析技术和智能布局识别算法，能完美保留原文格式并生成双语对照翻译。

2781 67 68

蚝油菜花

|

11月前

|

人工智能测试技术 API

|

博文

PaperBench：OpenAI开源AI智能体评测基准，8316节点精准考核复现能力

PaperBench是OpenAI推出的开源评测框架，通过8316个评分节点系统评估AI智能体复现学术论文的能力，涵盖理论理解、代码实现到实验执行全流程。

782 30 35

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能前端开发

|

博文

SWEET-RL：8B小模型暴打GPT-4？Meta开源强化学习黑科技，多轮任务成功率飙升6%

Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制，使Llama-3.1-8B模型在协作推理任务中的表现提升6%，性能达到顶尖大模型水平。

586 33 33

蚝油菜花

|

11月前

|

人工智能自然语言处理前端开发

|

博文

DeepSite：基于DeepSeek的开源AI前端开发神器，一键生成游戏/网页代码

DeepSite是基于DeepSeek-V3模型的在线开发工具，无需配置环境即可通过自然语言描述快速生成游戏、网页和应用代码，并支持实时预览效果，显著降低开发门槛。

1822 93 93

蚝油菜花

|

11月前

|

人工智能安全虚拟化

|

博文

Cua：Mac用户狂喜！这个开源框架让AI直接接管你的电脑，快速实现AI自动化办公

Cua是一个结合高性能虚拟化与AI代理能力的开源框架，能在Apple Silicon上以接近原生性能运行虚拟机，并让AI直接操作系统应用。

1855 17 17

蚝油菜花

|

11月前

|

人工智能自然语言处理 API

|

博文

AutoAgent：无需编程！接入DeepSeek用自然语言创建和部署AI智能体！港大开源框架让AI智能体开发变成填空题

香港大学推出的AutoAgent框架通过自然语言交互实现零代码创建AI智能体，支持多模型接入与自动化工作流编排，在GAIA基准测试中表现优异。

1493 16 16

蚝油菜花

|

11月前

|

机器学习/深度学习存储人工智能

|

博文

Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

Qlib是微软亚洲研究院推出的开源AI量化投资平台，提供从数据处理、模型训练到组合管理的全流程支持，内置高性能数据基础设施和多种机器学习模型。

4563 87 88

自然语言处理

最新

文章

视频

问答

推荐

精华

AI生成内容幻觉检测技术难点：从事实核查到逻辑溯源的深层挑战

[大模型实战 05] 大模型实战的杀手锏： 模型微调

[大模型实战 03预备] 云端炼丹房 1：Google Colab 上手指南

[大模型实战 06] 我的模型我做主：在 Kaggle 上用 Unsloth 极速微调 Qwen3

[大模型实战 03] 拆解 Transformers：从原理图解到 HuggingFace Transformers 实战

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

写小说时，Claude 4.0 和 4.5 的差别在哪里？

基于Qwen-3B-Raw的本地化SD Prompt生成器研究

最佳实践丨让苏东坡“复活”！我用Qwen3-8B实现了与千古文豪的跨时空对话

MajorRAG 概述（1/3）

ACL 2025 | GALLa：用图结构增强代码大模型，让代码理解更精准！

小米7B参数推理大模型首次开源！Xiaomi MiMo：数学代码双杀，超越32B巨头

这个AI把arXiv变成代码工厂，快速复现顶会算法！Paper2Code：AI论文自动转代码神器，多智能体框架颠覆科研复现

Cooragent：清华 LeapLab 开源 AI Agent 协作框架，一句话召唤AI军团！

LongPort MCP：证券业首个券商MCP，AI赋能智能投资新时代，散户也能玩转机构级交易

让AI单次生成4万字！WriteHERE：开源AI长文写作框架，单次生成超长文本，小说报告一键搞定！

全球首款开源通用型AI智能体上线！Suna：自动处理Excel/爬数据/写报告等复杂任务一句话搞定

Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库

让AI读懂K线图！ChatTS-14B：字节开源的时间序列理解和推理大模型，自然语言提问秒解趋势密码！

还在想开题报告？SurveyGO卷姬：清华开源学术论文AI写作神器，一键生成文献综述

「社会实验室」成真！SocioVerse：复旦联合小红书开源社会模拟世界模型，用AI预演群体行为

白板秒变IDE，草图直接生成可运行代码！Pad.ws：白板+代码编辑器深度结合，创意到实现无缝衔接

FastAPI开发者福音！FastAPI-MCP：将FastAPI秒变MCP服务器的开源神器，无需配置自动转换！

记录转大模型—InitCommit

基于DeepSeek R1改进的AI安全模型！MAI-DS-R1：微软开源AI安全卫士，敏感话题响应率高达99.3%

让AI听懂你的建模需求！BlenderMCP：自然语言指令直接操控 Blender，一句话生成复杂3D场景

自然语言生成代码一键搞定！Codex CLI：OpenAI开源终端AI编程助手，代码重构+测试全自动

测试工程师要失业？Magnitude：开源AI Agent驱动的端到端测试框架，让Web测试更智能，自动完善测试用例！

GPT-4.5 竟成小丑！OpenAI 推出 GPT-4.1：百万级上下文多模态语言模型，性价比远超 GPT-4o mini

AI竟能独立完成顶会论文！The AI Scientist-v2：开源端到端AI自主科研系统，自动探索科学假设生成论文

谷歌开源多智能体开发框架 Agent Development Kit：百行代码构建复杂AI代理，覆盖整个开发周期！

超越 DeepSeek-R1！Seed-Thinking-v1.5：字节跳动开源MoE架构推理模型，200B总参数仅激活20B，推理效率提升5倍

AgentPrune：开源多智能体通信优化框架，无缝兼容AutoGen，让对话成本直降95%！

还在手动验证文献引用？ScholarCopilot：开源AI学术写作工具，生成时实时插入文献引用

GPT-4o测评准确率竟不到1%！BrowseComp：OpenAI开源AI代理评测新基准，1266道高难度网络检索问题

1天消化完Spring全家桶文档！DevDocs：一键深度解析开发文档，自动发现子URL并建立图谱

用AI精准定位问题代码，调试时间直接砍半！LocAgent：斯坦福开源代码调试神器，多跳推理锁定问题代码

【内附榜单】评估AI大模型的代码修复能力！Multi-SWE-bench：字节开源代码修复能力评估基准，覆盖7大主流编程语言

推理速度开挂！谷歌推出 Gemini 2.5 Flash：在保持Gemini 2.5精度的同时，延迟降低到竞品的1/3

Llama Nemotron：英伟达开源基于Llama架构优化的推理模型，253B参数持平DeepSeek R1！

能够双向推理的LLM！Dream-7B：港大联合华为开源的扩散推理模型，能够同时考虑前后文信息

14B小模型代码成绩紧逼O3-Mini！DeepCoder-14B-Preview：基于Deepseek-R1蒸馏优化的开源代码生成模型

32.7K Star！Awesome MCP Servers：开源MCP资源聚合平台，覆盖20+垂直领域

科研论文翻译神器！BabelDOC：开源AI工具让PDF论文秒变双语对照，公式图表全保留

PaperBench：OpenAI开源AI智能体评测基准，8316节点精准考核复现能力

SWEET-RL：8B小模型暴打GPT-4？Meta开源强化学习黑科技，多轮任务成功率飙升6%

DeepSite：基于DeepSeek的开源AI前端开发神器，一键生成游戏/网页代码

Cua：Mac用户狂喜！这个开源框架让AI直接接管你的电脑，快速实现AI自动化办公

AutoAgent：无需编程！接入DeepSeek用自然语言创建和部署AI智能体！港大开源框架让AI智能体开发变成填空题

Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

活跃用户

相关产品

[大模型实战 05] 大模型实战的杀手锏：模型微调