自然语言处理-文章-第5页-阿里云开发者社区-阿里云

蚝油菜花

|

12月前

|

SQL 人工智能 JSON

|

博文

XGrammar：陈天奇团队推出的LLM结构化生成引擎

XGrammar是由陈天奇团队推出的开源软件库，专为大型语言模型（LLM）设计，提供高效、灵活且可移植的结构化数据生成能力。基于上下文无关语法（CFG），XGrammar支持递归组合以表示复杂结构，适用于生成JSON、SQL等格式数据，并通过字节级下推自动机优化解释CFG，实现百倍加速。

469 0 0

蚝油菜花

|

12月前

|

机器学习/深度学习数据采集人工智能

|

博文

TÜLU 3：Ai2推出的系列开源指令遵循模型

TÜLU 3是由艾伦人工智能研究所（Ai2）推出的开源指令遵循模型系列，包括8B和70B两个版本，未来计划推出405B版本。该模型在性能上超越了Llama 3.1 Instruct版本，提供了详细的后训练技术报告，公开数据、评估代码和训练算法。TÜLU 3基于强化学习、直接偏好优化等先进技术，显著提升模型在数学、编程和指令遵循等核心技能上的表现。

359 4 4

蚝油菜花

|

12月前

|

人工智能测试技术 Python

|

博文

DynaSaur：Adobe 推出的大语言模型代理框架

Adobe Research 推出的 DynaSaur 是一个突破性的大语言模型代理框架，它允许代理动态创建和组合动作，通过生成和执行 Python 代码与环境互动，从而实现更灵活的问题解决。DynaSaur 不仅在 GAIA 基准测试中表现出色，还具有动态动作创建、动作积累与复用、环境互动等主要功能，适用于多种应用场景。

150 2 2

蚝油菜花

|

12月前

|

人工智能自然语言处理 PyTorch

|

博文

AutoVFX：自然语言驱动的视频特效编辑框架

AutoVFX是一个先进的自然语言驱动的视频特效编辑框架，由伊利诺伊大学香槟分校的研究团队开发。该框架能够根据自然语言指令自动创建真实感和动态的视觉特效（VFX）视频，集成了神经场景建模、基于大型语言模型（LLM）的代码生成和物理模拟技术。本文详细介绍了AutoVFX的主要功能、技术原理以及如何运行该框架。

247 1 1

蚝油菜花

|

12月前

|

人工智能自然语言处理

|

博文

WebDreamer：基于大语言模型模拟网页交互增强网络规划能力的框架

WebDreamer是一个基于大型语言模型（LLMs）的网络智能体框架，通过模拟网页交互来增强网络规划能力。它利用GPT-4o作为世界模型，预测用户行为及其结果，优化决策过程，提高性能和安全性。WebDreamer的核心在于“做梦”概念，即在实际采取行动前，用LLM预测每个可能步骤的结果，并选择最有可能实现目标的行动。

297 1 1

蚝油菜花

|

12月前

|

人工智能 API 开发工具

|

博文

aisuite：吴恩达发布开源Python库，一个接口调用多个大模型

吴恩达发布的开源Python库aisuite，提供了一个统一的接口来调用多个大型语言模型（LLM）服务。支持包括OpenAI、Anthropic、Azure等在内的11个模型平台，简化了多模型管理和测试的工作，促进了人工智能技术的应用和发展。

587 1 1

蚝油菜花

|

12月前

|

人工智能

|

博文

LongAlign：港大推出的提升文本到图像扩散模型处理长文本对齐方法

LongAlign是由香港大学研究团队推出的文本到图像扩散模型的改进方法，旨在提升长文本输入的对齐精度。通过段级编码技术和分解偏好优化，LongAlign显著提高了模型在长文本对齐任务上的性能，超越了现有的先进模型。

162 1 1

蚝油菜花

|

12月前

|

存储人工智能自然语言处理

|

博文

OpenScholar：华盛顿大学联合艾伦研究所开源的学术搜索工具

OpenScholar是由华盛顿大学和艾伦AI研究所联合开发的开源学术搜索工具，旨在通过检索和综合科学文献中的相关论文来回答用户问题。该工具利用大规模科学论文数据库、定制的检索器和重排器，以及一个优化的8B参数语言模型，生成基于实际文献的准确回答。OpenScholar在提供事实性回答和准确引用方面超越了现有的专有和开源模型，所有相关代码和数据均已开源，支持并加速科学研究。

407 1 1

智能引擎技术

|

12月前

|

数据采集人工智能自然语言处理

|

博文

关于大模型语料的迷思

随着大模型发展的不断深入，我们越来越关注到语料质量对模型能力的影响，语料中的偏差和主观性会导致生成内容不准确或带有偏见。智能引擎事业部是阿里内部深耕多年的AI工程团队，为内部业务提供了完整的大模型工程体系，持续关注大模型训推性能、成本、研发范式等关键问题。本文将基于我们的思考，探讨大模型语料的复杂性及其背后的思维过程。

415 1 1

蚝油菜花

|

12月前

|

人工智能自然语言处理前端开发

|

博文

VideoChat：高效学习新神器！一键解读音视频内容，结合 AI 生成总结内容、思维导图和智能问答

VideoChat 是一款智能音视频内容解读助手，支持批量上传音视频文件并自动转录为文字。通过 AI 技术，它能快速生成内容总结、详细解读和思维导图，并提供智能对话功能，帮助用户更高效地理解和分析音视频内容。

748 6 6

蚝油菜花

|

12月前

|

人工智能安全 JavaScript

|

博文

Open Interpreter：AI 赋能终端！在终端中对话AI模型进行编程，通过运行代码来完成各种计算机操作任务

Open Interpreter 是一个让语言模型运行代码的强大工具，提供了一个类似 ChatGPT 的界面，支持多种编程语言和丰富的功能。

652 7 7

蚝油菜花

|

12月前

|

人工智能 Shell iOS开发

|

博文

AI Shell：在命令行里“对话” AI ，微软推出将 AI 助手引入命令行的 CLI 工具，打造对话式交互命令行

AI Shell 是一款强大的 CLI 工具，将人工智能直接集成到命令行中，帮助用户提高生产力。AI Shell 支持多种 AI 模型和助手，通过多代理框架提供丰富的功能和灵活的使用模式。

1455 7 7

蚝油菜花

|

12月前

|

SQL 机器学习/深度学习人工智能

|

博文

今日 AI 开源｜共 4 项｜DeepSeek 推出新一代 AI 推理模型，实力比肩 OpenAI o1-preview！

本文介绍了四个最新的 AI 开源项目，涵盖多模态生成式 AI、自然语言到 SQL 转化、多模态数学推理和复杂逻辑推理等多个领域，为 AI 应用开发提供了丰富的资源和工具。

705 0 0

蚝油菜花

|

12月前

|

机器学习/深度学习人工智能缓存

|

博文

最佳实践！使用 GraphRAG + GLM-4 对《红楼梦》全文构建中文增强检索

特别介绍`graphrag-practice-chinese`项目，这是一个针对中文优化的GraphRAG应用实例，通过改进文本切分策略、使用中文提示词及选择更适合中文的模型等手段，显著提升了处理中文内容的能力。项目不仅包括详细的搭建指南，还提供了《红楼梦》全文的索引构建与查询测试示例，非常适合个人学习和研究。

2084 1 1

蚝油菜花

|

12月前

|

Web App开发人工智能自然语言处理

|

博文

WebChat：开源的网页内容增强问答 AI 助手，基于 Chrome 扩展的最佳实践开发，支持自定义 API 和本地大模型

WebChat 是一个基于 Chrome 扩展开发的 AI 助手，能够帮助用户理解和分析当前网页的内容，支持自定义 API 和本地大模型。

939 1 1

蚝油菜花

|

12月前

|

存储人工智能搜索推荐

|

博文

Memoripy：支持 AI 应用上下文感知的记忆管理 Python 库

Memoripy 是一个 Python 库，用于管理 AI 应用中的上下文感知记忆，支持短期和长期存储，兼容 OpenAI 和 Ollama API。

746 6 6

蚝油菜花

|

12月前

|

人工智能搜索推荐 API

|

博文

Perplexica：开源 AI 搜索引擎，Perplexity AI 的开源替代品，支持多种搜索模式、实时信息更新

Perplexica 是一款开源的 AI 驱动搜索引擎，支持多种搜索模式和实时信息更新，适用于个人、学术和企业等不同场景。

1155 6 6

喵帕斯先生

|

自然语言处理 Python

|

博文

如何使用自然语言处理库`nltk`进行文本的基本处理

这段Python代码展示了如何使用`nltk`库进行文本的基本处理，包括分词和词频统计。首先需要安装`nltk`库，然后通过`word_tokenize`方法将文本拆分为单词，并使用`FreqDist`类统计每个单词的出现频率。运行代码后，会输出每个词的出现次数，帮助理解文本的结构和常用词。

315 1 1

想飞的雪糕

|

机器学习/深度学习弹性计算自然语言处理

|

博文

前端大模型应用笔记（二）：最新llama3.2小参数版本1B的古董机测试 - 支持128K上下文，表现优异，和移动端更配

llama3.1支持128K上下文，6万字+输入，适用于多种场景。模型能力超出预期，但处理中文时需加中英翻译。测试显示，其英文支持较好，中文则需改进。llama3.2 1B参数量小，适合移动端和资源受限环境，可在阿里云2vCPU和4G ECS上运行。

575 1 1

AskTable

|

SQL 人工智能自然语言处理

|

博文

本文基于2024年9月27日与阿里云合办的线下沙龙分享整理而成，探讨如何通过大语言模型（LLM）让数据访问更简单。随着企业数据量增长，传统数据访问方式已难以满足需求。LLM结合自然语言检索，使非技术用户能直接用自然语言与数据交互，降低数据访问门槛。文章介绍了NL2SQL技术，通过LLM理解自然语言问题并生成SQL查询，实现高效数据获取。同时，探讨了AskTable架构及其在实际应用中的挑战与解决方案。

851 5 6

汀丶人工智能

|

存储 Linux 开发工具

|

博文

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

【8月更文挑战第2天】告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

2868 64 68

摩诃般若

|

人工智能语音技术 Python

|

博文

FunAudioLLM试炼

音频基座大模型FunAudioLLM，可以想你朋友一样和你对话，情感语境的识别，突破物理限制。

603 5 5

汀丶人工智能

|

人工智能前端开发 API

|

博文

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

【7月更文挑战第9天】RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

3453 1 4

汀丶人工智能

|

人工智能 API 决策智能

|

博文

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

【7月更文挑战第8天】智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

16277 134 135

墨昀电子商务工作室

|

弹性计算 Kubernetes 开发者

|

博文

操作系统OS Copilot 产品体验评测

OS Copilot体验摘要：开发者评价OS Copilot在软件开发和系统维护中提供帮助。新人易上手，界面直观，但高级功能说明不足。工具在编程时给出智能建议，提升效率，专长于操作系统任务。相比同类产品，如GitHub Copilot，OS Copilot在OS相关建议上更专业，但特定场景准确性待提高。期望增加更多操作系统支持及自动错误排查功能。适合与ACK智能助手等产品联动，提供云环境全面支持。

375 1 1

CodeFuse

|

SQL 人工智能自然语言处理

|

博文

2024年6月118篇代码大模型论文最全整理

基座模型与训练数据、代码微调、测试基准、代码Agent、低资源语言处理、AI代码安全与分析、人机交互、软件工程下游任务应用主题代码大模型论文分享，干货满满~

1366 2 3

汀丶人工智能

|

存储机器学习/深度学习人工智能

|

博文

RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术

1495 8 8

汀丶人工智能

|

机器学习/深度学习人工智能 JSON

|

博文

LLM 大模型学习必知必会系列(二)：提示词工程-Prompt Engineering 以及实战闯关

2552 0 0

汀丶人工智能

|

机器学习/深度学习人工智能自然语言处理

|

博文

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

2402 2 3

汀丶人工智能

|

自然语言处理物联网 API

|

博文

检索增强生成(RAG)实践：基于LlamaIndex和Qwen1.5搭建智能问答系统

1913 6 7

汀丶人工智能

|

自然语言处理 API 开发工具

|

博文

基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手（检索增强生成(RAG)大模型）

1559 0 2

魔哈Moha

|

人工智能开发工具网络架构

|

博文

魔哈：Grok国内镜像

xAI 宣布正式开源 3140 亿参数的混合专家（MoE）模型「Grok-1」，以及该模型的权重和网络架构。这也使得Grok-1成为当前参数量最大的开源大语言模型。

1196 0 0

游客rlkofxvrsfwzk

|

人工智能自然语言处理 API

|

博文

DashVector&千问7B模型，打造极简RAG 之基于专属知识的问答服务实践

参考官方教程和代码，以一个0基础学习者的角色，用DashVector&千问7B模型，打造极简RAG-基于专属知识的问答服务实践，也带入了自己的一些理解。

1679 0 1

魔哈Moha

|

人工智能数据挖掘 CDN

|

博文

魔哈镜像迄今最大合成数据集 Cosmopedia

Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens，是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。

315 0 0

ezopeebgyrzuu

|

测试技术 AI芯片

|

博文

ModelScope X 昇腾910快速上手

一个简单的基于国产昇腾硬件的ModelScope适配攻略

1153 0 0

游客n5jkm446z2bsw

|

自然语言处理

|

博文

在Modelscope活动中，主办方欲通过模型盲测收集并整理一批人类反馈数据。因为曾经使用直接偏好优化（Direct Preference Optimization）作为课程的小论文而对此领域有所了解，本次我在数据的收集过程之外，根据问答与模型的输出，结合论文From Instructions to Intrinsic Human Values A Survey of Alignment Goals for Big Models，具体探究了本次实验过程中的对齐目标。

459 0 0

带你读小助手

|

存储自然语言处理数据可视化

|

博文

自然语言入门：NLP数据读取与数据分析

本章主要内容为数据读取和数据分析，具体使用`Pandas`库完成数据读取操作，并对赛题数据进行分析构成。

468 0 0

DreamSpark

|

机器学习/深度学习自然语言处理安全

|

博文

中文竞技场（MS）大模型评测

分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。

97313 2 2

自然语言处理

最新

文章

视频

问答

推荐

精华

XGrammar：陈天奇团队推出的LLM结构化生成引擎

TÜLU 3：Ai2推出的系列开源指令遵循模型

DynaSaur：Adobe 推出的大语言模型代理框架

AutoVFX：自然语言驱动的视频特效编辑框架

WebDreamer：基于大语言模型模拟网页交互增强网络规划能力的框架

aisuite：吴恩达发布开源Python库，一个接口调用多个大模型

LongAlign：港大推出的提升文本到图像扩散模型处理长文本对齐方法

OpenScholar：华盛顿大学联合艾伦研究所开源的学术搜索工具

关于大模型语料的迷思

VideoChat：高效学习新神器！一键解读音视频内容，结合 AI 生成总结内容、思维导图和智能问答

Open Interpreter：AI 赋能终端！在终端中对话AI模型进行编程，通过运行代码来完成各种计算机操作任务

AI Shell：在命令行里“对话” AI ，微软推出将 AI 助手引入命令行的 CLI 工具，打造对话式交互命令行

今日 AI 开源｜共 4 项｜DeepSeek 推出新一代 AI 推理模型，实力比肩 OpenAI o1-preview！

最佳实践！使用 GraphRAG + GLM-4 对《红楼梦》全文构建中文增强检索

WebChat：开源的网页内容增强问答 AI 助手，基于 Chrome 扩展的最佳实践开发，支持自定义 API 和本地大模型

Memoripy：支持 AI 应用上下文感知的记忆管理 Python 库

Perplexica：开源 AI 搜索引擎，Perplexity AI 的开源替代品，支持多种搜索模式、实时信息更新

如何使用自然语言处理库`nltk`进行文本的基本处理

前端大模型应用笔记（二）：最新llama3.2小参数版本1B的古董机测试 - 支持128K上下文，表现优异，和移动端更配

【AI 技术分享】大模型与数据检索的探索实践

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

FunAudioLLM试炼

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

操作系统OS Copilot 产品体验评测

2024年6月118篇代码大模型论文最全整理

RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术

LLM 大模型学习必知必会系列(二)：提示词工程-Prompt Engineering 以及实战闯关

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

检索增强生成(RAG)实践：基于LlamaIndex和Qwen1.5搭建智能问答系统

基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手（检索增强生成(RAG)大模型）

魔哈：Grok国内镜像

DashVector&千问7B模型，打造极简RAG 之 基于专属知识的问答服务实践

魔哈镜像迄今最大合成数据集 Cosmopedia

ModelScope X 昇腾910快速上手

如何定义标签词映射

求助: 运行模型时报错module 'megatron_util.mpu' has no attribute 'get_model_parallel_rank'

求助：需要训练一个行业模型，用来批量写文章。有酬谢

高通量基因测序在药物研发和靶向治疗中的应用（一）

高通量基因测序在药物研发和靶向治疗中的应用（二）

AI制药工业落地的痛点与前进方向（三）

AI制药工业落地的痛点与前进方向（二）

AI制药工业落地的痛点与前进方向（一）

AI + 分子模拟，赋能药物发现新源头（三）

AI + 分子模拟，赋能药物发现新源头（二）

AI + 分子模拟，赋能药物发现新源头（一）

中文大模型评测

我们要对齐什么——从人类反馈数据收集过程中分析语言模型的对齐任务类型与对齐目标

自然语言入门：NLP数据读取与数据分析

中文竞技场（MS）大模型评测

活跃用户

相关产品

DashVector&千问7B模型，打造极简RAG 之基于专属知识的问答服务实践