人机交互的搜索结果_热门_第15页-阿里云开发者社区

aliyun7689123603-22772

|

博文

|

来自：云原生

通义千问适不适合写小说

5月更文挑战第21天

# 人工智能 # 自然语言处理 # 人机交互

C哩C哩li

|

博文

大模型在自然语言处理中的应用

# 自然语言处理 # 机器学习/深度学习 # 自然语言处理 # 算法 # 安全 # 人机交互

阿里云开发者

|

9月前

|

博文

重磅发布的「AI视频通话」如何10分钟就实现？

2024年，OpenAI发布GPT-4o，支持文本、音频和图像的组合输入与输出，使交互更接近自然交流。传统语音助手需经历多阶段处理，容易出现延迟或误解，体验感差。本文介绍如何在阿里云上快速创建可视频通话的AI智能体，实现拟人化交互、精准感知、情绪捕捉等功能，提供高质量、低延时的音视频通话体验。通过简单的部署流程，用户可以轻松创建并体验这一先进的人机交互技术。点击“阅读原文”参与活动赢取惊喜礼物。

# 人工智能 # 安全 # 机器人 # 人机交互 # 语音技术

阿旭算法与机器学习

|

博文

实战 | 实时手部关键点检测跟踪（附完整源码+代码详解）

# 机器人 # 人机交互 # vr&ar # 信息无障碍 # 计算机视觉

bailiantest1

|

3月前

|

博文

|

来自：通义大模型

基于通义多模态大模型的实时音视频交互

Qwen-Omni是通义千问系列的全新多模态大模型，支持文本、图像、音频和视频的输入，并输出文本和音频。Omni-Realtime服务针对实时交互场景优化，提供低延迟的人机交互体验。

# 大模型服务平台百炼 # 人机交互 # API # 开发工具 # 开发者 # Python

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

TIGER：清华突破性模型让AI「听觉」进化：参数量暴降94%，菜市场都能分离清晰人声

TIGER 是清华大学推出的轻量级语音分离模型，通过时频交叉建模和多尺度注意力机制，显著提升语音分离效果，同时降低参数量和计算量。

# 智能语音交互 # 机器学习/深度学习 # 人工智能 # 机器人 # 人机交互 # 智能硬件

技术员阿伟

|

9月前

|

博文

《揭秘AI语音助手：从“听”到“说”的智能之旅》

在数字化时代，AI语音助手如Siri、Alexa、小爱同学等成为生活中的得力伙伴。它们通过自动语音识别（ASR）将语音转换为文本，利用自然语言处理（NLP）理解语义并生成回应，再通过文本到语音转换（TTS）输出自然语音。ASR捕捉、预处理和分析语音信号；NLP解析文本、理解意图；TTS合成流畅语音。这三项技术协同工作，使语音助手能听懂、理解并回应用户，为人机交互带来便利与创新。

# 机器学习/深度学习 # 人工智能 # 自然语言处理 # 人机交互 # 语音技术

ModelScope内容运营小助手

|

博文

阿里通义音频生成大模型 FunAudioLLM 开源！

声音包含丰富的个体特征及情感情绪信息，对话作为人类最常使用亲切自然的交互模式，是连接人与智能世界至关重要的环节。

# 自然语言处理 # 智能语音交互 # 智能语音交互 # 人工智能 # 自然语言处理 # 小程序 # 人机交互 # 语音技术

阿里云开发者

|

6月前

|

博文

如何让 Agent 规划调用工具

本文主要从规划的重要性、工具设计的作用、优化实践、适用场景几个方面讲述在构建多工具智能体（Agent）系统时，通过引入结构化的“思考与规划”工具和合理的提示工程，能够显著提升模型解决问题的效率和效果。

# 测试技术 # API # 人机交互 # 开发者

时光在流逝

|

16天前

|

博文

当AI学会“使用工具”：智能体（Agent）如何重塑人机交互

# 人工智能 # 搜索推荐 # 数据可视化 # 前端开发 # 人机交互

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

人机交互