人机交互的搜索结果_文章-阿里云开发者社区

简简单单做算法

|

3天前

|

博文

本项目基于Matlab2022a实现手势识别中的指尖检测算法。测试样本展示无水印运行效果，完整代码含中文注释及操作视频。算法通过图像形态学处理和凸包检测（如Graham扫描法）来确定指尖位置，但对背景复杂度敏感，需调整参数PARA1和PARA2以优化不同手型的检测精度。

# 算法 # 人机交互 # 数据安全/隐私保护

效率时空

|

3天前

|

博文

AI元年：2024年人工智能发展大事纪

3分钟了解2024年人工智能AI领域都发生了哪些改变我们生活和生产方式的大事儿。

# 人工智能 # 自动驾驶 # 机器人 # 人机交互 # 量子技术

Echo_Wish

|

7天前

|

博文

|

来自：大数据与机器学习

智能语音助手的发展与未来：开启人机交互的新篇章

# 自然语言处理 # 智能语音交互 # 人工智能 # 自然语言处理 # 搜索推荐 # 人机交互 # 语音技术

技术员阿伟

|

7天前

|

博文

《软体机器人与仿生机器人的人工智能控制技术：挑战与突破》

在科技飞速发展的今天，软体机器人和仿生机器人成为研究焦点。软体机器人面临复杂环境适应性、力学性能控制及能源供给等挑战；仿生机器人则需解决生物灵感转化、系统集成及伦理问题。人工智能控制技术如智能算法、传感器创新和人机交互的发展为这些机器人带来新机遇，但也需关注伦理和社会影响。未来需跨学科合作，推动机器人技术进步并确保其符合人类利益。

# 传感器 # 机器学习/深度学习 # 人工智能 # 机器人 # 人机交互

楠竹11

|

10天前

|

博文

聚焦视听触感官协同配合的具身精细操纵，人大胡迪团队领衔探索机器人模态时变性挑战

中国人民大学胡迪团队提出MS-Bot方法，通过阶段性引导的动态多感官融合，使机器人能像人类一样灵活运用视觉、听觉和触觉完成复杂任务。实验表明，该方法提高了操作准确性和效率，但仍面临数据依赖、计算复杂度和泛化能力等挑战。论文链接：https://arxiv.org/abs/2408.01366v2

# 传感器 # 算法 # 机器人 # 人机交互

蚝油菜花

|

10天前

|

博文

|

来自： ModelScope模型即服务

PC Agent：开源 AI 电脑智能体，自动收集人机交互数据，模拟认知过程实现办公自动化

PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统，能够模拟人类认知过程，自动化执行复杂的数字任务，如组织研究材料、起草报告等，展现了卓越的数据效率和实际应用潜力。

# 图像识别 # 存储 # 人工智能 # 人机交互 # 决策智能

简简单单做算法

|

12天前

|

博文

基于GRNN广义回归网络和MFCC的语音情绪识别matlab仿真,对比SVM和KNN

该语音情绪识别算法基于MATLAB 2022a开发，可识别如悲伤等情绪，置信度高达0.9559。核心程序含中文注释及操作视频。算法采用MFCC特征提取与GRNN广义回归网络，通过预加重、分帧、加窗、FFT、梅尔滤波器组、对数运算和DCT等步骤处理语音信号，实现高效的情绪分类。

# 机器学习/深度学习 # 人工智能 # 算法 # 人机交互 # 语音技术

蚝油菜花

|

20天前

|

博文

|

来自： ModelScope模型即服务

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版，通过有限标量量化技术和块感知因果流匹配模型，显著提升了发音准确性、音色一致性和音质，支持多语言和流式推理，适合实时语音合成场景。

# 智能语音交互 # 人工智能 # 自然语言处理 # 人机交互 # 语音技术

萝卜带泥

|

20天前

|

博文

智能语音识别技术的最新进展与未来趋势####

【10月更文挑战第21天】在当今这个信息爆炸的时代，人机交互方式正经历着前所未有的变革。本文深入探讨了智能语音识别技术的前沿动态，从深度学习模型的创新应用到跨语言、跨领域的适应性增强，揭示了该领域如何不断突破技术壁垒，提升用户体验的真实案例与数据支撑。通过对比分析当前主流算法的性能差异，本文旨在为研究者和开发者提供一幅清晰的技术演进蓝图，同时展望了多模态融合、情感识别等新兴方向的广阔前景。 ####

# 智能语音交互 # 机器学习/深度学习 # 算法 # 人机交互 # 语音技术 # 数据安全/隐私保护

楠竹11

|

25天前

|

博文

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

近期，一篇题为“OmniGen: Unified Image Generation”的论文介绍了一种新型扩散模型OmniGen，旨在统一图像生成任务。OmniGen架构简洁，无需额外模块即可处理多种任务，如文本到图像生成、图像编辑等。该模型通过修正流优化，展现出与现有模型相当或更优的性能，尤其在图像编辑和视觉条件生成方面表现突出。OmniGen仅含3.8亿参数，却能有效处理复杂任务，简化工作流程。尽管如此，OmniGen仍存在对文本提示敏感、文本渲染能力有限等问题，未来研究将继续优化其架构与功能。

# 机器学习/深度学习 # 测试技术 # 定位技术 # 人机交互 # 计算机视觉

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

人机交互