人机交互

首页 标签 人机交互
# 人机交互 #
关注
1878内容
阿里通义音频生成大模型 FunAudioLLM 开源!
声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界至关重要的环节。
AI Agent
本文介绍了AI Agent的概念及其在云计算3.0时代的焦点地位,强调了其与大语言模型(LLM)的紧密联系。AI Agent由控制端(Brain)、感知端(Perception)和行动端(Action)组成,能够通过LLMs实现复杂的任务分解、记忆管理及工具使用。文章探讨了单代理、多代理及人机交互的应用场景,并分析了钢铁侠中贾维斯的现实版——微软开源JARVIS项目。此外,还提及了国内外多个开源平台及Python在AI领域的核心地位,同时提出了关于智能代理发展的开放问题,如安全性、群体智能演化及代理服务化等。最后提供了丰富的参考资料以供深入研究。
|
8月前
|
提示词工程深度实践:从基础原理到生产级应用优化
蒋星熠Jaxonic,技术探索者,专注AI与提示词工程。分享提示词设计精髓,涵盖基础理论、高级模式与工程架构,助力开发者高效驾驭大语言模型,提升AI应用实战能力。
TTS语音合成技术
一, 语音合成技术原理 语音合成(test to speech),简称TTS。将文字转化为语音的一种技术,类似于人类的嘴巴,通过不同的音色说出想表达的内容。
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
Emotion-LLaMA 是一款多模态情绪识别与推理模型,融合音频、视觉和文本输入,通过特定情绪编码器整合信息,广泛应用于人机交互、教育、心理健康等领域。
|
22天前
| |
大模型应用:最优路径规划实践:A*算法找最优解,大模型做自然语言解释.91
本文探讨A*算法与大模型的协同融合:A*确保路径数学最优,大模型将其转化为自然语言导航指令。二者互补——算法精于计算却拙于表达,模型善解人意却难保精确。结合后既具严谨性,又富人文温度,真正实现“算得准、说得清、用得好”。
|
11月前
|
人机融合智能 | “人智交互”跨学科新领域
本文围绕“以人为中心AI(HCAI)”理念,提出人-人工智能交互(人智交互)这一跨学科领域及框架。文章定义了人智交互的基本理论、关键问题与方法,并探讨其开发流程和团队协作模式,强调该领域的研究意义。文中分析了智能时代人机交互的新特征,提出“人智组队”的新型人机关系,指出智能系统可作为“辅助工具+合作队友”存在。同时,文章通过对比AI学科与人因科学的优势与不足,阐明跨学科合作的必要性,为未来人智交互研究提供方向。本章旨在为后续内容构建基于HCAI理念的研究与应用框架。
人工智能浪潮下的道德困境与技术挑战
【8月更文挑战第31天】 在人工智能的飞速发展中,我们面临着前所未有的道德和技术问题。本文将探讨AI技术带来的伦理挑战,包括隐私保护、算法偏见和责任归属等问题,并分析当前技术发展面临的限制,如数据获取困难、模型泛化能力和人机交互的局限性。文章旨在启发读者思考如何在享受AI技术便利的同时,确保技术的健康发展和社会的公正性。
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
免费试用