Sasha:使用大语言模型在智能家居中进行创造性目标导向推理——论文阅读

简介: Sasha利用大语言模型实现智能家居中的创造性目标导向推理,通过迭代式澄清、过滤、规划与反馈机制,有效响应模糊用户指令。系统在真实家庭环境中表现出高相关性与用户满意度,支持复杂多步任务的自然交互,显著提升智能空间的适应性与可用性。

Sasha:使用大语言模型在智能家居中进行创造性目标导向推理

King E, Yu H, Lee S, et al. Sasha: creative goal-oriented reasoning in smart homes with large language models[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2024, 8(1): 1-38.

1. 引言与研究动机

fig111.png

智能家居系统的一个长期挑战是开发能够创造性地推断和响应用户目标的智能空间。当人们与现有的智能家居界面(如Alexa)进行对话交互时,很快就会发现这些系统难以将日常人类情境与适当的智能家居动作联系起来。例如,当用户说"让客厅舒适一些"时,人类能够将"舒适"的概念与环境的各种属性联系起来:温度、照明、音乐等。正确的响应会根据空间、可用参数和个人偏好而变化。然而,驱动现代智能家居的系统不幸地缺乏这种能力。

本研究引入大语言模型来解决这一挑战。LLMs是在多样化语料库上训练的通用语言模型,这些语料库涵盖了互联网上可用的大部分书面文本和代码。这些模型在许多下游任务上表现出了极高的性能,而无需针对特定用例进行重大模型更新。

2. 系统架构与初始原型

2.1 命令规范性谱系

fig222.png

图2展示了用户命令的不同规范程度:图中将命令分为三类,从左到右分别是良好规范(Well-Specified)、中等欠规范(Moderately Under-Specified)和完全欠规范(Completely Under-Specified)命令。良好规范的命令如"在晚上7点打开灯"明确定义了动作(打开)、目标设备(灯)和触发器(晚上7点)。中等欠规范的命令如"日落后保持良好照明"可能暗示了目标、动作和触发器,但没有明确指定它们。完全欠规范的命令如"帮我看得更清楚"没有明显的目标、期望的动作或触发器。

2.2 原型系统设计

fig333.png

图3描述了初始实验设置:系统接收带有命令和家庭模板的提示,LLM将设置分配给设备或创建自动化,最后解析响应的JSON内容。具体的提示结构包括:

对于即时目标的提示:

You are an AI that controls a smart home. You receive user commands and 
assign settings to devices in response.
User command: [ command ]
Devices: { JSON }
If there are devices relevant to the user command, respond with the device 
JSON with settings assigned in the form: { "status": "success", 
"devices": { }, "explanation": "" }

对于持续目标的提示:

You are an AI that controls a smart home. You receive user commands and 
create automation routines in response.
User command: [ command ]
Devices: { JSON }
Sensors: { JSON }
If there are devices relevant to the user command, respond with JSON that 
describes a sensor trigger and how you would change the devices (the action) 
based on that trigger.

3. 实证研究设计

3.1 家庭模板构建

研究构建了三个家庭模板,通过调整来自两个数据源的数据:IFTTT智能家居例程数据集和CASAs数据集中一个家庭的布局和传感器套件。

fig666.png

图6展示了三个家庭模型($h_1$、$h_2$、$h_3$)的设备分布。$h_1$是最基本的智能家居,只有灯光。$h_2$添加了下一批最受欢迎的类型(气候控制和娱乐),而$h_3$再次添加了下一批最受欢迎的类型(安全、机器人吸尘器和杂项家电)。每个家庭都有相同的传感器套件。

fig777.png

图7显示了每个家庭模板的传感器布局:包括区域运动传感器、床运动传感器、沙发运动传感器、光照度传感器、温度传感器,以及全局传感器如本地时间、本地天气和用户位置。

3.2 用户调查设计

调查设计包括每个动作计划由5名参与者进行标注,使参与者能够比较对同一动作计划的多个用户感知。调查包含30个问题,大约需要45分钟完成。

4. 实证研究结果分析

4.1 质量评估指标

用户感知质量基于满意度评分,将五点量表从"非常不满意"到"非常满意"映射到数值评分$[0.2, 1.0]$。

table222.png

表2展示了具有一致高、一致低和可变用户满意度的GPT-4生成的动作计划示例。高质量计划为完全欠规范的命令提供复杂解决方案。例如,对于"帮我降低电费",GPT-4将$h_1$中唯一可用的设备(灯光)与降低电费的欠规范目标联系起来,并提出了一个传感器触发器和值(15分钟无运动)来完成它。

4.2 故障模式分析

fig888.png

图8展示了按故障模式划分的GPT-4生成动作计划的用户评分质量。错误条表示95%置信区间。用户对假阳性的评价比其他故障模式更严厉:"无选项存在"和"幻觉"具有最低的平均质量。

故障模式的频率分析显示(图9),当从家庭$h_1$移动到$h_3$时,"无选项"和"幻觉"故障的频率减少,因为越来越多的设备可用于满足目标。相反,"选项存在"故障的频率增加:当更多设备可用时,用户期望它们被定位。

4.3 相关性评估

fig1010.png

图10展示了按家庭和命令目标类别分组的LLM生成动作计划的相关性得分。-1.0表示该类别中所有动作计划的所有设备都不相关;0.0表示没有目标或相关与不相关的平衡;1.0表示所有都相关。设备较少的家庭($h_1$)中的动作计划更有可能定位最小相关集(1.0),但当目标不受支持时也会定位完全不相关的设备(-1.0)。

5. Sasha系统设计

5.1 迭代推理流程

fig1111.png

图11展示了Sasha的迭代推理过程,将响应分解为四个组件:澄清(目标是否可用这些设备实现?)、过滤(哪些是相关设备?)、规划(如何使用这些设备实现目标?)和反馈(动作计划是否实现了目标?)。

5.2 组件设计细节

每个组件都使用特定的提示模板。例如,澄清步骤的核心逻辑是评估命令与可用设备之间的语义关系。如果存在相关设备,输出状态码为"成功";否则为"失败"并请求用户提供更多信息。

过滤步骤选择最小相关设备集,确保跨不同环境的一致相关性。规划步骤基于过滤后的设备生成具体的JSON动作计划。反馈步骤允许用户用自然语言优化计划的主观方面。

6. 系统评估

6.1 消融研究

table444.png

表4总结了Sasha的定量结果。结果显示为相对于我们实证研究中零样本方法的测量差异。在消融研究中,我们测试了在完整家庭模板(包含所有设备及其设置)与简化设备列表上进行推理的效果。

关键发现包括:

  • 将澄清与过滤分离可将GPT-4的准确率提高0.11
  • 在设备列表而非完整模板上进行澄清可进一步提高性能
  • 分离过滤和规划步骤可提高相关性得分

6.2 用户研究设置

fig1212.png

图12展示了Sasha用户研究的测试家庭。我们邀请$N=7$名参与者在测试家庭中执行日常生活活动时向Sasha发出无约束命令。测试家庭包含智能灯光、智能窗帘、咖啡机、电热水壶、风扇、带5种音乐流派的智能音箱、智能电视和"清洁机器人"。

7. 用户研究结果

7.1 定量分析

table666.png

表6(附录D.2)提供了用户研究会话的定量总结。每个真实世界参与者(RWP)在3个预设场景中发出了无约束命令,每个场景有多个目标。关键指标包括:

  • 平均每个目标需要3.39个命令(C/G)
  • 反馈率(Fdbk)为0.27
  • 假阴性率($FN$)仅为0.06

7.2 定性观察

研究揭示了五个关键观察:

  1. 松散的命令结构支持复杂的多部分目标:参与者利用Sasha的松散命令结构来发出包含多个步骤的命令。

  2. 用户利用反馈迭代优化动作计划:参与者通常以欠规范命令开始交互,然后通过迭代反馈优化动作计划。

  3. 需要对个人偏好和上下文的更高敏感性:一些交互突出了Sasha需要随时间学习个人偏好的需求。

  4. 计划可以引入用户可能自己想不到的创造性动作:在几种情况下,参与者依赖Sasha为他们做决定,或发现系统能够制定参与者本来不会考虑的计划。

  5. 复杂目标只需几次无约束交互即可完成:参与者报告平均约3个命令即可完成目标。

附录:数学推导

A. 相关性度量的详细推导

设$C$为命令集合,$g_c$为命令$c \in C$的目标类别,$G_c$为LLM动作计划在响应命令$c$时定位的设备目标类别集合,$G_h$为家庭$h$中设备支持的目标类别集合。

假阳性率(FP)
当系统创建针对一个或多个设备的计划,但家庭实际上没有任何与命令相关的设备时发生假阳性:

$$FP = \frac{1}{|C|} \sum_{c \in C} fp(G_c, G_h, g_c)$$

其中:
$$fp(G_c, G_h, g_c) = \begin{cases} 1 & \text{if } |G_c| > 0 \land g_c \notin G_h \\ 0 & \text{otherwise} \end{cases}$$

假阴性率(FN)
相反,当系统不创建计划但家庭有相关设备时发生假阴性:

$$FN = \frac{1}{|C|} \sum_{c \in C} fn(G_c, G_h, g_c)$$

其中:
$$fn(G_c, G_h, g_c) = \begin{cases} 1 & \text{if } |G_c| = 0 \land g_c \in G_h \\ 0 & \text{otherwise} \end{cases}$$

准确率(Acc)
准确率捕获只在存在相关设备时才定位相关设备的计划部分:

$$Acc = 1 - (FP + FN)$$

相关性得分(Rel)
我们通过计算每个命令$c \in C$的得分$r \in [-1, 1]$来衡量系统输出的相关性,该得分基于每个命令生成的动作计划中包含的相关和不相关设备的相对数量:

$$Rel = \frac{1}{|C|} \sum_{c \in C} r(G_c, G_h)$$

其中:
$$r(G_c, G_h) = \frac{|G_c \cap G_h| - |G_c - G_h|}{|G_c|}$$

这里$|G_c \cap G_h|$表示相关设备的数量,$|G_c - G_h|$表示不相关设备的数量。当所有设备都相关时$r = 1$,当所有设备都不相关时$r = -1$。

B. 相关性分析

使用Kendall's tau-b($\tau_b$)测试用户调查中质量标签与动作计划特征之间的相关性。$\tau_b$测试可能不服从正态分布的两个变量之间的相关性,-1和1分别表示强负相关和强正相关,0表示无相关性。

给定我们任务的主观性程度(特别是关于用户感知质量评分),我们设定阈值为$|\tau_b| \geq 0.2$且$p \leq 0.05$。我们的$\tau_b$阈值遵循建立至少"中等"相关性的常见准则。

研究发现假阳性与用户满意度之间存在强负相关:
$$\tau_b = -0.42, \quad p = 4 \times 10^{-8}$$

这表明定位不相关或不存在的设备会被用户严厉评判。

C. 成本和延迟分析

令输入令牌数为$T{in}$,输出令牌数为$T{out}$。对于即时目标:

  • $h1$: $T{in} = 469$
  • $h2$: $T{in} = 529$
  • $h3$: $T{in} = 607$

对于持续目标,这些值增加到670、730和808。输出令牌从8到566不等。

单个智能家居命令的成本$C$计算为:
$$C = \frac{T_{in} + T_{out}}{1000} \times P$$

其中$P$是每1000个令牌的价格(GPT-3.5为\$0.02,GPT-4为\$0.03输入/\$0.06输出)。

考虑到用户与家庭助手交互的纵向数据,这将导致:

  • GPT-3.5:每天\$0.10-\$0.60
  • GPT-4:每天\$0.30-\$1.00
目录
相关文章
|
21天前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
140 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
21天前
|
机器学习/深度学习 算法 物联网
面向能效和低延迟的语音控制智能家居:离线语音识别与物联网集成方案——论文阅读
本文提出一种面向能效与低延迟的离线语音控制智能家居方案,通过将关键词识别(KWS)集成至终端设备,结合去中心化Mesh网络与CoAP协议,实现本地化语音处理。相较云端方案,系统能耗降低98%,延迟减少75%以上,显著提升响应速度与能源效率,为绿色智能家居提供可行路径。(236字)
158 17
面向能效和低延迟的语音控制智能家居:离线语音识别与物联网集成方案——论文阅读
|
传感器 监控 搜索推荐
探索智能家居技术的未来
【10月更文挑战第6天】 本文深入探讨了智能家居技术的发展历程、当前应用及其未来前景。通过分析物联网(IoT)的基本原理和智能家居设备的实际应用案例,揭示了该领域面临的挑战与机遇,并提出了未来发展的趋势和可能性。
261 3
|
10月前
|
机器学习/深度学习 搜索推荐 语音技术
智能语音识别技术在智能家居中的应用与挑战####
本文深入探讨了智能语音识别技术的基本原理、关键技术环节,以及其在智能家居领域的广泛应用现状。通过分析当前面临的主要挑战,如环境噪音干扰、方言及口音识别难题等,文章进一步展望了未来发展趋势,包括技术融合创新、个性化服务定制及安全隐私保护的加强。本文旨在为读者提供一个关于智能语音识别技术在智能家居中应用的全面视角,同时激发对该领域未来发展方向的思考。 ####
727 33
|
机器学习/深度学习 人工智能 物联网
智能家居技术的未来:从自动化到智能化的跨越
本文将探讨智能家居技术的发展趋势,从早期的自动化设备到现代的智能系统,分析其背后的技术驱动因素和市场动态。文章将详细讨论物联网(IoT)、人工智能(AI)、机器学习等技术如何推动智能家居的发展,并展望智能家居未来的发展方向。
|
传感器 人工智能 物联网
探索智能家居技术:现状与未来
本文深入探讨了智能家居技术的发展历程、当前主要技术和应用,并展望了其未来的发展趋势。通过对现有技术的详细解析和案例分析,揭示了智能家居在提升生活品质、节能减排等方面的潜力,同时指出了目前面临的挑战和可能的解决方案。
|
监控 物联网 数据安全/隐私保护
智能家居包含了众多设备,在通过智能化技术提升居家生活的便利性、安全性、节能性和舒适度
智能家居系统包含了众多设备,旨在通过智能化技术提升居家生活的便利性、安全性、节能性和舒适度。以下是一些智能家居系统中常见的设备类别及其基本操作简述:
|
人工智能 监控 物联网
智能家居技术的未来趋势
随着科技的飞速发展,智能家居已经从概念变成了现实。本文将探讨智能家居技术的最新进展,包括物联网(IoT)的集成、人工智能(AI)的应用、以及5G网络对智能家居的影响。我们将一起看看这些技术如何使家居生活更加便捷、安全和节能,并展望未来可能带来的改变。
212 4
|
人工智能 监控 安全
揭秘AI技术在智能家居中的应用
【9月更文挑战第6天】本文深入探讨了AI技术如何在智能家居领域大放异彩。从智能语音助手到自动化家居控制,再到安全监控和能源管理,AI技术正在改变我们的生活方式。文章还将通过代码示例,展示如何利用AI技术实现家居自动化控制。
601 5
|
机器学习/深度学习 安全 网络协议
智能家居安全:技术与挑战
本文将深入探讨智能家居系统的安全性问题,从技术角度分析当前面临的主要威胁和解决策略。通过具体案例说明如何加强智能家居的数据保护和隐私安全,同时指出未来研究的方向。
395 2
下一篇
oss教程