1.3 热设计
天冷穿棉袄,天热扇扇子,冬天喝热水,夏天吃冰棍……我们在生活中无时无刻不在和热打交道。热是一种能量,热量的累积会导致温度的上升,而温度的上升则会带来物理变化,如热胀冷缩,温度的上升同样会加剧一些化学反应,如老化、硫化等。人体通过自我调节和外部措施使体温保持相对恒定,维持正常的生理机能,同样,电子器件也需要在一定的温度条件下才能维持正常、稳定的运行。
随着电子技术不断发展,IC 集成度越来越高,功耗越来越大,热密度不断增加,良好的散热设计对产品的可靠性有着至关重要的影响。“天猫精灵好热,是不是出了故障”“天猫精灵摸起来好烫”……用户的担忧和质疑,让天猫精灵的研发团队有了更高的目标和要求。
天猫精灵在设计中遇到过哪些“热”的问题?工程师们又是如何为天猫精灵“降温”的?本节将分享天猫精灵研发过程中关于热的故事,希望能给大家带来一些思考和启发。
1.3.1 技术解释
热设计是指设计一种将电能产生的热能向外部转移的机构,使产品核心区域的温度控制在一定温度以内,如图 1-27 所示。
图 1-27 热设计
热设计的出发点又是什么呢?
一是降低产品内部电子元器件的温度,提升电子元器件性能,延长产品使用寿命。CPU、充电 IC、DC-DC 等电子元器件均是高功耗元器件,单体发热量较大,在高温情况下转换功率降低,使用寿命明显下降。
LCD、摄像头、电池、扬声器等外围电子元器件,在高温情况下,基本性能会受到影响,甚至会造成永久损坏。例如,一些扬声器磁铁温度若高于 80℃或 120℃,其磁铁会消磁;电池温度若高于 60℃,会停止充放电,若温度进一步上升,产品甚至会存在安全隐患。
二是产品的用户体验。人的身体若长时间接触高于 43℃的低热物体,则会引起慢性烫伤。接触各种材料不同时长下对应的灼伤阈值如表 1-5 所示。
在环境温度为 25℃的情况下,塑料外壳的温度在 43℃以上或金属外表面的温度在 40℃以上时,用户会感到产品发烫,体感反馈差,会担忧产品的整体性能及安全性。
1.3.2 技术难点
天猫精灵的 PCB 由于架构设计,很少能竖直放置(理论上散热的最优放置方案)或在部分场景下元器件面朝下放置(即热面朝下),这不利于散热。天猫精灵产品外壳因为 ID 需求仅能预留极少量的孔,并在开孔处黏合防尘网,所以它与外界空气交换热量较小,内部气流扰动较弱,且 PCB 也没有通过连接的壳体与外界环境直接进行热交换,这属于受限空间对流换热场景。此外,由于空间和成本的限制,散热器的设计及表面处理工艺均无法做到最优化散热设计。随着天猫精灵产品功能场景的多元化,其功耗也逐步上升,但部分产品还采用之前的模具,这给热设计带来了极大的挑战。
1.3.3 相关概念简介
热设计中的一些概念如下。
温升:设备内任一点温度与环境温度之间的差值,一般将其作为温度是否满足规格的评判标准。
热耗:元器件正常运行时产生的热量,一般将其作为热设计的输入条件。
温度场:系统内各个点上温度的集合,一般将其作为热分析优化的参考。
热量总是从高温区传向低温区,且高温区发出的热量必定等于低温区吸收的热量。热量传递的动力是温差,热量的传递过程可分为稳定过程和不稳定过程两类: 凡是物体中各点温度不随时间变化而变化的热传递过程称为稳定过程,反之则称为不稳定过程。
热量的传递有三种基本方式:传导、对流和辐射。天猫精灵产品的散热设计,一般需要同时考虑这三种传热方式,比如 CC10 中的芯片将热量通过传导转移到散热器上,散热器与空气之间通过热对流进行热量交换,产品表面通过热辐射与环境进行热交换,如图 1-28所示。
1.热传导
热传导是温度差引起的热传递现象,在固体、液体和气体中均可发生。芯片向外壳传递热量主要就是通过热传导的方式,其过程传递的热量遵从的宏观规律是傅里叶定律,如式(1-2)所示。
Q=-kA(TL-T H)/L (1-2)
k:热导率。
A:垂直于热流方向的截面积。
TL、T H:低温、高温面的温度。
L:两个面之间的距离。
负号说明热量总是沿着温度降低的方向进行,热传导示意图如图 1-29 所示。
图 1-28 CC10 散热方式示意图 图 1-29 热传导示意图
一般情况下,金属固体的导热系数大于液体的导热系数,液体的导热系数大于气体的导热系数。例如常温下纯铜的导热系数为 380W/(m·K), 纯铝的导热系数为 210W/(m·K),水的导热系数为 0.6W/(m·K),空气的导热系数为 0.023W/(m·K)。
2.热对流
夏天的一阵风会给我们送来阵阵凉意,这便是热对流的作用。
热对流是流体(包括液体和气体)流动过程中从温度较高处向温度较低处放热的现象。对流又分为强迫对流和自由对流,前者是流体在外界动力,如泵、风扇、压强差等驱动下的运动;后者是流体的温度分布不均匀诱发密度不均匀而产生的浮力作用下的运动。
热对流的热量按照牛顿冷却定律计算,如式(1-3)所示。
Q=hA(T w-T) (1-3)
h:表面传热系数。
A:物体的表面积。
T w 和T:物体表面的温度和流体的平均温度。
温度为T 的流体流过一个温度为 T w(大于t 0)的物体时,流体的温度从物体表面温度T w 变化到T 的过程发生在物体表面的薄层内,热对流示意图如图 1-30 所示。薄层的厚度取决于流体的性质及其运动特征,流体运动越急,此温度边界层越薄。对流传热过程中物体从流体获得(或放出)的热量Q 与物体的表面积A、时间T 及它与流体之间的平均温度差 ∆t(∆t=T w-T)成正比。计算对流传热问题的困难在于确定表面传热系数h,应用实验和理论确定不同情况下的表面传热系数构成了热交换理论的主要内容。
图1-30 热对流示意图
3.热辐射
我们在夏季和冬季设置相同的室内温度,为什么依然能感受到明显的冷热差异?其原因在于我们经常容易忽视的热辐射。
热辐射是通过电磁波传递热量的过程。太阳就是通过热辐射给地球传递热能的。任何物体都以电磁波的形式向周围环境辐射能量,电磁波具有连续的辐射能谱,波长自远红外区延伸至紫外区,但主要依靠波长较长的红外线。辐射源表面在单位时间内、单位面积上所发射(或吸收)的能量与该表面的性质及温度有关,表面颜色越深、质地越粗糙,发射(吸收)能量的能力就越强。辐射电磁波在其传播过程中遇到物体时,将激励组成该物体的微观粒子热运动,使物体加热升温。物体的温度在 400 ~ 500℃就会发出可见光(可见光波长为0.4 ~ 0.8µm),同时以热的形式辐射能量。
热辐射遵循的宏观规律是建立在普朗克平衡辐射场能量密度公式基础上的斯特藩 - 玻尔兹曼定律。该定律认为黑体的总辐射度E(单位时间内单位面积发射的能量)与其绝对温度 0的四次方T4 成正比,如式(1-4)所示。
E(0 T)=σT4 (1-4)
其中,σ=5.67×10-8W/(m2·K4)称为斯特藩 - 玻尔兹曼常数。
两个物体表面之间的辐射与热量的关系如式(1-5)所示。
(1-5)
其中,ε 表示表面黑度或发射率,该值取决于物质种类、表面温度和表面状况,与外界条件无关,也和颜色无关。
磨光的铝表面黑度为 0.04;氧化铝表面黑度为 0.3;油漆表面黑度为 0.8;PCB 表面涂绿油,表面黑度可达 0.8。对于金属外壳,可以通过表面处理提高黑度,改善散热。
常见散热片表面绝大多数做黑色处理,不要误解为黑色处理能强化热辐射。当物体温度低于 1800℃时,有意义的热辐射波长在 0.38 ~ 100µm,且大部分为 0.76 ~ 20µm 的红外波段,在可见光波段内,热辐射能量比重并不大。颜色只与可见光吸收有关,与红外辐射无关。因此终端内部可以涂任意颜色。
1.3.4 案例详解
天猫精灵 X1 是 2017 年推出的天猫精灵第一款智能音箱产品。从天猫精灵 X1 开始,热的问题便开始伴随天猫精灵了。
天猫精灵团队成立之初,对智能音箱类产品的研发还缺乏经验,团队也没有能够对热风险进行评估的具备热专业知识的同事,而这就为后面的热问题埋下了隐患。
团队在天猫精灵 X1 设计阶段是依靠合作伙伴的资源进行热仿真评估的。热仿真是一把双刃剑,准确的热仿真能提前识别散热风险、缩短产品开发周期,但失真的热仿真则会误导相关的设计人员,可能给产品开发带来不可逆转的后果,甚至可能要推翻整个产品重新设计。天猫精灵 X1 热仿真的失真使大家没有提前识别该产品的热问题,导致该产品在 40℃时因 CPU 的过温保护而宕机。
天猫精灵研发团队在热设计阶段摸着石头过河,找到了天猫精灵 X1 的热问题解决方案,但是第一款天猫精灵开发中暴露的热问题在后续天猫精灵的产品开发中持续地困扰我们。天猫精灵 X1 的热设计如图 1-31所示。
图 1-31 天猫精灵 X1 的热设计
案例1 CC智能音箱的教训
2019 年,我们推出了 CC 7 英寸屏智能音箱。CC 作为一款追求极致成本的有屏智能音箱,设计中采用了 Wi-Fi 天线内置方案,但在 DVT 阶段出现 CPU 超温重启的问题。
为解决 CC 智能音箱的散热问题,我们进行了长达一个半月 200 次以上的测试验证,最后通过导热材料优化、芯片筛选,以及限用部分功能场景等方案才保证了交付。因为散热问题,CC 产品的开发进度滞后,希望本案例能给大家一些思考和启发。
CC 智能音箱的散热问题,从技术方面来看主要原因如下。
① 芯片方案选型。Wi-Fi 天线内置的设计,可以节省约 1 元的成本,但是 CPU 功耗会增加 10% 左右。此外,内置 Wi-Fi 天线主芯片的选型,对屏蔽罩提出了更严格的要求。内置 Wi-Fi 的一侧需要完全露出来,以满足天线要求,对应的散热器区域设计需要采用“半开窗”模式设计,如图 1-32 所示。这相当于芯片只有一半接触散热器进行散热,增大了芯片和散热器之间的热阻,散热器和芯片之间的温差增大,散热效果并不好。
图1-32 “半开窗” 模式设计
② 边界芯片。在解释边界芯片之前,需要科普一下漏电流的概念。漏电流是在芯片生产中工艺的差异造成的,漏电流意味着芯片除了正常工作,还会额外产生一部分热量,因此漏电流越大的芯片功耗越大。不仅如此,漏电流还不是固有属性,它随着温度的上升而增大,如图 1-33 所示。边界芯片是指某款芯片对应的最大漏电流的芯片,我们对边界芯片的认识甚少,因此,在 CC 智能音箱的开发过程中,我们遇到了极大的困难,比如某厂商 M 芯片对应的 103mA 漏电流芯片工作在 90℃时比 50mA 漏电流芯片温度高 6 ~ 8℃。
图 1-33 芯片功耗和温度的关系
③ 应用场景更新。软件的应用场景更新,对CPU 占用增大,整机功耗上升,而热设计没有根据新场景进行更新。
④ 架构设计限制。CC 智能音箱对极致成本的要求,使其尺寸和散热器面积大幅度减小,已无其他设计空间,这导致我们很难找到有效的散热解决方案。
除了技术层面的问题,项目中各团队在热设计的配合上也出现了失误,没有人来主导 CC 智能音箱的热设计,也没有形成系统的方案,而热设计与电子、结构、射频等领域又是强关联的,这是 CC 智能音箱出现散热问题的根本原因。
吸取了 CC 智能音箱的惨痛教训之后,团队对项目进行了复盘,对边界芯片的功耗进行了梳理,并形成了边界芯片选型方案。同时也意识到了团队需要一名更加专业的热设计工程师,来应对天猫精灵系列产品的散热问题对我们提出的越来越严峻的挑战。
案例2 CC7智能音箱的热设计
CC7 智能音箱是天猫精灵在 2020 年开发的一款 7 英寸屏带电池产品,它增加了新的功能需求,即 CPU 过温保护重启。我们需要在现有架构基础上进行优化,完成散热目标,保证交付时间。
CC7 智能音箱散热问题发生在散热器开模后。CC7 智能音箱需要在支持播放视频的同时能开启精灵看护(监控)功能,新的需求场景意味着更高的 CPU 占用、更大的功耗。CC7智能音箱在运行 30min 后 CPU 过温保护,实测 CPU 超温 10℃。
在自然散热体系中,完成降低 10℃的设计优化,谈何容易!而且产品架构设计已完成,结构上没有太大的优化空间。在完全成型的架构上去完成大幅度的降温,是一个巨大的挑战。但我们团队已经有了专业的热设计工程师,热测试和热分析不再是盲目地试错,新成立的热设计小分队开始有条不紊地解决这个难题。
通过功耗测试,再结合之前积累的经验,我们很快就找到造成 CPU 严重超温的罪魁祸首:充电 IC。充电 IC 的热耗高达 1.5W,这给我们提供了一种解决问题的思路:降低充电电流,通过降低热耗从源头上优化散热。
① 降低热耗。充电电流由 1.3A 降低至 1.0A,降低充电 IC 热耗能够优化散热,同时不影响充电时长。
② 强化对流。将散热片与 PCB 之间的间隙抬高 4mm,强化 PCB 和散热器之间的对流换热,同时散热器更靠近壳体,增强了散热器与壳体间的换热。
③ 增强辐射。整机热分析中,我们发现了壳温温升较低。在通过对散热器进行检查,对散热器表面进行发射率粗测后,我们发现散热器表面发射率较低。通过热仿真分析,我们对散热器表面进行处理,提高辐射率至 0.9,这时 CPU 的温度能降低 7℃。根据理论分析和仿真计算,我们提出在散热器表面喷涂碳纳米涂层以提升 PCB 和壳体之间的换热量,如图 1-34 所示。
图 1-34 散热器表面喷涂碳纳米涂层
我们通过散热器优化设计及充电电流优化耦合方案,在成本适当增加的条件下为 CPU 有效降温 10℃以上,满足了产品端的新场景需求。
在后续的产品开发中,我们以理论为指导,热仿真、热测试及热分析流程形成闭环,仿真精度基本控制在 10% 以内,通常在架构设计阶段就能识别出项目风险,并在 EVT 阶段确定解决方案。
从 X1 项目对热的认知度较弱,到 CC 项目对热的考虑还不够专业,再到 CC7 项目散热难题的成功解决,我们团队在热设计领域不断地成长。目前我们团队已具备完全独立的散热方案解决能力,并对内发布了天猫精灵热设计开发流程和天猫精灵热设计规范。2021 年年底,我们的热学实验室已完成搭建,我们也形成了独立自主的热设计体系。而热设计技术体系及软、硬件设施的完善,不仅能支撑天猫精灵更广阔的应用场景,还提升了用户体验。