性能优化反思：不要在for循环中操作DB 进阶版-阿里云开发者社区

性能优化反思：不要在for循环中操作DB 进阶版

2022-11-11 342

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们允许用户选择职业，系统预制了一批职业标签；又开放了自定义职业标签的功能，不限制自定义标签的次数。允许用户编辑资料时选择2个职业标签。

场景说明

我们允许用户选择职业，系统预制了一批职业标签；又开放了自定义职业标签的功能，不限制自定义标签的次数。允许用户编辑资料时选择2个职业标签。
发现用户自定义的职业真的五花八门，随着业务增长，数量级越来越大；比如目前职业标签是2千个，以后可能有2万个，甚至20万个。
这种情况下，我们上一篇提到的在for循环之前批量查询全量数据，在for循环中用自定义函数匹配，避免在for循环中操作DB的方式命中率太低了，造成了极大的浪费。
比如：每个列表返回30个用户信息，每个用户选择了2个职业标签，最大标签数量是60；而我全量查到的职业标签数量是2千，命中率只有3%；如果职业标签达到2万个，命中率就只有0.3%了。

解题思路

首先，在for循环中不操作DB，这个大原则不变
上述问题的核心是命中率太低，就是全量查了很多用不到的数据
解决思路就是只批量查询命中的标签数据：

取到30个用户在user表中保存的职业id
30个用户的id去重后重组
在职业表通过whereIn查询匹配的职业标签
其他逻辑不变，替换的只是数据源：之前的数据源是全量数据，优化后的数据源是精准命中的数据。

代码示例：

为了行文紧凑，代码段中省略了和文章无关的代码，用竖着的三个.省略。

核心代码：抽取 renderUserInfo ，统一输出用户信息，这个函数在for循环中调用，获得数据源在for循环之前。

<?php
namespace App\Render;
.
.
.
class CommonRender extends BaseRender
{
    public static function renderUserinfo($data, $hobbyInfo = [],$professionInfo = [])
    {
        $hobbyInfo = !empty($hobbyInfo) ? $hobbyInfo : HobbyInfo::getAllInfo();
        //特殊处理，因为职业用户可以自定义 数字一直增长 不全量查数据；$professionInfo为空时不是批量查询，只查单条记录
        $professionInfo = !empty($professionInfo) ? $professionInfo : (isset($data['profession']) ? ProfessionInfo::getByIds($data['profession']) : []);
        if (!is_array($data)) {
            return [];
        }
        $ret = [
            .
            .
            .
//优化之前
//          'hobby' => !isset($data['hobby']) ? [] : HobbyInfo::getByIds($data['hobby']),
//          'profession' => !isset($data['profession']) ? [] : ProfessionInfo::getByIds($data['profession']),
//优化之后
            'hobby' => !isset($data['hobby']) ? [] : self::_renderHobby($data['hobby'], $hobbyInfo),
            'profession' => !isset($data['profession']) ? [] : self::_renderProfession($data['profession'], $professionInfo),
            .
            .
            .
        return $ret;
    }
}

isset() 判断，避免传入的数据不存在，提示数组越界。

我还整理了一篇如何避免数组下标越界，有兴趣可以阅读一下。

protected static function _renderProfession($userProfession, $professionInfo)
{
    $ret = [];
    if ($userProfession) {
        $userProfessionIds = explode(',', $userProfession);
        foreach ($userProfessionIds as $key => $userProfessionId) {
            if (isset($professionInfo[$userProfessionId])) {
                $ret[$key] = $professionInfo[$userProfessionId];
            }
        }
    }
    return $ret;
}

调用 commonRender() 的代码，即展示数据源是怎么来的。

public static function getBatchUserIntro($userid, $userList)
{
    $retData = [];
    if (empty($userList)) {
        return $retData;
    }
    .
    .
    .
    $hobbyInfo = HobbyInfo::getAllInfo();
    //按需批量查职业，不全量查询职业
    $professionIds = array_column($batchUserInfo, 'profession');
    $professionIds = implode(',', $professionIds);
    $professionIds = array_unique(explode(',', $professionIds));
    $professionInfo = ProfessionInfo::batchGetByIds($professionIds);
    foreach ($batchUserInfo as $item) {
        $retData[$item['userid']] = CommonRender::renderUserinfo($item, $hobbyInfo, $professionInfo, $expectInfo);
    }
    return $retData;
}

封装的工具方法，通过id数组批量获得数据，做了特殊判断，兼容值为空的情况。

public static function batchGetByIds($ids = [])
{
    //兼容职业为空的情况
    foreach ($ids as $key => $id) {
        if (empty($id)) {
            unset($ids[$key]);
        }
    }
    if (empty($ids)) {
        return [];
    }
    return self::query()->selectRaw('id,name,pid')
        ->whereIn('id', $ids)
        ->get()
        ->keyBy('id')
        ->toArray();
}

核心代码就是上述4部分

性能对比

以此举例：每次列表返回30个用户信息，每个用户选择了2个职业标签，最大标签数量是60；

优化之前：全量查到的职业标签数量为2千，命中率只有3%；如果职业标签达到2万个，命中率就只有0.3%了。

优化之后：全量查到的职业标签数量为2千，命中率为100%；如果职业标签达到2万个，命中率仍然为100%。

性能优化反思：不要在for循环中操作DB 进阶版

场景说明

解题思路

代码示例：

性能对比

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

性能优化反思：不要在for循环中操作DB 进阶版

场景说明

解题思路

代码示例：

性能对比

热门文章

最新文章

相关电子书