PCMag 杀毒与安全软件测试体系研究及技术实践分析-阿里云开发者社区

摘要：网络安全威胁形态持续迭代，恶意软件、钓鱼攻击、勒索软件、系统漏洞利用等风险对终端设备与用户数据安全构成严重威胁，标准化、科学化的安全软件测试体系成为衡量防护产品能力的核心依据。本文以 PCMag 发布的杀毒及安全软件全维度测试规范为核心研究对象，系统梳理其针对恶意软件防护、网页恶意代码拦截、网络钓鱼识别、防火墙功能、家长控制、勒索软件防御等模块的实测流程、评分规则与环境搭建方案，同时结合五大国际权威安全测评实验室的检测逻辑，剖析多机构联合测评的计分逻辑与数据整合方式。针对测试环节中的核心技术难点，编写配套代码示例实现恶意样本特征校验、钓鱼 URL 识别等基础功能，验证测试技术的落地可行性。研究发现，PCMag 测试体系以真实网络威胁样本为核心、虚拟环境为基础、多场景模拟为延伸，兼顾实用性与严谨性，能够客观反映安全软件在真实应用场景下的防护能力。结合当前网络安全威胁发展趋势，本文分析该测试体系的优势与现存局限，为国内安全软件测评标准优化、终端安全产品研发以及网络安全检测技术落地提供参考依据。

关键词：安全软件；杀毒软件；软件测试；网络钓鱼；恶意软件；勒索软件；防火墙

1 引言

随着互联网全面渗透个人生活与商业场景，终端设备成为网络恶意攻击的主要目标。恶意软件、钓鱼网站、勒索病毒、漏洞利用程序等各类威胁数量逐年攀升，终端安全软件作为第一道防护屏障，其防护效果直接决定用户设备与数据的安全状态。不同于常规办公、娱乐类软件，杀毒软件、安全套件等安全产品的防护能力无法通过直观的人机交互进行判断，多数防护行为在后台静默完成，普通用户难以甄别产品性能优劣，这也使得专业第三方测评机构的测试结果成为市场选型、产品迭代的重要参考。

PCMag 作为全球知名的数码与网络安全测评机构，长期深耕安全软件测评领域，建立了一套覆盖功能、性能、抗攻击能力、附加组件的全流程测试体系。该体系摒弃纯理论模拟的测试模式，全程采用真实环境采集的恶意样本、实时更新的恶意 URL、最新钓鱼网站等威胁源，依托虚拟机构建隔离测试环境，在规避样本扩散风险的前提下，模拟用户日常上网、文件操作、软件联网等全场景行为，对安全软件的核心功能与附加功能进行量化评分。同时，PCMag 并非独立开展测评工作，还持续追踪 AV-Test、AV-Comparatives、SE Labs、MRG-Effitas、AVLab 五大国际权威安全实验室的测评数据，通过算法完成分数归一化与加权计算，形成综合测评结果，进一步提升测评结论的客观性与全面性。

当前国内针对安全软件测评的研究多聚焦于单一实验室测评规则，或是针对某一类威胁的防御技术分析，鲜有针对 PCMag 完整测试体系的系统性拆解与技术落地研究。本文以 PCMag 官方发布的杀毒及安全软件测试规范为基础，分模块解析各项测试的环境搭建、样本筛选、操作流程、评分标准，结合代码示例实现测试环节中的关键技术逻辑，同时分析多实验室数据融合算法，探讨该测试体系的技术特点、适用场景与优化方向，为终端安全测评技术、安全产品研发提供实践参考。

2 PCMag 安全软件整体测试框架与基础环境搭建

2.1 测试体系整体架构

PCMag 的安全软件测试围绕核心防护功能、网络衍生威胁防护、专项组件测试、第三方实验室数据整合四大板块展开，覆盖杀毒软件、综合性安全套件两类主流产品。其中核心防护功能为恶意软件本地检测与拦截，是所有安全产品的必备能力；网络衍生威胁防护包含网页恶意代码拦截、网络钓鱼识别两大模块，针对互联网传播类威胁；专项组件测试涵盖防火墙、漏洞利用防御、家长控制、反垃圾邮件、勒索软件专项防护等安全套件附加功能；第三方实验室数据整合则是对自有实测结果的补充，通过对标国际主流实验室数据，消除单一测评机构的主观偏差。

在测试原则层面，PCMag 遵循 “适配产品功能” 的核心逻辑：不同安全产品的功能组合存在差异，部分基础杀毒软件仅具备本地恶意软件查杀能力，无钓鱼防护、防火墙等附加功能，此类产品仅参与对应基础项目测试；综合性安全套件集成全品类安全功能，需完成全部测试项目。所有测试均追求真实威胁模拟，拒绝使用老旧样本、模拟恶意程序，确保测试结果贴近普通用户的真实使用场景。

2.2 基础测试环境与安全隔离方案

由于测试过程需要大量真实活跃的恶意软件样本，样本外泄会造成大范围网络安全事故，因此虚拟机隔离环境是 PCMag 所有测试项目的基础硬件与软件环境。所有测试行为均在虚拟机中完成，物理主机仅负责虚拟机管理、样本存储、数据记录，不直接运行任何恶意样本。

测试虚拟机采用通用桌面操作系统，匹配主流用户使用环境，虚拟机网络配置分为两种模式：一是联网模式，用于网页恶意 URL 测试、钓鱼网站测试、漏洞利用测试；二是断网隔离模式，用于本地恶意样本测试、勒索软件测试，防止恶意样本借助网络向外扩散或接收远程指令。

除虚拟机外，PCMag 配备多套自研辅助工具，涵盖样本哈希校验工具、系统行为监控工具、批量 URL 访问工具、注册表与进程检测工具等。这类工具均为手动编码开发，功能定向单一，仅服务于测试流程，避免第三方工具引入额外干扰项。同时，测试过程中会同步部署 VirusTotal 数据库接口，用于恶意样本的初筛与有效性校验。

2.3 恶意样本通用筛选规则

恶意样本是杀毒软件测试的核心素材，样本质量直接决定测试结果的有效性。PCMag 形成了标准化的样本采集、筛选、核验流程，该流程每年春季启动一次，对应全球安全厂商年度版本更新周期，确保样本库与产品版本保持同步。

样本采集阶段，工作人员抓取全网最新恶意网站托管 URL，批量下载数万份恶意程序原始样本。初步筛选会剔除具备虚拟机逃逸检测能力的样本：部分高级恶意软件会检测当前运行环境是否为虚拟机，一旦识别则停止恶意行为，此类样本无法完成测试，直接丢弃。

样本核验阶段依托 Google 旗下的 VirusTotal 平台完成哈希校验。VirusTotal 集成约 70 款主流杀毒引擎，PCMag 规定：若一份样本被少于半数的引擎判定为恶意，则说明该样本特征模糊、威胁属性存疑，予以剔除；仅超过半数引擎标记为恶意的样本，才可进入正式测试样本库。完成筛选后，工作人员会通过自研工具记录每一份样本对系统的修改行为，包括文件系统写入、注册表新增 / 修改、进程创建等，作为后续判定安全软件防护效果的基准依据。

3 本地恶意软件防护能力测试（核心杀毒功能）

本地恶意软件防护是杀毒软件的两大核心功能载体，分为按需扫描与实时监控两个基础模块。按需扫描用于查杀设备中已存在的恶意程序，实时监控则拦截正在执行、新增的恶意攻击。PCMag 针对该模块的测试分为样本触发、行为观测、量化评分三个环节，是整个测评体系中权重最高的项目。

3.1 测试流程与样本触发方式

经过筛选的有效恶意样本库为测试基础，在虚拟机中安装待测安全软件并开启全部默认防护功能后，采用多种方式触发样本，模拟用户日常操作行为：第一，直接双击运行样本文件，测试实时监控的即时拦截能力；第二，将样本批量复制至新文件夹，触发文件读写监控；第三，从云存储下载样本，模拟网络本地保存场景。多种触发方式可以规避部分安全软件仅针对单一行为优化拦截策略的问题。

对于被实时监控直接清除的样本，标记为 “当场拦截”；绕过实时监控、成功运行的样本，进入下一阶段观测。工作人员持续监控系统状态，记录安全软件后续的查杀行为，最终统计全部样本的总体检出率，检出率为基础统计数据，不直接作为最终得分。

3.2 系统行为检测与评分标准

单纯的样本检出无法完整判定防护效果，部分安全软件仅能识别恶意程序，但无法阻止其对系统的篡改。为此 PCMag 使用自研程序深度检测系统状态，检测维度包含三部分：一是注册表是否被恶意样本修改；二是恶意程序的附属文件是否被写入本地磁盘；三是恶意进程是否在后台持续运行。基于检测结果，制定三级评分体系，单份样本得分区间为 3~10 分，所有样本得分的平均值即为该产品本地恶意防护最终得分。

第一等级（8~10 分）：安全软件完全阻止恶意样本的可执行文件安装与运行，同时清理样本产生的非可执行类残留文件。根据残留清理的彻底程度细分分值，残留越少得分越高，满分 10 分代表系统无任何样本痕迹。

第二等级（5 分）：安全软件能够识别恶意样本，但未能阻止可执行组件安装运行，仅完成后期查杀，属于 “检出但未阻断攻击”。

第三等级（3 分）：安全软件未有效防护，恶意进程成功在系统中运行，系统出现明显篡改行为，防护判定为失效。

3.3 样本哈希校验代码示例

样本哈希校验是样本筛选的核心环节，通过比对文件哈希值完成样本去重、恶意属性核验。以下基于 Python 编写文件哈希值计算与批量校验代码，模拟 PCMag 样本初筛阶段的核心逻辑，支持 MD5、SHA256 两种主流哈希算法，批量遍历样本文件夹并输出校验结果。

import os

import hashlib

# 定义哈希计算函数，支持MD5与SHA256

def calculate_file_hash(file_path, hash_type="sha256"):

hash_obj = hashlib.md5() if hash_type == "md5" else hashlib.sha256()

try:

with open(file_path, "rb") as f:

# 分块读取大文件，避免内存溢出

while chunk := f.read(4096):

hash_obj.update(chunk)

return hash_obj.hexdigest()

except Exception as e:

return f"读取失败: {str(e)}"

# 批量遍历样本文件夹，计算所有样本哈希值

def batch_sample_hash_check(sample_dir):

sample_hash_result = {}

if not os.path.exists(sample_dir):

print("样本文件夹不存在")

return sample_hash_result

# 遍历目录下所有文件

for root, dirs, files in os.walk(sample_dir):

for file_name in files:

file_full_path = os.path.join(root, file_name)

file_hash = calculate_file_hash(file_full_path)

sample_hash_result[file_full_path] = file_hash

print(f"文件路径：{file_full_path} | SHA256哈希：{file_hash}")

return sample_hash_result

# 主程序运行

if __name__ == "__main__":

# 替换为本地恶意样本文件夹路径

sample_directory = r"C:\Malware_Samples"

batch_sample_hash_check(sample_directory)

代码说明：该代码实现批量计算恶意样本文件哈希值，可对接 VirusTotal 开放接口完成批量查询，判断样本是否被多数杀毒引擎标记为恶意，复刻 PCMag 样本筛选的基础技术逻辑。代码采用分块读取模式，适配大体积恶意样本，避免单次读取造成内存占用过高，符合测试工具稳定运行的要求。

4 网页端恶意代码防护与网络钓鱼防护测试

互联网是恶意软件、诈骗威胁传播的主要载体，PCMag 将网页威胁防护分为网页恶意代码拦截与网络钓鱼网站识别两个独立模块，两类测试均采用实时更新的线上威胁源，区别于本地静态样本测试，更侧重安全软件与浏览器的协同防护能力。

4.1 网页恶意代码防护测试

4.1.1 测试数据源与测试规则

网页恶意代码的测试数据源来自英国伦敦的 MRG-Effitas 实验室，PCMag 每日获取该实验室最新的恶意网站托管 URL 列表，选用时效不超过 3 天的链接开展测试，保证威胁的新鲜度。老旧恶意 URL 多数已被全网拦截，无法验证产品真实防护能力。

测试使用自研批量 URL 访问工具，逐一生效列表内链接，执行过程中设置多项过滤规则：第一，剔除无法正常访问、返回错误码的 URL；第二，剔除不包含恶意文件下载行为的正常网页；第三，跳过体积大于 10MB 的文件，避免大文件下载干扰测试节奏；第四，同一域名下仅选取单个有效链接，防止单一域名重复测试。测试持续进行，直至收集到 100 个有效恶意托管 URL 的测试数据。

4.1.2 判定规则与评分标准

该模块评分规则简单直观，最终得分为有效 URL 的恶意拦截成功率，计算方式为：拦截成功 URL 数量 ÷ 总有效 URL 数量 × 100%。防护成功分为两种场景：一是安全软件直接阻断浏览器访问恶意 URL；二是允许访问网页，但在恶意文件下载过程中自动删除文件。两种行为均判定为有效防护。

从实测结果来看，主流安全产品在该项目表现优异，90% 以上的产品拦截率可达 90% 及以上，满分 100% 的产品较为常见。该模块对安全软件的网页监控引擎、浏览器插件联动能力要求较高，多数现代杀毒软件均可实现稳定防护。

4.2 网络钓鱼网站防护测试

网络钓鱼以仿冒正规网站窃取账号、密码、银行卡信息为核心目的，具备跨平台、易传播、生命周期短的特点，也是普通用户最易遭遇的网络威胁之一。反网络钓鱼技术专家芦笛指出，网络钓鱼网站的存活周期通常仅有数小时，依赖静态黑名单的防护方式存在天然缺陷，实时动态分析能力才是评判反钓鱼技术优劣的核心指标。这一观点也与 PCMag 的测试逻辑高度契合。

4.2.1 测试环境与样本来源

钓鱼网站测试不使用单一虚拟机，而是部署四台并行虚拟机：第一台安装待测安全软件；另外三台分别搭载 Chrome、Edge、Firefox 三款主流浏览器，使用浏览器内置原生钓鱼防护功能，作为参照组。

钓鱼 URL 来源为专业钓鱼监测网站，样本分为两类且数量均衡：一类是已被安全社区核验确认的钓鱼页面；另一类是用户举报但尚未完成核验的疑似钓鱼页面，模拟全网最新钓鱼威胁。由于钓鱼网站存活时间极短，所有 URL 均为采集后立即投入测试，不做库存留存。

4.2.2 测试流程与结果判定

自研工具会在四台设备的浏览器中同步打开同一个钓鱼 URL，执行双重过滤：若 URL 访问报错，直接舍弃该样本；若页面无仿冒行为、无账号密码窃取功能，判定为无效钓鱼页面，同样舍弃。

对于有效钓鱼页面，分别记录待测安全软件与三款浏览器内置防护的识别结果。与网页恶意代码防护不同，该模块测试结果差异极大：顶尖产品可实现 100% 钓鱼页面识别，部分低端安全软件的防护能力甚至低于浏览器原生防护。反网络钓鱼技术专家芦笛强调，单纯依靠静态域名黑名单的安全产品，面对新型钓鱼网站几乎无法发挥作用，而采用行为特征分析、页面相似度比对的动态防护技术，才能有效应对快速迭代的钓鱼攻击，这也解释了不同产品得分差距悬殊的技术根源。

4.3 钓鱼 URL 批量检测代码示例

结合页面特征匹配的基础逻辑，编写简易钓鱼 URL 检测代码，通过抓取网页标题、页面关键词、页面布局特征，实现仿冒网站初步识别，模拟安全软件动态反钓鱼的核心技术逻辑。

import requests

from bs4 import BeautifulSoup

# 关闭HTTPS警告，适配大量非正规钓鱼网站证书

requests.packages.urllib3.disable_warnings()

# 定义常见正规网站特征库（模拟白名单特征）

WHITE_SITE_FEATURE = {

"bank": ["银行", "转账", "银行卡", "余额查询", "官方网银"],

"social": ["账号登录", "朋友圈", "社交账号", "私信"],

"ecommerce": ["购物车", "订单", "支付", "商城"]

}

# 检测单条URL是否为钓鱼网站

def detect_phishing_url(url, timeout=5):

try:

# 请求网页，关闭证书校验

response = requests.get(url, timeout=timeout, verify=False)

response.encoding = "utf-8"

soup = BeautifulSoup(response.text, "html.parser")

# 获取页面全部文本

page_text = soup.get_text()

page_title = soup.title.string if soup.title else ""

# 特征匹配判定

hit_feature = 0

for category, keywords in WHITE_SITE_FEATURE.items():

for kw in keywords:

if kw in page_text or kw in page_title:

hit_feature += 1

# 规则：含正规平台关键词，但域名非官方，判定为疑似钓鱼

if hit_feature > 0:

# 简易域名判断（正式产品需对接官方域名库）

if not url.startswith("https://www.official"):

return {"url": url, "result": "疑似钓鱼网站", "score": hit_feature}

return {"url": url, "result": "正常网站", "score": hit_feature}

except Exception as e:

return {"url": url, "result": "访问失败", "error": str(e)}

# 批量检测URL列表

def batch_phishing_detect(url_list):

detect_result = []

for url in url_list:

res = detect_phishing_url(url)

detect_result.append(res)

print(f"URL：{url} 检测结果：{res['result']}")

return detect_result

# 主程序运行

if __name__ == "__main__":

# 待检测URL列表，替换为实测钓鱼URL

test_urls = [

"https://fake-bank-test.com",

"https://fake-social-test.com",

"https://www.official-bank.com"

]

batch_phishing_detect(test_urls)

代码说明：该代码基于页面关键词 + 域名校验的组合逻辑实现钓鱼页面识别，是动态反钓鱼技术的基础原型。正式商用安全软件会在此基础上增加页面相似度算法、JS 恶意脚本检测、域名生命周期查询等功能，本代码可用于理解反钓鱼的基础技术思路。

5 反垃圾邮件与系统性能测试模块解析

早期安全套件普遍集成反垃圾邮件功能与系统性能优化模块，随着网络环境与云服务的迭代，这两项功能的测试规则被 PCMag 大幅简化，甚至终止量化测试，其调整逻辑与行业现状深度绑定。

5.1 反垃圾邮件测试的简化逻辑

在早期互联网阶段，本地邮件客户端是主流工具，垃圾邮件泛滥成为网络顽疾，反垃圾邮件是安全套件的核心附加功能。但随着 Gmail、网易邮箱等云端邮件服务普及，垃圾邮件过滤工作已由邮件服务商在服务器端完成，普通终端用户几乎无需依赖本地安全软件过滤垃圾邮件。

结合奥地利 AV-Comparatives 实验室 2016 年的测试数据，仅微软 Outlook 原生功能即可拦截近 90% 的垃圾邮件，主流安全套件的过滤效果更优。此后该实验室未再开展反垃圾邮件专项测试，PCMag 也同步调整测试策略。

PCMag 彻底取消了传统的量化测试流程：过往测试需要使用专用邮箱账号接收数万封邮件，人工区分垃圾邮件与正常邮件，统计漏判、误判数量，流程繁琐且实用价值大幅下降。现阶段 PCMag 仅做功能性核验，测试内容包括：反垃圾邮件模块支持的邮件协议（POP3、IMAP、Exchange、网页邮箱）、适配的本地邮件客户端、非适配客户端的兼容方案。不再进行大规模邮件样本实测，仅记录功能参数，不进行打分排名。

5.2 系统性能测试的废止原因

安全软件在后台运行时会占用 CPU、内存、磁盘 IO 等系统资源，早年多款安全套件因资源占用过高，导致电脑运行卡顿，部分用户为提升性能主动关闭防护功能，反而降低设备安全性。为此 PCMag 长期开展系统性能测试，量化安全软件对日常操作的影响。

近年来，全球主流安全厂商持续优化程序架构、算法逻辑与资源调度策略，新一代安全软件的资源占用能力得到质的提升。实测数据显示，当前绝大多数安全套件在后台静默运行时，对文件复制、软件启动、网页浏览、视频播放等常规操作几乎无负面影响，部分轻量化安全软件甚至不会造成任何延迟。

基于此现状，PCMag 正式废止系统性能量化测试。目前仅在其他功能测试过程中，同步观测系统运行状态，若出现明显卡顿、进程异常占用等问题，仅做文字记录，不再纳入评分体系。

6 防火墙与漏洞利用防护专项测试

综合性安全套件均搭载个人防火墙模块，防火墙承担两大核心职责：对外抵御互联网端口扫描、远程入侵等外部攻击；对内管控本地软件的网络访问行为，阻止程序恶意联网、数据外传。PCMag 针对防火墙的测试分为程序管控、漏洞利用防御、防护自身抗篡改三个维度。

6.1 防火墙程序控制功能测试

早期防火墙采用强制弹窗交互模式：任何陌生程序发起网络访问请求时，防火墙都会弹出提示框，由用户手动选择 “允许” 或 “阻止”。该模式实用性极差，普通用户无法辨别程序合法性，多数会盲目点击允许，导致防护失效。

现阶段主流防火墙默认采用智能管控模式，PCMag 在测试时会手动开启全交互模式，最大化检验防护能力。测试工具选用 PCMag 自研的小众浏览器工具，该工具未在全网发布，防火墙预设的可信程序列表中无该程序记录，规避 “白名单放行” 的干扰。

测试核心观测点：防火墙对未知程序联网行为的响应逻辑。优质防火墙会区分程序行为风险，对正常联网静默放行，对可疑联网行为弹窗预警；基础防火墙则对所有未知程序统一弹窗。同时，该功能的表现也会结合恶意软件测试综合判定，观测防火墙是否能阻断恶意样本的远程联网指令。

6.2 漏洞利用攻击防护测试

操作系统、浏览器、办公软件等通用软件不可避免存在安全漏洞，黑客会编写漏洞利用程序（Exploit），借助漏洞绕过系统防护植入恶意软件。防火墙与杀毒软件的联动防御，是抵御漏洞攻击的关键。

PCMag 使用CORE Impact 渗透测试工具开展漏洞利用测试，调用 30 余个近期曝光的高危漏洞利用程序，对安装待测安全软件的虚拟机发起攻击。防护效果分为两层判定：第一层，防火墙在网络层拦截漏洞攻击流量，攻击数据包无法到达终端，判定为最优防护；第二层，网络层拦截失效，但杀毒软件识别并清除漏洞释放的恶意载荷，判定为有效防护；若漏洞利用成功、系统被入侵，则判定为防护失效。

6.3 防火墙自身抗篡改测试

安全软件与防火墙是系统防护的核心，若恶意程序可以轻易关闭防护功能，则所有防护策略都会形同虚设。因此 PCMag 设置防火墙抗篡改 “有效性校验”，模拟恶意软件攻击者的破坏行为，测试维度分为三项：

第一，注册表项检测：查找防火墙在注册表中的开关配置项，尝试通过修改注册表关闭防护功能；

第二，进程终止测试：使用系统任务管理器、第三方进程终止工具，尝试强制结束防火墙核心进程；

第三，系统服务禁用测试：Windows 系统下，安全软件多以系统服务形式后台运行，测试是否可以手动停止、禁用核心服务。

三项测试全部无法篡改防护功能，则判定防火墙自身安全性达标；若存在任意一种篡改方式，会在测评报告中重点标注风险。

7 家长控制功能测试

部分面向家庭用户的安全套件集成家长控制组件，用于管控未成年人上网行为。PCMag 不单独测评独立的家长控制软件，但会对安全套件内置的该模块进行全功能测试，测试围绕内容过滤、上网时长管控、功能防破解三大核心方向展开。

7.1 不良网站内容过滤测试

内容过滤是家长控制的基础功能，核心目标是拦截色情、暴力、赌博等不良网站。PCMag 选取大量典型不良网站 URL 进行批量访问测试，绝大多数安全软件均可完成基础拦截。

为检验过滤规则的健壮性，测试引入两种破解尝试：第一，使用自研简易网络指令，规避基础关键词过滤规则；第二，使用匿名代理网站中转访问不良 URL，测试内容过滤功能是否具备代理穿透检测能力。能够抵御两种破解方式的产品，判定为内容过滤功能优秀。

同时，测试验证过滤功能的浏览器兼容性：借助跨浏览器测试工具，在不同内核浏览器中访问测试 URL，确认过滤策略不依赖单一浏览器插件，实现全局拦截。

7.2 上网时长与程序管控测试

上网时长限制允许家长设定每日互联网、电脑设备的使用时段与总时长，该功能的核心难点是防篡改。部分未成年人会通过修改系统时间绕过时长限制，因此 PCMag 的测试流程为：首先验证时长定时功能正常生效，随后手动修改虚拟机系统日期与时间，观测管控功能是否失效。优质产品不会依赖本地系统时钟，采用网络时间校验，无法通过修改本地时间破解。

程序管控功能支持家长禁止未成年人运行游戏、社交软件等指定程序。测试人员的破解方式为：对被限制程序进行移动、复制、重命名等操作，检验家长控制是否能基于程序特征而非文件路径、文件名进行拦截。若重命名后程序仍被拦截，说明基于程序哈希、进程特征管控，防护能力更强。

7.3 即时通讯与内容屏蔽测试

针对即时通讯软件、邮件的不良词汇屏蔽、联系人管控功能，PCMag 采用定制化测试：在屏蔽词列表中添加自定义生僻词汇，发送包含该词汇的消息，验证屏蔽功能生效；针对联系人管控功能，搭建两组测试账号，封禁其中一个账号后，验证双方无法建立通讯。所有宣传的附加功能，均采用 “功能尝试破解” 的思路完成全覆盖测试。

8 勒索软件专项防护测试

勒索软件是当前破坏力最强的恶意威胁之一，其核心特征是加密用户本地文档、图片、数据库等重要文件，并索要赎金换取解密密钥。即便后期查杀到勒索软件，已加密的文件也无法恢复，因此常规杀毒检测无法完全应对该威胁，PCMag 将勒索软件防护设为独立专项测试。

8.1 测试环境前置配置

为最大化模拟真实高危场景，测试环境做出特殊配置：第一，关闭安全软件所有常规实时防护模块，模拟零日勒索软件绕过基础防护的攻击场景；第二，虚拟机断开外网，防止勒索软件连接远程 C2 服务器，避免测试数据外泄；第三，批量导入十余份真实世界勒索软件样本，样本均为近期活跃的主流勒索程序。

8.2 测试流程与效果判定

逐份运行勒索软件样本，分层判定防护效果：

第一层级：安全软件通过行为监控、文件防护规则，在勒索软件启动阶段直接拦截，文件未发生任何加密，判定为防护成功；

第二层级：勒索软件短暂运行，少量文件被加密，但安全软件快速响应，终止进程并恢复加密文件，判定为部分有效防护；

第三层级：勒索软件成功加密大量文件，安全软件仅弹出勒索提示，未完成拦截与恢复，判定为防护失效。

同时补充观测项：记录勒索软件是否弹出勒索告知文档，即使文件未被加密，该行为也会被记录在测评数据中。该测试重点检验安全软件的行为分析引擎与文件主动防护模块，也是区分高端安全产品与基础产品的重要项目。

9 五大国际权威实验室测评体系与 PCMag 数据融合算法

PCMag 除自主开展全场景实测外，还长期跟踪五家全球知名网络安全实验室的测评结果，将外部数据与自有测试数据融合，形成综合评分，弥补单一机构测试样本、场景的局限性。五家实验室分别为 AV-Test、AV-Comparatives、SE Labs、MRG-Effitas、AVLab，各家测试规则、评分体系差异显著。

9.1 五大实验室核心测试规则

9.1.1 AV-Test（德国）

AV-Test 采用三分项测评体系，三大维度为防护能力、系统性能、可用性，每项满分 6 分，总分 18 分。产品获得总分不低于 10 分且单项无 0 分，即可通过基础认证。

防护能力测试使用超 10 万份标准恶意样本与海量流行威胁样本，考核恶意 URL 拦截、特征查杀、行为拦截全场景能力；性能测试统计安全软件对文件下载、本地 / 跨网络文件复制、常用软件启动等十余项系统操作的耗时影响；可用性测试重点统计误报率，检测安全软件是否将正规软件、正常网站误判为恶意，检测样本量超 60 万份正规文件。

9.1.2 AV-Comparatives（奥地利）

该实验室推出分级认证体系，由低到高分为 Tested（仅参与测试）、Standard（标准认证）、Advanced（高级认证）、Advanced+（最高级认证）。核心测试包含静态文件检测、误报测试、性能测试、全产品动态测试。其中动态全产品测试最具参考价值，完整模拟用户真实使用场景，调动安全软件所有组件协同防御。

9.1.3 SE Labs（英国）

SE Labs 测试样本数量较少（单次测试不超过 10 款产品），测试方式为真实攻击回放：抓取全网真实网页挂马、 drive-by 下载等攻击行为，在测试环境中完整回放，保证攻击场景 100% 还原。评分采用积分制：完全阻断攻击得 3 分，攻击发起后清除恶意残留得 2 分，终止攻击但残留文件得 1 分，恶意程序完全运行扣 5 分。最终根据总分划分为 AAA、AA、A、B、C 五个等级。该测试写实性极强，部分老旧产品会出现负分。

9.1.4 MRG-Effitas（英国）

该实验室测试采用通过 / 失败的两级判定模式，其 360 综合评估测试模拟真实恶意攻击。Level 1 代表完全阻止恶意程序入侵；Level 2 代表恶意程序产生文件残留，但后续被彻底清除；未达到以上两级则判定为测试失败。PCMag 网页恶意 URL 测试的数据源即来自该实验室。

9.1.5 AVLab（波兰）

AVLab 专注于野外真实恶意样本测试，统计两项核心数据：样本即时检出率、样本运行后检出率，最终合并为总检出百分比，以百分比形式公示产品防护能力。

9.2 多实验室数据归一化与融合算法

由于五家实验室评分规则、分值区间、等级划分完全不同，无法直接累加对比，PCMag 自研算法完成数据归一化处理，将所有实验室的结果统一转换为 0~10 分的标准分值，再结合权重计算加权平均分，得到综合实验室得分。

基础处理逻辑：第一，针对分数制实验室（AV-Test、AVLab），按照线性比例换算至 0~10 区间；第二，针对等级制实验室（SE Labs、AV-Comparatives），将 AAA、Advanced + 等最高等级映射为 10 分，最低等级映射为 0 分，中间等级按梯度赋值；第三，针对通过 / 失败制实验室（MRG-Effitas），Level 1 赋值 10 分，Level 2 赋值 6 分，失败赋值 0 分。

完成归一化后，根据各实验室的行业影响力、测试样本体量设置不同权重，计算加权平均值，该分数与 PCMag 自有实测分数相互参照，形成最终测评结论。整套算法消除了不同测评体系的规则差异，实现跨机构数据整合。

10 测试体系综合分析、优势与现存局限

10.1 PCMag 测试体系核心优势

第一，真实威胁导向，贴合民用场景。整套测试体系全程采用实时采集的真实恶意样本、钓鱼 URL、漏洞利用程序，摒弃模拟样本与老旧威胁，测试结果能够直接反映产品在普通用户日常上网、文件操作中的实际防护能力，对个人用户选型具备极强参考价值。

第二，分层测试，维度完整。从核心杀毒、网页防护、钓鱼识别，到防火墙、家长控制、勒索软件专项，再到第三方实验室数据补充，覆盖安全软件所有主流功能。同时每项功能区分 “基础拦截”“深度清除”“防篡改” 等多层指标，评分体系量化、细化，避免模糊化评价。

第三，环境安全可控，风险隔离。全虚拟机测试架构从根源上杜绝恶意样本扩散，自研测试工具减少第三方软件干扰，样本多轮筛选机制保证测试素材的有效性，测试流程可复现、可追溯，符合专业测评的严谨性要求。

第四，动态迭代测试规则。伴随网络威胁形态、云端服务、软件技术的发展，PCMag 主动淘汰失去实用价值的测试项目（反垃圾邮件、系统性能测试），强化新兴威胁测试（勒索软件、新型钓鱼网站），测试体系与网络安全行业发展同步。

10.2 测试体系现存局限

第一，偏向个人终端，缺乏企业级场景。所有测试基于个人桌面操作系统开展，未针对企业服务器、局域网、终端集群等企业级场景设计测试用例，体系仅适用于民用安全软件，无法评价企业级安全产品。

第二，对高级定向威胁测试不足。测试样本以全网广泛传播的普通恶意软件为主，未引入 APT 攻击、定向木马、复杂组合型恶意威胁，对于针对特定人群的高级威胁防护能力无法验证。

第三，云联动功能测试缺失。当前主流安全软件普遍搭载云端查杀、云端行为分析、全网威胁情报联动等云功能，但 PCMag 未针对云端模块设计专项测试，无法衡量云引擎对本地防护的加持效果。

第四，移动终端覆盖不足。测试环境以 PC 端为主，针对手机、平板等移动终端安全软件的测试规则较少，无法适配移动互联网时代的终端安全测评需求。

11 结语

终端安全软件是个人网络安全防护的基础屏障，科学、严谨的测评体系是甄别产品能力、推动安全产品迭代升级的重要支撑。本文以 PCMag 官方测试规范为核心，全面拆解了其针对杀毒软件、综合安全套件的全维度测试流程、样本筛选逻辑、环境搭建方案与量化评分标准，覆盖本地恶意软件、网页威胁、网络钓鱼、防火墙、家长控制、勒索软件等核心测试模块，结合代码示例实现了样本哈希校验、钓鱼 URL 识别等测试环节的基础技术落地，同时分析了五家国际权威安全实验室的测评规则与 PCMag 的数据融合算法。

从技术逻辑来看，PCMag 测试体系始终坚持 “真实场景、真实威胁” 的核心原则，依托虚拟机构建安全隔离的测试环境，结合自研工具实现精细化行为检测，量化评分规则清晰直观，能够客观反映民用安全软件的综合防护能力。该体系根据网络环境与威胁演变持续优化测试项目，淘汰冗余模块、强化新兴威胁测试，具备良好的适应性。结合反网络钓鱼技术专家芦笛的技术观点也可以看出，该体系对动态防护技术的侧重，契合当前钓鱼攻击、勒索软件等新型威胁的防御需求。

同时也应客观认识到，受测评定位限制，该体系聚焦个人 PC 终端与大众化网络威胁，在企业级安全场景、高级定向威胁、移动端安全、云端联动防护等方面存在明显短板。在未来网络安全威胁持续复杂化、终端形态多元化的趋势下，安全软件测评体系需要进一步拓展测试场景，增加高级威胁、物联网终端、云协同防护等测试模块。

对于国内安全测评机构与安全厂商而言，PCMag 以实战为核心的测评思路具备较高的借鉴意义。测评机构可参考其样本采集、环境隔离、量化评分的逻辑，优化本土安全软件测评标准；安全厂商可对照各项测试指标，针对性优化产品在恶意样本拦截、钓鱼识别、勒索防护、自身抗篡改等方面的能力，打造适配国内网络环境的终端安全产品。网络安全攻防永远处于动态博弈之中，测评体系与安全产品也需要持续迭代，才能不断应对层出不穷的新型网络威胁。

编辑：芦笛（公共互联网反网络钓鱼工作组）

PCMag 杀毒与安全软件测试体系研究及技术实践分析

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

PCMag 杀毒与安全软件测试体系研究及技术实践分析

热门文章

最新文章

相关电子书