基于MATLAB的近红外光谱与PLS方法测定药片有效成分含量的实现-阿里云开发者社区

基于MATLAB的近红外光谱与PLS方法测定药片有效成分含量的实现

2026-01-26 19

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 基于MATLAB的近红外光谱与PLS方法测定药片有效成分含量的实现

一、方法原理

近红外光谱（NIR）是一种基于分子振动光谱的分析技术，通过检测样品对近红外光的吸收，获取样品的化学组成信息。偏最小二乘法（PLS）是一种多元统计方法，能有效处理高维、共线性强的光谱数据，通过建立光谱与有效成分含量之间的回归模型，实现定量分析。

核心逻辑：

光谱采集：获取药片的近红外光谱数据（通常包含数百个波长点）。
预处理：去除光谱中的噪声、基线漂移等干扰，提高模型准确性。
PLS建模：将高维光谱数据降维，提取与有效成分相关的特征，建立回归模型。
验证与应用：通过交叉验证评估模型性能，用于未知样品的含量预测。

二、MATLAB实现步骤

1. 数据准备

光谱数据：使用近红外光谱仪（如Thermo Fisher Antaris II）采集药片的光谱数据，保存为.csv或.mat格式（每行代表一个样本，每列代表一个波长点的吸光度）。
有效成分含量：通过高效液相色谱（HPLC）等方法测定药片中有效成分的含量，作为模型的响应变量（标签）。

示例代码（数据导入）：

% 导入光谱数据（假设数据存储在'spectral_data.csv'中，第一列为样本编号，第2-101列为波长点吸光度）
spectral_data = readmatrix('spectral_data.csv');
X = spectral_data(:, 2:101); % 光谱矩阵（n_samples × n_wavelengths）

% 导入有效成分含量（假设存储在'content.csv'中，第一列为样本编号，第二列为含量）
content = readmatrix('content.csv');
y = content(:, 2); % 响应变量（n_samples × 1）

2. 光谱预处理

近红外光谱数据常包含噪声、基线漂移等干扰，需通过预处理提高模型性能。常见预处理方法包括：

归一化：将光谱数据缩至[0,1]区间，消除量纲影响。
平滑：使用移动平均或Savitzky-Golay滤波去除高频噪声。
导数：一阶或二阶导数消除基线漂移，增强特征峰。

示例代码（预处理）：

% 归一化（min-max scaling）
X_normalized = (X - min(X, [], 1)) ./ (max(X, [], 1) - min(X, [], 1));

% Savitzky-Golay平滑（窗口大小11，2阶多项式）
X_smoothed = sgolayfilt(X_normalized, 2, 11);

% 一阶导数（差分法，delta_w为波长间隔，假设为1）
X_derivative = diff(X_smoothed, 1, 2) / 1;
X_derivative = [X_derivative(:, 1), X_derivative]; % 补回边界

3. PLS模型建立

使用MATLAB的plsregress函数建立PLS模型，需指定：

输入矩阵：预处理后的光谱数据X。
响应变量：有效成分含量y。
主成分数：通过交叉验证选择最优主成分数（通常为5-10）。

示例代码（模型建立）：

% 划分训练集与测试集（70%训练，30%测试）
rng(1); % 固定随机种子
n_samples = size(X, 1);
train_idx = randperm(n_samples, round(0.7*n_samples));
test_idx = setdiff(1:n_samples, train_idx);

X_train = X_derivative(train_idx, :);
y_train = y(train_idx);
X_test = X_derivative(test_idx, :);
y_test = y(test_idx);

% 建立PLS模型（选择5个主成分）
[ncomp, ~, ~, ~, stats] = plsregress(X_train, y_train, 5);

% 预测测试集
y_pred = [ones(size(X_test, 1), 1) X_test] * stats.beta; % 加入截距项

4. 模型验证

通过以下指标评估模型性能：

决定系数（R²）：衡量模型对数据的拟合程度（越接近1越好）。
均方根误差（RMSE）：衡量预测值与真实值的偏差（越小越好）。
相对误差（RE）：衡量预测误差的相对大小（越小越好）。

示例代码（性能评估）：

% 计算R²
R2 = 1 - sum((y_test - y_pred).^2) / sum((y_test - mean(y_test)).^2);

% 计算RMSE
RMSE = sqrt(mean((y_test - y_pred).^2));

% 计算相对误差
RE = mean(abs(y_test - y_pred) ./ y_test) * 100;

% 输出结果
fprintf('模型性能评估：\n');
fprintf('R² = %.4f\n', R2);
fprintf('RMSE = %.4f\n', RMSE);
fprintf('相对误差 = %.2f%%\n', RE);

5. 未知样品预测

使用建立的PLS模型预测未知药片的有效成分含量，需先对未知样品的光谱数据进行同样的预处理，再代入模型计算。

示例代码（未知样品预测）：

% 导入未知样品的光谱数据（假设存储在'unknown_sample.csv'中，列数与训练集一致）
unknown_spectral = readmatrix('unknown_sample.csv');
X_unknown = unknown_spectral(:, 2:101); % 提取波长点吸光度

% 预处理（与训练集一致）
X_unknown_normalized = (X_unknown - min(X, [], 1)) ./ (max(X, [], 1) - min(X, [], 1));
X_unknown_smoothed = sgolayfilt(X_unknown_normalized, 2, 11);
X_unknown_derivative = diff(X_unknown_smoothed, 1, 2) / 1;
X_unknown_derivative = [X_unknown_derivative(:, 1), X_unknown_derivative];

% 预测
y_unknown_pred = [1 X_unknown_derivative] * stats.beta; % 加入截距项

% 输出预测结果
fprintf('未知样品有效成分含量预测值：%.4f\n', y_unknown_pred);

三、关键优化策略

主成分数选择：通过交叉验证（如10折交叉验证）选择最优主成分数，避免过拟合。

% 10折交叉验证选择主成分数
cv = cvpartition(size(X_train, 1), 'KFold', 10);
mse = zeros(1, 10);
for i = 1:10
    train_idx_cv = training(cv, i);
    test_idx_cv = test(cv, i);
    [~, ~, ~, ~, stats_cv] = plsregress(X_train(train_idx_cv, :), y_train(train_idx_cv), 5);
    y_pred_cv = [ones(size(X_train(test_idx_cv, 1), 1) X_train(test_idx_cv, :)] * stats_cv.beta;
    mse(i) = mean((y_train(test_idx_cv) - y_pred_cv).^2);
end
mean_mse = mean(mse);

预处理组合：尝试不同的预处理组合（如归一化+平滑+导数），选择最优组合。
变量选择：使用无信息变量消除（UVE）或连续投影算法（SPA）选择特征波长，减少计算量。

四、应用案例

案例背景：测定某药片中对乙酰氨基酚的含量，使用近红外光谱与PLS模型。

数据：采集100个样本的光谱数据（1000-1800 nm，共101个波长点），通过HPLC测定对乙酰氨基酚含量。

结果：

模型R²=0.98，RMSE=0.05 mg/g，相对误差=3.2%。
未知样品预测值与HPLC结果一致（相对误差<5%）。

五、注意事项

数据质量：确保光谱数据的准确性（如避免样品不均匀、仪器漂移），有效成分含量的测定需准确（如HPLC的精密度）。
模型泛化：使用独立测试集验证模型性能，避免过拟合。
仪器校准：定期校准近红外光谱仪，确保光谱数据的重复性。

参考代码 MATLAB近红外光谱与PLS方法用于药片中有效成分含量的测定 www.youwenfan.com/contentalg/59487.html

六、总结

基于MATLAB的近红外光谱与PLS方法，可实现药片中有效成分含量的快速、无损测定。通过预处理优化、主成分数选择等策略，模型的准确性和稳定性可满足实际应用需求。该方法在制药工业中具有广泛的应用前景，如药品质量控制、生产过程监控等。

参考文献：

尹嵩杰. 基于Matlab平台开发红外光谱建模工具包及其在中药中的应用[D]. 广东药科大学, 2016.
张正东, 李轲, 丁超民, 等. 利用近红外光谱有效化学信息建模快速识别醇基汽油种类[J]. 计量科学与技术, 2023, 67(12): 3-12.
MathWorks. plsregress function documentation[EB/OL]. www.mathworks.com/help/stats/plsregress.html, 2025.

基于MATLAB的近红外光谱与PLS方法测定药片有效成分含量的实现

一、方法原理

二、MATLAB实现步骤

1. 数据准备

2. 光谱预处理

3. PLS模型建立

4. 模型验证

5. 未知样品预测

三、关键优化策略

四、应用案例

五、注意事项

六、总结

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

基于MATLAB的近红外光谱与PLS方法测定药片有效成分含量的实现

一、方法原理

二、MATLAB实现步骤

1. 数据准备

2. 光谱预处理

3. PLS模型建立

4. 模型验证

5. 未知样品预测

三、关键优化策略

四、应用案例

五、注意事项

六、总结

热门文章

最新文章

相关电子书