题目
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
【BetterBench博士】2024年中国研究生数学建模竞赛 E题:高速公路应急车道紧急启用模型 问题分析
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析
1 问题一
首先,针对磁通密度的数据进行预处理,去除噪声和异常值,确保数据的完整性和一致性。可以使用统计分析方法,例如异常值检测,来清理数据。
对于磁通密度数据,提取一些重要的特征来帮助分类波形,可能的特征包括:
- 波形的周期性:通过FFT(快速傅里叶变换)提取频率特征。
- 幅度和对称性:计算波形的最大值、最小值以及均值。
- 波峰和波谷数量:通过零交叉点和局部极值点的数量确定波形的形状特征。
利用提取的特征训练分类模型。常用的分类算法包括:
- 随机森林
- 支持向量机(SVM)
- K近邻算法(KNN)
- 神经网络
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score
import matplotlib.pyplot as plt
from scipy.fftpack import fft
from scipy.signal import find_peaks
plt.rcParams['font.sans-serif'] = 'SimSun' # 换成自己环境下的中文字体,比如'SimHei'
# 读取附件1和附件2
df1 = pd.read_excel('data/附件一(训练集).xlsx')
df2 = pd.read_excel('data/附件二(测试集).xlsx')
# 数据预处理:清理异常值
def clean_data(df):
# 去除不合理的异常值
df = df[(df['0(磁通密度B,T)'].abs() < 1)]
return df
df1 = clean_data(df1)
df2 = clean_data(df2)
# 特征提取:使用磁通密度数据提取特征
def extract_features(df):
features = []
for i in range(len(df)):
row = df.iloc[i, 4:] # 只考虑磁通密度数据
# FFT变换
fft_vals = fft(row)
fft_amplitude = np.abs(fft_vals[:len(fft_vals) // 2])
# 波峰波谷特征
peaks, _ = find_peaks(row)
troughs, _ = find_peaks(-row)
# 构造特征
feature_row = [
np.max(row), # 最大值
np.min(row), # 最小值
np.mean(row), # 均值
len(peaks), # 波峰数量
len(troughs), # 波谷数量
np.max(fft_amplitude) # FFT幅度最大值
]
features.append(feature_row)
return pd.DataFrame(features, columns=['max_val', 'min_val', 'mean_val', 'n_peaks', 'n_troughs', 'max_fft_amp'])
# 提取特征
X = extract_features(df1)
y = df1['励磁波形'].map({
'正弦波': 1, '三角波': 2, '梯形波': 3}) # 标签编码
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 模型评估
y_pred = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
# 对附件2中的样本进行预测
X_new = extract_features(df2)
y_new_pred = clf.predict(X_new)
# 将分类结果写入附件3
df3 = pd.DataFrame({
'序号': df2['序号'], '励磁波形分类结果': y_new_pred})
df3.to_csv('data/问题一预测结果-附件4.csv', index=False)
# 1. 波形图:展示不同样本的磁通密度波形,观察波形的直观差异
plt.figure(figsize=(10, 6))
for i in range(3): # 展示前三个样本的波形
plt.plot(df1.iloc[i, 4:].to_list(), label=f'样本 {i+1}')
plt.title('不同样本的磁通密度波形')
plt.xlabel('时间')
plt.ylabel('磁通密度')
plt.legend()
plt.show()
import seaborn as sns
# 2. 混淆矩阵:展示分类模型的预测结果与实际标签的匹配情况
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['正弦波', '三角波', '梯形波'], yticklabels=['正弦波', '三角波', '梯形波'])
plt.title('混淆矩阵')
plt.xlabel('预测标签')
plt.ylabel('实际标签')
plt.show()
2 问题二
2.1 思路
- 拟合原始斯坦麦茨方程拟合:通过 工具包 拟合原始斯坦麦茨方程,找到 $k_1$、$a_1$ 和 $\beta_1$。
- 然后拟合带温度修正的斯坦麦茨方程:通过拟合带温度修正的方程,找到温度敏感系数 $\gamma$。
- 误差比较:通过实际数据和预测数据的误差进行比较,判断哪个方程在不同温度下更准确。
- 可视化分析:展示实际损耗和两个方程预测损耗的曲线。
要在斯坦麦茨方程中引入温度修正,以适应不同温度变化对磁芯损耗的影响,可以假设温度对损耗有指数或线性影响。那么在原方程中增加一个温度相关项,如:
$$P_{T} = k_1 * f^{a_1} * B_{m}^{\beta_1} * e^{\gamma(T - T_{ref})}$$
其中:
- $P_T$ 是带有温度修正的磁芯损耗。
- $T$ 是实际温度,$T_{ref}$ 是参考温度(如25°C)。
- $\gamma$ 是温度敏感系数,它表明温度变化对损耗的影响程度。
import numpy as np
import pandas as pd
from scipy.optimize import curve_fit
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
plt.rcParams['font.sans-serif'] = 'SimSun' # 换成自己环境下的中文字体,比如'SimHei'
# 读取数据
data = pd.read_excel('data/附件一(训练集).xlsx')
# 提取相关数据
df = pd.DataFrame({
'temperature': data['温度,oC'],
'frequency': data['频率,Hz'],
'core_loss': data['磁芯损耗,w/m3'],
'flux_density': data.iloc[:, 4:].max(axis=1) # 磁通密度峰值
})
# 去除异常值函数,使用Z-score方法
def remove_outliers(df, column, threshold=3):
z_scores = np.abs((df[column] - df[column].mean()) / df[column].std())
return df[z_scores < threshold]
# 对整个DataFrame应用异常值去除
df_cleaned = df.copy()
for column in df_cleaned.columns:
df_cleaned = remove_outliers(df_cleaned, column)
# 归一化处理
scaler = StandardScaler()
df_cleaned[['temperature', 'frequency', 'flux_density']] = scaler.fit_transform(df_cleaned[['temperature', 'frequency', 'flux_density']])
# df_cleaned = df_cleaned
# 提取处理后的数据
temperature = df_cleaned['temperature'].values
frequency = df_cleaned['frequency'].values
core_loss = df_cleaned['core_loss'].values
flux_density = df_cleaned['flux_density'].values
# 2. 斯坦麦茨方程和带温度修正方程的定义
# 斯坦麦茨方程
...略
# 带温度修正的斯坦麦茨方程
...略
# 3. 优化函数的定义
# 定义误差函数(目标函数),用于最小化
...略
# 进行斯坦麦茨方程优化
result_steinmetz = differential_evolution(objective_steinmetz, bounds_steinmetz)
params_steinmetz = result_steinmetz.x
print(f"Steinmetz方程拟合参数: k1={params_steinmetz[0]}, a1={params_steinmetz[1]}, beta1={params_steinmetz[2]}")
# 进行带温度修正的斯坦麦茨方程优化
result_steinmetz_temp = differential_evolution(objective_steinmetz_temp, bounds_steinmetz_temp)
params_steinmetz_temp = result_steinmetz_temp.x
print(f"带温度修正的Steinmetz方程拟合参数: k1={params_steinmetz_temp[0]}, a1={params_steinmetz_temp[1]}, beta1={params_steinmetz_temp[2]}, gamma={params_steinmetz_temp[3]}")
问题三
要分析温度、励磁波形和磁芯材料对磁芯损耗的独立和协同影响,并找出在何种条件下磁芯损耗达到最小,分析步骤如下:
- 数据清洗与整理,将数据加载到Pandas数据框中,检查是否存在缺失值或异常值,并对数据进行标准化或编码(对于分类变量如励磁波形类型,需要编码)。
- 统计分析
- 计算描述性统计量(如均值、方差等),观察每个因素与磁芯损耗的关系。
- 绘制箱型图、散点图等可视化图表,分析不同因素对磁芯损耗的分布影响。
- 方差分析 (ANOVA),用于检验单个因素对磁芯损耗的影响显著性。
- 多元线性回归,构建一个多元回归模型来分析每个因素对磁芯损耗的影响程度,特别是两两因素的协同效应。
- 交互效应分析,使用可视化和回归系数分析两两因素之间的协同效应,特别是交互作用项。
- 最优条件探索,基于回归模型,使用优化方法来找到最优的温度、励磁波形和磁芯材料组合,使磁芯损耗达到最小。
# 5. 交互作用分析
# 增加交互项(温度*频率,温度*励磁波形,频率*励磁波形)
data['Temperature_Frequency'] = data['Temperature'] * data['Frequency']
data['Temperature_Waveform'] = data['Temperature'] * data['Waveform_Encoded']
data['Frequency_Waveform'] = data['Frequency'] * data['Waveform_Encoded']
# 构建包含交互项的多元回归模型
interaction_model = ols('Core_Loss ~ C(Temperature) * C(Waveform_Encoded) * Frequency', data=data).fit()
print(interaction_model.summary())
# 6. 可视化交互效应
plt.figure(figsize=(10,6))
sns.boxplot(x='Temperature', y='Core_Loss', hue='Waveform', data=data)
plt.title('温度与励磁波形对磁芯损耗的影响')
plt.show()
plt.figure(figsize=(10,6))
sns.scatterplot(x='Frequency', y='Core_Loss', hue='Temperature', data=data)
plt.title('频率与温度对磁芯损耗的影响')
plt.show()
问题四
数据加载与预处理:
将磁通密度采样点(从第4列到第1024列)的列名从数字转换为字符串形式,方便后续操作。
首先对(励磁波形)列使用LabelEncoder进行编码,将正弦波、三角波、梯形波分别映射为0、1、2。
特征工程:
- 将温度、频率、磁通密度等数值特征进行标准化(StandardScaler),确保不同量纲的特征对模型的影响均衡。
模型选择与构建:
- 选择随机森林回归模型(RandomForestRegressor)进行回归任务,以预测磁芯损耗。
- 使用Pipeline构建完整的模型管道,包括数据预处理(特征标准化)和模型训练。
模型训练与评估:
- 将数据划分为训练集和测试集,使用训练集训练模型。
- 在测试集上进行预测,计算均方误差(MSE)和R²分数,以评估模型的性能。
样本预测与输出:
- 读取附件3中的数据,对其按照附件1相同的编码操作。
- 使用训练好的模型对附件3中的样本进行预测,将结果保存到附件4.csv中。
- 输出指定样本的预测结果,保留一位小数。
# 预测附件3中的磁芯损耗
attachment3_data = pd.read_excel('data/附件三(测试集).xlsx')
# 对附件3的'Waveform'列进行编码处理
attachment3_data = attachment3_data.rename(columns={
'温度,oC': '温度',
'频率,Hz': '频率',
'磁芯损耗,w/m3': '磁芯损耗',
'励磁波形': 'Waveform',
'0(磁通密度B,T)':'0'
})
attachment3_data['Waveform'] = waveform_encoder.transform(attachment3_data['Waveform'])
attachment3_data = attachment3_data.drop(columns=['序号','磁芯材料'])
attachment3_data.columns = ['温度','频率','Waveform']+ [str(i) for i in range(1024)]
attachment3_data
# 使用模型预测附件3中的数据
y_pred_attachment3 = model.predict(attachment3_data)
# 将预测结果填入附件4并保存,只保留小数点后一位
attachment4 = pd.DataFrame({
'序号': attachment3_data.index + 1,
'磁芯损耗预测结果': np.round(y_pred_attachment3, 1)
})
attachment4.to_csv('data/附件4-问题四.csv', index=False)
attachment4
# 输出特定样本的预测结果
sample_indices = [16, 76, 98, 126, 168, 230, 271, 338, 348, 379]
sample_results = attachment4.iloc[sample_indices]
print("指定样本的磁芯损耗预测结果:")
print(sample_results)
问题五
为了同时优化磁芯损耗与传输磁能,构建一个优化问题。目标是找到能够最小化磁芯损耗且最大化传输磁能的条件。传输磁能可以简化为频率($f$)与磁通密度峰值($B_m$)的乘积:
- 目标函数:
平衡两个目标:
- 最小化磁芯损耗:$L_c$,使用我们构建的磁芯损耗预测模型来预测。
- 最大化传输磁能:$T_e = f \cdot B_m$。
为了将这两个目标结合为一个优化问题,定义一个加权目标函数:
$$ \text{Minimize } \alpha L_c - \beta T_e $$
其中,$\alpha$ 和 $\beta$ 是权重参数,表示磁芯损耗与传输磁能的相对重要性。通常需要调节这些参数以实现某种平衡。
- 约束条件:
频率 $f$ 的取值范围:$f{\min} \leq f \leq f{\max}$
磁通密度峰值 $Bm$ 的取值范围:$B{m,\min} \leq Bm \leq B{m,\max}$
温度 $T$、励磁波形等其他变量的取值范围。
$$ T \in \{25, 50, 70, 90\} $$
$$ \text{waveform} \in \{0, 1, 2\} $$
完整资料
转到B站视频介绍
【2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模】
bilibili.com/video/BV1fPskeqEQH/?share_source=copy_web&vd_source=d2dd5fcbeeeec396792650b25c110a13