Matlab异常值处理全攻略：从原理到代码实现（附实战案例）

技术教程 2026-01-08 20:19 89 0

你有没有过这种经历？拿到一堆实验数据或者传感器读数，满心欢喜地导入Matlab想做分析，结果画个折线图一看——突然冒出几个“刺头”数据点，把整个趋势线都拽得歪歪扭扭？没错，这就是异常值在搞鬼！今天咱们就用Matlab来收拾这些“捣蛋鬼”，从基础原理到代码实战，一步步教你搞定异常值处理，让你的数据回归“正轨”！

一、先搞懂：什么是异常值？

异常值，简单说就是和大多数数据点“格格不入”的存在——可能是传感器故障、人为记录错误，或者是真的出现了极端情况（比如某天温度突然飙升到50℃）。不管原因是什么，它们都会干扰你的分析结果，比如让均值偏高/偏低，让模型预测不准。所以处理异常值是数据预处理中必不可少的一步！

二、Matlab里常用的异常值检测方法

接下来咱们进入正题：Matlab中怎么检测和处理异常值？这里给大家介绍3种最常用的方法，每种都附上完整代码和使用场景！

方法1：Z-score法（适合正态分布数据）

原理：基于正态分布的3σ原则——如果数据服从正态分布，那么约99.7%的数据会落在均值±3σ范围内，超过这个范围的就视为异常值。
适用场景：数据近似正态分布时效果最好（比如身高、体重这类自然数据）。

Matlab代码实现：
```matlab % 1. 生成测试数据（正态分布+异常值） rng(123); % 设置随机种子，保证结果可重复 data = randn(100,1); % 生成100个正态分布数据点 data([15,30,75]) = [4.2, -3.8, 5.1]; % 手动加入3个异常值

% 2. 计算Z-score mean_val = mean(data); % 均值 std_val = std(data); % 标准差 z_score = abs((data - mean_val) ./ std_val); % 计算每个点的Z-score绝对值

% 3. 检测异常值（阈值设为3） outlier_indices_z = find(z_score > 3); % 找到异常值的索引 outlier_values_z = data(outlier_indices_z); % 异常值的具体数值

% 4. 输出结果 fprintf('Z-score法检测到%d个异常值，索引为：', length(outlier_indices_z)); disp(outlier_indices_z); fprintf('异常值数值：'); disp(outlier_values_z); ```

运行结果：会输出检测到的3个异常值的索引和数值，和咱们手动加入的完全一致！

方法2：IQR四分位数间距法（非正态分布首选）

原理：不需要假设数据分布！通过四分位数计算出数据的“合理范围”——低于Q1-1.5IQR或高于Q3+1.5IQR的点视为异常值（Q1是25%分位数，Q3是75%分位数，IQR=Q3-Q1）。
适用场景：数据不服从正态分布时（比如收入数据、用户访问量），这个方法比Z-score更稳健！

Matlab代码实现：
```matlab % 1. 继续用上面的测试数据 % 2. 计算四分位数和IQR q1 = prctile(data, 25); % 25%分位数 q3 = prctile(data,75); %75%分位数 iqr_val = q3 - q1; % 四分位数间距

%3. 计算上下边界 lower_bound = q1 - 1.5iqr_val; upper_bound = q3 +1.5iqr_val;

%4. 检测异常值 outlier_indices_iqr = find(data < lower_bound | data > upper_bound); outlier_values_iqr = data(outlier_indices_iqr);

%5. 输出结果 fprintf('IQR法检测到%d个异常值，索引为：', length(outlier_indices_iqr)); disp(outlier_indices_iqr); fprintf('异常值数值：'); disp(outlier_values_iqr); ```

小提示：IQR法对极端值的容忍度比Z-score高一点，所以有时候检测到的异常值数量会略有不同——这很正常，毕竟方法原理不一样！

方法3：箱线图可视化法（直观！）

有时候光看数字不够直观，咱们可以用箱线图直接“可视化”异常值！Matlab的boxplot函数会自动把异常值标记出来，一眼就能看到哪里有问题。

代码实现：
matlab figure; boxplot(data); % 绘制箱线图 hold on; % 标记IQR法检测到的异常值（红色圆点） plot(ones(size(outlier_indices_iqr)), data(outlier_indices_iqr), 'ro', 'MarkerSize',8); hold off; title('数据箱线图（红色圆点为异常值）'); xlabel('数据组'); ylabel('数值');

效果：运行后会弹出一个图——箱子中间的线是中位数，箱子上下边是Q1和Q3，箱子外的“须”是上下边界，红色圆点就是异常值，是不是超直观？

三、异常值怎么处理？3种常用策略

检测到异常值后，下一步就是处理它们了！这里给大家推荐3种最实用的处理方式：

策略1：直接删除（最简单粗暴）

如果异常值是明显的错误（比如把100写成1000），而且数量不多（占比<5%），直接删掉就好！

代码：
matlab clean_data_delete = data(~ismember(1:length(data), outlier_indices_iqr)); 解释：ismember函数判断每个索引是否是异常值索引，~取反，保留非异常值数据。

策略2：替换为合理值（更稳妥）

如果不想删除数据（比如数据量小），可以把异常值替换成中位数或者上下边界值（中位数比均值更不容易受异常值影响）。

代码：
```matlab % 替换为中位数 median_val = median(data); clean_data_median = data; clean_data_median(outlier_indices_iqr) = median_val;

% 或者替换为上下边界值 clean_data_bound = data; clean_data_bound(data < lower_bound) = lower_bound; clean_data_bound(data > upper_bound) = upper_bound; ```

策略3：保留但标记（极端情况用）

如果不确定异常值是不是真的错误（比如医学数据中的极端病例），可以保留它们但做个标记，后续分析时单独处理。

代码：
matlab % 给异常值加标记（比如用NaN表示，后续分析时可以忽略NaN） marked_data = data; marked_data(outlier_indices_iqr) = NaN;

四、实战案例：处理传感器温度数据

说了这么多，咱们来个真实场景的案例！假设你有一组连续10天的温度数据，其中某天的传感器故障导致读数异常，用Matlab处理一下：

案例代码：
```matlab % 模拟传感器温度数据（单位：℃） temp_data = [22.1,23.5,21.8,24.0, 100.5, 22.9,23.3,21.5,24.2,23.7]; % 第5天是异常值（100.5℃）

% 用IQR法检测异常值 q1_temp = prctile(temp_data,25); q3_temp = prctile(temp_data,75); iqr_temp = q3_temp - q1_temp; lower_temp = q1_temp -1.5iqr_temp; upper_temp = q3_temp +1.5iqr_temp;

% 检测异常值 outlier_temp = temp_data(temp_data < lower_temp | temp_data> upper_temp); outlier_idx_temp = find(temp_data < lower_temp | temp_data> upper_temp);

fprintf('温度数据中的异常值为：%.1f℃，位于第%d天\n', outlier_temp, outlier_idx_temp);

% 处理异常值：替换为前一天和后一天的平均值 replaced_temp = temp_data; replaced_temp(outlier_idx_temp) = (temp_data(outlier_idx_temp-1) + temp_data(outlier_idx_temp+1))/2;

fprintf('处理后的温度数据：'); disp(replaced_temp); ```

运行结果：会显示异常值是100.5℃（第5天），处理后替换成了第4天和第6天的平均值（24.0+22.9)/2=23.45℃，这样数据就恢复正常了！

五、避坑指南：这些错误别犯！

最后给大家提几个常见的坑，避免踩雷：
1. 不要盲目用3σ原则：如果数据不服从正态分布，Z-score法会把很多正常数据当成异常值！
2. 异常值占比太高别乱删：如果异常值占比超过10%，说明你的数据可能有系统性问题（比如传感器坏了），这时候删除没用，得先解决数据源的问题。
3. 结合业务场景判断：比如电商数据中，某天的销量突然翻倍——可能是促销活动导致的，不是异常值！别一刀切地删掉。

六、总结

异常值处理不是“一劳永逸”的事情，需要结合数据特点和业务场景选择合适的方法。今天讲的这几种Matlab方法都是我平时工作中常用的，代码也都给你了，赶紧去试试吧！如果你的数据有特殊情况，欢迎在评论区分享，咱们一起讨论解决方案！

最后再啰嗦一句：数据预处理是分析的基础，把异常值处理好，后面的建模和分析才能更准确——这一步千万别偷懒哦！

Matlab安装失败怎么办？10个常见问题+2024最新解决办法

Matlab无法打开怎么办？10个超实用解决方案帮你快速修复！

分类

win软件（0）

mac软件（0）

游戏（0）

插件（0）

技术教程（32）