Matlab去除异常值全攻略：从基础到实战的8种实用方法

技术教程 2026-01-08 20:18 86 0

你有没有过这样的经历？用Matlab处理实验数据或者传感器读数时，突然发现图表上冒出几个“刺头”数据点——明明大部分数值都集中在20-30之间，偏偏有几个跳到100以上或者负数？这些就是异常值，不处理的话，后面的均值、方差计算全都会跑偏，甚至让你的模型结果完全不可信！今天我就把自己踩过的坑和总结的方法全分享给你，从入门到进阶，保证你看完就能上手处理各种异常值问题！

先搞懂：什么是异常值？

简单说，异常值就是和数据整体趋势“格格不入”的点。可能是测量错误（比如传感器突然断电）、设备故障（比如温度计被太阳直射），或者真的是极端情况（比如某天的销量突然暴涨10倍）。不管原因是什么，处理异常值都是数据分析前的必经之路——毕竟“一颗老鼠屎坏了一锅粥”的道理大家都懂！

方法1：标准差法（Z-score）——最基础的“一刀切”

这个方法应该是最经典的了，原理很简单：如果一个数据点离均值超过3倍标准差，就把它当成异常值。因为正态分布下，99.7%的数据都在均值±3σ范围内，剩下的0.3%可以认为是异常。

Matlab代码示例： matlab % 生成模拟数据（带异常值） data = [randn(100,1)*5 + 25; 100; -5]; % 正常数据是均值25，标准差5，加两个异常值100和-5 mean_val = mean(data); std_val = std(data); % 计算Z-score z_score = abs((data - mean_val)/std_val); % 筛选出正常数据（Z-score <=3） clean_data = data(z_score <=3); % 看看效果 disp(['原始数据数量：', num2str(length(data))]); disp(['处理后数据数量：', num2str(length(clean_data))]); 我的小经验： 这个方法适合正态分布的数据，比如身高、体重这类自然数据。上次我处理学生成绩数据时用这个方法，一下子就把几个填错的分数（比如0分或者150分）找出来了！不过如果数据不是正态分布，这个方法就容易误删，比如偏态的收入数据，高收入人群可能会被当成异常值。

方法2：四分位数法（IQR）——偏态数据的救星

如果你的数据不是正态分布，比如用户消费金额（大部分人花得少，少数人花得多），那四分位数法会更靠谱。这个方法的核心是用四分位数的间距来判断异常值，鲁棒性更强（就是不容易被极端值影响）。

原理： 1. 计算第一四分位数Q1（25%分位数）和第三四分位数Q3（75%分位数） 2. 计算IQR = Q3 - Q1 3. 异常值的范围是：小于Q1-1.5IQR 或者大于Q3+1.5IQR（这个1.5是经验值）

Matlab代码示例： matlab % 还是用刚才的模拟数据 data = [randn(100,1)*5 +25;100;-5]; % 计算四分位数 q = quantile(data,[0.25,0.75]); Q1 = q(1); Q3 = q(2); IQR = Q3 - Q1; % 确定上下限 lower_bound = Q1 -1.5*IQR; upper_bound = Q3 +1.5*IQR; % 筛选正常数据 clean_data = data(data >= lower_bound & data <= upper_bound); % 输出结果 disp(['上下限：', num2str(lower_bound), ' ~ ', num2str(upper_bound)]); disp(['处理后数据数量：', num2str(length(clean_data))]); 踩坑提醒： 上次我处理电商订单数据时，一开始用标准差法把几个大额订单（比如买了10台电脑的客户）当成异常值删了，后来换成IQR法就保留了这些真实的极端值！所以处理偏态数据时，一定要优先考虑IQR法。

方法3：箱线图可视化——让异常值“原形毕露”

不管用哪种方法，我都建议先画个箱线图看看异常值在哪里。Matlab的boxplot函数能直观地展示数据的分布和异常值，让你心里有数再处理。

代码示例： matlab data = [randn(100,1)*5+25;100;-5]; figure; boxplot(data); title('数据箱线图（异常值用圆圈标记）'); xlabel('数据组'); ylabel('数值'); 效果： 箱线图里，那些超出上下须的圆圈就是异常值。你可以先通过这个图判断异常值的数量和位置，再选择合适的方法去除——比如如果异常值很少，直接手动删也可以（当然数据量大的话还是自动处理好）。

方法4：移动窗口法——时间序列数据的专属武器

如果你的数据是时间序列（比如股票价格、传感器每小时的读数），那上面的静态方法就不太适用了。因为时间序列数据的异常值通常是和前后数据对比出来的，比如传感器突然跳变到一个奇怪的数值，然后又恢复正常。

原理： 用一个滑动窗口（比如前5个数据点）计算均值或中位数，然后判断当前点是否和窗口内的平均值相差太大。

代码示例： matlab % 生成时间序列数据（带异常值） t = 1:100; data = sin(t/10) + randn(1,100)*0.1; % 正常数据是正弦曲线加小噪声 data(20) = 2; data(80) = -2; % 加入两个异常值 % 移动窗口大小设为5 window_size =5; % 计算移动中位数（比均值更鲁棒） moving_med = movmedian(data, window_size); % 计算绝对偏差 dev = abs(data - moving_med); % 设定阈值（比如3倍的偏差标准差） threshold = 3*std(dev); % 筛选正常数据 clean_data = data; clean_data(dev > threshold) = NaN; % 把异常值设为NaN，方便后续处理 % 画图对比 figure; plot(t,data,'b-',t,clean_data,'r-','LineWidth',1.5); legend('原始数据','去除异常值后的数据'); title('时间序列数据异常值处理'); xlabel('时间'); ylabel('数值'); 小技巧： 窗口大小的选择很重要！如果窗口太小，容易把正常的波动当成异常；如果太大，又会漏掉真正的异常。比如处理小时级的传感器数据，窗口设为24小时（一天）就比较合适，能过滤掉短期的跳变。

方法5：残差分析法——有趋势数据的好帮手

如果你的数据有明显的趋势（比如温度随季节变化，或者销售额随时间增长），可以先拟合一个模型（比如线性回归、多项式拟合），然后计算每个点的残差（实际值减去拟合值），残差大的就是异常值。

代码示例： matlab % 生成带趋势的数据 t = 1:100; data = 0.1*t + randn(1,100)*0.5; % 线性趋势加噪声 data(30) = 5; data(70)= -1; % 异常值 % 拟合线性模型 p = polyfit(t,data,1); % 一次多项式（直线） fit_data = polyval(p,t); % 计算残差 residuals = data - fit_data; % 设定阈值（3倍残差标准差） threshold =3*std(residuals); % 筛选正常数据 clean_data = data; clean_data(abs(residuals) > threshold) = NaN; % 画图 figure; plot(t,data,'bo',t,fit_data,'k-',t,clean_data,'rs'); legend('原始数据','拟合曲线','去除异常值后的数据'); title('残差分析法处理趋势数据'); 个人体验： 这个方法适合有明确趋势的数据，比如我上次处理工厂的产量数据时，用线性拟合找出了几个因为设备故障导致的低产量点。不过如果数据没有趋势，这个方法就没用了——比如随机波动的噪声数据，拟合出来的残差会很大。

方法6：中位数绝对偏差法（MAD）——比标准差更鲁棒

中位数绝对偏差法（MAD）是另一种鲁棒的异常值检测方法，它用中位数代替均值，用绝对偏差代替平方偏差，所以对极端值的容忍度更高。

原理： 1. 计算数据的中位数Med 2. 计算每个点到中位数的绝对偏差：|x - Med| 3. 计算MAD：这些绝对偏差的中位数 4. 异常值的阈值通常是3MAD（因为正态分布下，MAD≈0.6745σ，所以3MAD≈2σ，不过经验上常用3倍）

代码示例： matlab data = [randn(100,1)*5+25;100;-5]; med = median(data); mad_val = median(abs(data - med)); threshold =3*mad_val; clean_data = data(abs(data - med) <= threshold); disp(['MAD方法处理后的数据数量：',num2str(length(clean_data))]); 优点： 这个方法比标准差法和IQR法都更鲁棒，适合那些极端值特别多的数据。比如我处理过一份用户反馈评分数据，里面有很多恶意的1分或5分，用MAD法就能很好地过滤掉这些极端值，同时保留正常的评分。

方法7：聚类法——复杂数据的智能选择

如果你的数据是多维的（比如用户的年龄、收入、消费金额三个维度），或者分布很复杂，那聚类法会是个不错的选择。比如用k-means聚类把数据分成几类，离所有聚类中心都很远的点就是异常值。

代码示例： matlab % 生成二维数据（带异常值） data = [randn(50,2)*0.5 + [1,1]; randn(50,2)*0.5 + [3,3]; [5,5; 0,0]]; % 两个聚类加两个异常值 % k-means聚类（分成2类） [idx, centers] = kmeans(data,2); % 计算每个点到最近聚类中心的距离 dist = pdist2(data, centers); min_dist = min(dist,[],2); % 设定阈值（比如2倍的距离标准差） threshold =2*std(min_dist); % 筛选正常数据 clean_data = data(min_dist <= threshold,:); % 画图对比 figure; subplot(1,2,1); scatter(data(:,1),data(:,2),10,idx,'filled'); title('原始数据聚类'); subplot(1,2,2); scatter(clean_data(:,1),clean_data(:,2),10,'filled'); title('去除异常值后的数据'); 注意事项： 聚类法的关键是选择正确的聚类数目k。如果k选得不对，异常值检测的结果也会不准。比如上面的例子，如果k选成3，那异常值可能会被当成一个小聚类，就不会被过滤掉了。所以建议先用肘部法则确定k的值。

方法8：自定义规则法——业务场景优先

最后一种方法是最灵活的：根据你的业务场景自定义规则。比如你知道温度传感器的读数范围是-20到50度，那任何超出这个范围的数值都是异常值；或者你知道用户的年龄不可能小于0或大于120岁，直接过滤掉这些值就好。

代码示例： matlab % 生成温度数据 temp = randn(100,1)*10 +25; temp(15)=60; temp(75)=-30; % 异常值 % 自定义范围：-20到50度 lower =-20; upper=50; clean_temp = temp(temp >= lower & temp <= upper); disp(['去除异常值后的温度数据数量：',num2str(length(clean_temp))]); 温馨提示： 这个方法虽然简单，但一定要基于业务知识——比如你不能随便设定一个范围，得知道数据的合理区间。比如我上次处理心率数据时，把范围设为60到100（正常心率），结果发现很多运动员的心率低于60，这是正常的，所以后来调整了范围到40到120，就没问题了。

实战技巧：处理异常值的正确步骤

说了这么多方法，我总结了一套处理异常值的流程，大家可以参考： 1. 可视化数据： 先用箱线图、折线图（时间序列）或散点图（多维数据）看看异常值的分布。 2. 选择合适的方法： 根据数据类型（正态/偏态、静态/时间序列、一维/多维）选择方法。 3. 处理异常值： 可以把异常值设为NaN（方便后续分析）、用均值/中位数填充，或者直接删除（注意不要删太多）。 4. 验证结果： 处理完后再画一次图，或者计算统计量（比如均值、方差）看看是否合理。 5. 保留原始数据： 永远不要覆盖原始数据！把处理后的数据存为新变量，方便后续对比。

常见误区：不要过度去除异常值

很多新手容易犯的错误是“洁癖”——想把所有异常值都去掉。但其实有些异常值是有意义的，比如极端天气的温度、突发的销量增长。如果把这些值都去掉，你的分析结果就会偏离真实情况。所以处理异常值时，一定要结合业务背景判断：这个异常值是错误还是真实的极端情况？

总结

Matlab去除异常值的方法有很多，没有最好的，只有最适合的。比如正态分布用标准差法，偏态用IQR法，时间序列用移动窗口法，多维数据用聚类法。关键是先理解你的数据，再选择合适的方法，然后验证结果。希望这篇文章能帮你解决异常值的烦恼，下次处理数据时不再头疼！

最后再强调一句：处理异常值不是目的，而是为了让你的分析更准确。所以一定要谨慎，不要为了“干净”的数据而丢失有用的信息哦！ ```

MATLAB剔除数据异常值：从入门到实战的3种超实用方法！

Matlab安装失败怎么办？10个常见问题+2024最新解决办法

分类

win软件（0）

mac软件（0）

游戏（0）

插件（0）

技术教程（32）