Welcome to visit Anhui Agricultural Science Bulletin!

Influence of different spectral transformation forms on the accuracy of partial least squares estimation model of soil organic matter

  • ZENG Yuanwen ,
  • FAN Wenwu
Expand
  • Chongqing Geomatics and Remote Sensing Center, Chongqing 401147, China

Received date: 2024-08-26

  Online published: 2025-08-14

Abstract

This study used field-collected soil samples as test subjects to conduct experiments including soil organic matter (SOM) content determination, hyperspectral data acquisition, and preprocessing. Six spectral transformations were applied to the preprocessed spectral data: absorption depth (Depth), first derivative of log-reflectance (FD-lgR), second derivative of log-reflectance (SD-lgR), second derivative of reflectance (SD-R), second derivative of reciprocal reflectance (SD-1/R), and second derivative of reciprocal log-reflectance (SD-1/lgR). Partial least squares regression (PLSR) models for SOM estimation were established under different spectral transformation forms to analyze the correlation between spectral transformations and SOM content, as well as their impact on model accuracy. The results showed that all 6 transformations exhibited bands significantly correlated with SOM content, with FD-lgR having the highest number of significantly correlated bands (71). The FD-lgR model achieved a determination coefficient (R 2) of 0.995, a root mean square error of calibration (RMSEC) of 0.063, a cross-validation R 2 of 0.775, and a relative percent difference (RPD) of 2.681, all of which were among the highest values across all transformations. The scatter plot of predicted versus measured values indicated that the FD-lgR model’s estimates were close to the actual values, with an R 2 of 0.872. Overall, the regression model based on FD-lgR demonstrated high accuracy and good stability.These findings provide a reference for subsequent hyperspectral data preprocessing and estimation model construction for soil organic matter.

Cite this article

ZENG Yuanwen , FAN Wenwu . Influence of different spectral transformation forms on the accuracy of partial least squares estimation model of soil organic matter[J]. Anhui Agricultural Science Bulletin, 2025 , 31(15) : 89 -93 . DOI: 10.16377/j.cnki.issn1007-7731.2025.15.022

土壤有机质(Soil organic matter,SOM)是土壤的重要组成部分,其含量是评价土壤肥力的重要指标;也是农作物生长的重要养分之一,对作物生长有显著影响。土壤有机质常规调查采用现场取样加室内测试的方法,存在费时、费力和无法大面积铺开等问题,因此,为快速、准确和大范围地获取土壤有机质含量信息,必须寻找新的技术方法来满足现代精准农业的发展需求。光谱分析技术的发展,为上述问题的解决提供了新的路径。由于其速度快、成本低、无污染,以及可同时反演多种成分等特点,已成为替代化学检测的有效手段之一[1-2]。研究表明,土壤有机质在可见光波段和近红外波段展现出独特的光谱特性,其含量是影响土壤光谱特性的核心要素[3]。陈颂超等[4]研究发现,水稻土在可见光与近红外波段和中红外波段的光谱吸收特性与其有机质含量有一定的相关性。邬登巍等[5]分析了不同母质和土地利用类型对土壤有机质含量光谱预测模型精度的影响,并讨论了该模型的适用性。
近年来,除了对土壤有机质本身的光谱特性进行研究外,还对土壤光谱处理方式、土壤粒径大小、土壤光谱数学变换形式和反演模型等对土壤有机质估算的影响进行了深入探究。刘效栋[6]研究发现,就土壤有机质反演模型而言,偏最小二乘模型优于多元线性回归模型,其具有更好的精度和稳定性。郄欣等[7]将光谱数据进行了4种变换,并分别构建了SVR估算模型,结果显示,基于倒数对数一阶微分这种变换形式下的模型精度最高。
本文为研究不同光谱数学变换形式对土壤有机质反演模型精度和稳定性的影响,在前人研究的基础上,对实验室内采集到的原始光谱数据进行吸收深度(Depth)提取、反射率对数的一阶微分(FD-lgR)、反射率对数的二阶微分(SD-lgR)、反射率的二阶微分(SD-R)、反射率倒数的二阶微分(SD-1/R)和反射率对数的倒数的二阶微分(SD-1/lgR)共6种变换,分析变换之后的反射率值与土壤有机质含量的相关性,并利用偏最小二乘回归建立了土壤有机质的预测模型,以筛选最优的变换形式,为土壤光谱数据处理及土壤有机质估算模型建立提供参考。

1 材料与方法

1.1 土壤样本的制作与处理

共采集37个野外土壤样本,将其自然风干,然后研磨成0.25 mm颗粒,利用重铬酸钾氧化—外加热法测定土壤有机质。具体的实验方法及步骤见《土壤农化分析》[8]。研究区土壤有机质含量在0.98%~4.42%,均值2.31%,变异系数36.77%,说明研究区土壤有机质含量属中等程度的空间变异性。

1.2 室内光谱测量与预处理

1.2.1 光谱测定

样本室内高光谱测量采用ASD FieldSpec 3光谱仪,其光谱采集范围为350~2 500 nm,在350~1 000 nm区间内采样间隔为1.4 nm,1 000~2 500 nm区间内为2 nm。土壤光谱测试的几何条件设计如图1所示,各几何参数在实验过程中保持不变,为消除土样反射光谱各方向异性的干扰,测量时测土样4个方向的光谱曲线,每个方向取5条,将各方向的光谱曲线算术平均后得到该土样的反射光谱数据。
图1 土壤光谱测定的几何条件示意

1.2.2 光谱数据预处理

(1)光谱曲线的断点校正。实验光谱仪是由3个子光谱仪组成,分别接收UV~VNIR(350~1 100 nm)、SWIR1(1 000~1 800 nm)和SWIR2(1 700~2 500 nm)3个波段的光谱反射率值,在1 000和1 800 nm附近会出现断点,本文利用光谱仪自带软件进行断点修正。(2)光谱数据重采样。为消除光谱仪原始数据在不同波段范围内的采样间隔差异和光谱数据信息冗余问题,对原始光谱数据进行10 nm重采样,用10 nm波长范围的原始数据进行算术平均值计算,处理之后的光谱曲线仍保持了原光谱的形状特征。(3)低信噪比波段及水吸收峰剔除。原始测得的光谱曲线在1 400、1 900和2 400 nm等波段受水汽吸收的干扰作用较大,存在强烈的水吸收谷,因此,研究剔除了这些受水汽吸收影响严重的波段范围,除此之外,还对信噪比较低的波段范围进行了剔除处理,具体的剔除范围为350~395 nm、1 345~1 515 nm、1 795~2025 nm和2 405~2 500 nm。经过波段剔除之后的土壤反射光谱曲线被分割成了3段。将3段光谱数据重新合并,即删除没有数据的波段范围,经过以上预处理之后最终剩下158个波段。光谱预处理前后曲线如图2所示。
图2 原始光谱曲线

(A)、(B)分别为原始光谱曲线和预处理后的光谱曲线。

从图中可以看出,光谱曲线整体呈上凸的抛物线,在405~1005 nm波段反射率值较低,但反射率值随着波长的增加迅速增大,在这个波段范围内光谱曲线较陡,特别是在405~755 nm,在1 010~2 365 nm,反射率值较大,但曲线较平缓。经过波段剔除之后在1 400 nm和1 900 nm处的水的吸收特征已经不存在了,但是在2 200 nm处的Al-OH的吸收特征比较明显,说明土壤中存在黏土矿物。

1.2.3 光谱曲线数学变换

对原始光谱进行包括Depth、FD-lgR、SD-lgR、SD-R、SD-1/R和SD-1/lgR共6种变换形式。一般用光谱差分来近似代替微分,计算如式(1)
R ' ( λ i ) = [ R ( λ i ) - R ( λ i - 1 ) ] / 2 Δ λ
式中, λ i为第i个波段的波长; R ' ( λ i )为波长 λ i处的一阶微分光谱; R ( λ i ) R ( λ i - 1 )分别表示波长 λ i λ i - 1处的反射光谱; Δ λ是波长 λ i - 1 λ i的间隔。二阶微分的计算方法与此类似。

1.3 建模方法及评价指标

1.3.1 相关性分析

将土壤有机质含量和土壤反射率数学变换形式进行逐波段相关性分析,计算每个波段与土壤有机质含量的相关系数r,其计算如式(2)
r i = n = 1 N ( R n i - R i ¯ ) ( D n - D ¯ ) n = 1 N ( R n i - R i ¯ ) 2 n = 1 N ( D n - D ¯ ) 2

1.3.2 偏最小二乘回归建模

偏最小二乘回归法解决了自变量间的多重共线性问题,其利用因变量的变异信息来提取自变量中的有用信息,称为潜变量,从而达到提高模型的建模精度和预测能力的目的。在分析过程中,一般采用交叉检验法来确定保证模型较好精度所需包含的成分个数[9]。以土壤反射光谱的6种数学变形和对应的有机质含量数据作为回归分析数据,选出25个和12个样本数据分别作为训练数据集和测试数据集。交叉检验过程中采用“Full cross validation”的方法来确定模型需包含的潜变量的个数和防止过度拟合。通过以下参数对回归模型的精度和预测能力进行评价。(1)决定系数R2;包括建模决定系数、交叉检验绝对系数和预测绝对系数。(2)均方根误差RMSE;包括建模均方根误差RMSEC、交叉检验均方根误差RMSECV和预测均方根误差RMSEP。计算如式(3)~(5)。
RMSEC= ( Y m - Y p ) 2 / N c
RMSECV= ( Y m - Y p ) 2 / N c v
RMSEP= ( Y m - Y p ) 2 / N p
式中, Y m Y p分别表示实测值和预测值, N c N c v N p分别表示建模、交叉检验和预测样本数。
(3)预测相对偏差RPD。当RPD>2时,回归模型具有极好的预测能力;当1.4<RPD<2时,回归模型可对样品做粗略的估测;而当RPD<1.4时,回归模型则无法对样品进行预测[10]
模型的决定系数R2 和预测相对偏差RPD越大,均方根误差RMSECRMSECVRMSEP越小,说明模型的精度越高。

1.3.3 模型精度分析

利用偏最小二乘模型的预测值和实测值分析其模型精度。

2 结果与分析

2.1 相关性分析

表1可知,6种变换均有与有机质含量显著相关的波段存在。达到显著相关性的波段大都集中在UV~VNIR波段范围内,且最大相关波段主要分布在475~600 nm波段(FD-lgR除外)。变换形式FD-lgR达到显著相关性的波段数最多,为71,SD-1/R达到显著相关性的波段数最少,为29;且相关系数的均值也是前者大于后者,说明对数的一阶微分比倒数的二阶微分更为有效。
表1 反射率各种变换形式与有机质含量相关性分析结果
光谱变换形式 A B C D/nm
Depth 41 0.595 0.765 505
FD-lgR 71 0.558 0.749 545
SD-lgR 41 0.596 0.842 495
SD-R 39 0.587 0.794 475
SD-1/R 29 0.524 0.706 495
SD-1/lgR 41 0.554 0.781 475

注:A为达到显著相关的波段数;B为相关系数的均值;C为最大相关系数;D为最大相关系数所在的波长位置。

2.2 偏最小二乘建模分析

表2可知,FD-lgR建模的R2 最大,为0.995,RMSEC最小,为0.063,SD-lgR的R2RMSEC分别为0.974和0.151,其他变换形式的建模精度稍微差一些,但是R2 均大于0.720,总体来说各个变换形式的建模精度均较好。交叉检验阶段,各个变换形式的R2 出现了较大偏差,FD-lgR的交叉检验R2 最大,为0.775,RMSECV最小,为0.464;Depth次之,其中精度最差的是SD-1/lgR变换形式,其R2 为0.395,其他变换形式的R2 均在0.500以上。模型的预测精度检验结果表明,FD-lgR的预测精度最优,R2 =0.872,RMSEP=0.216,其次是Depth,然后是SD-lgR,R2 最小的是SD-1/lgR;FD-lgR的RPD最大,为2.681,其次为Depth,RPD=2.08,说明用这两种变换形式建立的回归模型具有较好的预测能力,除了SD-1/lgR(1.15)以外,其他变换形式的RPD均在1.4~2.0,说明SD-1/lgR建立的回归模型难以对有机质含量进行有效预测。
表2 不同光谱变换形式建模、交叉检验、预测结果
变换形式 建模 交叉检验 预测
样本数 潜变量数 RMSEC R2 RMSECV R2 样本数 RMSEP R2 RPD
FD-lgR 25 10 0.063 0.995 0.464 0.775 12 0.216 0.872 2.681
Depth 25 2 0.395 0.823 0.514 0.724 12 0.278 0.829 2.083
SD-1/lgR 25 2 0.482 0.737 0.761 0.395 12 0.502 0.561 1.153
SD-lgR 25 4 0.151 0.974 0.541 0.694 12 0.300 0.740 1.930
SD-R 25 2 0.405 0.814 0.647 0.563 12 0.400 0.674 1.448
SD-1/R 25 2 0.494 0.724 0.690 0.502 12 0.380 0.559 1.524
综上,对反射率进行对数变形,其在建模、检验和预测阶段的精度均有所提高,然而进行反射率倒数变换使精度有所降低。综合考虑各个阶段的结果,以FD-lgR建立的模型最优,其次是Depth,然后为SD-lgR。Depth是在连续统去除的基础上提取的,连续统去除后可以在光谱曲线中突显出土壤样本的特征吸收带,使得吸收特征增强,这可能是其建立模型精度较高的原因。
图3显示了各个变换形式在模型建立过程中RMSECRMSECV随入选的潜变量数目的变化情况。由图3可知,RMSEC在各个变换形式的模型建立过程中的变化规律较相似,均随着模型入选潜变量数目的增多而减小,最后逐渐趋于0;但RMSECV变化情况存在明显的差异,与其他变形相比,FD-lgR在建立偏最小二乘模型时,能接纳更多的潜变量,不容易出现过配。
图3 偏最小二乘建模过程中RMSE的变化

(A)~(F)分别为FD-lgR、Depth、SD-1/lgR、SD-lgR、SD-R、SD-1/R。

2.3 估测模型精度分析

图4显示的是各个变换形式下建立模型的预测值和实测值的散点图,当数值点均匀地分布在1∶1直线两端的时候预测效果较优。由图4可知,SD-1/R的样点均匀分布在1∶1直线两侧,但是平均距离较大;其余各个变换形式对有机质含量较小的样本的预测值与实测值含量较大的样本更为接近,表明模型对中、低有机质含量具有较好的预测能力。总的来说,反射率FD-lgR建立的模型精度最高,稳定性最好。
图4 不同光谱变换形式下模型估算值与实测值散点图

(A)~(F)分别为FD-lgR、Depth、SD-1/lgR、SD-lgR、SD-R、SD-1/R。

3 结论

本研究对野外采集的土壤样本进行了有机质含量测定及室内光谱曲线测量,并对光谱曲线进行了Depth、FD-lgR、SD-lgR、SD-R、SD-1/R和SD-1/lgR共6种变换,分析了各种光谱变换形式与土壤有机质含量的相关性,建立了土壤有机质含量偏最小二乘回归预测模型,分析模型的精度。结果表明,结果达到显著相关性的波段大都集中在UV~VNIR波段范围内,除FD-lgR外,最大相关波段主要分布在475~600 nm波段范围内;建模、交叉检验和预测阶段均是FD-lgR建立的回归模型精度最高,稳定性最好,其在建立偏最小二乘模型的时能接纳更多的潜变量而不容易出现过配,本文为今后土壤光谱数据预处理及土壤有机质光谱特性研究提供了参考。
[1]
ANGELOPOULOU T BALAFOUTIS A ZALIDIS G,et al. From laboratory to proximal sensing spectroscopy for soil organic carbon estimation:a review[J]. Sustainability202012(2):443.

[2]
李浩,于滈,曹永研,等. 利用CARS-CNN模型的土壤有机质含量高光谱预测[J]. 光谱学与光谱分析202444(8):2303-2309.

[3]
尚天浩,毛鸿欣,张俊华,等. 基于PCA敏感波段筛选与SVM建模的银川平原土壤有机质高光谱估算[J]. 生态学杂志202140(12):4128-4136.

[4]
陈颂超,彭杰,纪文君,等. 水稻土可见-近红外-中红外光谱特性与有机质预测研究[J]. 光谱学与光谱分析201636(6):1712.

[5]
邬登巍,张甘霖. 母质与土地利用类型对土壤光谱反演模型的影响[J]. 土壤201648(1):173-179.

[6]
刘效栋. 基于高光谱遥感的黄土高原丘陵沟壑区土壤有机质含量估测模型研究[J]. 西部大开发(土地开发工程研究)20183(12):13-18.

[7]
郄欣,齐雁冰,刘姣姣,等. 基于室内高光谱数据的多种类型土壤有机质估算模型比较[J]. 干旱地区农业研究202139(4):109-116,124.

[8]
鲍士旦. 土壤农化分析[M]. 3版. 北京:中国农业出版社,2000.

[9]
沈掌泉,王珂. 用近红外光谱预测土壤碳含量的研究[J]. 红外与毫米波学报201029(1):32-37.

[10]
CHANG C W LAIRD D A MAUSBACH M J,et al .Near-infrared reflectance spectroscopy principal components regression analysis of soil properties[J].Soil science society of America journal200165(2):480-490.

Outlines

/