基于Sentinel-2A的孙吴地区土壤有机质反演研究
Sentinel-2A based inversion of the organic matter content of soil in the Sunwu area
通讯作者: 杨佳佳(1984-),男,博士,高级工程师,主要从事遥感应用研究工作。Email:haixianxiaomei@163.com
责任编辑: 蒋实
收稿日期: 2022-01-25 修回日期: 2022-06-27
基金资助: |
|
Received: 2022-01-25 Revised: 2022-06-27
作者简介 About authors
陈超群(1996-),女,硕士研究生,主要研究方向为生态环境遥感与地理信息系统。Email:
利用Sentinel-2A多光谱遥感影像,结合实测土壤信息,对黑龙江省孙吴县黑土区土壤有机质含量进行反演研究。对影像进行预处理后,通过相关分析和随机森林(RF)选取特征波段,采用偏最小二乘法和BP神经网络构建土壤有机质含量多光谱模型反演红旗林场土壤有机质含量。研究表明:相关性选取的倒数对数一阶微分反射率波段和RF选择的组合波段能够有效提高土壤反演精度,组合波段的RF-BP神经网络模型反演效果最佳,R2=0.724 5,RMSE=1.312 7%。本次研究可为实现土壤有机质动态监测提供技术支持和参考。
关键词:
This study conducted the inversion of the organic matter content in the soil of the black soil area in Sunwu County, Heilongjiang Province using the Sentinel-2A multispectral remote sensing images and the surveyed soil data. After preprocessing the images, the characteristic bands were selected through correlation analysis and using the random forest (RF) method. Subsequently, a multispectral inversion model for the organic matter content of the soil was built using the partial least square method and the BP neural network, and the inversion of the organic matter content of the soil in the Hongqi Forest Farm was conducted. According to the obtained results, the bands selected based on the reciprocal of the logarithm of the first-order differential of reflectance through the correlation analysis and the combined bands selected using the RF method can effectively improve the inversion precision of the organic matter content in the soil, and the RF-BP neural network model for the combined bands yielded the optimal inversion performance (R2=0.7245 and RMSE=1.3127%). The results of this study will provide technical support and reference for the dynamic monitoring of the organic matter content in soils.
Keywords:
本文引用格式
陈超群, 戴慧敏, 冯雨林, 杨泽, 杨佳佳.
CHEN Chao-Qun, DAI Hui-Min, FENG Yu-Lin, YANG Ze, YANG Jia-Jia.
0 引言
土壤有机质含量遥感反演主要包含两个研究方向:光谱信息的处理与选择和反演模型的构建。常采用的光谱处理方法有倒数、对数、去包络线变换等,但选取的有机质特征波段因影像数据源不同而有所差异。屈冉等[5]选取Landsat TM 影像反演广西壮族自治区富川县的有机质含量,认为土壤有机质含量与Landsat TM 波段5和波段7 的DN值相关性最高。陈德宝等[6]借助Landsat 8遥感影像对农安县黑土区有机质进行建模反演,表明短波红外B6波段反射率所建模型拟合效果最好。陈思明等[7]对Landsat 7 土壤光谱进行线性波谱分离重建,认为重建光谱能显著增强与土壤有机质含量的相关性,提高土壤有机质反演精度。在以往研究中,线性回归和偏最小二乘回归模型(PLSR)常被用于土壤有机质含量反演。Dhawale 等[8]结合土壤样品有机质含量和相应的土壤反射率,选用PLSR建模,均方根误差不超过2.24%。马驰[9]对比Sentinel-2A遥感影像不同波段组合的多元回归模型,R2均大于0.7。目前针对有机质敏感波段的选择主要采用Pearson相关分析法,反演模型也多选择线性拟合。本次研究借助Sentinel-2A遥感影像,结合黑河市孙吴县实测土壤有机质含量,通过Peason 相关分析和随机森林(RF)选择不同特征波段作为模型输入量,采用PLSR和BP 神经网络建模,以期研究土壤表层有机质含量与遥感影像关系,并实现地面黑土区红旗林场的土壤有机质高精度快速反演。
1 研究区概况
研究区孙吴县地处黑龙江省黑河市中部,位于东经126°39'35″~128°1'6″,北纬48°59'00″~49°41'55″(图1)。东部紧靠逊克县,西边为嫩江县,南侧与五大连池市相挨,北方为黑河市爱辉区,总面积4 318.9 km2。孙吴县海拔110~755 m,属于低山丘陵区,地势总体呈西南高东北低趋势。地貌分界清晰,从西到东分别为低山沟谷区、丘陵河谷地区和沿江平原。土壤类型以暗棕壤和草甸黑土为主[10]。气候属于寒温带大陆性季风气候,年均气温-0.6 ℃,年均降雨约550 mm,冻结期较长,无霜期短[11]。本文选择孙吴县红旗林场地区进行遥感反演,红旗林场位于孙吴县西北方向,范围为东经126°41'25″~127°14'34″,北纬49°16'32″~49°30'58″,界内发育孙吴县最高山峰松木山。
图1
图1
孙吴县遥感影像(a)及红旗林场位置(b)
Fig.1
Remote sensing image of Sunwu County(a)and the location of Hongqi Forest Farm(b)
2 数据采集与处理
2.1 土壤采集与有机质测定
按照《土地质量地球化学评价规范》(DZ/T 0295—2016)采样要求,在孙吴县采集土壤时去除表面枯枝落叶等杂物,用刻槽法垂直采集地表至20 cm深土样,保证上下均匀采集,并去除动、植物残留体、砾石、肥料团块等。土壤有机质含量采用硫酸—重铬酸钾法测定。共计采集806个样品,其中564个土样作为建模集,242个样品为测试集,统计信息如表1所示。
表1 土壤样品中有机质含量统计信息
Table 1
个数 | 最小值/% | 最大值/% | 均值/% | 标准差/% | |
---|---|---|---|---|---|
建模集 | 564 | 0.8620 | 11.8266 | 5.7226 | 2.0316 |
测试集 | 242 | 1.1896 | 11.9128 | 5.8393 | 2.1074 |
2.2 遥感数据获取与处理
选取研究区内2018年11月7日裸土无雪时期的Sentinel-2A影像,云覆盖0%。影像的预处理包括几何校正、大气校正、图像镶嵌及图像剪裁等操作。所选影像为Level-1C 上层大气反射产品,已经过系统几何精校正处理,其精度在一个像元内,满足研究需求。借助SNAP软件中Sen2cor280工具箱实现大气校正,校正后丢失卷云波段B10。为提高土壤有机质与光谱反射率(R)相关性,对遥感影像进行倒数(1/R)、对数(lgR)、幂函数(Ra)、一阶微分(FDR)、二阶微分(SDR)及倒数对数一阶微分(FDLR)处理。
3 算法原理
3.1 Pearson相关分析
为获取土壤有机质光谱响应波段,研究中采用Pearson相关判断反射率与有机质含量之间的线性相关性。公式为:
式中:r表示相关系数;
3.2 随机森林
3.3 偏最小二乘回归模型
偏最小二乘回归分析(partial least square regression,PLSR)常用于遥感光谱反演建模,优势在于建模过程中集中了主成分分析、典型相关分析和线性回归分析方法的优点[14]。其建模思路为:设自变量
为了检验反演模型的精度及稳定性,借助决定系数
式中:n为样本个数;
3.4 BP神经网络
式中:n为输入层节点数;m为输出层节点数;k为1~10之间的常数;N为隐藏层节点数。
4 黑土区土壤有机质反演
4.1 特征波段选择
4.1.1 相关性波段选择
图2
图2
波段反射率及其变换与土壤有机质含量相关性
Fig.2
Correlation between band reflectivity and transformations and soil organic matter content
表2 相关性选取特征波段
Table 2
数学变换 | 波段 |
---|---|
R | B1、B2、B3、B4、B5、B6、B7、B8、B9、B12 |
1/R | B1、B2 |
lgR | B1、B2、B3、B4、B5、B12 |
Ra | B4、B5、B6、B7、B8、 B9、B12 |
FDR | B1、B2、B3、B4、B5、B6 |
SDR | B1、B4、B5 |
FDLR | B1、B2、B3、B4、B5、B6、B8、B12 |
组合波段 | 1/B1、FDL(B2)、lg (B3)、B4、FDL(B5)、FDL(B6)、B7、FDL(B8)、(B9)a、FDL(B12) |
4.1.2 RF重要性选择
采用R语言的randomForest包实现土壤有机质特征波段选取,其中默认生成500棵决策树,并进行5次重复十折交叉验证,结合最简原则选择不同光谱变换下的特征波段。以对数变换为例,图3交叉验证曲线展示了模型误差与用于拟合的自变量数量的关系,当波段数为6时,误差下降幅度基本保持不变,结合简约性原则,选择重要程度值从大到小排序前6的波段作为有机质反演建模的输入参数,实验中R、1/R、Ra、FDR、SDR以及FDLR均需要6个重要变量表示土壤有机质含量。为提高变量表达精度,将所有波段的变换作为RF的因变量,并需要X.IncMSE值前26个波段变换作为建模输入参数集,以精准表达有机质含量信息(图4)。RF重要波段选取结果如表3所示。
图3
图4
表3 RF重要波段
Table 3
数学变换 | 波段 |
---|---|
R | B1、B2、B3、B5、B7、B8A |
1/R | B1、B2、B3、B5、B7、B8A |
lgR | B1、B2、B3、B5、B6、B7 |
Ra | B2、B3、B5、B6、B7、 B8A |
FDR | B1、B2、B3、B4、B6、B12 |
SDR | B1、B3、B4、B5、B11、B12 |
FDLR | B1、B2、B3、B4、B8、B12 |
组合波段 | B1、B7、B11、1/B1、1/B2、1/B3、1/B11、1/B1、lg(B2)、FDL (B1)、FDL (B2)、FDL (B3)、FDL (B5)、FDL (B6)、FDL (B8)、FD (B1)、FD (B5)、FD (B6)、FD (B12)、SD(B1)、SD(B2)、SD(B3)、SD(B5)、SD(B8)、SD(B11)、SD(B12) |
4.2 土壤有机质反演
4.2.1 PLSR模型反演
表4 基于PLSR模型的土壤有机质反演
Table 4
数学 变换 | 拟合模型 | 建模集 | 测试集 | |||
---|---|---|---|---|---|---|
R2 | RMSE/% | R2 | RMSE/% | |||
相 关 性 | R | 0.0275 | 2.0263 | 0.0155 | 2.0925 | |
1/R | 0.0439 | 1.9847 | 0.0657 | 2.0375 | ||
lgR | 0.0525 | 1.9757 | 0.0609 | 2.0406 | ||
Ra | 0.0159 | 2.0136 | 0.0121 | 2.0917 | ||
FDR | y=5.8376-23.9683x1+67.1411x2-63.9701x3+44.2371x4 | 0.0223 | 2.0071 | 0.0409 | 2.0632 | |
SDR | 0.0200 | 2.0093 | 0.0238 | 2.0800 | ||
FDLR | 0.0524 | 1.9779 | 0.071 | 2.0366 | ||
组合 | 0.0434 | 1.9852 | 0.0400 | 1.9933 | ||
随 机 森 林 | R | 0.0203 | 2.0318 | 0.0035 | 2.0539 | |
1/R | 0.0234 | 2.2798 | 0.09 | 2.0390 | ||
lgR | 0.0480 | 2.0029 | 0.0408 | 2.0124 | ||
Ra | 0.0051 | 2.0475 | 0.0023 | 2.0525 | ||
FDR | 0.0365 | 2.0149 | 0.0207 | 2.0356 | ||
SDR | 0.0331 | 2.0496 | 0.0200 | 2.0520 | ||
FDLR | 0.0463 | 2.0046 | 0.0418 | 2.0118 | ||
组合 | 0.0760 | 1.9518 | 0.0363 | 2.0183 |
4.2.2 BP神经网络模型反演
结合式(4),根据相关性和RF重要程度选取获得的特征波段数,确定BP神经网络模型中隐含层层数。网络的训练函数为Trainlm,输入层和输出层传递函数分别为Tansig和Purelin,表5为相关分析和RF两种特征响应波段模拟结果,对比PLSR拟合结果(表4),非线性拟合的多光谱遥感影像反射率与土壤有机质含量模型精度能得到显著提高。由于多光谱遥感的光谱分辨率较低,光谱包含的土壤信息较为复杂,因此无法类比高光谱土壤有机质遥感反演,线性回归拟合模型不能有效提取影像上土壤有机质含量信息[18⇓-20]。相关性提取波段与RF提取的重要波段在进行BP神经网络建模时,建模集和测试集的R2主要集中在0.2~0.5,RMSE集中在1.3%~1.4%。相关-BP神经网络模型中FDLR建模拟合程度最高,建模集R2为0.623 7,RMSE为1.354 8%,测试集 R2为0.444 6,RMSE为1.266 4%。RF-BP神经网络模型中组合波段建模拟合程度最高,建模集R2为0.724 5,RMSE为1.312 7%,测试集 R2为0.541 8,RMSE为1.372 2%。
表5 基于BP神经网络模型的土壤有机质反演
Table 5
数学变换 | 隐藏层个数 | 建模集 | 测试集 | |||
---|---|---|---|---|---|---|
R2 | RMSE/% | R2 | RMSE/% | |||
相 关 性 | R | 5 | 0.3635 | 1.3998 | 0.2711 | 1.4472 |
1/R | 11 | 0.2816 | 1.4057 | 0.2291 | 1.4283 | |
lgR | 6 | 0.3392 | 1.3967 | 0.2818 | 1.4207 | |
Ra | 11 | 0.2726 | 1.4041 | 0.2388 | 1.4555 | |
FDR | 10 | 0.2074 | 1.4149 | 0.1697 | 1.4368 | |
SDR | 9 | 0.2005 | 1.4106 | 0.1977 | 1.4388 | |
FDLR | 6 | 0.6237 | 1.3548 | 0.4446 | 1.2664 | |
组合 | 16 | 0.5637 | 1.3548 | 0.4305 | 1.3659 | |
随 机 森 林 | R | 7 | 0.2906 | 1.4000 | 0.2601 | 1.4362 |
1/R | 7 | 0.2603 | 1.4068 | 0.2241 | 1.4262 | |
lgR | 14 | 0.2883 | 1.4068 | 0.2664 | 1.4231 | |
Ra | 14 | 0.1663 | 1.4152 | 0.2499 | 1.4200 | |
FDR | 7 | 0.3751 | 1.3980 | 0.2860 | 1.4090 | |
SDR | 11 | 0.2783 | 1.4107 | 0.2057 | 1.4520 | |
FDLR | 13 | 0.4544 | 1.3750 | 0.3653 | 1.2420 | |
组合 | 16 | 0.7245 | 1.3127 | 0.5418 | 1.3722 |
结合表4中对比R、1/R等波段变换的不同提取方法,Pearson相关分析中选择的FDLR反射率变换在线性回归和非线性回归中都展现较高的拟合效果。因为Pearson相关性分析获取的是有机质含量与反射率间简单直线性相关的方向和密切程度,因此光谱处理的程度直接决定了与有机质含量的相关性,进而影响了模型反演精度。FDLR变换中光谱倒数对数计算可以有效放大相似光谱间的差别,再经过一阶微分处理后消除部分线性的背景,同时降低噪声光谱对目标光谱的影响程度。但相关性选择的组合波段包含了反射率变量处理的不同级别,当加入相关性低的波段变换,很有可能引入了土壤其他成分的特征信息,导致有机质反演精度降低。而在RF重要程度选择中存在误差验证,结合每次选择的特征集计算袋外误差率,最后选择袋外误差率最低的特征集作为回归模型的输入集。筛选出的波段可能与有机质含量相关性低,但叠加其他波段光谱特征反而提高了有机质估测精度。因此RF波段选取时,组合所有光谱反射率及变换信息后筛选出的特征响应波段更能充分反映有机质含量信息,建模精度显著提升。
4.3 红旗林场有机质空间分布
对比8种影像变换的相关-PLSR、相关-BP神经网络、RF-PLSR、RF-BP神经网络建模情况,选择模型拟合度最高、稳定性最好的RF-BP神经网络模型作为多光谱遥感数据的土壤有机质反演模型,并预测孙吴县红旗林场的有机质含量分布(图5)。红旗林场的有机质范围大致在0.1%~18.8%,主要集中在3.742 6%~12.455 2%,平均含量为7.939 9%,呈现出中间高、四周低的分布趋势。该地区土壤有机质地球化学分析结果显示,红旗林场有机质平均含量为8.51%,分布趋势为中西部含量偏高,向北侧逐渐降低,该结果与遥感反演程度几乎吻合。但由于在林场附近采集土壤样品较少,因此地球化学实测结果分布较为粗糙,而遥感反演获取的土壤有机质含量更为细致。
图5
图5
红旗林场土壤有机质遥感反演和地球化学对比
Fig.5
Distribution of soil organic matter in Hongqi Forest Farm
5 结论
对Sentinel-2A多光谱遥感影像反射率进行1/R、lgR、Ra、FDR、SDR及FDLR变换,结合不同模型实现了土壤有机质的反演,取得很好应用成效。主要得出以下结论:
1)通过相关性分析法建模时反射率的FDLR变换模型拟合程度最好,而采用RF算法筛选的组合波段在反演时能有效提高土壤有机质含量建模精度。
2)多光谱遥感影像光谱分辨率较低,因此线性拟合模型无法准确估测土壤有机质含量,需要非线性模型以实现光谱信息与有机质含量的有效拟合。
3)对比不同遥感影像预处理操作下的相关-PLSR、相关-BP神经网络、RF-PLSR、RF-BP神经网络建模情况,RF-BP神经网络模型反演土壤有机质含量拟合程度最高,建模集R2为0.724 5,RMSE为1.312 7%,测试集 R2为0.541 8,RMSE为1.372 2%。
参考文献
森林沼泽景观区有机质对元素表生地球化学特征的影响机制
[J].
Preliminary research into the disturbed principle of organic material to character of supergene-geochemistry in forest marsh landscape andscape area
[J].
Beyond clay:Towards an improved set of variables for predicting soil organic matter content
[J].DOI:10.1007/s10533-018-0424-3 URL [本文引用: 1]
东北地区黑土退化地球化学指示与退化强度
[J].
Black soil degradation and intensity in northeast China: Geochemical indication
[J].
多光谱遥感结合随机森林算法反演耕作土壤有机质含量
[J].
Invertion of cultivated soil organic matter content combining multi-spectral remote sensing and random forest algorithm
[J].
基于多光谱遥感影像的富川县表层土壤有机质含量反演
[J].
Inversion of surface soil organic matter content in Fuchuan county based on multi spectral remote sensing image
[J].
基于Landsat8遥感图像的黑土区土壤有机质含量反演研究
[J].
DOI:10.13733/j.jcam.issn.2095-5553.2020.06.031
[本文引用: 1]
针对黑土区耕地土壤有机质含量测定快速性和准确性的需求,探究黑土区耕地土壤有机质含量与卫星影像光谱间的关系,以促进信息技术在农业领域的应用。本文通过确定土壤有机质的光谱特征,来构建土壤有机质含量的反演模型。首先采集2018年吉林省农安县耕地土壤Landsat 8遥感图像,用快速大气校正(QUAC)模型对遥感图像进行大气校正;然后结合研究区域土壤采样的有机质含量化验数据,通过基于敏感波段多元线性回归分析的方法,构建了研究区土壤有机质含量的定量反演模型。试验结果表明:土壤有机质含量在短红外1(B6)波段1.560~1.660μm处具有良好的响应能力;反射率所建立的模型拟合效果最优;其R~2为0.974,RMSE为24.058,验证模型有机质含量实测值与预测值的R~2为0.933,证明该反演模型具有较高的精度与稳定性。研究结果为促进遥感技术在土壤养分含量的快速测定提供了新的途径。
Inversion of soil organic matter content in black soil region based on landsat8 remote sensing image
[J].
土壤光谱重建的湿地土壤有机质含量多光谱反演
[J].
Inversion of soil organic matter content in wetland using multispectral data based on soil spectral reconstruction
[J].
Proximal soil sensing of soil texture and organic matter with a prototype portable mid-infrared spectrometer
[J].DOI:10.1111/ejss.12265 URL [本文引用: 1]
基于Sentinel-2A遥感影像土壤有机质含量的反演研究
[J].
Inversion of soil organic matter content based on sentinel-2A remote sensing image
[J].
Random forests
[J].DOI:10.1023/A:1010933404324 URL [本文引用: 1]
基于随机森林算法的砂土液化预测方法
[J].
The method of predict sand liquefaction based on random forest algorithm
[J].
对数比变换和偏最小二乘法在地球化学组合异常提取中的应用——以湘西北铅锌矿为例
[J].
Log-ratio transformation and PLS methods for identifying integrated geochemical anomalies: A case study of lead-zinc mineralization in northwestern Hunan
[J].
基于连续小波变换的土壤有机质含量高光谱反演
[J].
Hyperspectral inversion of soil organic matter content based on continuous wavelet transform journal of agricultural science and technology
[J].Taking organic matter contents of 120 soil samples and corresponding spectral data in Tuoketuo County as data sources, the feasibilities of hyperspectral inversion of soil organic matters under different type of soils and lands of different use were explored. The original spectrum (R), spectral reciprocal (1/R), spectral logarithm (LnR) and spectral first-order differential (R′) were decomposed by continuous wavelet transform to generate wavelet coefficients, and the correlation between soil organic matter and wavelet coefficients was analyzed, and BP neural network and support vector machine (SVM) were established by extracting the characteristic bands. The results were followed. ①The correlation coefficients between R, 1/R, LnR, R′ and soil organic matter were increased by 0.204, 0.090, 0.199 and 0.252 after continuous wavelet transform, respectively, which showed that continuous wavelet transform could deeply mine the potentially spectral information and enhance the correlation with organic matter content. ② Before continuous wavelet processing, SVM could not predict the content of soil organic matter, while after processing, the accuracies (R2) of SVM-CWT-R and SVM-CWT-R′ were 0.50 and 0.56, Root mean square errors (RMSE) were 0.17 and 0.15, residual predictive deviations (RPD) were 1.62 and 1.53, respectively, which realized the effective estimation of SOM. ③ After continuous wavelet transform, the results of BP neural network prediction model were improved. Among them, BP-CWT-LnR prediction model had the best effect, R2 was 0.76, which was higher than BP-lnR, RMSE was 0.15 reduced by 0.04, RPD was 2.12 increased by 0.87. Therefore, the BP-CWT-LnR hyperspectral inversion model could provide theoretical reference and technical support for precision agriculture.
基于高光谱数据的土壤有机质含量反演模型比较
[J].
Comparison on inversion model of soil organic matter content based on hyperspectral data
[J].
基于多光谱遥感的裸土土壤含水量反演研究
[J].
Inversion of soil moisture in bare soil based on multi-spectral remote sensing
[J].
淮北矿区有机质含量反演
[J].
Inversion of organic matter content in Huaibei mining area
[J].
基于高光谱的土壤养分含量反演模型研究
[J].
Research of soil nutrient content inversion model based on hyperspectral data
[J].
/
〈 |
|
〉 |
