E-mail Alert Rss
 

物探与化探, 2024, 48(3): 747-758 doi: 10.11720/wtyht.2024.1114

方法研究·信息处理·仪器研制

基于Boruta算法和GA优化混合地统计模型的土壤有机质空间分布预测

高鹏利,1, 任大陆2, 李朝辉3, 冯志强,1,4, 苗洪运2, 乔林2, 王建武4, 杨永亮4, 张利明4, 李光辉5

1.太原理工大学地球科学与工程系 战略性矿产资源成矿作用与评价山西省重点实验室,山西 太原 030024

2.山西省地质勘查局 二一三地质队有限公司,山西 临汾 041000

3.中国冶金地质总局 第三地质勘查院,山西 太原 030006

4.山西省地质调查院有限公司,山西 太原 030006

5.山西大学 物理电子工程学院,山西 太原 030006

Predicting the spatial distribution of soil organic matter using the model consisting of the Boruta algorithm and the optimized GA combined with the geostatistical method

GAO Peng-Li,1, REN Da-Lu2, LI Chao-Hui3, FENG Zhi-Qiang,1,4, MIAO Hong-Yun2, QIAO Lin2, WANG Jian-Wu4, YANG Yong-Liang4, ZHANG Li-Ming4, LI Guang-Hui5

1. Shanxi Province Key Laboratory of Metallogeny and Assessment of Strategic Mineral Resources, Department of Earth Science and Engineering, Taiyuan University of Technology, Taiyuan 030024, China

2. No. 213 Geology Team of Shanxi Provincial Geological Prospecting Bureau, Linfen 041000, China

3. The Third Geolodical Exploration Institute, General Administration of Metallurgical Geology of China, Taiyuan 030006, China

4. Shanxi Institute of Geological Survey Co., Ltd., Taiyuan 030006, China

5. College of Physics and Electronic Engineering, Shanxi University, Taiyuan 030006, China

通讯作者: 冯志强(1984-),男,博士,教授,博士生导师,构造地质学专业。Email:fengzhiqiang@tyut.edu.cn

第一作者: 高鹏利(1998-),女,硕士研究生,地质工程专业。Email:gao.pengli@qq.com

责任编辑: 蒋实

收稿日期: 2023-03-14   修回日期: 2023-09-5  

基金资助: 山西省地质勘查基金项目(ZJZC-231FW125)
山西省地质勘查基金项目(0632-1911FW1L2054-20)
山西省地质勘查基金项目(晋地发[2020]32号)
山西省地质勘查基金项目(2020-00164-G155-C54)
山西省自然科学基金(2019L0126)
山西省自然科学基金(2019L0054)
山西省基础研究计划项目(20210302122)
山西省基础研究计划项目(4012)

Received: 2023-03-14   Revised: 2023-09-5  

摘要

建立土壤有机质(SOM)空间预测模型不仅可以准确预测SOM含量的空间分布,而且对科学化土壤管理和完善生态系统服务具有重要意义。本文以山西省临汾市永和县土壤为研究对象,从数字高程模型(DEM)和植被遥感数据中提取出地形因子和植被指数,结合土壤本身属性为变量因子,采取Boruta算法从变量因子中筛选出与SOM相关性强的特征变量为辅助变量作为模型输入,实测SOM值作为模型输出,选择普通克里格方法(OK)、反向传播神经网络(BPNN)、遗传算法优化的BP神经网络(GA-BPNN)和GA优化BP神经网络结合地统计方法(GA-BPNN-OK)对训练集样本 SOM 含量进行预测,并利用验证集样本对比分析预测精度。研究结果显示:Boruta算法优选出特征变量并且对其进行了重要性排列,依次为:全氮>地形湿度指数(TWI)>高程>坡度>归一化植被指数(NDVI)>增强型植被指数(EVI);4种方法对SOM的预测结果虽然局部会有差异,但整体的空间分布基本一致,在研究区内呈现出西部和西南部地区低、东部和东南部地区高的空间分布趋势,与其他3种模型相比,GA-BPNN-OK模型预测的SOM分布图对低值区和高值区的划分更加明显、细致;预测精度指标对比得出,GA-BPNN-OK法的均方根误差(RMSE为0.059)、平均绝对误差(MAE为0.240)、平均相对误差(MRE为0.165)最小,且拟合系数(R2为0.78)最高。同时为了验证采用Boruta算法对模型精度有所提高,将全变量与特征筛选之后的变量作为GA-BPNN法的模型输入,对预测结果进行对比,结果表明采取Boruta算法后模型误差减小。因此采取Boruta算法筛选出特征变量作为辅助变量,GA-BPNN-OK法对于SOM含量空间分布的精度最高,两者结合为最优预测模型。

关键词: 土壤有机质(SOM); BPNN; GA-BPNN; 特征选择; GA-BPNN-OK

Abstract

Establishing a spatial prediction model for soil organic matter (SOM) can accurately predict the spatial distribution of SOM content, playing a significant role in scientific soil management and ecosystem service enhancement. Focusing on the soils in Yonghe County, Linfen City, Shanxi Province, this study extracted topographic factors and vegetation indices from the digital elevation model (DEM) and vegetation remote sensing data. With soil attributes as variable factors, this study, using the Boruta algorithm, selected the characteristic variablescorrelating strongly with SOM from variable factors as auxiliary variables. These auxiliary variables were used as model inputand the measured SOM values as model output.The SOM content in samples in the training set was predicted usingthe ordinary Kriging (OK)method, the back propagation neural network (BPNN), the genetic algorithm-optimized BPNN (GA-BPNN), and the improved BPNN combined with the geostatistical method (the GA-BPNN-OK method) separately. The prediction accuracy was comparatively analyzed based on samples in the validation set. The results show that: (1)The Boruta algorithm ranked the selected characteristic variables in order of importance, obtaining the sequence of total nitrogen >topographic wetness index (TWI) > elevation > slope > normalized difference vegetation index (NDVI) > enhanced vegetation index (EVI); (2)Despite local differences,the SOM prediction results obtained using the four methods exhibited roughly the same overall spatial distribution: low in the western and southwestern portions of the study areabut high in the eastern and southeastern portions;(3)Compared to the other three models, the GA-BPNN-OK model demonstrated more distinct low- and high-value areas in the predicted SOM distribution. (4) As revealed by the comparison of prediction accuracy indices, the GA-BPNN-OK method yielded a minimum root mean square error (RMSE) of 0.059, a minimum mean absolute error (MAE) of 0.240,a minimum mean relative error (MRE) of 0.165, and a maximum fitting coefficient (R2) of 0.78. To verify the effects of the Boruta algorithm in improving model accuracy, global variables, as well as the variables determined through characteristic selection, were used as the model inputof the GA-BPNN method. The comparison of the prediction results indicates that the Boruta algorithm reduced the model error. Therefore, the Boruta algorithm and the GA-BPNN-OK method constitute the optimal prediction model for the spatial distribution of SOM content.

Keywords: soil organic matter (SOM); BPNN; GA-BPNN; feature selection; GA-BPNN-OK

PDF (4424KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

高鹏利, 任大陆, 李朝辉, 冯志强, 苗洪运, 乔林, 王建武, 杨永亮, 张利明, 李光辉. 基于Boruta算法和GA优化混合地统计模型的土壤有机质空间分布预测[J]. 物探与化探, 2024, 48(3): 747-758 doi:10.11720/wtyht.2024.1114

GAO Peng-Li, REN Da-Lu, LI Chao-Hui, FENG Zhi-Qiang, MIAO Hong-Yun, QIAO Lin, WANG Jian-Wu, YANG Yong-Liang, ZHANG Li-Ming, LI Guang-Hui. Predicting the spatial distribution of soil organic matter using the model consisting of the Boruta algorithm and the optimized GA combined with the geostatistical method[J]. Geophysical and Geochemical Exploration, 2024, 48(3): 747-758 doi:10.11720/wtyht.2024.1114

0 引言

土壤有机质(soil organic matter,SOM)是植物和微生物生命活动必不可少的养分和能量来源,是衡量土壤肥力的重要指标,也是陆地土壤碳库的重要组成[1-2],其在调节全球碳循环和土壤理化性质方面有着十分重要的贡献,对于高水平粮食的生产也发挥着重要影响[3]。所以,更好地了解SOM空间分布特征可以有效利用土地资源。但是在实际研究中,由于地形要素、社会经济、气候和土壤属性存在差异,使得SOM空间分布不均匀[4-10]。另一方面,在对土壤野外调查取样的过程中,由于地形和人为因素,导致取样结果存在误差,所以无法精准指导农业和规划土地利用[11]

近年来,随着“3S”技术的发展,数字土壤制图领域中的多种方法和模型被广泛应用于预测土壤养分的空间分布[12-13]。其中,普通克里金插值法(ordinary Kriging,OK)因其原理简单被前人广泛使用[14-15]。但是OK法仅依赖样本本身的关系,并未考虑其他环境因素的影响,所以预测精度较低,无法满足人们对空间分布图精确性的需求,另外OK法有易造成平滑效应的缺点[16]。随着技术的不断深入,很多国内外学者针对OK法存在的问题进行研究,认为可加入辅助变量对土壤养分进行空间分布的预测,并且采用神经网络模型作为预测模型[17-18]。国内学者吴俊等[19]将高光谱数据作为辅助变量,采用反向传播神经网络(BPNN)模型与其他模型对比,表明BPNN的预测效果最佳。国外学者Odebiri 等[20]利用光谱数据作为变量输入,采用人工神经网络(ANN)作为预测模型,研究结果表明神经网络模型使得模型精度提高,可以作为预测模型对土壤养分进行空间分布预测。在此研究基础上,很多学者又将神经网络与地统计学方法结合起来,发现该方法对土壤养分的空间分布预测比单独的神经网络预测模型有更高的精度。赖雨晴等[21]选取14个辅助变量,利用RBFNN与 OK相结合的模型(RBFNN-OK)对土壤有机碳(SOC)含量的空间分布进行预测,结果显示RBFNN-OK比单独的模型预测精度要高。张宏帅等[22]选取5个辅助变量,采用BPNN与OK相结合的模型(BPNN-OK)对SOM含量的空间分布进行预测,发现BPNN-OK的模型精度最高。众多研究表明,加入辅助变量并利用神经网络模型与地统计方法相结合的模型,预测精度更高,且此类方法在对土壤养分空间分布预测上也有一定的技术基础。这种混合的地统计模型不仅可对土壤养分进行空间分布预测,也同样适用于土壤重金属的空间分布预测。Song等[23] 研究利用高光谱数据作为辅助变量并混合地质统计学方法(ANN-OK)来预测武清市土壤重金属As、Cd、Cr、Ni和Zn的浓度,研究发现其精度最高,同时也表明混合地统计模型作为一种预测模型是一项首选的技术手段。

虽然前人在对土壤养分空间分布预测方面的研究已经做过很多,但是仍然存在一些问题:在辅助变量的选取上只对环境因子进行选择,很少将土壤本身属性作为影响因子;在特征变量的选取上,对取得的全部的变量进行了建模,没有对其进行特征筛选;在预测模型上,只单纯的利用神经网络模型与地质统计方法相结合,很少研究将神经网络模型进行优化后与地统计方法相结合(GA优化混合地质统计法)作为预测模型。针对以上科学问题,本文以山西省临汾市永和县土壤为研究对象,基于实地采样获得的SOM实测值作为模型输出,利用Boruta算法从地形因子、植被指数和土壤属性这些影响因子中进行特征筛选,筛选出与SOM含量相关性强的特征变量为辅助变量作为模型输入,运用OK、BPNN、GA-BPNN、GA-BPNN-OK方法建立SOM预测模型。为了突出利用Boruta算法进行特征筛选之后进行模型预测的结果更为准确,将全变量与特征筛选之后的变量作为GA-BPNN法的模型输入,对预测结果进行对比分析。通过以上4种方法的预测模型精度指标对比,最终得到SOM 最佳预测模型,并且对研究区SOM含量空间分布进行数字制图显示。绘制出的SOM含量空间分布图可以对当地的农业进行有效、精准的指导,从而激发当地农业经济活力。

1 研究区与数据源

1.1 研究区概况

山西省永和县地处吕梁山脉南端,黄河中游晋陕大峡谷东岸,临汾市西北边缘(36°31'19″N~36°56'13″N; 110°22'29″E~110°50'20″E),东西宽41 km,南北长46 km,土地总面积1 219 km2,其中耕地面积占到239.46 km2,园地面积占68.74 km2,土地类型分布有园地、建设用地、旱地、林地、空地和草地。从图1可以看出,研究区旱地和草地分布广泛,园地主要分布在西部,林地主要分布在中部和东部地区,且4种土地类型为研究区主要土地利用类型(图1)。研究区地质构造位于吕梁山背斜南端西侧,以褶皱为主,断裂构造不发育,以新生界第四系细砂、泥灰岩及近代冲积层为主,河谷地带为中生界三叠系长石砂岩、石英砂岩及泥岩。根据中国土壤分类,研究区内土壤类型以栗褐土和褐土性土为主。区内属半干旱半湿润大陆季风气候,全年比较温和,四季分明,光照充足。其优越的地理位置和良好的气候环境奠定研究区成为了山西省临汾市的一个农业区,以大宗经济作物玉米、高粱等农作物作为传统的种植结构。

图1

图1   研究区概况及土壤样点分布

Fig.1   General situation of the study area and distribution of soil samples


1.2 数据来源与处理

根据《土地质量地球化学评价规范》要求和研究区实际情况,土壤样品采用“网格+图斑”的模式布设,采样点覆盖整个研究区域。使用手持GPS结合土地利用现状图定点,获得采样点精确的经纬度坐标,最终获得样品点465个。土壤样品均在山西省地质勘查局二一三实验室进行测试,土壤有机质采用《耕地质量等级》(GB/T 33469—2016)附录C“土壤有机质的测定”、土壤全氮采用《区域地球化学样品分析方法第29部分:氮量测定凯氏蒸馏—容量法》(DZ/T 0279.29—2016)执行。在对土壤样品进行测试实验时全程按照实验步骤执行,保证结果的准确性。数据中通常会存在一些异常值,为了使预测结果准确,使用 SPSS 26 软件按照3倍标准差剔除异常值,最终得到数据集439个。然后在 ArcGIS 10.7 软件地统计工具中利用要素子集功能对数据集进行均匀随机划分,选取样本数据集的80%作为测试集数据(351个),20%作为验证集数据(88个),样品分布见图1

本文采用的数字高程模型(DEM)数据和植被数据来源于地理空间数据云(http:// www.gscloud.cn/),在此网站分别下载了分辨率为30 m的DEM数据和分辨率为250 m的陆地合成产品(MODLT1D和MODLT1T)。根据ArcGIS 10.7中的最近邻分配方法,对所有环境变量重新采样,空间分辨率为100 m×100 m。利用此数据在 ArcGIS 10.7 软件中提取计算出 6个地形因子和2个植被指数,其中地形因子包括高程(elevation)、坡度(ascent)、坡向(slope)、平面曲率(plan curvature)、剖面曲率(profile curvature)和地形湿度指数(topographicwetness index,TWI),植被指数有归一化植被指数(normalized difference vegetation Index,NDVI)和增强型植被指数(enhanced vegetation index, EVI) [24-26]。因为研究区地理位置特殊,土壤类型、成土母质和气候都比较单一,因此,在后续的建模中未考虑如上环境因子,最后选取6个地形因子、2个植被指数和1个代表土壤属性的全氮作为变量因子进行分析。

2 研究方法

2.1 Boruta算法

Boruta算法是一个基于随机森林算法的特征筛选算法,该算法可以在众多特征变量中筛选出与目标变量重要性强的变量,并且可以获取特征变量的重要性排列,为选择的特征变量提供最佳的分类精度[27]。本文基于R语言环境,在R 4.0.4软件中使用Boruta软件包对所选取的9个变量因子进行特征筛选,并对适合用于作为模型输入的特征变量进行重要性排列。该算法首先是加载数据集,将所有特征变量以行列矩阵的形式加载进去,总共10个特征变量(有机质为目标变量),随机打乱原始数据集得到所有影响参数的随机阴影特征,为给定数据集提供随机化。然后,运行训练随机森林(RF)分类器,并利用参数重要性来度量评估每个参数的影响。maxRuns(最大迭代次数)和doTrace分别设置成1 000和 2,在每次迭代中度量一个真正的参数是否比其影子参数的最佳值具有更显著的影响,并反复消除被评估为无影响的参数[28]。本文最终以迭代749次运行1.50 min,结果以阴影特征重要性的Z分布最大值(shadowMax)为筛选指标,直到所有的特征被指定重要性,既没有暂定特征,最终筛选出6个重要特征变量和3个不重要特征变量 [29-30]

2.2 OK、BPNN和 GA-BPNN预测模型

OK法基于土壤有机质的空间区域化特征,利用邻近相关采样点权重来对未采样点位置的土壤有机质含量进行预测,现已被广大学者应用于土壤有机质的空间插值中,并作为基本参照预测方法[31-33]。本文将OK模型作为最基本的对照模型,首先在GS+9.0软件里进行半方差函数分析,然后在ArcGIS里进行OK法空间插值预测。

反向传播神经网络(BPNN)是在前馈神经网络的基础上加入反向传播实现的[34]。BPNN包括输入层、隐含层、输出层3层网络结构,BPNN的流程如图2所示[35]。本文用经过Boruta算法筛选出的辅助变量,将其作为特征变量输入到 BPNN 中。为了消除这些因子的量纲不同而带来的影响,在Matlab2018b中利用归一化函数(mapminmax)对输入的变量进行归一化处理。然后创建newff 函数,隐含层和输出层分别用tansing和purelin函数,训练函数使用trainlm函数,步数为1 000,学习率为0.01。在训练的过程中,需设置 BPNN 的隐含层最大节点数。这个参数对模型的精度起着决定性作用,隐含层节点数越大表示神经网络的结构越复杂,输出结果越平滑。但是隐含层最大节点数应介于变量数和样品数之间。为了找到隐含层最佳的节点数,试图将隐含层节点数从7,以间距为1逐渐增加到20,通过对比均方误差最小,选出最佳隐含层节点数(程序运行结果是15)。将所有参数设置为最优后进行 BPNN 模型训练,最后将训练结果用于预测整个研究区的SOM含量。

图2

图2   GA-BPNN(a)和BPNN(b)流程

Fig.2   GA-BPNN (a) and BPNN (b) flow chart


由于BPNN初始连接权值和阈值的确定存在一定的随机性,而且存在网络收敛速度慢和容易陷入局部极小的问题,所以利用遗传算法(genetic algorithm,GA)优化BPNN的网络初始权值和阈值,从而构建GA-BPNN预测模型[36-37],GA-BPNN流程如图2所示。在BPNN建立的基础上,在Matlab2018b中首先初始化种群规模,将种群规模设定为10,最大次数设定为 20。使用初始化的BP神经网络的预测误差作为该个体的适应度值,选择操作采取轮盘赌选择;交叉操作采取两点交叉,交叉概率设定为 0.8;变异操作采取高斯变异,变异概率设定为 0.2。通过选择、交叉、变异寻找得到最优的权值和阈值。最后把最优初始阈值权值赋予BPNN进行SOM含量的预测。各预测模型之间的关系如图3所示。

图3

图3   技术路线

Fig.3   Technology roadmap


2.3 GA-BPNN-OK预测模型

GA-BPNN-OK预测模型是一种遗传算法优化BP神经网络模型与地统计方法结合的预测模型。基于2.2节建成的GA-BPNN模型对数据集进行预测,预测结果与实测值进行比较计算得到残差,对得到的残差在GS+9.0软件里进行半方差函数模拟。然后将GA-BPNN的预测结果导入ArcGIS中转成栅格文件,同时在ArcGIS里采用OK法对残差进行空间插值。最后将GA-BPNN的预测结果与OK法对残差空间插值的预测结果叠加得到GA-BPNN-OK的预测结果(图3)。

2.4 模型验证方法

利用ArcGIS 10.7划分得到训练集和验证集。因为在非空间方法的预测验证中,独立数据集比普通交叉验证程序更严格,所以采用独立数据集进行验证[38]。根据每个样本点的实测值和预测值计算得出均方根误差(RMSE)、平均绝对误差(MAE)、平均相对误差(MRE)和拟合系数(R2)。从而可以将4种方法的预测精度对比分析,得出精度评价结果。RMSE、MAE、MRE的值越小,表明预测的精度越佳。拟合系数(R2)越接近1,表明预测值与实测值的拟合程度越高。

3 结果与分析

3.1 SOM含量的描述性统计

表1为研究区土壤采样点数据的统计结果显示。研究区SOM平均值为8.34×10-3,范围在(2.24~16.36)×10-3。根据全国第二次土壤普查养分标准,研究区SOM含量标准处于四级—六级。SOM标准差为2.97,表明全区的SOM含量具有一定的波动性。从K-S检验的P值为0.012(小于0.05)可以得出,SOM含量不能近似服从正态分布,所以对SOM数据进行平方根变换,变换后的数据进行K-S检验,P值为0.2(大于0.05),认为SOM数据服从正态分布。研究区SOM的变异系数为35.61%,在10%~100%之间,认为SOM具有中等程度的变异性,可对其进行空间局部估计。同时对训练集和验证集进行SOM含量描述性统计,SOM训练集范围为(2.24~16.26)×10-3,平均值为8.42×10-3,变异系数为35.99(中度变异),K-S检验的P值为0.014(小于0.05),对SOM数据做平方根变换,使得P值大于0.05,服从正态分布;验证集范围为(2.83~15.29)×10-3,平均值为8.02×10-3,变异系数为33.42(中度变异),K-S检验P值为0.2(大于0.05),认为其服从正态分布。以上对训练集和验证集SOM含量的描述可以看出,其基本上保留了全部数据集的结构特征,所以研究具有一定的代表性。为了使得SOM数据符合正态分布而进行了平方根变化,所以在得到预测结果后,需将得到的预测值再进行数值平方计算,将数据恢复到原始规模。

表1   SOM含量描述性统计

Table 1  Descriptive statistics of SOM content

数据集样本数量最大值/10-3最小值/10-3平均值/10-3标准差/10-3偏度K-S检验变异系数/%
全部数据43916.362.248.342.970.350.01235.61
训练集35116.262.248.423.030.320.01435.99
验证集8815.292.838.022.680.400.20033.42

新窗口打开| 下载CSV


3.2 特征变量选择

在利用4种模型做预测时,过多的输入特征变量可能不仅不会提高模型的预测精度,反而会影响模型的运行速率。采用特征选择可以达到消除冗余特征的目的,提高模型预测的准确度,被选择的特征变量还可以表征全体变量数据的信息。所以,在R 4.0.4软件里采用Boruta算法进行特征选择,结果如图4所示。由图4可知, EVI、NDVI、ascent、elevation、TWI和全氮特征重要性评价高于shadowMax,认为是重要特征,可作为模型输入。slope和profile curvature 特征重要性评价低于shadowMax,认为是不重要特征,不用于数据建模。

图4

图4   Boruta算法的特征选择结果

Fig.4   Feature selection results of Boruta algorithm


除此之外,Boruta算法不仅可以将重要性的特征选择出来,还对特征进行了重要性排列。由图4可知其重要性排列由高到低为:全氮>TWI>elevation>ascent>NDVI>EVI,全氮对SOM的影响最大,土壤全氮含量高的地区有利于SOM的积累;TWI对SOM的影响仅次于全氮,TWI描述土壤含水量,湿度越大,SOM含量越高;坡度和高程会影响土壤厚度,从而影响SOM的含量;NDVI和EVI表示植物的生长状况,而SOM是植物生长必不可少的养分。综上所述,全氮、TWI、ascent、elevation、NDVI、EVI对SOM含量有着重要的影响。

3.3 半变异函数分析

在GS+9.0里对SOM实测值和GA-BPNN残差进行半变异函数分析,用半变异函数对SOM进行空间变异性分析,以残差接近于0和拟合系数接近于1时作为最佳选择,分析结果见表2。由表2可以得出,SOM实测值和GA-BPNN残差的最优理论模型分别为指数模型和球状模型。SOM实测值的块金值与基台值较低,都小于1,由此表明SOM的空间变异性较低;GA-BPNN残差具有较高的块金值与基台值,得出研究区SOM存在着一定程度的空间变异,而所有模型的块基比均在61.90%~83.1%,说明结构因素和随机因素的影响程度对空间变异的影响基本一致[39-40]。从各模型的决定系数可以看出,SOM实测值的模型拟合度较低,为0.23,而GA-BPNN残差的模型拟合度为0.74,相对较高,可见模型拟合度具有较好的合理性。所有数据项的变程都比较大,值在1 110.00~6 985.92 m,表明研究区空间自相关性较强[41]

表2   SOM、GA-BPNN及残差半变异函数参数

Table 2  SOM,GA-BPNN and residual semi-variogram parameters

数据项理论模型块金值(C0)基台值(C)块基比[C0/(C0+C)]/%变程/m决定系数(r)
SOM实测值指数0.110.2861.906985.920.23
GA-BPNN残差实测值球状6.7314.3683.101110.000.74
GA-BPNN残差球状4.6612.2762.001570.000.60

新窗口打开| 下载CSV


3.4 SOM模型预测结果

基于OK、BPNN、GA-BPNN、GA-BPNN-OK这4种预测模型对SOM含量进行空间分布预测,SOM预测结果统计见表3,SOM空间分布预测见图5。从表3可以看出,OK法对SOM预测的结果与实测值相比范围有所缩小,而在加入神经网络模型之后预测的结果范围比实测值范围有所扩大,但是将GA优化后的神经网络模型与地统计方法结合的模型中预测的结果范围比实测值范围又有所缩小。总的来说所有模型预测的最小值比实测值都要大,因此在低值区可能是受到了附近高值点的影响。

表3   土壤有机质含量预测结果统计特征

Table 3  Statistical characteristics of prediction results of soil organic matter content

预测方法最大值/10-3最小值/10-3平均值/10-3
OK13.384.898.21
BPNN15.743.248.40
GA-BPNN16.762.628.31
GA-BPNN-OK15.952.288.26

新窗口打开| 下载CSV


图5

图5   山西省永和县土壤有机质含量预测空间分布

Fig.5   Spatial distribution of soil organic matter content in Yonghe County, Shanxi Province


图5所示,对于SOM含量而言,4种模型得到的预测分布图基本相似,基本上呈现出从西部向东部SOM含量逐渐升高的趋势,主要表现在西部和西南部地区SOM含量低、东部和东南部地区SOM含量高的空间分布趋势,说明4种预测模型均能有效地显示研究区土壤有机质含量地空间分布。

3.5 预测模型精度分析

利用验证集数据对4种预测模型的精度进行对比分析,结果如表4所示。从表中可以看出,引入环境变量和土壤本身属性且采用Boruta算法进行特征筛选之后的特征变量作为辅助变量进行预测的神经网络模型与仅利用对采样点进行空间内插值的OK法来说,BPNN和GA-BPNN预测精度结果方根误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)相比较OK都明显降低,拟合系数都有所提高,表明加入辅助变量进行空间预测是有必要的。为了验证Boruta算法对于提高模型精度的帮助,将全变量的GA-BPNN模型与特征筛选之后的GA-BPNN模型的预测结果进行对比分析(表4),相比全变量GA-BPNN预测模型,使用Boruta算法筛选出特征变量进行GA-BPNN数据建模预测的结果精度显示其SOM预测结果比全变量预测结果精度的MSE、RMSE、MAE分别降低了0.019、0.036、0.036,且拟合系数也提高了0.09。表明使用Boruta算法可以筛选出特征变量,剔除干扰项变量,有效提高模型的预测精度,得出比较精确的SOM空间分布。

表4   各预测模型精度统计分析

Table 4  Statistical analysis of accuracy of each prediction model

预测方法均方误差
(MSE)
均方根误差
(RMSE)
平均绝对
误差(MAE)
拟合系数
(R2)
OK0.5601.0160.5510.29
BPNN0.1040.2810.1820.69
GA-BPNN0.0630.2510.1700.74
GA-BPNN-OK0.0590.2400.1650.78
全变量GA-BPNN0.0820.2870.2060.65

新窗口打开| 下载CSV


加入遗传算法优化的BPNN与BPNN法对SOM的预测结果相比较,GA-BPNN法的MSE、RMSE、MAE分别降低了0.041、0.030、0.012,且拟合系数提高了0.05,虽然变化的幅度不大,但是在预测精度上有了一定程度的提高,说明遗传算法优化BP神经网络模型可以更加准确地得到预测结果。GA-BPNN-OK法与GA-BPNN预测结果相比较,GA-BPNN-OK法的MSE、RMSE、MAE分别降低了0.004、0.011、0.015,且拟合系数提高了0.04,模型的精度相比提高了,说明优化后的神经网络模型与地统计方法结合的预测模型可以提高预测模型的精度,得到准确的SOM含量空间分布。而且与另外3种预测模型相比,GA-BPNN-OK的模型预测结果误差最小,拟合系数最高,是研究区SOM含量的最佳预测模型。

4 讨论

4.1 SOM空间分布及影响因素

基于4种预测模型得到的SOM含量空间预测分布图,SOM含量空间分布的整体趋势是西部和西南部地区低,东部和东南部地区高。东部呈现高值区是因为研究区独特的地理位置,即西部地势低,东部地势高,地势高的地区会影响土壤厚度进而使土壤有机碳得到积累,土壤固碳能力提高导致SOM含量也高。OK法对研究区SOM空间分布的预测结果图的高值区和低值区分布较明显,在东北部和中部地区高值区与低值区分布更为明显,这与徐剑波等[41]、谢梦姣等[42]的研究结果不一致,可能是由于采样点的数量与采样点空间自相关性,说明本研究区样品点的空间自相关性较弱,对预测的结果产生的影响较小。与之相比,基于神经网络模型的SOM空间分布预测图,高值区与低值区的分布更加明显,这是因为神经网络模型具有强的非线性映射能力,可以以任意精度逼近任意连续函数[43],而且也与加入辅助变量有着很大的关系, 所以使得预测分布图更加接近实际。神经网络模型还会有残差项的存在,而残差存在空间自相关,利用GA-BPNN-OK模型预测的SOM的空间分布图充分考虑了样品点的结构性和随机性的空间模拟,与利用GA-BPNN模型预测的SOM分布图相比,GA-BPNN-OK模型预测的SOM分布图对SOM含量的高低界限能够清晰的呈现,但SOM高地区的分布范围基本相同,说明神经网络残差空间自相关很弱,对空间分布预测图的影响较小。总体而言GA-BPNN-OK对SOM含量空间分布预测更加准确和细致,更能精准地指导当地的农业生产。

对于辅助变量的研究,通过Boruta算法计算得知,土壤本身属性对有机质含量的影响最大,全氮含量高的地区加上研究区又是一个降水集中的地区,使得土壤固氮能力强,从而使得SOM含量高,而且土壤有机质是氮素的主要贮存场所,二者相互依存。除了土壤本身因素和自然因素的影响,现在人类活动频繁,人为因素对于SOM含量的空间分布也是一个重要因素,此外大多学者将高光谱数据也作为影响因子对SOM含量空间分布进行预测,并且取得一定的进展。尉芳等[44]将化肥施用量作为一种影响因子进行研究,得出化肥施用量虽然和SOM含量不存在对应关系,但是相关性却达到了0.33,说明人为因素对SOM含量存在影响。Liu等[13]采用近距离光谱、航空高光谱和Sentinel 2多光谱图像预测农业用地的SOCD,得到了很好的预测精度。因此,在之后的预测方法加入人为因素和高光谱数据作为模型输入,对提高模型预测精度有很好的效果,进而可得到更加接近实际的SOM空间分布图。

4.2 预测模型的精度

前人利用OK法和神经网络对SOM空间分布预测已经开展过许多研究。本文在此基础上依据Boruta算法和GA优化的BP神经网络并结合地统计模型对SOM空间分布预测,此类研究相对较少。

在SOM预测空间分布中,OK法通过邻近相关采样点SOM含量来预测未知点,但是没有考虑环境因素对土壤有机质含量的影响,所以本文采用OK法预测得到的预测精度指标MSE、RMSE、MAE最大,拟合系数最小。4种预测模型中,只有OK法的拟合系数低于0.30,其他3种预测模型的拟合系数都高于0.50,而且GA-BPNN-OK的拟合系数达到了0.78,是3种预测模型中误差最小、精度最高的模型,与前人对SOM预测的研究结果相一致[20]。GA-BPNN-OK模型精度高究其原因是其利用Boruta算法从9个变量因子筛选出特征变量为辅助变量用于输入进行建模,能够较好地处理土壤有机质与环境变量的非线性复杂关系,使用Boruta算法也可以剔除冗余特征变量,与全变量模型精度相比有效提高了预测精度。且利用GA优化的BP神经网络计算出残差之后对其进行普通克里金法插值而消除残差空间自相关性,这种方法充分考虑了采样点的结构性和随机性,所以对预测模型的精度有很大的提升,且预测优势十分显著,是研究区SOM含量的最优预测模型。

虽然GA-BPNN-OK模型的预测精度最高,是研究区最优预测模型,但是在误差分析和拟合系数上与BPNN和GA-BPNN模型有较小的差异,本文认为是有两种原因:①研究区土壤类型和土壤质地单一,使得预测的结果变化不明显;②BP神经网络模型本身的特征,在加入遗传算法不会大程度地改变预测结果。此外,GA-BPPN趋势项的OK插值结果对最后的预测结果影响也较小。总的来说,加入Boruta算法进行特征筛选之后,进行GA-BPNN-OK预测,在研究区 SOM 空间分布预测上表现出误差低和精度高的效果。

5 结论

本文基于DEM数据、植被遥感数据,提取了8个与土壤有机质含量相关的环境变量,同时又将土壤实测属性值(全氮)作为变量因子,经过Boruta算法对变量因子进行特征筛选,将筛选出6个重要特征作为特征变量进行模型输入,使用OK法、BPNN法、GA-BPNN法和GA-BPNN-OK法对研究区SOM含量进行空间分布预测,并且通过比较4种模型的精度,得出最优预测模型,厘清并绘制了研究区SOM含量空间分布图。主要结论如下:

1)研究区SOM平均值为8.34×10-3,范围在(2.24~16.36)×10-3。根据全国第二次土壤普查养分标准,SOM含量处于四级—六级。4种模型预测SOM结果的平均值与实测值非常接近。采用Boruta算法进行特征筛选后,使用GA-BPNN法预测与全变量GA-BPNN法的预测结果进行精度指标对比,可以看出,Boruta算法特征筛选可以提高预测精度。且Boruta算法对辅助变量进行了重要性排列,重要性由高到低依次为全氮>TWI>高程>坡度>NDVI>EVI。

2)4种预测模型的SOM预测结果分布图,虽然在局部会有差异,但整体的空间分布趋势基本一致,在研究区内呈现出西部和西南部地区低、东部和东南部地区高的空间分布趋势。与其他3种模型相比,利用GA-BPNN-OK模型预测的SOM分布图对低值区和高值区的划分更加细致、明显,更能精准地指导当地的农业。且SOM含量空间分布的影响因素通过Boruta算法计算结果图得出,土壤本身属性对有机质含量的影响最大。此外,除了土壤本身因素和自然因素的影响,人为因素对于SOM含量的空间分布也是一个重要因素。在后续研究中可以将人为因素加入数据建模中,得出更好的预测效果。

3)4种预测模型中,与OK、BPNN、GA-BPNN预测模型精度相比,GA-BPNN-OK模型的RMSE(0.059)、MAE(0.240)、MRE(0.165)最小,且R2(0.78)最高。但是在误差分析和拟合系数上与BPNN和GA-BPNN模型有较小的差异,原因归结于:研究区土壤类型和土壤质地单一,使得预测的结果变化不明显;神经网络模型本身的特征加入遗传算法不会大程度地改变预测结果,且GA-BPPN趋势项的OK插值结果对最后的预测结果影响也较小。综合而言,GA-BPNN-OK模型为最优预测模型。

参考文献

He S F, Zhou Q.

Local wavelet packet decomposition of soil hyperspectral for SOM estimation

[J]. Infrared Physics & Technology, 2022,125:104285.

[本文引用: 1]

Vahedi A A.

Monitoring soil carbon pool in the Hyrcanian coastal plain forest of Iran:Artificial neural network application in comparison with developing traditional models

[J]. Catena, 2017,152:182-189.

[本文引用: 1]

Megan B, Marc G.

Emerging land use practices rapidly increase soil organic matter

[J]. Nature Communications, 2015,6:6995.

[本文引用: 1]

连纲, 郭旭东, 傅伯杰, .

黄土高原县域土壤养分空间变异特征及预测——以陕西省横山县为例

[J]. 土壤学报, 2008(4):577-584.

[本文引用: 1]

Lian G, Guo X D, Fu B J, et al.

Spatial variation of soil nutrients in Loess Plateau:A case study of Hengshan County,Shaanxi Province

[J]. Acta Pedologica Sinica, 2008(4):577-584.

[本文引用: 1]

张素梅, 王宗明, 张柏, .

利用地形和遥感数据预测土壤养分空间分布

[J]. 农业工程学报, 2010,(5):188-194.

[本文引用: 1]

Zhang S M, Wang Z M, Zhang B, et al.

Prediction of spatial distribution of soil nutrients using topographic and remote sensing data

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2010,(5):188-194.

[本文引用: 1]

李启权, 王昌全, 岳天祥, .

基于定性和定量辅助变量的土壤有机质空间分布预测:以四川三台县为例

[J]. 地理科学进展, 2014,(2):259-269.

DOI:10.11820/dlkxjz.2014.02.012      [本文引用: 1]

准确获取土壤性质的空间分布信息,是区域土壤资源优化利用和土壤环境保护的需要。以川中丘陵区三台县为案例区,运用人工神经网络模型,构建融合区域定性及定量辅助变量的空间预测方法,模拟三台县土壤有机质的空间分布格局。结果表明,研究区土壤有机质在4.20~47.60 g kg<sup>-1</sup>之间,平均为17.97 g kg<sup>-1</sup>;变异系数为36.89%,属中等程度变异。土壤有机质的块金值与基台值之比为0.742,变程为7.0 km,即空间自相关性较弱。不同土壤类型间有机质含量差异显著;土属的空间分布较土类能更好地揭示研究区土壤有机质含量空间分布格局的差异。除土壤类型因素的影响外,坡度、地形湿度及植被盖度是研究区土壤有机质空间变异的主要因子。融合土壤类型因素和地形植被因子的神经网络模型预测结果,比普通克里格法、回归克里格法以及神经网络结合普通克里格的方法,更符合研究区地学规律和实际情况;其预测结果的平均绝对误差、平均相对误差和均方根误差较其他3种方法均降低幅度显著。同时,该方法对极值有较好的预测能力。研究为复杂环境条件下准确获取区域土壤性质的空间分布信息提供了较可行的方法。

Li Q Q, Wang C Q, Yue T X, et al.

Prediction of spatial distribution of soil organic matter based on qualitative and quantitative auxiliary variables:A case study of Santai County,Sichuan Province

[J]. Progress in Geography, 2014,(2):259-269.

[本文引用: 1]

Dai F Q, Zhou Q G.

Spatial prediction of soil organic matter content integrating artificial neural network and ordinary kriging in Tibetan Plateau

[J]. Ecological Indicators, 2014, 45(1):184-194.

[本文引用: 1]

Dharumarajan S, Hegde R.

Spatial prediction of major soil properties using Random Forest techniques-A case study in semi-arid tropics of South India(Article)

[J]. Geoderma Regional, 2017,10:154-162.

[本文引用: 1]

韩杏杏, 陈杰, 王海洋, .

基于随机森林模型的耕地表层土壤有机质含量空间预测——以河南省辉县市为例

[J]. 土壤, 2019, 51(1):152-159.

[本文引用: 1]

Han X X, Chen J, Wang H Y, et al.

Spatial prediction of surface soil organic matter content based on stochastic forest model:A case study of Huixian City,Henan Province

[J]. Soil Science, 2019, 51 (1):152-159.

[本文引用: 1]

卢宏亮, 赵明松, 刘斌寅, .

基于随机森林模型的安徽省土壤属性空间分布预测

[J]. 土壤, 2019, 51(3):602-608.

[本文引用: 1]

Lu H L, Zhao M S, Liu B Y, et al.

Prediction of spatial distribution of soil properties in Anhui Province based on Random forest model

[J]. Soil Science, 2019, 51 (3):602-608.

[本文引用: 1]

Yu Q, Yao T C.

Improving estimation of soil organic matter content by combining Landsat 8 OLI images and environmental data:A case study in the river valley of the southern Qinghai-Tibet Plateau

[J]. Computers & Electronics in Agriculture, 2021,185:106144.

[本文引用: 1]

周银, 刘丽雅, 卢艳丽, .

星地多源数据的区域土壤有机质数字制图

[J]. 遥感学报, 2015,(6):998-1006.

[本文引用: 1]

Zhou Y, Liu L Y, Lu Y L, et al.

Digital mapping of regional soil organic matter with multi-source data from satellite and ground

[J]. Journal of Remote Sensing, 2015,(6):998-1006.

[本文引用: 1]

Liu Q, He L.

Digital mapping of soil organic carbon density using newly developed bare soil spectral indices and deep neural network

[J]. Catena, 2022,219:106603.

[本文引用: 2]

Tajgardan T, Ayoubi S.

Soil surface salinity prediction using ASTER data:Comparing statistical and geostatistical models

[J]. Australian Journal of Basic and Applied Sciences, 2011, 4(3):457-467.

[本文引用: 1]

姜赛平, 张怀志, 张认连, .

基于三种空间预测模型的海南岛土壤有机质空间分布研究

[J]. 土壤学报, 2018, 55(4):1007-1017.

[本文引用: 1]

Jiang S P, Zhang H Z, Zhang X L, et al.

Spatial distribution of soil organic matter in Hainan Island based on three spatial prediction models

[J]. Acta Pedologica Sinica, 2018, 55 (4):1007-1017.

[本文引用: 1]

沈掌泉, 施洁斌, 王珂, .

应用集成BP神经网络进行田间土壤空间变异研究

[J]. 农业工程学报, 2004, 20(3):35-39.

[本文引用: 1]

Shen Z Q, Shi J B, Wang K, et al.

Application of integrated BP neural network to spatial variation of field soil

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2004, 20(3):35-39.

[本文引用: 1]

Vitharana U W A, Mishra U.

National soil organic carbon estimates can improve global estimates

[J]. Geoderma, 2019, 337(1):55-64.

[本文引用: 1]

George K J, Kumar S.

Soil organic carbon prediction using visible-near infrared reflectance spectroscopy employing artificial neural network modelling

[J]. Current Science, 2020, 119(2):377-381.

[本文引用: 1]

吴俊, 郭大千, 李果, .

基于CARS-BPNN的江西省土壤有机碳含量高光谱预测

[J]. 中国农业科学, 2022, 55(19):3738-3750.

DOI:10.3864/j.issn.0578-1752.2022.19.005      [本文引用: 1]

【目的】探讨光谱变量选择及依据土壤类型进行分层校准两种方法对高光谱预测土壤有机碳(SOC)精度的影响。【方法】以江西省为研究区,490个土壤样本为研究对象,对研究区内的所有样本以及不同土壤类型样本分别通过竞争性自适应重加权采样(CARS)算法筛选特征波段,并采用偏最小二乘回归(PLSR)、支持向量机(SVM)、随机森林(RF)、反向传播神经网络(BPNN)4种模型,对比不同土壤类型下SOC在全波段以及CARS算法筛选后特征波段的预测精度。进而,还对比了全局校准和分层校准下SOC在全波段以及CARS算法筛选后特征波段的预测精度。【结果】(1)红壤筛选的特征波段为484、683&#x02014;714和2 219&#x02014;2 227 nm,水稻土筛选的特征波段为484、689&#x02014;702和2 146&#x02014;2 156 nm。红壤采用CARS-BPNN模型预测效果最佳(R<sup> 2</sup>=0.82),较全波段建模验证集R<sup> 2</sup>提升0.07。水稻土采用CARS-RF模型预测效果最佳(R<sup> 2</sup>=0.83),较全波段建模验证集R<sup> 2</sup>提升0.13。(2)在总体样本上,分层校准相比全局校准精度有所提升。采用CARS-BPNN进行分层校准预测效果最佳(R<sup> 2</sup>=0.82),较全局校准验证集R<sup> 2</sup>提升0.06。【结论】采用CARS-BPNN进行分层校准能够较好地预测江西省土壤有机碳含量,本研究可为其他类似地区预测土壤属性提供科学依据。

Wu J, Guo D Q, Li G, et al.

Hyperspectral prediction of soil organic carbon content in Jiangxi Province based on CARS-BPNN

[J]. Scientia Agricultura Sinica, 202, 55(19):3738-3750.

[本文引用: 1]

Odebiri O, Mutanga O.

Deep learning-based national scale soil organic carbon mapping with Sentinel-3 data

[J]. Geoderma, 2022,411.

[本文引用: 2]

赖雨晴, 孙孝林, 王会利.

人工神经网络及其与地统计的混合模型在小面积丘陵区土壤有机碳预测制图上的应用研究

[J]. 土壤通报, 2020, 51(6):1313-1322.

[本文引用: 1]

Lai Y Q, Sun X L, Wang H L.

Application of artificial neural network and its mixed model with geostatistics on soil organic carbon prediction mapping in small hilly area

[J]. Chinese Journal of Soil Science, 2017, 51(6):1313-1322.

[本文引用: 1]

张宏帅, 朱高龙, 吴家煜, .

基于BP神经网络与Kriging结合的土壤有机质空间分布模拟——以福建省华安县为例

[J]. 亚热带农业研究, 2021, 17(1):40-47.

[本文引用: 1]

Zhang H S, Zhu G L, Wu J Y, et al.

Spatial distribution simulation of soil organic matter based on BP neural network and Kriging:A case study of Hua'an County,Fujian Province

[J]. Subtropical Agricultural Research, 2021, 17 (1):40-47.

[本文引用: 1]

Song Y Q, Sun N, Zhang L.

Using multispectral variables to estimate heavy metals content in agricultural soils:A case of suburban area in Tianjin,China

[J]. Geoderma Regional, 2022,29:e00540.

[本文引用: 1]

何红艳.

MODIS数据植被指数的提取方法研究

[C]// 2006遥感科技论坛暨中国遥感应用协会2006年年会,2006.

[本文引用: 1]

He H Y.

Research on extraction method of vegetation index from MODIS data

[C]// 2006 Remote Sensing Science and Technology Forum and China Association of Remote Sensing Applications Annual Meeting,2006.

[本文引用: 1]

Rigol S J P, Stuart N.

ArcGeomorphometry:A toolbox for geomorphometric characterisation of DEMs in the ArcGIS environment

[J]. Computers & Geosciences, 2015,85:155-163.

[本文引用: 1]

Alireza A, Fatemeh R.

Modelling of piping collapses and gully headcut landforms:Evaluating topographic variables from different types of DEM

[J]. Geoscience Frontiers, 2021,12:135-152.

[本文引用: 1]

Hamid G, Aliakbar M.

Using the Boruta algorithm and deep learning models for mapping land susceptibility to atmospheric dust emissions in Iran

[J]. Aeolian Research, 2021,50:100682.

[本文引用: 1]

Mahamed L G, Muhammad H K.

Potential of Vis-NIR to measure heavy metals in different varieties of organic-fertilizers using Boruta and deep belief network

[J]. Ecotoxicology and Environmental Safety, 2021,228:112996.

[本文引用: 1]

卢宏亮, 赵明松, 刘斌寅, .

基于Boruta-支持向量回归的安徽省土壤pH值预测制图

[J]. 地理与地理信息科学, 2019, 35(5):66-72.

[本文引用: 1]

Lu H L, Zhao M S, Liu B Y, et al.

Prediction mapping of soil pH value based on Boruta-Support vector regression in Anhui Province

[J]. Geography and Geo-Information Science, 2019, 35 (5):66-72.

[本文引用: 1]

孙孝林, 赵玉国, 刘峰, .

数字土壤制图及其研究进展

[J]. 土壤通报, 2013, 44(3):752-759.

[本文引用: 1]

Sun X L, Zhao Y G, Liu F, et al.

Digital soil mapping and its research progress

[J]. Chinese Journal of Soil Science, 2013, 44 (3):752-759.

[本文引用: 1]

江叶枫, 孙凯, 郭熙, .

基于环境因子和邻近信息的土壤属性空间分布预测

[J]. 环境科学研究, 2017, 30(7):1059-1068.

[本文引用: 1]

Jiang Y F, Sun K, Guo X. et al.

Spatial distribution prediction of soil attributes based on environmental factors and proximity information

[J]. Research of Environmental Science, 2017, 30 (7):1059-1068.

[本文引用: 1]

张万涛, 吉静怡, 李彬彬, .

黄土高原不同地貌区农田土壤有机质预测方法研究

[J]. 植物营养与肥料学报, 2021, 27(4):583-594.

[本文引用: 1]

Zhang W T, Ji J Y, Li B B, et al.

Study on prediction method of soil organic matter in different geomorphic regions of Loess Plateau

[J]. Plant Nutrition and Fertilizer Journal, 2021, 27(4):583-594.

[本文引用: 1]

王雨雪, 杨柯, 高秉博, .

基于两点机器学习方法的土壤有机质空间分布预测

[J]. 农业工程学报, 2022, 38(12):65-73.

[本文引用: 1]

Wang Y X, Yang K, Gao B B, et al.

Prediction of spatial distribution of soil organic matter based on two-point machine learning

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38 (12):65-73.

[本文引用: 1]

Li J H, Zhu D S.

Comparative analysis of BPNN,SVR,LSTM,Random Forest,and LSTM-SVR for conditional simulation of non-Gaussian measured fluctuating wind pressures

[J]. Mechanical Systems and Signal Processing, 2022,178:109285.

[本文引用: 1]

赵建辉, 张晨阳, 闵林, .

基于特征选择和GA-BP神经网络的多源遥感农田土壤水分反演

[J]. 农业工程学报, 2021, 37(11):112-120.

[本文引用: 1]

Zhao J H, Zhang C Y, Min L, et al.

Multi-source Remote Sensing soil moisture retrieval based on feature selection and GA-BP neural network

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37 (11):112-120.

[本文引用: 1]

杨梅花, 赵小敏.

基于可见—近红外光谱变量选择的土壤全氮含量估测研究

[J]. 中国农业科学, 2014,(12):2374-2383.

DOI:10.3864/j.issn.0578-1752.2014.12.010      [本文引用: 1]

【目的】变量选择是可见光-近红外光谱研究至关重要的步骤,通过分析可见光-近红外光谱不同特征的选择方法筛选出土壤全氮敏感波段,建立基于敏感波段的土壤全氮最佳预测模型,为土壤全氮的快速定量估算提供重要的理论指导依据。【方法】在红壤典型地区江西省吉安县采集代表性土壤样品120个,对可见光-近红外光谱采用主成分分析(PCA)、无信息变量消除(UVE)和无信息变量消除后结合连续投影(UVE-SPA)3种变量特征选择方法,建立基于不同变量选择的偏最小二乘回归(PLSR)模型、最小二乘-支持向量机(LS-SVM)、反向传播神经网络(BPNN)和遗传算法优化的反向传播神经网络(GA-BPNN)模型,从模型对预测集的预测精度分析不同变量选择方法对不同土壤全氮定量估算模型的差异。【结果】经UVE算法筛选后,光谱变量从200个减少至59个,其中可见光波段处10个,其余在近红外光谱的合频区和一倍频区,信息量丰富;进一步采用SPA进行变量选择,得到共线性最小的5个有效波长,分别为820、940、1 040、1 060和1 990nm;基于UVE变量选择建立的PLSR、BPNN、GA-BPNN和LS-SVM模型,经不同的土壤全氮的数据检验,预测精度最高的为LS-SVM,决定系数(R2)、均方根误差(RMSEp)和相对偏差(RPD)分别为0.7492、0.2921和1.8904;基于UVE-SPA特征选择建立的PLSR、BPNN、GA-BPNN和LS-SVM模型对预测集的验证表明,UVE-SPA提取的特征波段建立的LS-SVM建立模型预测效果最好,其建立的LS-SVM定量估算模型预测集的决定系数R2为0.7945,均方根误差RMSEp为0.2499相对偏差RPD为2.0009,模型稳定;基于PCA提取的7个主成分建立的LS-SVM、BPNN和GA-PBNN模型预测性能差,不能用于定量估算土壤全氮。对比相同的变量建立的GA-BPNN和BPNN,GA-BPNN预测性能比BPNN高。【结论】UVE-SPA变量选择方法结合LS-SVM模型能用来估算土壤中的全氮含量,同时UVE-SPA是一种有效的土壤光谱变量选择方法。

Yang M H, Zhao X M.

Estimation of soil total nitrogen content based on variable selection of vision-near-infrared spectroscopy

[J]. Scientia Agricultura Sinica, 2014,(12):2374-2383.

[本文引用: 1]

Zhou P, Sudduth Kenneth A.

Extraction of reflectance spectra features for estimation of surface,subsurface,and profile soil properties

[J]. Computers & Electronics in Agriculture, 2022,196.

[本文引用: 1]

Song Y Q, Zhu A X.

Spatial variability of selected metals using auxiliary variables in agricultural soils

[J]. Catena, 2019,174:499-513.

[本文引用: 1]

张子璐, 左昕弘, 刘峰, .

渝西丘陵区土壤速效钾空间异质性及影响因素

[J]. 土壤学报, 2020, 57(2):307-315.

[本文引用: 1]

Zhang Z L, Zuo X H, Liu F, et al.

Spatial heterogeneity of soil available potassium and its influencing factors in the hilly region of western Chongqing

[J]. Acta Pedologica Sinica, 20, 57(2):307-315.

[本文引用: 1]

徐清风, 于茹月, 勾宇轩, .

基于云遗传BP神经网络的黄淮海旱作区土壤有机质预测精度分析

[J]. 中国农业大学学报, 2021, 26(4):167-173.

[本文引用: 1]

Xu Q F, Yu R Y, Gou Y X, et al.

Prediction accuracy of soil organic matter based on cloud genetic BP neural network in Huang-Huai-hai dry area

[J]. Journal of China Agricultural University, 2021, 26 (4):167-173.

[本文引用: 1]

徐剑波, 宋立生, 夏振, .

基于GARBF神经网络的耕地土壤有效磷空间变异分析

[J]. 农业工程学报, 2012,(16):158-165.

[本文引用: 2]

Xu J B, Song L S, Xia Z, et al.

Spatial variation analysis of soil available phosphorus based on GARBF neural network

[J]. Transactions of the Chinese Society of Agricultural Engineering, 2012,(16):158-165.

[本文引用: 2]

谢梦姣, 王洋, 康营, .

人工神经网络与普通克里金插值法对土壤属性空间预测精度影响研究

[J]. 生态与农村环境学报, 2021, 37(7):934-942.

[本文引用: 1]

Xie M J, Wang Y, Kang Y, et al.

Effects of artificial neural network and common Kriging interpolation method on spatial prediction accuracy of soil attributes

[J]. Journal of Ecology and Rural Environment, 2021, 37 (7):934-942.

[本文引用: 1]

江叶枫, 郭熙, 叶英聪, .

基于辅助变量和神经网络模型的土壤有机质空间分布模拟

[J]. 长江流域资源与环境, 2017, 26(8):1150-1158.

[本文引用: 1]

Jiang Y F, Guo X, Ye Y C, et al.

Spatial distribution simulation of soil organic matter based on auxiliary variables and neural network model

[J]. Resources and Environment in the Yangtze Basin, 2017, 26 (8):1150-1158.

[本文引用: 1]

尉芳, 刘京, 夏利恒, .

陕西渭北旱塬区农田土壤有机质空间预测方法

[J]. 环境科学, 2022, 43(2):1097-1107.

[本文引用: 1]

Wei F, Liu J X, Xia L H, et al.

Spatial prediction method of farmland soil organic matter in Weibei Arid Table-land of Shaanxi Province

[J]. Environmental Science, 2022, 43 (2):1097-1107.

[本文引用: 1]

/

京ICP备05055290号-3
版权所有 © 2021《物探与化探》编辑部
通讯地址:北京市学院路29号航遥中心 邮编:100083
电话:010-62060192;62060193 E-mail:whtbjb@sina.com , whtbjb@163.com