基于地统计学与机器学习模型的宝清县表层有机碳含量预测及比较研究
Prediction and comparison of organic carbon content in topsoils based on geostatistics and machine learning models: A case study of Baoqing County
通讯作者: 裴久渤(1984-),男,博士,教授,主要从事土壤肥力构成与演变研究工作。Email:peijiubo@syau.edu.cn
第一作者:
责任编辑: 蒋实
收稿日期: 2024-12-12 修回日期: 2025-05-14
| 基金资助: |
|
Received: 2024-12-12 Revised: 2025-05-14
为了准确预测黑土地区县域土壤有机碳含量,满足县域农业生产和“双碳”目标的需要,本研究利用宝清县黑土地地表基质调查取得的427个土壤样本数据,通过确定性插值法(反距离权重法)、地统计学方法(普通克里金法)和机器学习方法(随机森林模型法)建立评估模型,进行宝清县表层土壤有机碳含量的预测,并比较不同方法的预测精度和效果。结果显示,反距离权重法预测研究区的土壤有机碳含量均值为27.21×10-3,普通克里金法预测的均值为26.33×10-3,随机森林模型预测的均值为32.05×10-3。随机森林模型在均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)等指标上均优于反距离权重法和普通克里金法,且随机森林模型训练集和验证集的决定系数均达到0.73和0.53,精度均显著高于反距离权重法和普通克里金法,反映出随机森林模型通过环境变量的非线性交互作用,能够更充分地挖掘数据中的潜在规律。总体看,结合多环境变量建立的随机森林模型是评估宝清县表层土壤有机碳含量的最佳模型,且预测精度较好,这对评估黑土地区县域农业生产土壤有机质空间差异和“双碳”目标的区域差异分析具有重要的理论和方法参考。
关键词:
This study aims to accurately predict the organic carbon content in black soils at the county level, thereby supporting county-level agricultural production and carbon peak and neutrality goals. This study examined 427 soil samples obtained from a surface substrate survey of the black soil area in Baoqing County. Employing deterministic interpolation (inverse distance weighting, IDW), geostatistics (ordinary Kriging method, OK), and machine learning (random forest, RF), this study constructed assessment models to predict the organic carbon content in topsoils in Baoqing County and to compare their prediction accuracy and performance. The results show that the IDW, OK, and RF models yielded average organic carbon contents of 27.21×10-3, 26.33×10-3, and 32.05×10-3, respectively. The RF model outperformed the other two models in terms of root mean square error (RMSE), mean absolute error (MAE), and the coefficient of determination (R2). Specifically, the RF model achieved R2 values of 0.73 and 0.53 on training and validation sets, respectively, suggesting significantly higher accuracy. This superior performance demonstrates that the RF model can more fully explore potential patterns in data through the nonlinear interaction of environmental variables. Overall, the RF model, incorporating multiple environmental variables, proved to be the optimal approach for predicting the organic carbon content in topsoils in Baoqing County, demonstrating high prediction accuracy. This study provides valuable theoretical and methodological insights for assessing the spatial variations in soil organic matter relevant to county-level agricultural production and regional differences in carbon peak and neutrality goals within black soil areas.
Keywords:
本文引用格式
刘洪博, 史佳卉, 王思引, 裴久渤.
LIU Hong-Bo, SHI Jia-Hui, WANG Si-Yin, PEI Jiu-Bo.
0 引言
随着遥感技术的发展和地理信息系统的广泛应用,研究者们能够更有效地获取和分析土壤数据。传统的土壤有机碳测定方法通常需要大量的实地采样和实验室分析,耗时且成本高。相比之下,基于地统计学与机器学习模型的方法则提供了一种更为高效的解决方案[4]。这些方法不仅能够处理复杂的土壤数据,还能挖掘土壤属性之间的非线性关系,为土壤有机碳的空间分布预测提供了新的思路[5]。地统计学方法,如克里金法,以其良好的空间插值特性,被广泛应用于土壤特征的预测和分析中,其通过考虑样本点之间的空间相关性,能够提供更为精准的空间分布估计[6-7]。传统的地统计学方法在处理高维特征和复杂非线性关系时,可能受到一定限制。因此,结合机器学习技术,尤其是随机森林、支持向量机等算法,能够更好地捕捉数据中的复杂模式,提升预测的准确性和可靠性[8-9]。沈琛琛等[10]通过不同机器学习算法对华中天然林土壤有机碳进行研究,结合气候、土壤及地形因素,通过模型对比,发现利用随机森林模型进行土壤有机碳的预测效果最好。王志远等[11]通过支持向量机回归、随机森林梯度提升算法等机器学习模型,研究黄土丘陵区小流域土壤有机碳空间分布特征,结果显示随机森林模型表现最佳。在县域尺度的土壤有机碳空间预测研究中,辅助变量的选择需紧密结合区域环境特征与数据可获取性。宝清县尺度较小,地形因素会直接或间接影响土壤有机碳的形成和分布[12]。植被指数、气候因子(如年均温、降水)及土壤属性也是土壤有机碳预测的核心变量,其生物地球化学过程关联性已在全球或大区域尺度得到验证[13-14]。
为了准确预测宝清县域土壤有机碳含量,满足县域农业生产和“双碳”目标的需要。本研究基于地形因子,通过比较地统计学与机器学习方法,明确县域土壤有机碳预测评估优势模型,深入分析宝清县表层土壤有机碳的空间分布特征,为后续县域土壤管理和生态保护提供理论依据和方法参考。
1 研究区概况
图1
图1
研究区地形及采样点位置
Fig.1
Topography of the study area and location of sampling sites
2 数据与方法
2.1 样品采集与数据处理
本研究基于自然资源综合调查指挥中心科技创新基金项目,于2023年采集了427件宝清县地表基质层表层土壤样本,采集深度为0~20 cm,并为每个采样位置记录了GPS坐标。采样点的选择是在仔细考虑覆盖范围和可达性的情况下进行的,确保了整个研究区域的均匀分布。采集后的土壤样本通过酸化重铬酸盐(K2Cr2O7-H2SO4)氧化法测定土壤有机碳含量[16],检出限为0.1%,所有样品分析方法的准确度和精密度合格率均达到98%以上。
随机森林建模通过R语言中的 Random Forest包实现,利用3倍标准差法剔除异常值,并将样本点按7∶3分为训练集和验证集。气候数据(年降雨量) 来自中国科学院资源环境科学与数据中心的中国气象背景数据集(
2.2 反距离权重法
反距离权重法(IDW)是基于相近、相似的原理,以插值点和已知样本点之间的空间距离为权重进行加权平均的插值方法。对于未知点而言,与已知样本之间的距离越近,权重越大,反之,与已知样本点之间的距离越远,权重越小,其权重贡献与距离成反比[17]。
2.3 普通克里金法
2.4 随机森林模型
随机森林(randomforest,RF)由Breiman[20]提出,通过bootstrap抽样法,多次随机有放回地将原始数据分为袋内和袋外随机样本,每次训练袋内样本子集,生成大量相互独立的决策树组成随机森林,并用相应袋外数据的误差评估最佳回归树数量和最优分裂节点数,所有决策树预测平均值作为回归的最终值。
2.5 模型评估指标
本研究通过对比不同插值模型所得预测值与实测值的均方根误差RMSE、平均绝对误差MAE、决定系数R2来作为检验模型精度的标准。使用训练集做插值分析和训练模型,利用验证集测试插值效果评估模型性能,通过比较预测值与观测值的误差,进而评估插值结果和模型的优劣。
3 结果与分析
3.1 土壤有机碳趋势分析和半方差分析
图2
表1 半方差函数模型参数
Table 1
| 参数 | 线性模型 | 球状模型 | 指数模型 | 高斯模型 |
|---|---|---|---|---|
| R2 | 0.839 | 0.289 | 0.928 | 0.292 |
| RSS | 8.645×10-3 | 0.0382 | 4.243×10-3 | 0.0381 |
| 块金系数/% | 64.0 | 0.7 | 49.9 | 13.6 |
注:RSS为残差平方和,单位为g2/kg2;块金系数=C0/(C0+C),C0代表块金值,单位为g/kg,C0+C代表基台值,单位为g/kg。
图3为宝清县表层土壤有机碳含量的半方差函数,其最佳拟合模型为指数模型(C0=0.316 0;C0+C=0.633 0;A0=33 300.00;R2=0.928;RSS=4.243×10-3),其决定系数R2达到了0.9,表现出了较好的拟合效果;变程为33 300 m,块金系数为49.9%,为中等强度的空间变异性,其变化主要由块金值C0和偏基台值C共同决定。
图3
3.2 环境变量的相关性分析
图4
使用随机森林模型对环境变量的特征重要性进行评估(图5)。河网基准(CNBL)和归一化植被指数(NDVI)对有机碳影响较显著(p<0.01),且河网基准(CNBL)在预测土壤有机碳时的重要性最高;山谷深度(VD)、降雨(rain)、河网距离(CND)、地形粗糙指数(TRI)、相对坡度位置(RSP)、地形位置指数(TPI) 、坡度(Slope)、地形湿度指数(TWI)重要性较高;而平面曲率(PLC)、集水区总面积(TCA)、剖面曲率(PRC)、坡向(Aspect)重要性较低,贡献较小。
图5
图5
环境变量特征重要性分析
Fig.5
Importance analysis of characteristics of environmental variables
综合相关性分析和重要性分析,在进行随机森林模型预测时,选择了河网基准(CNBL)、归一化植被指数(NDVI)、山谷深度(VD)、降雨(rain)、河网距离(CND)、地形粗糙指数(TRI)、相对坡度位置(RSP)、地形位置指数(TPI) 、坡度(Slope)共9个环境因子进行有机碳的预测。
3.3 有机碳空间分布特征及预测结果分析
3.3.1 有机碳空间分布特征
图6
图6
反距离权重法预测宝清县土壤有机碳空间分布
Fig.6
Prediction of spatial distribution of soil organic carbon in Baoqing County using inverse distance weighting
图7
图7
普通克里金法预测宝清县土壤有机碳空间分布
Fig.7
Prediction of spatial distribution of soil organic carbon in Baoqing County using ordinary kriging
图8
图8
随机森林预测宝清县土壤有机碳空间分布
Fig.8
Prediction of spatial distribution of soil organic carbon in Baoqing County using random forest
3.3.2 有机碳预测结果分析
基于普通插值法和随机森林模型的宝清县表层土壤有机碳预测结果的描述统计如表2所示。3种预测方法预测的有机碳含量标准差相差不大,表明它们在分散性和稳定性方面相似。从变异系数看,随机森林模型变异系数最小,为40.72%,表示其预测结果的总体波动性较小,反映出随机森林模型预测的总体平均值相对更接近实际。
表2 有机碳含量空间预测结果统计分析
Table 2
| 预测方法 | 最大值/ 10-3 | 最小值/ 10-3 | 均值/ 10-3 | 标准差/ 10-3 | 方差 | 变异系 数/% |
|---|---|---|---|---|---|---|
| 反距离权重法 | 111.79 | 4.70 | 27.21 | 16.22 | 269.58 | 59.61 |
| 普通克里金法 | 98.45 | 4.62 | 26.33 | 15.56 | 242.19 | 59.10 |
| 随机森林模型 | 77.03 | 10.08 | 32.05 | 13.05 | 122.20 | 40.72 |
3.4 不同方法预测精度评估
在对预测模型的性能进行评估时,笔者使用了决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)作为比较指标(表3)。为了对比普通插值方法和随机森林模型的差异性,本研究基于相同的采样点数据,利用反距离权重法、普通克里金法和随机森林模型对宝清县表层土壤有机碳含量进行估测。根据验证集的R2值可以看出,随机森林模型的拟合效果最佳,优于普通插值方法,且MAE为1.15,RMSE为1.57,小于普通插值方法,表明在预测宝清县表层土壤有机碳含量上随机森林模型表现更佳。
表3 有机碳插值精度分析结果
Table 3
| 预测方法 | 训练集 | 验证集 | ||||
|---|---|---|---|---|---|---|
| R2 | RMSE | MAE | R2 | RMSE | MAE | |
| 反距离权重法 | 0.32 | 2.45 | 1.43 | 0.42 | 1.73 | 1.49 |
| 普通克里金法 | 0.39 | 2.25 | 1.43 | 0.43 | 2.20 | 1.48 |
| 随机森林模型 | 0.73 | 0.81 | 0.54 | 0.53 | 1.57 | 1.15 |
图9
图9
反距离权重法预测结果与实际值对照
Fig.9
Inverse distance weighting method prediction versus actual values
图10
图11
4 结论与讨论
本研究利用地表基质层调查数据对宝清县表层土壤有机碳含量进行了预测,开展了模型比较与数据分析的研究。通过随机森林模型、普通克里金法和反距离权重法的预测,发现3种方法预测的有机碳分布情况总体基本一致。其中,随机森林模型考虑了植被指数、气候和地形等多环境因子的变化,在预测精度和稳定性指标上均表现更佳,显著优于反距离权重法和普通克里金法,能更准确地反映出研究区北部地势较低处的核心黑土分布区有机碳含量高于地势较高处的情况,与土壤地理学中有机碳的空间分布吻合性较好。并且,随机森林模型在验证集上的R2值为0.53,RMSE为1.57,均显示出较高的预测精度和较小的误差,表明随机森林模型不仅能够较好地拟合训练数据,且具有较强的泛化能力,能够保持相对较高的预测准确度。与之相比,反距离权重法和普通克里金法预测精度较低。虽然普通克里金法在验证集上的评估指标略优于反距离权重法,但仍未能显著改善预测的准确性。从预测均值来看,随机森林模型的有机碳预测值为32.05×10-3,显著高于反距离权重法(27.21×10-3)与普通克里金法(26.33×10-3),三者差异幅度分别为4.84×10-3与5.72×10-3。这一结果表明,传统插值方法在预测结果上普遍低于随机森林模型,可能与其理论假设(如空间平稳性、线性关系)对复杂环境过程的表征能力不足有关。相较而言,随机森林模型通过集成多环境因子的非线性交互作用,能够更充分地挖掘数据中的潜在规律,从而实现对县域尺度有机碳空间分异的精准刻画。
参考文献
地表基质在中国黑土地资源调查评价中的应用探讨——基于黑龙江宝清地区地表基质调查
[J].
DOI:10.31497/zrzyxb.20220905
[本文引用: 1]
地表基质是自然作用形成的,正在或可以孕育支撑各类自然资源的基础物质。岩、砾、砂、土、泥等不同类型的地表基质通过自然作用同水、气、生等物质有机组合形成地表基质层,与地表覆盖层相互孕育支撑、演替互馈,维持着地球表层生态系统正常运转,同时为人类提供生产、生态和生活服务。中国东北黑土地作为弥足珍贵的自然资源,是特殊的地表基质层,支撑孕育了大面积的耕地和林地,发挥了不容忽视的生产、生态服务功能。黑土资源合理利用和开发越来越受到国内外重视。通过宝清地区黑土地地表基质调查,构建黑土地地表基质调查内容、指标要素和技术要求,开展黑土地表基质数量、质量、结构、功能“四位一体”调查评价,在基本查明宝清地区黑土资源现状的基础上,提出了黑土资源合理开发的适宜性评价建议。基于地表基质的黑土地资源适宜性综合调查评价,对科学合理利用开发黑土资源具有十分重大而深远的意义。
A study on the application of ground substrate in the survey and evaluation of China’s black soil resources:Based on ground substrate survey in Baoqing,Heilongjiang Province
[J].
基于机器学习的数字土壤制图研究进展
[J].
Advances in digital soil mapping based on machine learning
[J].
基于随机森林模型的耕地表层土壤有机质含量空间预测——以河南省辉县市为例
[J].
Spatial prediction of SOM content in topsoil based on random forest algorithm:A case study of Huixian City,Henan Province
[J].
水田土壤有机碳时空演变下的最优插值方法
[J].
Optimal interpolation method for spatial-temporal evolution of soil organic carbon in paddy fields
[J].
基于克里金插值的耕地表层土壤有机质空间预测
[J].
Prediction of spatial distribution of topsoil organic matter content in cultivated land using Kriging methods
[J].
基于地形因子和随机森林的丘陵区农田土壤有效铁空间分布预测
[J].
Prediction of spatial distribution of soil available iron in a typical hilly farmland using terrain attributes and random forest model
[J].
基于两点机器学习方法的土壤有机质空间分布预测
[J].
Prediction of the spatial distribution of soil organic matter based on two-point machine learning method
[J].
基于机器学习算法的华中天然林土壤有机碳特征与关键影响因子
[J].
Characterization of soil organic carbon and key influencing factors of natural forests in Central China based on machine learning algorithms
[J].
面向亚热带丘陵区小流域土壤有机碳空间预测的四种模型构建及性能比较
[J].
Comparison of four machine learning in predicting soil organic carbon content in a small watershed in the subtropical hilly area
[J].
地形因子对天山北坡天山云杉林土壤有机碳的影响
[J].
DOI:10.6048/j.issn.1001-4330.2023.04.022
[本文引用: 1]
【目的】研究地形因子对天山北坡天山云杉林土壤有机碳的影响。【方法】在新疆农业大学实习林场选取不同海拔、不同坡度和不同坡向的样地采集土壤样品,测定土壤有机碳含量并计算其碳密度。【结果】不同海拔梯度下,天山云杉林土壤有机碳含量介于41.65~77.67 g/kg,土壤有机碳密度介于9.47~14.27 kg/m<sup>2</sup>,土壤有机碳含量及密度均随着海拔的升高呈减少的趋势。0~20 cm土层坡度小于15°时,土壤有机碳含量表现为最高(105.08 g/kg),而当坡度达到30°~35°时,土壤有机碳含量最低;不同坡向上土壤有机碳含量从高到低依次为阴坡>半阴坡>半阳坡>阳坡,其中0~20 cm土层阴坡上土壤有机碳含量显著高于阳坡(P<0.05),20~60 cm土层土壤有机碳含量在各坡向之间差异不显著。【结论】天山北坡天山云杉林在高海拔区域内整个剖面土壤有机碳含量分布较低海拔区域相对均匀。坡向对土壤有机碳的再分配作用在20~60cm土层土壤中难以发挥作用。
Effects of topographic factors on soil organic carbon in Picea schrenkiana forest on the northern slope of Tianshan Mountain
[J].
Soil carbon sequestration impacts on global climate change and food security
[J].
DOI:10.1126/science.1097396
PMID:15192216
[本文引用: 1]
The carbon sink capacity of the world's agricultural and degraded soils is 50 to 66% of the historic carbon loss of 42 to 78 gigatons of carbon. The rate of soil organic carbon sequestration with adoption of recommended technologies depends on soil texture and structure, rainfall, temperature, farming system, and soil management. Strategies to increase the soil carbon pool include soil restoration and woodland regeneration, no-till farming, cover crops, nutrient management, manuring and sludge application, improved grazing, water conservation and harvesting, efficient irrigation, agroforestry practices, and growing energy crops on spare lands. An increase of 1 ton of soil carbon pool of degraded cropland soils may increase crop yield by 20 to 40 kilograms per hectare (kg/ha) for wheat, 10 to 20 kg/ha for maize, and 0.5 to 1 kg/ha for cowpeas. As well as enhancing food security, carbon sequestration has the potential to offset fossil fuel emissions by 0.4 to 1.2 gigatons of carbon per year, or 5 to 15% of the global fossil-fuel emissions.
Digital soil mapping:A brief history and some lessons
[J].
地表基质调查技术方法探索与实验——以黑龙江省宝清县黑土地调查为例
[J].
Exploration and experiment of surface substrate investigation technique:A case study of black soil investigation in Baoqing County,Heilongjiang Province
[J].
Patterns and driving mechanism of soil organic carbon,nitrogen,and phosphorus stoichiometry across northern China’s desert-grassland transition zone
[J].
空间插值分析算法综述
[J].
Review of spatial interpolation analysis algorithm
[J].
黑土区县域土壤养分空间分布特征及其影响因子
[J].
Spatial distribution characteristics and influence factors of soil nutrients in black soil region counties
[J].
新疆年均降水量的空间插值方法比较
[J].
Comparison on spatial interpolation methods of average annual precipitation in Xinjiang
[J].
缺资料地区降雨量空间插值方法比较
[J].
Comparison of spatial interpolation methods for precipitation in regions lacking data
[J].
基于ArcGIS地统计分析模块的土壤养分与pH值空间变异分析——以云南省寻甸县为例
[J].
Study on spatial variability of soil nutrients and pH values based on GIS geostatistical analysis module—Taking Xundian Country of Yunnan Province as an example
[J].
基于地统计学和GIS的江西省森林土壤养分空间分布特征
[J].
Spatial distribution characteristics of forest soil nutrients in Jiangxi Province based on geostatistics and GIS
[J].
/
| 〈 |
|
〉 |
