E-mail Alert Rss
 

物探与化探, 2024, 48(2): 489-497 doi: 10.11720/wtyht.2024.1492

方法研究·信息处理·仪器研制

基于不同机器学习模型的石油测井数据岩性分类对比研究

江丽,1, 张智谟2, 王琦玮3, 封志兵2, 张博程2, 任腾飞2

1.东华理工大学 放射性地质与勘探国防重点学科实验室,江西 南昌 330013

2.东华理工大学 核资源与环境国家重点实验室,江西 南昌 330013

3.中国石油辽河油田辽兴油气开发公司,辽宁 盘锦 124000

Comparative study on lithology classification of oil logging data based on different machine learning models

JIANG Li,1, ZHANG Zhi-Mo2, WANG Qi-Wei3, FENG Zhi-Bing2, ZHANG Bo-Cheng2, REN Teng-Fei2

1. Fundamental Science on Radioactive Geology and Exploration Technology Laboratory,East China University of Technology,Nanchang 330013,China

2. State Key Laboratory of Nuclear Resources and Environment,East China University of Technology,Nanchang 330013,China

3. Liaoxing Oil and Gas Development Company,Petro China Liaohe Oilfield,Panjing 124000,China

责任编辑: 王萌

收稿日期: 2023-11-22   修回日期: 2023-12-26  

基金资助: 放射性地质与勘探国防重点学科实验室开放基金(2020RGET06)
江西省教育厅科学技术研究项目(GJJ220075)
中国铀业有限公司—东华理工大学核资源与环境国家重点实验室联合创新基金项目(2023NRE-LH-08)
中国核工业地质局生产中科研项目(202311-5)
东华理工大学博士科研启动基金项目(DHBK2019087)

Received: 2023-11-22   Revised: 2023-12-26  

作者简介 About authors

江丽(1988-),女,江西临川人,讲师,博士,从事地球物理数据处理教学与研究工作。Email:jianglifzb@163.com

摘要

特定的计算工具帮助地质学家识别和分类油井钻探的岩石岩性,降低成本并提高工作效率。机器学习方法集成了大量信息,能够高效地实现模式识别和准确决策。文章将挪威海5口油井进行岩性分类,通过将数据随机分为训练集(70%)和测试集(30%),利用多变量测井参数数据进行训练和验证,对比多层感知器(MLP)、决策树、随机森林和XGboost等模型的应用效果。研究结果显示,XGBoost模型在数据的泛化性方面表现更佳,其准确率为95%;随机森林模型次之,准确率为94%;而多层感知机(MLP)和决策树模型表现出较好的鲁棒性,准确率分别为92%和90%。

关键词: 岩性识别; 机器学习; 石油测井; XGBoost算法; 随机森林

Abstract

Specific computational tools assist geologists in identifying and classifying the lithology of rocks in oil well exploration,reducing costs,and enhancing operational efficiency. Machine learning methods integrate a vast amount of information,enabling efficient pattern recognition and accurate decision-making. This article categorizes the lithology of five oil wells in the Norwegian Sea,randomly dividing the data into a training set (70%) and a test set (30%). Using multivariate well log parameter data for training and validation,the application effectiveness of models such as Multilayer Perceptron (MLP),Decision Tree,Random Forest,and XGBoost is compared. The research results indicate that the XGBoost model outperforms others in terms of data generalization,achieving an accuracy of 95%. The Random Forest model follows with an accuracy of 94%. Meanwhile,Multilayer Perceptron (MLP) and Decision Tree models exhibit good robustness,with accuracies of 92% and 90%,respectively.

Keywords: lithology identification; machine learning; oil logging; XGBoost gorithm; random forest

PDF (2671KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

江丽, 张智谟, 王琦玮, 封志兵, 张博程, 任腾飞. 基于不同机器学习模型的石油测井数据岩性分类对比研究[J]. 物探与化探, 2024, 48(2): 489-497 doi:10.11720/wtyht.2024.1492

JIANG Li, ZHANG Zhi-Mo, WANG Qi-Wei, FENG Zhi-Bing, ZHANG Bo-Cheng, REN Teng-Fei. Comparative study on lithology classification of oil logging data based on different machine learning models[J]. Geophysical and Geochemical Exploration, 2024, 48(2): 489-497 doi:10.11720/wtyht.2024.1492

0 引言

地层岩石岩性是储层表征和资源评价的关键因素,它的准确识别是油气成藏评价工作的基础。除岩石手标本观察之外,测井数据分析是岩石岩性识别的又一途径。传统基于测井数据的岩石岩性识别方法主要有:交会图法[1]、概率统计法[2]和聚类分析类法[3-4]。尽管如此,面对复杂地下地质环境,建立测井数据与地层之间高纬度的映射关系,找出海量测井数据之间潜在的非线性关系仍是测井亟待解决的关键问题。近年来,随着人工智能的快速发展,以机器学习为代表的先进算法为解决这一传统问题提供新的可能,例如使用长短期记忆神经网络(LSTM)补全测井缺失曲线[5]、基于决策树方法的砾岩油藏岩石岩性识别[6]。与传统岩石岩性识别方法相比,机器学习在数据处理方面更具优势,面对复杂问题时可以增强分类性能的信息融合来获得精确的决策。目前常用于测井岩性识别的机器学习方法包括:决策树、随机森林、XGBoost、多层感知等。

决策树的主要优势在于其直观可解释性以及对不同数据类型的适用性,且无需开展复杂数据预处理。随机森林作为一种强大的集成学习方法,具备处理高维数据的优秀能力。该方法通过整合多个决策树,有效地降低了过拟合的风险[7]。相较之下,XGBoost采用正则化技术,成功地抑制了过拟合的发生。在训练和预测的过程中,XGBoost表现卓越,特别在面对大规模数据集时更为出色。另外,XGBoost还具备自动处理缺失值的功能,无需进行额外的数据处理。相较之下,多层感知机(MLP)则展现出学习复杂非线性关系的出色能力,尤其适用于解决复杂问题和处理多变的数据。通过多层感知机的隐藏层,MLP能够有效地捕捉输入数据的抽象表示,从而有助于发现其中的有用特征。它们分别在处理数据和解决问题时具有不同的优势,决策树操作简单直观,随机森林强调模型的稳定性,XGBoost注重性能,而MLP适用于复杂非线性问题。本文利用上述4种模型对挪威海测井数据开展岩性识别,对比分析它们在岩石岩性识别方面的优劣,为岩石岩性识别方法的选择提供有益参考。

1 基本原理

1.1 分类方法的基本原理

1.1.1 决策树

决策树(decision tree,DT)是由Quinlan[8]于1986年提出的一种模型,由节点(nodes)和边(edges)构成。在该结构中,树的顶部节点为根节点,根节点连接一系列内部节点,内部节点连接叶子节点,信息以递归方式自顶向下传递。决策树在决策时根据数据特征值逐步沿树进行分支,使用信息增益、Gini系数等指标进行评判,直至到达叶子结点,其类别即为预测的类别。为了防止过拟合,决策树在剪枝阶段会减去不必要的节点和分支,以提高泛化能力。

决策树的优势在于对于一些特定的数据集表现出色,且能够处理混合数据类型。然而,在应对复杂问题时,决策树可能变得过于复杂,容易发生过拟合现象。此外,决策树对数据中的噪声和异常值较为敏感,微小的数据变化可能导致树的结构发生显著改变。

1.1.2 随机森林

随机森林(random forest)是一种集成学习算法。通过构建多个决策树组成森林,每棵树生成预测结果,最终通过投票决定整体结果。算法步骤如下:①随机选择样本(有放回),使每棵树的训练集可能不同;②每次节点分裂时仅考虑部分特征,而非全部特征,以减少特定特征对模型的影响;③按照以上步骤构建单颗决策树;④集成多个决策树,每棵树都是独立构建的,最终结果由多颗树投票决定。随机森林引入随机性的思想旨在降低过拟合风险,以提高模型的泛化能力。在面对高纬度数据分类问题时,随机森林表现良好,Bagging算法[9]弥补了单个决策树对噪声敏感的问题,有效降低了过拟合可能带来的负面效应。

1.1.3 多层感知机

多层感知机(multi-layer perceptron,MLP)是经典的人工智能神经网络(artificial neural network,ANN)模型,由输入层、隐藏层、输出层组成。输入层接受输入特征,隐藏层进行其中复杂的线性变化[10],最终输出层生成模型预测结果(图1)。

图1

图1   三层感知机示意

Fig.1   Schematic diagram of the three-layer perception machine


MLP的每一个神经元都与之前的每个神经元有相关联的权重,这些权重控制信息传递到下一层。此外,每个神经元还携带一个偏差。MLP激活函数负责决定神经元输出的非线性关系,这使得MLP能够学习并适应非线性函数。

1.1.4 XGBoost

XGBoost是由GBM(gradient boosting machine)梯度提升机器方法发展而来。它同随机森林算法一样,也是一个集成算法;但不同的是,GBM每个决策树都尝试纠正前一个树的错误以达到提升模型性能的目的。GBM模型也容易出现过拟合,对异常值敏感,调整参数复杂等问题。在天池大赛中,Chen等[11]通过改进GBM提出XGBoost算法,不仅在性能上相较于GBM有显著提升,而且对于GBDT(gradient boosting decision trees)模型也有明显改善。引入并行计算数据特征进一步提高了XGBoost模型计算效率。

XGBoost的模型表达式为[12]:

$\hat{y_i} = \sum_{k = 1}^Kf_k(x_i ),$

式中:xi为了第i个样本;y︿i为对应的预测值;k为树的数量;fk为第k棵树的模型。

正则项为:

Ωfk)=γT+λ12j= 1T ωj2,

式中:T为叶子结点数量;ωj为叶子结点分数;γλ为系数。

L(x)=i=1nl(yi,y︿i)+k=1K Ω(fk)

XGBoost的目标函数包括损失函数和正则项,损失函数为l(yi,y︿i), yi为真实值,y︿i为预测值;Ω(fk)表示正则项。在模型中正则项控制模型复杂度,同时也可以降低方差和防止过拟合,而模型的预测精度由偏差和方差共同决定。

进行t次迭代后,为了使目标函数最小,对式(3)进行泰勒展开[13]:

Lιi=1n l(yi,y︿l(ι-1))+gifi(xi)+12hifι2(xi)+Ω(fι)+C,

式中:gi=y︿(t-1)l[yi,y︿i(t-1)],为损失函数一阶导数;hi=y︿(t-1)2lyi,y︿i(t-1),为损失函数的二阶导数;C为常数项。最终目标函数的简化如下:

L(t)=i=1n gift(xi)+12hift2(xi)+Ω(ft)

2 建模与应用

2.1 数据来源与处理方法

本文所使用的数据源自2020年FORCE机器学习竞赛提供的岩石岩性以及相应的测井、地震数据集 [14]。该数据集由来自挪威海的118口钻井数据组成,而本文选取其中5口钻井数据。这些钻井数据涵盖了多种岩石类型,包括砂岩、泥质砂岩、页岩、泥岩、白云岩、石灰岩、白垩岩、盐岩、凝灰岩、煤炭(表1)[15-16]。本研究使用的5口钻井的测井数据包含共计52 211组数据样本。为构建模型借助Python第三方包pytorch作为平台,建立了决策树、随机森林、多层感知机(MLP)、XGBoost等模型。通过使用Sklearn库中的train_test_split语句,按照7∶3比例将数据划分为训练集和测试集。为保证研究的科学性,必须对训练集数据和测试集数据进行严格的区分。在机器学习模型的准确率评估中,测试数据集扮演着至关重要的判别角色,通常不建议在初期工作中对其进行分析。

表1   不同岩性的测井数据

Table 1  Logging data for different lithologies

岩性统计量CALI/
(ft·s-1)
RD/
(Ω·m)
RHOB/
(g·cm-3)
GR/
(API)
CN/%PEF/
(mV)
DTC/
(m·s-1)
SP/
(mV)
样本总数



砂岩
平均值11.511.862.2037.960.305.29101.9171.49


5837
最小值7.450.121.4910.610.061.1257.0415.39
最大值23.7087.512.8494.130.7634.19158.18132.99


泥质
平均值9.621.352.3258.980.284.7194.3492.82


3338

砂岩
最小值7.450.311.5625.400.081.1662.6024.44
最大值22.2811.722.77146.750.7327.35171.05135.48



页岩
平均值13.261.082.1075.380.444.10132.6669.11


32491
最小值5.940.331.4324.85-0.051.327.4128.90
最大值25.7184.122.95804.290.8039.77230.43137.08



泥岩
平均值10.203.162.4634.510.194.1080.0399.51


1512
最小值7.320.701.628.050.071.3260.1822.89
最大值16.8013.332.6481.830.4639.77110.39122.81



白云岩
平均值9.535.062.4542.590.154.1871.61102.2198
最小值8.470.901.5221.100.062.8154.7338.61
最大值15.0713.132.9082.360.407.67117.03121.94



石灰岩
平均值11.523.652.4522.240.185.5676.2685.46


6222
最小值7.480.391.525.590.0011.9740.7617.69
最大值23.7166.422.90126.060.62166.99167.77120.68



白垩岩
平均值11.704.122.5316.030.128.2066.47104.60


1924
最小值7.751.151.515.780.033.5654.2683.06
最大值14.2214.042.6333.260.3386.8281.83116.41



盐岩
平均值11.1313.451.9149.800.1615.9560.81127.01


20
最小值8.672.611.6015.790.00811.9951.28121.07
最大值12.6641.022.2878.280.621.3573.23130.41



凝灰岩
平均值14.010.812.1945.770.414.12118.2662.12


719
最小值12.230.381.5721.310.292.7361.4036.35
最大值23.311.412.3678.120.659.67149.0697.41



煤炭
平均值8.5611.221.8146.550.482.64114.47120.64


49
最小值8.182.321.4226.140.261.2977.18113.24
最大值9.3827.732.5867.760.607.01127.48128.37

新窗口打开| 下载CSV


钻井的测井曲线包括补偿声波测井(CALI)、电阻率(RD)、密度(RHOB)、自然伽马(GR)、中子孔隙度(CN)、光电吸收截面指数(PEF)、压缩波速度(DTC)、自然电位(SP)。因为原始数据掺杂了许多干扰异常值,而在机器学习训练过程中数据对模型预测的精准度有很大响应,因此需要对原始数据进行预处理:

1)异常值处理[17]。若原始测井数据的首尾两端数据存在异常数值,可根据经验直接删除;同时可将数据进行标准化或者归一化变换,使异常数值对模型的影响减小,同时保留正常数据的分布特性。

2)填补缺失值。对于测井数据内部的异常数值,通常采用插值进行补充;如果选择直接删除异常数据,可能会影响模型对数据的敏感度而降低预计准确度。

2.2 评价指标

交叉验证方法是一种用于评估数据性能的技巧,将未标记的数据集随机分成K个相等大小的小组。这些小组被反复用于训练和测试,通过重复K次以确保所有数据组都被充分用于训练和测试[18-19]。每次处理返回准确性、精确度、召回率和 F1 分数等评价指标,并根据这些指标的变化来评估模型性能。通过这种方式,整个可用数据集都被用于评估,从而得出对数据准确分类的综合评估结果,涵盖了各种特征形成和分组的不同方面(图2)。

图2

图2   交叉验证

Fig.2   Cross-validation diagram


混淆矩阵是在每一个单元格(i, j)真实的值和预测值的表示,例如,在二分类中有真阳性(true positive,TP)、假阳性(false positive,FP)、假阴性(false negative,FN)、真阴性(true negative,TN),用于描述分类或方法的性能,主对角线上的观测值数量的增加被视为性能的优势,而非主对角线上的数值则越少越有利[20]。精确度(Precision)是指模型在正类别样本中正确识别为正类别的能力。召回率(Recall)衡量了模型正确识别正类别的比例。F1分数是精确度和召回率之间的平衡度量,用于综合评估模型的性能,分数越高表示模型性能越好[21]。精确度、召回率、F1分数的计算公式如式(6)所示,精确度由真阳性除以真阳性与假阳性之和。召回率是由真阳性除以真阳性与假阴性之和。F1分数是由两倍的精确度乘以召回率除以精确度与召回率之和。

Precision=TPTP+FP,
Recall=TPTP+FN,
Fl=2×Precision×RecallPrecision+Recall

支持度是指各个类别测试样本的数量;准确度是模型对所有类别分类预测的准确性;宏平均表示每个类别权重相等;加权平均是指计算所有类别性能平均值,根据每个类别的支持度加权计算,便于考虑不平衡类别分布。

2.3 模型训练结果比较

经过模型训练和参数调试后得出最优的结果,从图3中可以得出决策树对各个岩性的分布情况,页岩9 695个样本成功识别样本个数为9 296,召回率约为96% ;白垩岩608个样本成功识别样本个数为536,召回率约为88%;石灰岩1 915个样本成功识别样本个数为1 667,召回率约为87%;砂岩1 702个样本成功识别样本个数为1 426,召回率约为84%;泥岩452个样本成功识别样本个数为348,召回率约为77%;凝灰岩220个样本成功识别样本个数为154,召回率约为70%;泥质砂岩1 022个样本成功识别样本个数为701,召回率约为69%;白云岩30个样本成功识别样本个数为19,召回率约为63%;煤炭13个样本成功识别样本个数为8,召回率约为62%;盐岩6个样本成功识别样本个数为3,召回率约为50%。从高到低排序为:页岩96%、白垩岩88%、石灰岩87%、砂岩84%、泥岩77%、凝灰岩70%、泥质砂岩69%、白云岩63%、煤炭62%、盐岩50%。相对而言,随机森林对10种岩性的召回率从高到低为页岩99%、白垩岩93%、砂岩92%、泥岩88%、石灰岩87%、泥质砂岩79%、盐岩75%、凝灰岩、煤炭69%、白云岩53%。从数据上,两个模型对白云岩和页岩有两极化的响应,对白云岩两个模型都表现不佳,与之对应的页岩决策树和随机森林模型表现良好。主对角线上的10种岩性表示正确的预测结果,而非对角线上的岩性则代表错误的预测,从预测效果方面随机森林模型优于决策树模型(图3图4)。

图3

图3   决策树模型分析岩性混淆矩阵

Fig.3   Decision tree modeling analysis of lithology confusion matrix


图4

图4   随机森林模型分析岩性混淆矩阵

Fig.4   Random forest modeling analysis of lithological confusion matrix


通过对决策树和随机森林模型的预测结果进行分析(表2),发现随机森林模型对石灰岩和白垩岩两种岩性的预测F1值分别为94%和95%,比决策树模型高出约5%。在凝灰岩和白云岩两种岩性的精确度方面,决策树表现较低,分别为71%和53%,而随机森林分别为87%和80%。然而,决策树模型在凝灰岩和白云岩的召回率分别为70%和63%,而随机森林为69%和53%,导致两种模型的F1值相差7%和6%。对于砂岩岩性的预测,两种模型的F1值相差8%,而在泥岩和泥质砂岩预测中,F1值的差异达到12%。决策树对煤炭的岩性预测精确度、召回率和F1值均低于随机森林模型,尤其是F1值相差23%。与随机森林相比,决策树对盐岩岩性的预测精确度、召回率和F1值与其分别相差50%、25%和36%。随机森林整体识别准确度达到94%,而决策树模型的准确度仅为90%。这表明在岩性分类任务中,随机森林模型相对于决策树表现更出色。

表2   决策树和随机森林模型分类报告

Table 2  Decision tree and random forest model classification report

岩性决策树模型随机森林模型
精确度
×100/%
召回率
×100/%
F1值
×100/%
支持度精确度
×100/%
召回率
×100/%
F1值
×100/%
支持度
凝灰岩0.710.700.702200.870.690.77212
砂岩0.840.840.8417020.920.920.921807
泥质砂岩0.700.690.6910220.840.790.811037
页岩0.960.960.9696950.960.990.979588
泥岩0.780.770.774520.890.880.89451
白云岩0.530.630.58300.800.530.6430
石灰岩0.860.870.8619150.940.870.911822
白垩岩0.910.880.896080.950.930.94597
岩盐0.500.500.5061.000.750.868
煤炭0.440.620.52130.820.690.7513
准确率0.90156630.9415663
宏平均0.720.750.73156630.900.800.8515663
加权平均0.900.900.90156630.940.940.9415663

新窗口打开| 下载CSV


经过对XGBoost和MLP模型进行交叉验证后,两种模型对测试样本的岩石岩性分类结果见图5图6。鉴于XGBoost模型和MLP模型需要为测试样本的岩石岩性种类(标签)赋予数字符号,因此,我们将其表示为:0(凝灰岩),1(砂岩),2(泥质砂岩),3(页岩),4(泥岩),5(白云岩),6(石灰岩),7(白垩岩),8(盐岩),9(煤炭)。综合表3的数据,对于岩石岩性分类任务,我们对XGBoost模型和MLP模型的性能进行了全面的比较和分析。在凝灰岩和白垩岩两种岩性的预测中,XGBoost模型展现出显著优越性,其精确度分别达到91%和95%,远高于MLP模型的76%和86%。页岩岩性方面,两者的性能相近,XGBoost模型的精确度、召回率和F1值分别为97%、99%和98%,略高于MLP模型的精确度、召回率和F1值(96%、97%和96%)。对于石灰岩,虽然精确度上两者相差3%,但XGBoost模型在召回率和F1值上分别为90%和91%,明显优于MLP模型的82%和86%。在煤炭岩性的表现上,MLP模型的精确度为86%,稍低于XGBoost模型的精确度93%。然而在召回率上,MLP模型为79%,略高于XGBoost模型的74%。总体而言,MLP模型在煤炭岩性的综合性能略优,其F1值为83%,稍大于XGBoost的82%。至于白垩岩岩性,两者的召回率相等,均为89%。但XGBoost模型的精确度为95%,明显高于MLP模型的86%,导致XGBoost模型的F1值为92%,优于MLP模型的88%。对于砂岩、泥质砂岩、凝灰岩、泥岩、白云岩和盐岩这6种岩性,XGBoost模型在精确度、召回率和F1值方面均优于MLP模型(表3)。这些综合结果明确显示,XGBoost模型在岩石岩性分类任务中表现更为出色,具有更高的准确性和综合性能。

图5

图5   MLP模型分析岩性混淆矩阵

Fig.5   Confusion matrix of lithology analyzed by MLP modeling


图6

图6   XGBoost模型分析岩性混淆矩阵

Fig.6   Confusion matrix of lithology analyzed by the XGBoost model


表3   MLP和XGBoost模型分类报告

Table 3  MLP and XGBoost model classification report

岩性编号MLP模型XGBoost
精确度/%召回率/%F1值/%支持度精确度/%召回率/%F1值/%支持度
凝灰岩00.760.610.682220.910.730.81206
砂岩10.850.900.8717710.920.920.921775
泥质砂岩20.770.760.7610140.840.810.82993
页岩30.960.970.9697640.970.990.989670
泥岩40.800.730.814640.920.910.91476
白云岩50.710.680.69250.780.700.7420
石灰岩60.900.820.8618070.930.900.911856
白垩岩70.860.890.885640.950.890.92638
岩盐80.670.500.5781.000.600.7510
煤炭90.860.790.83240.930.740.8219
准确率0.92155630.9515663
宏平均0.810.780.79156630.910.820.8615663
加权平均0.920.920.92156630.950.950.9515663

新窗口打开| 下载CSV


经过详细分析图5图6,我们可以明显看出XGBoost模型在主对角线上的整体预测结果数量明显多于MLP模型,即XGBoost模型的正确预测结果数量更多。在页岩、白云岩、白垩岩、砂岩和泥质砂岩这几种岩性的预测召回率上,两者相差不大,约为5%。然而,在石灰岩和岩盐这两种岩性的预测中,XGBoost模型相较于MLP模型分别高出8%和10%。相对而言,在凝灰岩和泥岩这两种岩性的预测中,XGBoost模型在召回率上相较MLP模型分别高出12%和18%。然而对于煤炭岩性,MLP模型则优于XGBoost模型5%。总体来看,XGBoost模型的整体识别准确度为95%,而MLP模型整体识别准确度为92%,因此XGBoost模型相对于MLP模型更为优越。

表4呈现了各类岩性的预测F1值,从中可以观察到,在4种模型中,对于白云岩岩性的预测效果相对较弱。具体而言,决策树的F1值为58%,随机森林为64%,MLP为69%,而XGBoost为74%。同时,决策树模型对盐岩、煤炭、泥质砂岩3种岩性的F1值在4种模型中处于最低水平,分别为50%、52%、69%。相较之下,随机森林在这3种岩性上的表现相对一致,分别为86%、75%、81%。XGBoost模型在这些岩性上的F1值为75%、82%、82%。MLP模型在这3种岩性上的表现相对较差,F1值分别为57%、83%、76%。具体而言,MLP模型对盐岩和凝灰岩的预测效果不佳,其F1值分别为57%和68%;然而,在煤炭岩性方面,MLP模型表现最佳,F1值为83%。对于砂岩、页岩、泥岩、石灰岩和白垩岩等岩性,4种模型的F1值大小排序为:XGBoost > 随机森林 > MLP > 决策树。这一综合分析清晰展示了不同岩性在4种模型中的预测性能差异。

表4   各类岩性F1值

Table 4  F1 values for various lithologies

F1值(综合性能)
凝灰岩砂岩泥质砂岩页岩泥岩白云岩石灰岩白垩岩盐岩煤炭
决策树70%84%69%96%77%58%86%89%50%52%
随机森林77%92%81%97%89%64%91%94%86%75%
MLP68%87%76%96%81%69%86%88%57%83%
XGBoost81%92%82%98%91%74%91%92%75%82%

新窗口打开| 下载CSV


3 结论

利用机器学习方法建立包括砂岩、泥质砂岩、页岩、泥岩、白云岩、石灰岩、白垩岩、盐岩、凝灰岩、煤炭在内的10种岩性,以及补偿声波测井(CALI)、电阻率(RD)、密度(RHOB)、自然伽马(GR)、中子孔隙度(CN)、光电吸收截面指数(PEF)、压缩波速度(DTC)、自然电位(SP)8种测井特征曲线之间的非线性映射关系。

对挪威海地区的5口井进行测井数据的岩性预测,建立并比较了决策树、随机森林、MLP和XGBoost 4种模型。XGBoost模型在损失函数上添加了正则项和二阶泰勒展开,同时在底层采用了多线性并行运行,因而在整体的识别准确度方面表现卓越,达到了95%。与之相比,其他模型的性能依次为随机森林模型94%、MLP模型92%、决策树模型90%。

参考文献

徐德龙, 李涛, 黄宝华, .

利用交会图法识别国外 M 油田岩性与流体类型的研究

[J]. 地球物理学进展, 2012, 27(3):1123-1132.

[本文引用: 1]

Xu D L, Li T, Huang B H, et al.

Research on the identification of the lithology and fluid type of foreign oilfield by using the crossplot method

[J]. Progress in Geophysics, 2012, 27(3):1123-1132.

[本文引用: 1]

刘子云, 王向公.

利用概率统计方法判断岩性

[J]. 江汉石油学院学报, 1989, 11(2):35-40.

[本文引用: 1]

Liu Z Y, Wang X G.

Determination of lithology through probability statistics

[J]. Journal of Jianghan Petroleum Institute, 1989, 11(2):35-40.

[本文引用: 1]

寻知锋, 余继峰.

聚类和判别分析在测井岩性识别中的应用

[J]. 山东科技大学学报:自然科学版, 2008, 27(5):10-13.

[本文引用: 1]

Xun Z F, Yu J F.

The application of cluster and discriminant analyses in logging lithology recognition

[J]. Journal of Shandong University of Science and Technology:Natural Science, 2008, 27(5):10-13.

[本文引用: 1]

关涛.

基于交会图和贝叶斯聚类分析法的岩性识别方法

[J]. 科学技术与工程, 2013, 13(4):976-979.

[本文引用: 1]

Guan T.

Method of lithologic identification based on crossplot and Bayesian cluster analysis algorithm

[J]. Science Technology and Engineering, 2013, 13(4):976-979.

[本文引用: 1]

潘少伟, 王朝阳, 张允, .

基于长短期记忆神经网络补全测井曲线和混合优化XGBoost的岩性识别

[J]. 中国石油大学学报:自然科学版, 2022, 46(3):62-71.

[本文引用: 1]

Pan S W, Wang Z Y, Zhang Y, et al.

Lithology identification based on LSTM neural networks completing log and hybrid optimized XGBoost

[J]. Journal of China University of Petroleum:Edition of Natural Science, 2022, 46(3):62-71.

[本文引用: 1]

李洪奇, 谭锋奇, 许长福, .

基于决策树方法的砾岩油藏岩性识别——以克拉玛依油田六中区克下组油藏为例

[J]. 石油天然气学报, 2010, 32(3):73-79,408.

[本文引用: 1]

Li H Q, Tan F Q, Xu C F, et al.

Lithological identification of conglomerate reservoirs base on decision tree method

[J]. Journal of Oil and Gas Technology, 2010, 32(3):73-79,408.

[本文引用: 1]

赖强, 魏伯阳, 吴煜宇, .

基于随机森林的K-近邻算法划分火成岩岩性

[J]. 特种油气藏, 2021, 28(6):62-69.

DOI:10.3969/j.issn.1006-6535.2021.06.008      [本文引用: 1]

针对火成岩油气藏火成岩岩性划分难,岩性划分准确率受薄片鉴定样本数量影响大的问题,利用随机森林(RF)算法分析不同的测井曲线与火成岩岩性相关性,再利用K-近邻(KNN)算法划分小样本薄片鉴定情况下的火成岩岩性。将研究成果应用于川西地区二叠系火成岩地层,结果表明:测井曲线与岩性相关程度从高到低依次为GR、R<sub>t</sub>、DEN、CNL、AC;KNN算法划分火成岩岩性,k取值受分类数量和训练样本数量2个因素控制,样本数量较小时后者影响程度大于前者;k为3时,24个火成岩训练样本(5种岩性)KNN法回判准确率为87.5%,14个火成岩(5种岩性)测试样本测试准确率为92.5%。对比图版划分火成岩岩性,KNN算法受人为影响小,参数调节简便。该研究对小样本情况下火成岩岩性划分有重要指导意义。

Lai Q, Wei B Y, Wu Y Y, et al.

Classification of igneous rock lithology with K-nearest neighbor algorithm based on random forest (RF-KNN)

[J]. Special Oil & Gas Reservoirs, 2021, 28(6):62-69.

[本文引用: 1]

Quinlan J R.

Simplifying decision trees

[J]. International Journal of Man-Machine Studies, 1987, 27(3):221-234.

DOI:10.1016/S0020-7373(87)80053-6      URL     [本文引用: 1]

杨霞霞, 苏锋, 黄戌霞.

基于改进随机森林算法的不平衡数据分类方法研究

[J]. 网络安全技术与应用, 2020(10):70-71.

[本文引用: 1]

Yang X X, Su F, Huang X X.

Research on imbalanced data classification method based on improved random forest algorithm

[J]. Network Security Technology & Application, 2020(10):70-71.

[本文引用: 1]

杜昕, 范廷恩, 董建华, .

基于多层感知机网络的薄储层预测

[J]. 石油地球物理勘探, 2020, 55(6):1178-1187,1159.

[本文引用: 1]

Du X, Fan T E, Dong J H, et al.

Characterization of thin sand reservoirs based on a multi-layer perceptron deep neural network

[J]. Oil Geophysical Prospecting, 2020, 55(6):1178-1187,1159.

[本文引用: 1]

Chen T Q, Guestrin C.

XGBoost:A scalable tree boosting system

[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016:785-794.

[本文引用: 1]

张家臣, 邓金根, 谭强, .

基于XGBoost的测井曲线重构方法

[J]. 石油地球物理勘探, 2022, 57(3):697-705,496.

[本文引用: 1]

Zhang J C, Deng J G, Tan Q, et al.

Reconstruction of well logs based on XGBoost

[J]. Oil Geophysical Prospecting, 2022, 57(3):697-705,496.

[本文引用: 1]

段忠义, 肖昆, 杨亚新, .

基于集成学习的松辽盆地砂岩型铀矿地层岩性自动识别研究

[J]. 原子能科学技术, 2023, 57(12):2443-2454.

DOI:10.7538/yzk.2023.youxian.0101      [本文引用: 1]

地层岩性的准确识别与砂岩型铀矿层的圈定密切相关,岩性组合的正确分析对于开展砂岩型铀矿的勘查与异常识别具有重要意义。本文针对传统测井岩性识别方法与机器学习类方法中存在的问题,以北方松辽盆地砂岩型铀矿为研究对象,采用两种典型的集成算法模型(XGBoost和SMOTE随机森林)开展地层岩性自动识别研究,并将识别结果与K最近邻分类算法(KNN)、梯度提升决策树算法(GBDT)等典型机器学习算法进行对比。结果表明,XGBoost和SMOTE随机森林两种集成算法模型对砂岩型铀矿地层岩性识别的准确率都在95%以上,且较KNN模型和GBDT模型的准确率有明显提高。XGBoost模型用于控制过拟合的正则项和节点分裂时支持特征多线程进行增益的计算,显著提高了运算效率,SMOTE合成少数过采样技术解决了样本数据不平衡的问题。基于集成算法的优化过程可为砂岩型铀矿岩性分类问题提供理论依据与技术支撑。

Duan Z Y, Xiao K, Yang Y X, et al.

Automatic lithology identification of sandstone-type uranium deposit in Songliao basin based on ensemble learning

[J]. Atomic Energy Science and Technology, 2023, 57(12):2443-2454.

DOI:10.7538/yzk.2023.youxian.0101      [本文引用: 1]

The accurate identification of stratigraphic lithology is closely related to the delineation of sandstone-type uranium deposits. In the face of complex stratigraphic structure, the correct analysis of lithology combination is of great significance to the exploration and anomaly identification of sandstone-type uranium deposits. In uranium exploration, geophysical logging data, as a bridge between the change of geophysical properties and the underground geological environment, is an effective and irreplaceable method to understand the underground rock structure and reservoir characteristics. Conventional lithology identification methods such as crossplot method, probability statistic method, cluster analysis method and conventional machine learning class method have some defects, such as low accuracy, identification efficiency and generalization ability. Ensemble learning is a method of achieving consensus in predictions by integrating significant attributes of two or more models, making the final learning framework more comprehensive than that of a single component model, reducing errors and other factors. Compared with ordinary machine learning algorithms, integrated learning algorithms have more advantages in data processing. In this paper aiming at the problems existing in traditional logging lithology identification methods and machine learning methods, the sandstone-type uranium ore in Songliao basin in north China was taken as the research object, and the original data were analyzed and pretreated. Combined with previous studies, two typical integrated algorithm models (XGBoost and SMOTE random Forest) were used to carry out automatic lithology identification of sandstone-type uranium ore in Songliao basin, and the recognition results of the two integrated algorithm models were compared with K-Nearest Neighbor (KNN), Gradient Boosting Decision Tree (GBDT) and other typical machine learning algorithm models were also compared. The results show that the accuracy of XGBoost and SMOTE stochastic forest integrated algorithm model for lithology identification of sandstone-type uranium ore is above 95%, and the accuracy of KNN model and GBDT model is significantly improved. In order to solve the problem of overfitting in operation, XGBoost algorithm model was used to control the regular term of overfitting and node splitting, and support characteristic multithreading to calculate the gain, which improves the operation efficiency and ensures the reliability of the integrated algorithm model. SMOTE synthetic minority oversampling technique solves the problem of sample data imbalance in the random forest algorithm model. The optimization process based on integrated algorithm model provides a theoretical basis for lithology classification of sandstone-type uranium deposits, and provides technical support for strategic breakthrough in uranium exploration.

Bormann P, Aursand P, Dilib F, et al. 2020 FORCE machine learning contest. https://github.com/bolgebrygg/Force-2020-Machine-Learning-competition.

URL     [本文引用: 1]

马陇飞, 萧汉敏, 陶敬伟, .

基于深度学习岩性分类的研究与应用

[J]. 科学技术与工程, 2022, 22(7):2609-2617.

[本文引用: 1]

Ma L F, Xiao H M, Tao J W, et al.

Research and application of lithology classification based on deep learning

[J]. Science Technology and Engineering, 2022, 22(7):2609-2617.

[本文引用: 1]

Haykin S. Neural networks and learning machines,3/E[M]. Upper Sanddle River: Pearson Education, 2009.

[本文引用: 1]

Maria N J R, Pankaja R.

Performance analysis of text classification algorithms using con-fusion matrix

[J]. International Journal of Engineering and Technical Research (IJETR), 2016, 6(4):75-78.

[本文引用: 1]

安鹏, 曹丹平.

基于深度学习的测井岩性识别方法研究与应用

[J]. 地球物理学进展, 2018, 33(3):1029-1034.

[本文引用: 1]

An P, Cao D P.

Research and application of logging lithology identification based on deep learning

[J]. Progress in Geophysics, 2018, 33(3):1029-1034.

[本文引用: 1]

武中原, 张欣, 张春雷, .

基于LSTM循环神经网络的岩性识别方法

[J]. 岩性油气藏, 2021, 33(3):120-128.

[本文引用: 1]

Wu Z Y, Zhang X, Zhang C L, et al.

Lithology identification based on LSTM recurrent neural network

[J]. Lithologic Reservoirs, 2021, 33(3):120-128.

[本文引用: 1]

马陇飞, 萧汉敏, 陶敬伟, .

基于梯度提升决策树算法的岩性智能分类方法

[J]. 油气地质与采收率, 2022, 29(1):21-29.

[本文引用: 1]

Ma L F, Xiao H M, Tao J W, et al.

Intelligent lithology classification method based on GBDT algorithm

[J]. Petroleum Geology and Recovery Efficiency, 2022, 29(1):21-29.

[本文引用: 1]

段忠义, 肖昆, 杨亚新, .

松辽盆地砂岩型铀矿钻孔岩性的测井识别

[J]. 地球物理学进展, 2023, 38(6):2490-2501.

[本文引用: 1]

Duan Z Y, Xiao K, Yang Y X, et al.

Logging identification of borehole lithology of sandstone-type uranium deposit in Songliao Basin

[J]. Progress in Geophysics, 2023, 38(6):2490-2501.

[本文引用: 1]

/

京ICP备05055290号-3
版权所有 © 2021《物探与化探》编辑部
通讯地址:北京市学院路29号航遥中心 邮编:100083
电话:010-62060192;62060193 E-mail:whtbjb@sina.com