E-mail Alert Rss
 

物探与化探, 2024, 48(2): 428-436 doi: 10.11720/wtyht.2024.1260

方法研究·信息处理·仪器研制

基于特征加权的KNN模型岩性识别方法

郭雨姗,1, 王万银,1,2,3

1.长安大学 地质工程与测绘学院,陕西 西安 710054

2.中国科学院 海洋地质与环境重点实验室,山东 青岛 266071

3.海洋油气勘探国家工程研究中心,北京 100028

A method for identifying lithology based on a feature-weighted KNN model

GUO Yu-Shan,1, WANG Wan-Yin,1,2,3

1. School of Geological Engineering and Geomatics, Chang'an University, Xi'an 710054, China

2. Key Laboratory of Marine Geology & Environment, Qingdao 266071, China

3. National Engineering Research Center of Offshore Oil and Gas Exploration, Beijing 100028, China

通讯作者: 王万银(1962-),男,博士,教授,博士生导师,主要从事重、磁方法理论及应用研究工作。Email:wwy7902@chd.edu.cn

责任编辑: 王萌

收稿日期: 2023-06-15   修回日期: 2023-10-25  

基金资助: 中海石油有限公司科技项目“中国近海盆地潜在富油凹陷资源潜力、成藏机制与突破方向”之课题“中国近海潜在富油凹陷深部构造差异性研究”项目(CCL2021RCPS0167KQN)

Received: 2023-06-15   Revised: 2023-10-25  

作者简介 About authors

郭雨姗(1997-),女,长安大学硕士研究生,主要从事重、磁数据处理与解释工作。Email:gys103319@163.com

摘要

岩性识别是一项重要的地质工作,为固体矿产勘探与油气勘探奠定了坚实的地质基础。岩石物性是连接岩性和地球物理场的桥梁,可以通过物性之间的差异进行岩性识别,但不同岩石的物性数据往往存在一定重合,仅靠交会图无法准确地识别岩性。KNN(K近邻)模型是一种简单、直接的机器学习方法,准确度和灵敏度都很高,适用于多分类问题。基于此,本文将基于特征加权的KNN模型引入岩性识别中,该方法将传统KNN模型与属性特征的信息增益相结合,对不同特征赋予不同权重,可以直观地反映属性特征对分类的重要程度。实验证明,相比于传统KNN方法,基于特征加权的KNN模型对岩性交界处的识别能力有大幅提升,整体提高了岩性识别的准确性和稳定性。

关键词: KNN; 岩性识别; 信息增益; 特征权重

Abstract

Lithology identification, as a major geological task, strongly underpins the exploration of solid minerals, oil, and gas. Since the physical properties of rocks bridge lithologies and geophysical fields, their differences can be used for lithology identification. However, the physical property data of different rocks frequently overlap to some extent, posing challenges to accurate lithology identification using cross plots alone. The K-nearest neighbor (KNN) model is suitable for multi-class classification since it is a simple and direct machine learning method with high accuracy and sensitivity. This study introduced a feature-weighted KNN model for lithology identification. In this model, different weights were assigned to different features by combining the conventional KNN model with the information gain of attribute features. This allowed for intuitive reflection of the importance of attribute features to classification. Experiments show that compared to the conventional KNN model, the feature-weighted KNN model can more significantly identify lithologic boundaries, thus improving the overall accuracy and stability of lithology identification.

Keywords: KNN; lithology identification; information gain; feature weight

PDF (4553KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

郭雨姗, 王万银. 基于特征加权的KNN模型岩性识别方法[J]. 物探与化探, 2024, 48(2): 428-436 doi:10.11720/wtyht.2024.1260

GUO Yu-Shan, WANG Wan-Yin. A method for identifying lithology based on a feature-weighted KNN model[J]. Geophysical and Geochemical Exploration, 2024, 48(2): 428-436 doi:10.11720/wtyht.2024.1260

0 引言

岩性识别是地质研究工作中必不可少的一部分,准确高效的岩性识别具有重要的应用价值[1]。在矿产资源勘探中,尤其是在固体金属矿产资源勘探中,岩性识别发挥着不可估量的作用,岩性识别可以提供特定的地质信息, 刻画地下岩矿石的空间分布状态,为矿产勘探提供坚实的地质基础。准确识别岩性是确定储层孔隙度和含油饱和度必不可少的前提。

目前岩性识别方法有直接手段和间接手段。直接手段有岩心取样、手标本及薄片鉴定等,但获取样品的成本很高,并需要进行后续的实验分析鉴定岩性。间接手段主要有地质填图以及地球化学、地球物理、遥感等方法,其中地质填图受深度限制,只能反映浅地表的岩性分布,遥感技术探测在植被覆盖区域难于获取有效信息而限制其采纳几率,因此地球物理方法在深部岩性识别中发挥着重要作用。岩石的物理性质(密度、磁化率、电阻率、波阻抗等)是连接岩性与地球物理场的桥梁,因此可以通过地球物理手段,如重力、磁力、地震等方法反演岩石物性,再根据物性与岩性对应的逻辑关系,判断岩性的空间展布。目前的地球物理手段中,重、磁力反演在无约束的情况下分辨率较差、多解性强,地震反演具有较高的分辨率,但作业成本高昂,不适用于大面积的岩性识别研究[2-4];测井手段主要利用交会图版法或者基于统计、聚类等方法进行岩性识别[5-9],此技术在纵向储层岩性识别中应用较为广泛,但无法进行横向的岩性识别,并且测井数据在交会图上存在重叠区域,不适用于复杂岩性的分类问题。

通过各种技术能够获取到的物性数据有很多,但如何准确、高效地利用物性数据来识别岩性具有重要的研究意义。随着科学技术的进步,基于数据挖掘的人工智能技术开始应用到岩性识别中,数据挖掘是从大量数据中揭示隐含的并具有潜在价值信息的方法[10]。目前,机器学习(machine learning)在岩性识别的应用愈发广泛[11-14],机器学习方法具有很强的自适应能力,能够在岩性与地球物理特征属性之间建立复杂的非线性关系,可以将多种特征信息统一到同一模型下进行分析计算,并且从多种地球物理信息、钻井及地质信息数据中提取有用特征,进而可以更加快速准确地进行岩性识别,提升岩性识别的质量和效率。

本文将基于特征加权的K近邻(KNN)方法应用于岩性识别中,实现从物性到岩性的转换。K近邻方法的直观思想是:给定已知的训练数据集,选择距离函数计算待分类样本和训练样本之间的距离,选取距离最小的K个样本作为“近邻”,将待分类样本归属于K个近邻样本所属类别最多的数类。K近邻算法直观、简洁有效,所需要调整的参数少,不做额外的假设,具有通用性,可以用于分类、回归和搜索等应用[15]。但是K近邻算法也存在着一些缺点,首先该算法是一种惰性学习方法,直到有样本需要分类时才建立分类器,将已知样本和未知样本逐个计算相似程度,计算量大、分类效率低;其次K值的选择也会影响分类效果,K值较小容易导致“过拟合”,K值较大容易导致模型的近似误差增大;传统KNN方法将输入的每个属性赋予相同的权值,忽略了各个属性在实际工作中对分类结果的重要程度不同,影响了分类结果的准确性。

针对以上不足,许多学者对K近邻算法提出了改进方法,逐渐完善了算法体系,提高了识别的效率与准确率。针对算法分类效率的问题,刘述昌等[16]把急切学习法引入KNN算法中以克服其懒惰学习的特点,首先应用密度理论对训练集进行分类前的调整,使分类阶段的部分复杂计算提前到训练过程中,节省了对测试样本类别判定的时间开销,其次使用类中心向量方法实现二级分类,在不损失准确度的同时提升了分类速度。Chen等[17]提出一种基于缓冲区的K最近邻查询算法,该算法减少了搜索待分类样本的时间复杂度,有效提升了分类效率。

针对KNN算法中分类结果受K值选取影响较大的问题,孙可等[18]引入稀疏学习理论,提出SA-KNN算法,通过局部保持投影LPP重构测试样本,利用L2,1范数去除噪声样本的方法寻找投影变换矩阵来确定K值,优化了传统算法K值选择的问题。

KNN算法中将属性同等看待的计算方式忽视了属性特征对分类结果的重要性,肖辉辉等[19]提出了改进的KNN算法FCD-KNN,该算法考虑了属性值对分类的重要性,定义样本间的距离为属性的相关距离,能够通过样本属性有效度量样本间的相似度,可以更有效地找到近邻样本,提高了分类的准确率。信息熵也是衡量特征属性相关性的一个重要指标,基于此,一些学者提出基于属性值信息熵的KNN改进算法,利用信息熵得到该特征的权重值进行K近邻筛选,该算法较为全面地度量了特征属性对分类的重要程度,并且有效地提高了识别精度[20-22]

面对数据集的众多分类特征,如何选择合适的指标评价特征属性的重要程度是至关重要的。传统KNN算法中,计算待分类点到训练样本之间的距离时,将所有属性都同等对待,但实际工作中,岩性分布一般是复杂多样的,各个属性在分类中所起的作用是不同的,有的起关键作用,有的甚至不起作用。因此,针对不同特征在特征距离计算时所占据的重要程度不同,并考虑到传统KNN算法对容量少的样本存在误判的情况,本文将一种基于特征加权的KNN识别方法应用于岩性识别中,利用信息增益确定每个特征属性的重要程度,信息增益越大,特征的重要程度就越高,计算不同特征值的权重,将其代入距离公式中,从距离上扩大相似数据之间的区别。

1 基本原理

1.1 K近邻分类

K近邻方法(KNN)首先由Cover等[23]于1967年提出,属于统计模式识别方法,其思想就是计算未知类别样本与已知类别样本之间的距离,根据距离度量,找出与未知类别样本距离最小的K个近邻样本,以“少数服从多数”原则判别未知样本类型。具体流程为:

1)选择距离度量函数,一般选择欧式距离,计算待测样本与邻近样本间距离值:

d(x,yi)=||x-yi||2=k=1nxk-yik|21/2,

其中:x为待分类样本;y为已知类别样本;n表示数据维度;ik为样本编号。

2)对计算出的距离值进行排序,选前K个最小距离的样本作为近邻样本。

3)确定前K个样本类别出现的频率。

4)返回前K个点出现频率最高的类别,即出现频率最高的类别就是预测的未知样本类别。

KNN方法无需事先训练模型,模型结构简单有效,其准确度和灵敏度都很高,是向量空间模型(VSM)下最好的分类算法之一[24]。KNN模型只有一个参数K,需要对参数K进行优化,寻找最佳K值。

交叉验证(cross-validation)[25]是常用的选取最优化模型参数的方法,在可用数据较少的情况下,通过对数据的有效重复利用,选出最为合适的模型参数。交叉验证的思想为将训练集交叉拆分为不同的训练集和验证集,使用拆分出的训练集和验证集分别测试模型的精度,求出精度的均值就是交叉验证的结果。将交叉验证作用到不同的参数中,选取精度最高的参数作为模型参数即可。

常见的交叉验证方法有简单交叉验证(holdout cross validation),L折交叉验证(L-fold cross validation)和留一交叉验证(leave-one-out cross validation)。本文使用的是L折交叉验证,所有数据都会参与到训练和预测中,可以有效地避免过拟合以及欠拟合情况的发生,具体做法为:

1)随机将原始训练集划分为L个互不相交、大小相等的子集;

2)将其中1份作为测试集,其余L-1份为训练集,进行模型的训练和评估;

3)将上一步重复L次(每次选择不同子集作为测试集),将L次评估指标的平均值作为最终的评估指标。

交叉验证从有限的数据中尽可能多地获取有效信息,可以用于评估模型的预测性能,在数据量较少的时候更方便找到合适的模型参数,在一定程度上减小模型过拟合。

1.2 特征权重

信息增益表示数据集中某个特征x的信息使类别y的信息的不确定性减小的程度[26],即特征x对类别的贡献程度。若特征为A,训练数据集为D,则特征A对训练集D的信息增益为:

g(D,A)=H(D)-H(D|A),

其中:H(D)为数据集D的信息熵,表示对数据集D进行分类的不确定程度;H(D|A)为数据集D的条件熵,表示在已知特征A的条件下,数据集D的不确定程度。具体流程为:

1)计算训练数据集D的信息熵

H(D)=-k=1K|Ck|Dlog2|Ck|D,

其中:|Ck|为第k类特征的样本个数;D为样本容量;k是类别个数。

2)计算特征A对数据集D的条件熵

H(D|A)=-i=1n|Ci|DH(Di),

可进一步优化为:

H(D|A)=-i=1n|Di|Dk=1K|Cik|Dlog2|Cik|D,

其中:|Di|表示特征A在样本集上取值为i的样本个数;|Cik|表示子集Di中属于类Ck的样本个数。

3)计算信息增益g(D,A)

一般地,信息增益越大,则表示属性x对类别y的不确定程度降低越大,也就是说信息增益越大的特征重要程度越高。根据特征的信息增益构造特征权重,若训练集D共有n个属性,则属性A的权重为:

w(A)=g(D,A)i=1ng(D,i),

K近邻模型中的加权欧式距离为:

d(x,yi)=k=1nw(k)|xk-yik|21/2

2 模型测试

2.1 模型设计

本次设计模型的岩性类别共3种,分别为板岩、片麻岩、花岗岩,该模型共有8 690个岩性样本点,图1为区内模型岩性分布示意图。表1为岩性模型的3种岩石的物性参数分布,其中板岩整体密度较大,而磁化率和电阻率较小;片麻岩密度分布范围较广,整体密度有大有小,磁化率值和电阻率值最大;花岗岩整体密度最小,磁化率分布范围与板岩相同,电阻率值处于板岩和片麻岩的中间。从表1中可以看出,模型的密度参数和磁化率参数存在较多的交叉部分。

图1

图1   模型岩性分布

Fig.1   Rock distribution of the model


表1   模型物性参数

Table 1  Physical property parameter of modal

岩石名称密度/
(kg·m-3)
磁化率/
(10-5 SI)
电阻率/
(Ω·m)
板岩2630~28500~1603~8
片麻岩2570~2830180~28040~60
花岗岩2580~26400~16010~30

新窗口打开| 下载CSV


图2为模型物性分布情况,模型选取密度、磁化率和电阻率3种物性特征作为岩性分类依据。图中可以看出,岩石物性参数具有一定的模糊性。密度参数中,板岩和片麻岩的密度范围分布较接近,图2a中仅靠密度难以区分这两种岩性,花岗岩的密度变化范围最小,与板岩、片麻岩的交叉部分较少,主要集中在2 600 kg/m3左右,故在图2a中比较容易区分。磁化率参数中,板岩和花岗岩变化范围相同,这两种岩性分布区域颜色相同,无法区分,片麻岩磁化率较高,在图中可以明显区分。3种岩性的电阻率有较大的差别,其变化范围各不相同,图2c中可以较为明显地区分3种岩石。

图2

图2   物性参数分布

a—模型密度分布;b—模型磁化率分布;c—模型电阻率分布

Fig.2   Physical properties distribution of the model

a—density distribution of the model;b—magnetic susceptibility distribution of the model;c—resistivity distribution of the model


2.2 数据预处理

由于各物性参数的量纲、数值量级都不相同,将它们直接用于KNN模型会导致量级较高的数据权重较大。为均衡不同特征属性之间的权重,将对输入数据进行数据规范化处理,其本质是对各个属性的取值范围压缩到统一数值区间,消除属性间量纲差异对模型的消极影响。本次使用z-score标准化[27]方法进行规范化处理。

z-score标准化对每个数据变换时假定其满足正态分布,计算公式为:

z=x-μσ,

其中:x为原始数据;μσ分别为x的均值与标准差。

2.3 模型评价

本次设置岩性模型共有8 690个岩性样本,为了对比分类器的稳定性、准确率以及各种条件下的适用性,使用不同训练数量、不同位置的样本作为训练集和测试集进行识别,本次选取250个、435个、870个已知样本为训练样本,其余样本作为待分类的测试样本,图3~图5为训练样本的物性参数交会图。

图3

图3   250个训练样本物性参数交会图

Fig.3   Interaction diagram of physical property parameters of 250 training samples


图4

图4   435个训练样本物性参数交会图

Fig.4   Interaction diagram of physical property parameters of 435 training samples


图5

图5   870个训练样本物性参数交会图

Fig.5   Interaction diagram of physical property parameters of 870 training samples


基于上述物性数据,实验得出3种模型的KNN识别结果,并对3种模型识别结果准确度进行了对比。表2是3种模型在K值为1~30下计算出的均值、方差以及均方根误差(RMSE)统计,3种模型的平均识别准确率均在90%以上,识别效果良好。

表2   模型准确率与误差统计

Table 2  Accuracy rate and error statistical table of modal

训练样本/个平均准确率/%方差/%RMSE/%
25090.220.4211.68
43590.810.5211.58
87090.090.2611.09

新窗口打开| 下载CSV


2.4 参数优化

K值逐渐增大时,模型的精度会趋于稳定,但在实际应用中,K值是难以准确界定的:K值过小容易产生“过拟合”现象,模型整体变复杂,容易受到异常点影响;K值过大容易产生“欠拟合”现象,模型整体变得简单,容易受到样本分布不均衡的影响。本次试验使用L折交叉验证方法选取最佳参数K,交叉值L取5,即将训练集平均分为5份,选取一份作为测试集,剩下4份作为训练集,进行5次交叉验证,最后对交叉验证的结果取平均,得到各种K值下的平均准确率,选择平均准确率最大时对应的K值为模型的最佳参数。但在使用交叉验证方法确定最佳KKopt前,须先确定K值的搜索范围,也就是最大KKmax,目前大多数理论支持KoptKmaxn [28],其中n为数据集大小,本次共有样本点共8 960个,因此最大K值为93。表3为3种模型的训练样本经过5折交叉验证后得到的最佳K值以及该K值下的准确率。

表3   模型最佳K值及准确率

Table 3  Optimal K value and accuracy of the model

训练样本/个最佳K准确率/%
250491.41
4352093.95
8702192.51

新窗口打开| 下载CSV


2.5 基于特征加权模型分析

表4是根据式(2)、式(6)计算出的250、435和870训练样本模型物性特征的信息增益值与权重值。信息增益表示某物性特征对分类的不确定性减少的程度,岩石的电阻率分布与岩石岩性分布具有明显的对应关系(图2),该特征参数无交会部分,具有较明确的分类信息,因此电阻率的信息增益值最大,对该特征赋予最高的权重。密度特征和磁化率特征的分布具有模糊性,无法从这两种特征中得到明确的分类信息(图2),因此它们对特征分类的重要程度较低,赋予较低的权重值。

表4   特征信息增益与权重统计

Table 4  Statistics table of feature information gain and weight

样本个数/个特征信息增益值权重值
250密度0.83110.3145
磁化率0.65020.2461
电阻率1.16100.4394
435密度0.62820.2628
磁化率0.71670.2998
电阻率1.04590.4374
870密度0.70410.2754
磁化率0.70960.2776
电阻率1.14250.4470

新窗口打开| 下载CSV


表5为基于特征加权的模型在1~30的K值下识别结果的准确率与误差统计,图6为传统KNN和基于特征加权的KNN模型在各K值下的准确率对比。对比传统KNN模型,基于特征加权的KNN模型的平均准确率有所提高,模型的方差和均方根误差降低,说明识别结果的稳定性也有所提升。在K值小于3时,已知信息量不够充足,因此结果不具有参考性,当K大于3时,传统KNN模型曲线有较大起伏,而基于特征加权的KNN模型曲线趋于稳定,并且准确率基本高于传统KNN模型,说明基于特征加权的KNN模型的识别性能有很大的提升,其识别精度和稳定性都高于传统KNN模型。

表5   基于特征加权模型准确率与误差统计

Table 5  Accuracy rate and error statistical table of feature weighted modal

训练样本/个平均准确率/%方差/%RMSE/%
25093.680.207.70
43593.620.207.86
87093.760.358.52

新窗口打开| 下载CSV


图6

图6   两种模型在不同K值下准确率折线

Fig.6   Accuracy line graph of two models under different K value


表6图7分别为传统KNN模型和基于特征加权的KNN模型在最佳K值下的错误率统计与岩性识别结果,两者对比发现,基于特征加权的KNN模型的识别性能有显著提升,识别错误率大幅降低,图7中的红色散点为识别错误点,可以看出,基于特征加权的KNN模型的判错点明显少于传统KNN模型,一些集中在岩性分布内部的错误点消失,原来分布在在岩性边界区域的错误点也明显减少,说明该方法对岩性交界处的识别能力有大幅提升。图7d~f还可以看出该模型对3种岩性的识别能力:模型对花岗岩和片麻岩的识别能力更佳,对板岩的识别能力最弱,这可能是受样本数量不均衡的影响,说明基于特征加权的KNN模型对样本容量小的类域容易误分,因此当训练样本取值不均衡时,会导致模型识别性能下降。

表6   模型错误率对比

Table 6  Comparison of model error rates

训练样本/个最佳K错误率/%
传统KNN方法基于特征加
权的KNN方法
25048.594.17
435206.054.78
870217.494.25

新窗口打开| 下载CSV


图7

图7   模型在最佳K值下的识别结果

(a)~(c)—250、435、870训练样本在传统KNN模型下的识别结果;(d)~(f)—250、435、870训练样本在基于特征加权KNN模型下的识别结果

Fig.7   The recognition result of the model under the optimal K value

Figures(a) ~ (c) is the recognition results of training samples 250, 435 and 870 under the traditional KNN model. Figures (d) ~ (f) is the recognition junction of 250, 435 and 870 training samples based on the feature-weighted KNN model


3 结论与讨论

本文将基于特征加权的KNN模型应用到岩性识别问题中,结论如下:

1)传统KNN近邻模型的方法在岩性识别中表现良好,在有足够的已知训练样本条件下,不同训练样本数下平均准确率可以达90%以上。KNN算法在模型训练过程中,使用交叉验证方法可以选择关键参数K来确定识别的准确率,本次使用了5折交叉验证方法对参数K进行优化,得到最佳K值。

2)本文将基于特征加权的KNN模型应用到岩性识别中,该方法通过计算特征的信息增益值度量分类特征的重要程度,计算特征权重进行识别,提高了模型的精度和稳定性,该模型较全面地考虑到特征参数的分布对识别结果的影响,使识别结果更符合客观事实。从本文的岩性模型可看出,基于特征加权的KNN模型分类效果整体优于传统KNN模型,在分类精度和稳定性上都有明显的提升,并且在岩性分界处的识别效果有大幅提升,可以较好地识别出岩石的类别和轮廓,但当训练样本取值不均衡时,会导致模型识别性能下降,因此模型不适用于样本类域分布非常不均衡的情况,容易导致误分。

参考文献

Feng G H, Wu J X.

A literature review on the improvement of KNN algorithm

[J]. Library and Information Service, 2012, 56(21):97-100,118.

[本文引用: 1]

The paper points out that the traditional k-nearest neighbor(KNN) algorithm has two shortcomings, one is its high computational complexity, and another is that it gives equal importance to each feature items and neighbor samples during the process of similarity measure and category judgment. According to the first shortcoming, three kinds of improvement strategy are put forward, which are feature reduction, optimization of training set and improvement of neighbor searching method. According to the second shortcoming, two kinds of improvement strategy are put forward, which are feature weighting and sample weighting. Representative method of each strategy is also introduced and commented objectively.

Stone M.

Cross-validatory choice and assessment of statistical predictions

[J]. Journal of the Royal Statistical Society Series B:Statistical Methodology, 1974, 36(2):111-133.

[本文引用: 1]

孙傲, 赵礼峰.

基于信息增益和基尼不纯度的K近邻算法

[J]. 计算机技术与发展, 2019, 29(9):51-54,116.

[本文引用: 1]

Sun A, Zhao L F.

K-nearest neighbor algorithm based on information gain and gini impurity

[J]. Computer Technology and Development, 2019, 29(9):51-54,116.

[本文引用: 1]

袁彪. 基于机器学习的岩性识别模型研究[D]. 北京: 中国地质大学(北京), 2021

[本文引用: 1]

Yuan B. Research on lithology identification Model based on Machine Learning[D]. Beijing: China University of Geosciences (Beijing), 2021.

[本文引用: 1]

范永东. 模型选择中的交叉验证方法综述[D]. 太原: 山西大学, 2013.

[本文引用: 1]

Fan Y D. Review of cross-validation methods in model selection[D]. Taiyuan: Shanxi University, 2013.

[本文引用: 1]

付光明, 严加永, 张昆, .

岩性识别技术现状与进展

[J]. 地球物理学进展, 2017, 32(1):26-40.

[本文引用: 1]

Fu G M, Yan J Y, Zhang K, et al.

Current status and progress of lithology identification technology

[J]. Progress in Geophysics, 2017, 32(1):26-40.

[本文引用: 1]

靳军, 刘楼军, 邵雨, .

综合地球物理方法识别准噶尔盆地的岩性圈闭

[J]. 石油地球物理勘探, 2002, 37(3):287-290,299-306.

[本文引用: 1]

Jin J, Liu L J, Shao Y, et al.

Discussion on identifying method for Identification of lithologic traps in Junggar Basin by comprehensive geophysical method

[J]. Oil Geophysical Prospecting, 2002, 37(3):287-290,299-306.

[本文引用: 1]

严加永, 吕庆田, 陈向斌, .

基于重磁反演的三维岩性填图试验——以安徽庐枞矿集区为例

[J]. 岩石学报, 2014, 30(4):1041-1053.

[本文引用: 1]

Yan J Y, Lyu Q T, Chen X B, et al.

3D lithologic mapping test based on 3D inversion of gravity and magnetic data:A case study in Lu-Zong ore concentration district,Anhui Province

[J]. Acta Petrologica Sinica, 2014, 30(4):1041-1053.

[本文引用: 1]

付光明. 基于重磁三维反演的岩性识别与立体填图——以铜陵矿集区为例[D]. 抚州: 东华理工大学, 2017.

[本文引用: 1]

Fu G M. Lithology identification and stereo mapping based on gravity and magnetic 3D inversion-taking Tongling ore concentration area as an example[D]. Fuzhou: East China Institute of Technology, 2017.

[本文引用: 1]

赵建, 高福红.

测井资料交会图法在火山岩岩性识别中的应用

[J]. 世界地质, 2003, 22(2):136-140.

[本文引用: 1]

Zhao J, Gao F H.

Application of crossplots based on well log data in identifying volcanic lithology

[J]. World Geology, 2003, 22(2):136-140.

[本文引用: 1]

吴磊, 徐怀民, 季汉成.

基于交会图和多元统计法的神经网络技术在火山岩识别中的应用

[J]. 石油地球物理勘探, 2006, 41(1):81-86,122,128.

[本文引用: 1]

Wu L, Xu H M, Ji H C.

Application of neural networks technique based on crosspiot and multielement statistics to recognition of volcanic rocks

[J]. Oil Geophysical Prospecting, 2006, 41(1):81-86,122,128.

[本文引用: 1]

张涛, 莫修文.

基于交会图与模糊聚类算法的复杂岩性识别

[J]. 吉林大学学报:地球科学版, 2007, 37(S1):109-113.

[本文引用: 1]

Zhang T, Mo X W.

Complex lithology identification based on crossplot and fuzzy clustering algorithm

[J]. Journal of Jilin University:Earth Science Edition, 2007, 37(S1):109-113.

[本文引用: 1]

关涛.

基于交会图和贝叶斯聚类分析法的岩性识别方法

[J]. 科学技术与工程, 2013, 13(4):976-979.

[本文引用: 1]

Guan T.

Method of lithologic identification based on crossplot and Bayesian cluster analysis algorithm

[J]. Science Technology and Engineering, 2013, 13(4):976-979.

[本文引用: 1]

张晏奇.

测井资料交会图法在火山岩岩性识别中的应用探讨

[J]. 西部探矿工程, 2019, 31(4):53-54.

[本文引用: 1]

Zhang Y Q.

Discussion on the application of logging data crossplot method in volcanic rock lithology identification

[J]. West-China Exploration Engineering, 2019, 31(4):53-54.

[本文引用: 1]

许振浩, 马文, 李术才, .

岩性识别:方法、现状及智能化发展趋势

[J]. 地质论评, 2022, 68(6):2290-2304.

[本文引用: 1]

Xu Z H, Ma W, Li S C, et al.

Lithology identification:Method,research status and intelligent development trend

[J]. Geological Review, 2022, 68(6):2290-2304.

[本文引用: 1]

Wang X D, Yang S C, Zhao Y F, et al.

Lithology identification using an optimized KNN clustering method based on entropy-weighed cosine distance in Mesozoic strata of Gaoqing field,Jiyang depression

[J]. Journal of Petroleum Science and Engineering, 2018, 166:157-174.

DOI:10.1016/j.petrol.2018.03.034      URL     [本文引用: 1]

Silva A A, Tavares M W, Carrasquilla A, et al.

Petrofacies classification using machine learning algorithms

[J]. Geophysics, 2020, 85(4):WA101-WA113.

[本文引用: 1]

蔡泽园, 鲁宝亮, 熊盛青, .

基于自适应核密度的贝叶斯概率模型岩性识别方法研究

[J]. 物探与化探, 2020, 44(4):919-927.

[本文引用: 1]

Cai Z Y, Lu B L, Xiong S Q, et al.

Lithology identification based on Bayesian probability using adaptive kernel density

[J]. Geophysical and Geochemical Exploration, 2020, 44(4):919-927.

[本文引用: 1]

牟丹, 张丽春, 徐长玲.

3种经典机器学习算法在火山岩测井岩性识别中的对比

[J]. 吉林大学学报:地球科学版, 2021, 51(3):951-956.

[本文引用: 1]

Mou D, Zhang L C, Xu C L.

Comparison of three classical machine learning algorithms for lithology identification of volcanic rocks using well logging data

[J]. Journal of Jilin University:Earth Science Edition, 2021, 51(3):951-956.

[本文引用: 1]

陈玉林, 李戈理, 杨智新, .

基于KNN算法识别合水地区长7储层岩性岩相

[J]. 测井技术, 2020, 44(2):182-185.

[本文引用: 1]

Chen Y L, Li G L, Yang Z X, et al.

Identification of lithology and lithofacies of Chang 7 reservoir in Heshui area by KNN algorithm

[J]. Well Logging Technology, 2020, 44(2):182-185.

[本文引用: 1]

刘述昌, 张忠林.

基于中心向量的多级分类KNN算法研究

[J]. 计算机工程与科学, 2017, 39(9):1758-1764.

[本文引用: 1]

Liu S C, Zhang Z L.

A multi-stage classification KNN algorithm based on center vector

[J]. Computer Engineering & Science, 2017, 39(9):1758-1764.

[本文引用: 1]

Chen Y W, Zhou L D, Tang Y, et al.

Fast neighbor search by using revised k-d tree

[J]. Information Sciences, 2019, 472:145-162.

DOI:10.1016/j.ins.2018.09.012      [本文引用: 1]

We present two new neighbor query algorithms, including range query (RNN) and nearest neighbor (NN) query, based on revised k-d tree by using two techniques. The first technique is proposed for decreasing unnecessary distance computations by checking whether the cell of a node is inside or outside the specified neighborhood of query point, and the other is used to reduce redundant visiting nodes by saving the indices of descendant points. We also implement the proposed algorithms in Matlab and C. The Matlab version is to improve original RNN and NN which are based on k-d tree, C version is to improve k-Nearest neighbor query (kNN) which is based on buffer k-d tree. Theoretical and experimental analysis have shown that the proposed algorithms significantly improve the original RNN, NN and kNN in low dimension, respectively. The tradeoff is that the additional space cost of the revised k-d tree is approximately O(alpha nlog(n)). (C) 2018 Elsevier Inc.

孙可, 龚永红, 邓振云.

一种高效的K值自适应的SA-KNN算法

[J]. 计算机工程与科学, 2015, 37(10):1965-1970.

[本文引用: 1]

Sun K, Gong Y H, Deng Z Y.

An efficient SA-KNN algorithm with adaptive Kvalue

[J]. Computer Engineering & Science, 2015, 37(10):1965-1970.

[本文引用: 1]

肖辉辉, 段艳明.

基于属性值相关距离的KNN算法的改进研究

[J]. 计算机科学, 2013, 40(S2):157-159,187.

[本文引用: 1]

Xiao H H, Duan Y M.

Research on improvement of KNN algorithm based on correlation distance of attribute values

[J]. Computer Science, 2013, 40(S2):157-159,187.

[本文引用: 1]

赵彤彤, 张春雷, 张春雨, .

基于模糊熵的KNN分类模型在岩性识别中的应用

[J]. 计算机工程与应用, 2018, 54(24):260-265.

DOI:10.3778/j.issn.1002-8331.1709-0084      [本文引用: 1]

KNN分类模型是一种简单直接的惰性分类算法,适用于多分类问题,可应用于复杂岩性识别中。该研究以苏里格气田苏东某区为研究工区,该地区岩性结构复杂多样,其识别是本次研究工作的重点。传统KNN方法在类重叠度高的部分易判错,样本容量小的类域易误分,稀疏类的边缘点易受干扰,分类效果欠佳。为克服缺点,提出了基于模糊熵的KNN分类模型,又称为FE-KNN(Fuzzy Entropy-KNN)。FE-KNN分类模型将传统KNN与模糊理论相结合,区别对待不同特征和不同样本点,使分类的精度由84.7%提高至86.9%,为复杂碳酸盐岩岩性识别提供了一种新的思路。

Zhao T T, Zhang C L, Zhang C Y, et al.

Application of KNN classification model based on fuzzy entropy in lithology recognition

[J]. Computer Engineering and Applications, 2018, 54(24):260-265.

DOI:10.3778/j.issn.1002-8331.1709-0084      [本文引用: 1]

The KNN classification model is a simple and direct inert classification algorithm, which is suitable for multi-classification problem and can be applied to complex lithology identification. The southeastern area of Sulige gas field is the research area in this study, and the lithology structure of this area is complex and diverse. Its identification is the focus of this research work. The traditional KNN method is easy to misjudge in the high degree of overlap, and the class domain with small sample size is easy to be misinterpreted. The edge of the sparse class is susceptible to interference, so that the result of classification is ineffective. In order to overcome the shortcomings, the KNN classification model based on fuzzy entropy is proposed, which is called Fuzzy Entropy-KNN(FE-KNN). The FE-KNN classification model combines the traditional KNN with the fuzzy theory, discrimination different characteristics and different sample points. The accuracy of the classification is improved from 84.7% to 86.9%. FE-KNN provides a new idea of complex carbonate rock lithology identification.

王林, 王禹杰.

Entropy-KNN算法在岩性识别中的应用研究

[J]. 安徽建筑, 2021, 28(5):95-97.

[本文引用: 1]

Wang L, Wang Y J.

Application of entropy-KNN algorithm in lithology identification

[J]. Anhui Architecture, 2021, 28(5):95-97.

[本文引用: 1]

朱浩, 曹宁, 鹿浩, .

基于特征加权KNN的非侵入式负荷识别方法

[J]. 电子测量技术, 2022, 45(8):70-75.

[本文引用: 1]

Zhu H, Cao N, Lu H, et al.

Non-intrusive load identification method based on feature weighted KNN

[J]. Electronic Measurement Technology, 2022, 45(8):70-75.

[本文引用: 1]

Cover T, Hart P.

Nearest neighbor pattern classification

[J]. IEEE Transactions on Information Theory, 1967, 13(1):21-27.

DOI:10.1109/TIT.1967.1053964      URL     [本文引用: 1]

奉国和, 吴敬学.

KNN分类算法改进研究进展

[J]. 图书情报工作, 2012, 56(21):97-100,118.

[本文引用: 1]

指出传统KNN(k-nearest neighbor)算法的两大不足:一是计算开销大,分类效率低;二是在进行相似性度量和类别判断时,等同对待各特征项以及近邻样本,影响分类准确程度.针对第一点不足,提出三种改进策略,分别为:基于特征降维的改进、基于训练集的改进和基于近邻搜索方法的改进;针对第二点不足,提出两种改进策略,分别为:基于特征加权的改进和基于类别判断策略的改进.对每种改进策略中的代表方法进行介绍并加以评述.

/

京ICP备05055290号-3
版权所有 © 2021《物探与化探》编辑部
通讯地址:北京市学院路29号航遥中心 邮编:100083
电话:010-62060192;62060193 E-mail:whtbjb@sina.com