庐枞矿集区科学钻探的岩性识别方法
邓呈祥1, 高文利2, 潘和平1, 孔广胜2, 方思南1, 林振洲2
1.中国地质大学(武汉) 地球物理与空间信息学院,湖北 武汉 430074
2.中国地质科学院 地球物理地球化学勘查研究所,河北 廊坊 065000
潘和平(1953-),男,教授,博士生导师,主要从事地球物理测井教学与科研工作。E-mail:panpinge@163.com

作者简介: 邓呈祥(1990-),男,研究生,主要从事地球探测与空间信息技术研究工作。E-mail:dengcx5240@163.com

摘要

庐枞矿集区科学钻探钻遇岩性复杂,岩性亚种类别繁多,利用测井资料识别岩性存在较大的技术难度。笔者采用网格搜索法、粒子群优化和遗传算法三种方法优选支持向量机的核函数参数 γ和惩罚因子 C,其中基于遗传算法优选的支持向量机参数准确率最高。利用测井,结合岩芯、录井等资料,基于遗传算法建立支持向量机岩性自动识别模型,该模型实际数据预测总体符合率为86.86%,优于BP神经网络,全井岩性识别与岩芯录井相符,取得了好的应用效果。

关键词: 庐枞矿集区; 遗传算法; 支持向量机; 岩性识别
中图分类号:P631 文献标志码:A 文章编号:1000-8918(2015)06-1144-06
Lithologic identification method in scientific drilling of the Luzong ore district
DENG Cheng-Xiang1, GAO Wen-Li2, PAN He-Ping1, KONG Guang-Sheng2, FANG Si-Nan1, LIN Zhen-Zhou2
1.Institute of Geophysics and Geomatics,China University of Geosciences(Wuhan),Wuhan 430074,China
2.Institute of Geophysical and Geochemical Exploration,CAGS,Langfang 065000,China;
Abstract

On the basis of SinoProbe,scientific drilling ZK01 of the Luzong ore district located in the Yangtze River basin of eastern China is an integrated geophysical logging study.This study aims at establishing the physical property of lithologic section and revealing the vertical distribution law of metals in the lower crust.For the purpose of detecting the lithologic distribution of the Luzong ore district and providing the information concerning the distribution of metallic ores and evaluation of reserves,the authors chose Support Vector Machine (SVM) to established automatic lithologic identification model for all of the wells.Three methods,i.e.,Grid Search (GS),Particle Swarm Optimization (PSO) and Genetic Algorithm (GA),were applied to find the best parameters C and γ.GA was the best method becasuse it took 34 seconds to obtain the best parameters as (151.9852,9.1105),and its accuracy was up to 98.6364%.Compared with BP neural network identification results,the GA-SVM model achieved better accuracy of 86.86%.The lithologic identification and automatic zonation results are similar to the core data and artificial lithologic section,and the rationality and feasibility of GA-SVM are verified.

Keyword: Luzong ore district; genetic algorithm; support vector machine; lithologic identification

长江中下游是我国重要的有色金属矿生产基地, 矿产资源丰富, 具有重要的战略资源地位, 因此, 在庐枞典型矿集区开展科学钻探工作, 获得地下原位物性信息, 对测井曲线进行分层、岩性识别等工作具有重要的意义。庐枞矿集区岩性复杂, 岩性亚种类别繁多, 钻遇岩性细分起来包含40种, 主要为粗安岩、凝灰岩、黄铁矿化粗安岩、高岭石化粗安岩、安山玢岩、正长岩、金属硫化物黄铜矿、黄铁矿以及高铀层等, 各种岩性测井响应特征丰富、复杂, 使利用测井资料识别岩性存在较大的技术难度, 亟需寻求一种简便高效的识别方法。

测井中常用的岩性识别方法有交会图分析、聚类分析、判别分析、神经网络及支持向量机等, 交会图分析法仅能区分部分岩性, 且岩性区分边界模糊, 识别率较低; 聚类分析方法用于岩性识别时存在一定的不稳定性, 仅仅适用于勘探初期资料较少的时候[1]; 判别分析法和神经网络法都有较好的识别效果, 但判别分析法应用在整口井时需要样本覆盖所有响应特征, 因此样本数量较大, 而神经网络法存在网络优化过程中容易陷入局部极值、网络结构的设计依赖于设计者的先验知识和经验等局限[2]。笔者结合庐枞矿集区科学钻探岩心资料和测井资料, 采用支持向量机(Support Vector Machine, SVM)为该地区复杂岩性识别提供参考。

1 支持向量机基本理论

支持向量机是由Cortes和Vapnik于1995年正式提出[3, 4]一种机器学习方法, 它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势, 并在很大程度上克服了“ 维数灾难” 和“ 过学习” 等问题[5]

支持向量机的基本思想是根据结构风险最小化原理, 通过最大化分类间隔或边缘尽量提高学习机的泛化能力[6], 即寻找一个满足分类要求的最优分类超平面, 使得该超平面在保证分类精度的同时, 能够使超平面两侧的空白区域最大化。

对于线性分类问题, 给定一个训练集(xi, yi), i=1, …, n, 这里xiRm, yi∈ (1, -1), 线性可分类表明存在着一个平面ω φ (x)+b=0(其中ω 为权向量, b为阈值), 使得训练数据点的正类输入和负类输入距离这个分类面尽量远。这就需要求解变量ω b的最优解, 使得分类间隔最大, 即满足:

minω, br(ω)=12ω2, yi(ω·x)+b1, i=1, n

由于错分类的存在加入了松弛因子ζ i和惩罚因子C, 构成最小化目标函数 12ω 2的惩罚项Cζi2, 则最优分类面的求解问题转化为凸二次规划寻优的对偶问题, 利用Lagrange函数解决这个优化问题:

minα12i=1nj=1nyiyjαiαj(xi·xj)-i=1nαi, 0αiC, i=1nyiαi=0, αi, 0, i=1, n

求解上述方程后得分类决策函数:

y(x)=sgni=1nαi* yi(x·xi)+b* ,

式中, αi* 为最优解, 不为零时即为支持向量; x为随机矢量; b* 为分类阈值[7]

对于非线性分类问题, 则是引入核函数, 将原空间样本数据通过非线性变换映射到高维特征空间, 在高维空间中求最优或广义最优分类面[8]。最常用的核函数有:

多项式

K(xi, xj)=(rxiTxj+γ)d, γ> 0, (6)

径向基函数(RBF)

K(xi, xj)=exp(-γxi-xj2), γ> 0, (7)Sigmoid函数K(xi, xj)=tanh(γxiTxj+γ), (8)

其中, γ rd为核函数的参数。

张银德[9]等在分类识别时采用径向基函数, 取得了较好的分类效果; 笔者也选定其作为核函数, 则惩罚因子C和RBF参数γ 决定着支持向量机分类性能优劣的关键。

2 基于遗传算法的支持向量机参数选择

遗传算法(genetic algorithm, GA)由Holland教授于1969年提出[10], DeJong、Goldberg等人归纳总结形成一类模拟进化算法[11, 12], 他们都详细地介绍了遗传算法。这里主要介绍遗传算法实现支持向量机岩性识别参数的优选步骤:

(1)读入标准化的岩性样本测井数据作为训练样本。

(2)随机产生一组支持向量机参数{C, γ }, 将它们转化成二进制编码构成初始的群体。

(3)将这一代参数{C, γ }代入支持向量机对训练样本进行验证, 将岩性识别准确率作为适应度, 则准确率越高, 适应度越高, 参数{C, γ }越接近最优解。

(4)选择若干高适应度的参数直接遗传给下一代, 然后进行交叉、变异等处理后产生的参数作为新的一代个体。

(5)返回到步骤(3), 不断重复, 直到平均适应度逐渐收敛满足目标要求后输出最高适应度编码, 经转化后得到优选的参数{C, γ }。

3 参数选择及模型建立
3.1 测井参数及处理

由于庐枞矿集区钻孔属于金属小口径钻孔, 能够进行的测井方法种类有限, 所以需要优选出对岩性变化反应敏感的测井参数。基于研究区的岩芯及录井资料, 研究区共划分出粗安岩、高岭石化粗安岩、黄铁矿化粗安岩、凝灰岩、安山玢岩和正长岩6种主要岩性, 它们的测井参数响应值自然伽马(CGR)、地层电阻率(RT)、声波时差(Δ t), 密度(ρ )统计如表1所示。从表中可以看出, 每种岩性在不同的测井参数上存在着不同的差异, 具备了识别岩性的初始条件。

根据岩芯及录井资料, 从各个岩性中选取若干数据点绘制测井参数交会图, 通过图1发现4种参数能够较好地区分岩性, 因此选择它们作为支持向量机岩性识别模型的输入特征参数。

图1 各种岩性的Δ t-CGRRT-ρ 测井交会

对应钻孔ZK01有准确岩芯定名资料的数据点, 优选了220个具有代表性的岩性样本作为训练样本, 其中粗安岩40个, 黄铁矿化粗安岩40个, 高岭石化粗安岩35个, 正长岩35个, 安山玢岩30个, 凝灰岩40个, 提取它们的AC、GR、RT、DEN常规测井数据建立了4维6类的样本空间。同时为了消除各特征量纲不同所带来的影响, 对样本的测井参数进行归一化处理, 将每一组特征归一到(-1, 1)。

3.2 支持向量机参数选择

支持向量机分类结果的好坏很大程度上取决于核函数的参数γ 和惩罚因子C的选择, 参数选取不合理往往会造成计算的“ 欠学习” 和“ 过学习” 现象, 从而直接影响预测精度和运行时间[13]。常用参数选择的方法有网格搜索法、梯度下降法[14]、粒子群优化[15](particle swarm optimization, PSO)等。

表1 不同岩性测井响应值统计

笔者选用网格搜索法、遗传算法和粒子群优化进行参数优选, 所有参数优选方法都是在主频为2.13GHz, 内存为2GB的WINDOWS操作系统上运行。其中网格搜索法Cγ 的搜索范围分别为(2-5, 215)和(210, 2-10), 步长分别为1和-1, 对训练集进行3折交叉验证; 粒子群优化的群体规模为20, 最大进化代数为200, 加速度系数c1、c2分别为1.5和1.7, Cγ 的搜索范围分别为(0.01, 1 000)和(0.01, 1 000), 对训练集进行3折交叉验证; 遗传算法的群体规模为20, 最大进化代数为200, 杂交概率0.9, 变异概率0.01, Cγ 的搜索范围分别为(0.01, 1 000)和(0.01, 1 000), 对训练集进行3折交叉验证, 参数寻优过程如图2图3所示。

图2 网格搜索法准确率等值线平面

图3 PSO和GA的准确率与进化代数变化曲线

由于遗传算法和粒子群优化的初始种群的随机性, 所以需要多训练样本进行多次试验, 迭代终止条件为若五代内的最佳准确率仍不变时输出优Cγ , 得到的一般结果如表2所示。可以看出, 网格搜索法速度快、原理简单, 但它仅仅只能寻找给定的参数搜索范围内步长间距的值, 若参数C值较大时, 如在26~27之间, 则难以寻到最优参数组合。结合图3表2, 发现粒子群优化搜索效率高, 能迅速找到最优解, 但其种群平均准确率低且起伏未收敛, 说明陷入局部最优解中。而遗传算法尽管搜索出最优解的速度稍慢, 但其种群均匀向最优解收敛, 平均准确率也趋于稳定, 优化得到的Cγ 参数建立的训练准确率最高。牺牲部分时间得到最优参数更符合实际运用时的需要, 因此, 这里选用遗传算法优化支持向量机参数得到的参数(151.9 852, 9.1 105)建立识别模型, 训练回判准确率为98.6 364%, 其中2个凝灰岩样本被误判为粗安岩和黄铁矿化粗安岩, 1个高岭石化粗安岩被误判为粗安岩。

表2 参数选择的一般结果比较
3.3 应用效果及分析

获得优化的核函数参数γ 和惩罚因子C后, 对这220个训练样品进行训练, 得到相应的支持向量机模型。为了验证该模型在研究区的岩性识别能力, 从全井20~1 900 m深度范围内另外选取具有岩芯资料、已确定岩性的137个样本作为验证样本集进行检验, 并与常用的BP神经网络法进行对比。表3列出了部分验证样品输入参数及识别结果, 所有验证样品的分类情况如表4所示。

表3 部分验证样品的输入参数及识别结果

表3表4可以看出GA-SVM方法识别岩性具有良好的效果, 相较于用同样的样本进行学习得到的BP神经网络模型的结果识别正确率更高。对比可见, GA-SVM对正长岩的识别度是最高的, 达到94.74%; 其次是黄铁矿化粗安岩和安山玢岩, 原因是研究区正长岩和安山玢岩富含铀且黄铁矿化粗安岩矿化程度较好, 对应使得CGRρ 的测井特征明显, 能较好地将岩性区分开来; 而粗安岩和高岭石化粗安岩识别率次之, 产生误判的原因可能是高岭石化粗安岩中高岭石成分低, 分布不均, 使得表现在测井参数的特征与粗安岩相似而被误判为粗安岩; 凝灰岩识别率只有76.19%, 多被误判为粗安岩大类, 原因是凝灰岩岩性本身较复杂, 晶屑及孔隙变化大, 因此在交会图上表现为散布无规律, 容易被误判成其他岩性。另外, 裂缝、井孔扩径以及岩芯编录和岩性人工识别的误差也是产生误判的原因, 如裂缝的存在导致测井曲线上声波时差增大, 密度减小, 从而使该样品误判为高岭石化粗安岩。但GA-SVM的总体识别率达到86.86%, 各个岩性类别的识别较好, 能满足实际应用需求的准确度。

表4 验证样本的岩性识别结果统计

尝试用该GA-SVM训练模型对ZK01全井进行自动岩性分层及岩性识别, 即将全井段的各个测井参数进行两次五点圆滑, 目的是压制跳点, 使岩层段数据接近平均值。将测井参数标准化到(-1, 1)之间后, 利用GA-SVM训练模型对全井段的深度点逐点判别岩性, 若连续半米及半米以上为同一岩性则划分为一层, 并输出分层深度及岩性。

图4为岩性自动识别及自动分层结果, 图中的综合分析岩性是根据岩芯、录井及地质资料, 由人工依据经验划分出来的, 由其划分ZK01井250~450 m井段得到10层岩层共5种岩性。GA-SVM方法识别得到10层岩层共4种岩性, 对比发现除290 m左右的含晶屑凝灰岩划分为粗安岩及370 m左右的高岭石粗安岩划分为粗安岩外, 其他岩层的识别和划分都与综合分析结果符合, 原因可能是由于凝灰岩岩性复杂导致测井参数特征不明显, 当其夹杂着晶屑时会与其他岩性的区分边界变得更加模糊。而在370 m左右处岩芯及录井资料显示有约50 m的高岭石化粗安岩, 但测井曲线在该段却有不同趋势的变化, 这可能是由于夹着其他容易混淆的岩层, GA-SVM划分出的粗安岩可能更符合实际。此外, GA-SVM划分的岩层层厚与综合分析结果有差异, 即划分的岩层边界没有人工综合划分的边界准确, 可能是由于在进行五点圆滑压制跳点时使得岩层边界处的测井参数过于接近。

图4 庐枞矿集区ZK01的GA-SVM岩性识别及自动分层效果

为了避免跳点引发划分过细出现许多极薄层, 又要保证边界划分准确, 可尝试在识别岩性的同时综合考虑各测井参数的变化率, 在岩性发生变化的一定深度范围内以变化率最大点为边界。总之, GA-SVM识别岩性和划分岩层在同一过程内完成, 简单有效, 节省人力和时间, 划分更精细, 实际应用中能够提供有用的地下物性分布信息。

4 结论

1)支持向量机从高维特征空间的角度解决了非线性关系和小样本情况下的分类问题, 效果较好, 是一种有效的岩性识别方法。

2)遗传算法能够有效搜索到全局最优的支持向量机参数, 利用遗传算法建立的支持向量机岩性自动识别模型实际数据预测总体符合率为86.87%, 优于BP神经网络。

3)利用GA-SVM建立的岩性识别模型对全井段逐个深度点进行自动岩性识别和分层的结果表明, 该方法岩性识别准确、分层精细、实用。

The authors have declared that no competing interests exist.

参考文献
[1] 赵武生, 谭伏霖, 王志章, . 准噶尔盆地腹部火成岩岩性识别[J]. 天然气工业, 2010, 30(2): 21-25, 135-136. [本文引用:1]
[2] 程国建, 郭瑞华. PSO-LSSVM分类模型在岩性识别中的应用[J]. 西安石油大学学报: 自然科学版, 2010, 25(1): 96-99, 114. [本文引用:1]
[3] Vapnik V N. 统计学习理论的本质[M]. 张学工, 译. 北京: 清华大学出版社, 2000. [本文引用:1]
[4] Cristianini N, Taylor J S. 支持向量机导论[M]. 李国正, 王猛, 曾华军, 译. 北京: 电子工业出版社, 2004. [本文引用:1]
[5] 丁世飞, 齐丙娟, 谭红艳. 支持向量机理论与算法研究综述[J]. 电子科技大学学报, 2011, 40(1): 2-10. [本文引用:1]
[6] 杜树新, 吴铁军. 模式识别中的支持向量机方法[J]. 浙江大学学报: 工学版, 2003, 37(5): 25-31. [本文引用:1]
[7] 白鹏, 张喜斌, 张斌, . 支持向量机理论及工程应用实例[M]. 西安: 西安电子科技大学出版社, 2008. 08. [本文引用:1]
[8] 丁勇, 秦晓明, 何寒晖. 支持向量机的参数优化及其文本分类中的应用[J]. 计算机仿真, 2010, 27(11): 187-190. [本文引用:1]
[9] 张银德, 童凯军, 郑军, . 支持向量机方法在低阻油层流体识别中的应用[J]. 石油物探, 2008, 47(3): 306-310314. [本文引用:1]
[10] Holland J H. Adaptation in natural and artificial systems[M]. Ann Arbor: The University of Michigan Press, 1975. [本文引用:1]
[11] De Jong K A. Analysis of the behavior of a class of genetic adaptive systems[D]. Ann Arbor: The University of Michigan Press, 1975. [本文引用:1]
[12] Goldberg D E, Holland J H. Genetic algorithms and machine learning[J]. Machine learning, 1988, 3(2): 95-99. [本文引用:1]
[13] 吴景龙, 杨淑霞, 刘承水. 基于遗传算法优化参数的支持向量机短期负荷预测方法[J]. 中南大学学报: 自然科学版, 2009, 40(1): 180-184. [本文引用:1]
[14] Chapelle O, Vapnik V, Bousquet O, et al. Choosing Multiple Parameters for Support Vector Machines[J]. Machine Learning, 2002, 46(1): 131-159. [本文引用:1]
[15] Shao X G, Yang H Z, Chen G. Parameters selection and application of support vector machines based on particle swarm optimization algorithm[J]. Control Theory and Applications, 2006, 23(5): 740-743, 748. [本文引用:1]