对数比变换和偏最小二乘法在地球化学组合异常提取中的应用——以湘西北铅锌矿为例
王琨1, 肖克炎2, 丛源2
1.中国地质大学 地球科学与资源学院,北京 100083
2.中国地质科学院 矿产资源研究所,北京 100037

作者简介: 王琨(1985-),女,博士研究生,中国地质大学(北京),研究方向为数学地质及化探异常信息提取方法研究。

摘要

以湘西北水系沉积物测量常量元素含量数据为研究对象,针对湘西北铅锌矿床的层控特征,以研究区含矿层地球化学常量元素含量的统计规律为基础,利用对数比变换(alr、clr、ilr变换)对原始数据进行预处理,并在此基础上进行偏最小二乘(PLS)降维分析,提取了地球化学组合异常,并与常用的主成分分析、因子分析的结果进行对比。分析结果表明,等距对数比变换(ilr变换)相对于其他变换方法有明显的优势,变换后的数据对称特征明显,更趋于正态分布。相对于其他两种降维方法,偏最小二乘法提取的元素组合与研究区铅锌矿的地球化学基本特征更为接近,组合异常与已知矿床分布和构造特征耦合良好,与研究区地质特征吻合,比主成分分析与因子分析得到的结果更易于地质解释。

关键词: 地球化学组合异常; 对数比变换; 偏最小二乘法; 异常提取; 湘西北铅锌矿
中图分类号:P632 文献标志码:A 文章编号:1000-8918(2015)01-0141-08
Log-ratio transformation and PLS methods for identifying integrated geochemical anomalies: A case study of lead-zinc mineralization in northwestern Hunan
WANG Kun1, XIAO Ke-Yan2, CONG Yuan2
1. School of Earth Science and Resources, China University of Geosciences, Beijing 100083, China
2. Institute of Mineral Resources, CAGS, Beijing 100037, China
Abstract

As lead-zinc deposits in northwestern Hunan are controlled by strata, the authors chose statistical regularities of constant elements in the ore-bearing layer as the basis of integrated geochemical anomaly extraction and used a stream sediment geochemical dataset. Firstly, three main forms of log-ratio transformation were used to explore the effects of the constant elements data closure problem. On such a basis, the PLS method was employed to study the integrated geochemical anomalies. The results show that data transformed by ilr method have obvious symmetrical statistical features and are much closer to the normal distribution. In contrast with PCA and FA, the integrated geochemical anomalies extracted by PLS method are generally more consistent with such geochemical features of lead-zinc mineralization in the study area as the known ore deposits and the fault distribution, and the results can be explained easier in geological field.

Keyword: integrated geochemical anomaly; log-ratio transformation; PLS; anomaly extraction; lead-zinc ore deposits in northwestern Hunan

随着勘查地球化学方法的不断进步, 地球化学数据的深入挖掘和异常信息的提取及分析工作显得尤为重要。如何有效圈定异常范围, 对异常进行合理分析与科学解释, 成为勘查地球化学领域关注的重点问题[1, 2, 3, 4, 5, 6]。地球化学异常的提取与分析不仅要考虑元素的含量水平, 还要考虑元素之间的亲和性与空间关系, 按照地球化学元素的空间组配形态与机制来提取组合异常[7, 8, 9]。其中因子分析、主成分分析等方法在具体工作中取得了较为广泛的应用, 是较传统、常用的降维方法[10, 11, 12, 13]

在地质研究中常遇到成分数据, 如地球化学全分析数据、矿物分析数据、沉积物粒度数据等, 都是成分数据[14, 15]。成分数据由于闭合效应引起伪相关, 不服从正态分布, 必然影响基于协方差结构的各种R型统计结果[16, 17]。因此, 在进行地球化学元素组合异常提取之前, 首先应进行数据的预处理。

笔者从地球化学元素含量区域特征入手, 对原始数据进行对数比变换, 消除变量间的多重相关性, 在此基础上进行偏最小二乘法分析和主成分分析, 从变量系统提取正交成分作为元素组合, 提取组合异常并进行地质解释。

1 区域地质概况

研究区位于湖南省西北部湘西自治州的铅锌矿集区, 区域上位于扬子陆块东南缘, “ 江南古陆” 西侧的加里东运动形成的八面山褶皱带内, 为湘黔铅锌矿带的北延部分[18, 19]。在地层和沉积建造上是一个在扬子旋回基础上发展起来的长期沉降单元, 在湘西北弧形构造带的北西侧。区内下古生界地层分布最为广泛。自震旦纪以来, 地台型盖层发育较全, 经历了万余米的海相沉积层, 均未发生区域变质。下古生界沉积厚度达4 000余m, 其中碳酸盐岩厚达1 800余m, 为区域铅锌矿的主要赋存岩层[20]

研究区铅锌矿主要控矿地层为下寒武统清虚洞组, 矿体主要产于该组上部第三、四亚段, 为一套灰— 浅灰色、厚层— 巨厚层块状藻礁灰岩、斑块状云化灰岩, 含藻砂屑灰岩、砾屑灰岩, 厚数十至二百余米, 各种生物屑结构、鲕状结构、核形石结构、砂— 砾屑结构等十分复杂, 具有碳酸盐台缘礁和礁滩相特征[20]。藻礁相中矿体与围岩产状基本一致, 多呈缓倾斜整合层带状, 形态比较规则, 分布较稳定[24]

图1 湘西北铅锌矿区地质简要

2 方法原理
2.1 对数比变换

对数比变换是克服成分数据闭合效应的有效方法, 成分数据是指分布在有限区域内的, 服从单位和约束条件的数据, 地球化学常量元素含量数据就是成分数据[25]。对数比变换是根据成分分量的比值不受“ 定和” 限制的影响, 以及比值的对数常常服从正态分布的特点, 对成分数据进行投影变换, 利用特定的标准正交基来表现数据特征, 具体定义[26, 27]如下。

定义数据集SD为:SD={x1, x2, …, xD}, 其中xi> 0, i=1, 2, …, Di=1Dxi=k, k为任意正常数。SD数据空间由D个行向量构成。

则对数比变换函数分别定义为:

clr(x)=lnx1g(x), lnx2g(x), , lnxDg(x), (1)

其中g(x)=[x1· x2xD]1/D

alr(x)=lnx1xD, lnx2xD, , lnxD-1xD, (2)

ilr(x)=ii+1lng(x1, x2, , xi)xi+1, (3)

其中i=1, 2, …, D-1。

ilrx=D-iD-i+1lnxij-i+1DxjD-i, (4)

其中i=1, 2, …, D-1。

2.2 偏最小二乘方法(PLS)

偏最小二乘方法集成和发展了典型相关分析、多元线性回归和主成分分析方法的基本功能, 通过成分提取, 对包含多自变量和多因变量的数据进行建模分析[28, 29]。偏最小二乘方法利用将系统中的数据信息进行分解和筛选的方式, 提取对因变量解释性最强的综合变量, 识别自变量系统中的信息和噪声, 从而更好地克服变量多重相关性在系统建模中的不良作用。因此, 偏最小二乘方法也适用于地球化学数据组合异常的提取。具体建模方法[30]为:

设自变量X= x1, x2, , xpn×p, 因变量Y= y1, y2, , yqn×q。分别在XY中提取出成分t1u1, 其中t1x1, x2, …, xp的线性组合, u1y1, y2, …, yq的线性组合, 同时要求t1u1既要尽可能大的携带它们各自数据集中的变异信息, 又要相关程度达到最大。

第一组成分t1u1被提取后, 分别进行Xt1Yu1的回归计算。如果回归方程达到满意精度, 则算法终止, 否则将利用Xt1解释后的残余信息以及Yu1解释后的残余信息进行第二轮成分提取。如此迭代计算, 直到达到一个较满意的精度为止。若最终对X共提取了m个成分t1, t2, …, tm, 偏最小二乘将通过ykt1, t2, …, tm回归(k=1, 2, …, q), 表达为yk关于原变量x1, x2, …, xp的回归方程。提取的m个成分t1, t2, …, tm即为能更好概括原数据信息的综合变量。

3 地球化学特征分析

采用湘西北地区1: 20万化探水系沉积物7组常量元素及铅锌矿标志元素共9组数据作为研究对象, 具体包括SiO2、Al2O3、K2O、Na2O、CaO、MgO、Fe2O3、Pb、Zn。

为了分析研究区铅锌成矿的地球化学特征, 统计得到了各地层区域常量元素的含量平均值。为方便对比, 对不同元素的含量进行了z-score标准化标准化处理(表1)。对主要赋矿地层清虚洞组及其主要上覆地层娄山关组各元素含量做柱状图(图2), 可以得到成矿相关的地球化学统计特征, 即不同常量元素的组合情况。

图2可以看出, 清虚洞组地层中Al2O3、Fe2O3、MgO、CaO和K2O数值为正, Na2O和SiO2为负值。娄山关组与清虚洞组情况相似, 不同的是K2O数值为负。

表1 湘西北铅锌矿区不同地层常量元素含量平均值(标准化后)

图2 湘西北铅锌矿区不同地层常量元素组合特征

4 组合异常提取
4.1 数据预处理

分别对原始数据进行对数比变换(alr变换、clr变换、ilr变换)及ln变换处理, 并将原始数据作为对比组, 以Pb、Zn数据为例进行对比说明。

通过变换结果的数字统计特征(表2)及频率分布直方图(图3)可以看出, 原始数据为典型的偏峰分布, 具有较大的偏度和峰度值。经过对数比变换以及ln变换之后趋于正态分布。clr变换与ilr变换结果的频率分布比ln变换与alr变换后频率分布的对称特征更为明显, 其中ilr变换后的数据呈显著的集中趋势, 均值更趋近于0值, 且均值两侧更为对称。

表2 湘西北铅锌矿区Pb、Zn含量数字统计特征

图3 湘西北铅锌矿区Pb、Zn含量频率直方分布

4.2 偏最小二乘(PLS)法提取组合异常

选取预处理后的地球化学常量元素数据作为自变量数据集X, Pb、Zn构成因变量数据集Y, 进行偏最小二乘降维处理。对4种不同预处理方法计算后的数据分别进行降维处理, 并将处理结果作对比, 分析不同预处理方法对降维效果的影响。

利用PLS方法各提取了7组主成分, 其中第一主成分方差贡献率最高, 包含了大部分原始信息, 各常量元素的贡献组合更接近研究区铅锌矿的地球化学基本特征(图4), 主要表现为Fe2O3、Al2O3、CaO、MgO对第一主成分的贡献为正值, Na2O、SiO2为负值, 与统计得到的本研究区含矿层(清虚洞组)地球化学常量元素分布规律基本一致(图2)。K2O对第一主成份的贡献由于预处理时选择的方法不同而出现两种结果:对数变换(ln)和对数比变换(alr和clr)后的数据经PLS降维处理, 得到的K2O贡献为负值; 而ilr对数比变换得到的K2O贡献值为正, 与研究区地球化学元素含量的统计规律完全吻合。

图4 不同预处理方法经PLS降维提取的常量元素组合

图5 PLS提取第一主成分得分等值线分布

分别利用4种预处理数据提取的第一主成分得分值作等值线图(图5), 经过克里格插值可以明显看出, 原始数据经过对数变换和不同对数比变换后, 经PLS方法提取的异常分布大致相似, 但局部还是有细微的差别。

总体来说, 异常区的总体分布与构造线走向基本吻合, 异常高值区主要集中在研究区北西侧两条近似平行的断层附近, 与已知矿点分布耦合良好, 断层则大致位于正负异常交界附近。研究区中部有一明显低值异常区, 对应上扬子东南缘被动边缘盆地。ilr对数比变换处理的数据经PLS方法提取的异常, 与其他3种方法的不同主要集中在研究区南西侧两断层之间的高值异常区。

本研究区已经发现的铅锌矿床主要产于下寒武统清虚洞组的藻礁灰岩中, 主要位于断层F1南侧的正异常高值区内。断层F1与断层F2之间异常强烈, 对应花垣、渔塘等主要矿区。断层F3与断层F4之间表现为带状高值异常区, 异常分布与断裂走向耦合良好。断层F3北西侧带状出露主要赋矿地层清虚洞组, 南东侧为爵山沟组地层, 已知铅锌矿床沿断裂走向分布。断层F4北西侧为车夫组、敖溪组地层, 南东侧带状出露清虚洞组、石牌组地层。因此, 已知铅锌矿床位于断层F3、F4对应的正异常高值区边缘。断层F5与断层F6之间有一明显的负异常高值区, 对应上扬子东南缘被动边缘盆地, 主要为下寒武统比条组地层。断层F2南东侧矿点主要位于次级正异常区边缘, 大致沿断裂走向分布。

与其他3种数据处理方法对比, ilr对数比变换数据经PLS提取的组合异常高值正异常及次高值正异常区域有所放大, 特别是突出了断层F3与断层F4之间的异常, 正异常高值区范围与成矿地层特征更为符合, 更有利于进一步的异常解释及成矿预测工作的开展。

4.3 对比与讨论

将ilr对数比变换后的数据分别利用主成分分析(PCA)和因子分析(FA)方法进行降维处理, 并将得到的结果与偏最小二乘降维方法作对比。

处理结果显示, 3种降维方法提取的主成分方差贡献率依次降低(图6)。累计方差贡献率结果显示, PLS方法的降维效果优于主成分分析和因子分析。

分别提取主成分分析和因子分析的前3个主成分, 得到对应的常量元素组合(图7图8), 并与PLS方法提取的常量元素组合作对比。可以明显看出, PLS方法提取的结果更符合研究区地球化学常量元素的含量分布特征。

图6 不同方法提取的主成分方差贡献率及累计方差贡献率

图7 主成分分析前3个主成分提取的常量元素组合

图8 因子分析前3个主成分提取的常量元素组合

5 结论

针对湘西北铅锌矿床的层控特征, 以研究区含矿层地球化学常量元素含量的统计规律为基础, 利用偏最小二乘法(PLS)进行降维处理, 提取研究区的地球化学组合元素异常, 并进行了异常解释。

为了克服常量元素可能会出现的闭合效应, 首先利用对数变换和对数比变换(包括alr变换、clr变换、ilr变换)对原始数据进行了预处理。其中等距对数比变换(ilr变换)相对于对数变换(ln变换)及其他两种对数比变换方法(alr变换、clr变换)有明显的优势。ilr变换后的数据呈显著的集中趋势, 均值更趋近于0值, 且均值两侧更为对称。

为了提取组合元素异常, 消除变量间的多重相关性, 采用偏最小二乘法(PLS)进行降维处理, 并与传统常用的主成分分析(PCA)和因子分析(FA)方法进行对比研究。3种方法的基本思想都是在数据信息损失最小的原则下, 从变量系统提取正交成分, 对高维数据进行降维处理。通过研究区实例证明, 偏最小二乘法(PLS)提取的组合元素异常较主成分分析(PCA)和因子分析(FA)方法更便于地质解释。

不同数据变换方法对组合元素异常提取有一定的影响, 但总体趋势不变, 其中ilr变换提取的异常与实际地质情况更为符合。研究区通过ilr对数比变换再利用偏最小二乘法(PLS)提取的组合元素异常区, 与已知矿床分布及断层位置耦合良好, 正异常高值区与赋矿地层下寒武统清虚洞组相对应, 能很好地反映研究区层控铅锌矿床的地球化学特征, 更便于异常解释, 为进一步的成矿预测提供更好的信息基础。

The authors have declared that no competing interests exist.

参考文献
[1] 谢学锦, 任天祥, 奚小环, . 中国区域化探全国扫面计划卅年[J]. 地球学报, 2009(6): 700-716. [本文引用:1]
[2] 王瑞廷, 毛景文, 任小华, . 区域地球化学异常评价的现状及其存在的问题[J]. 中国地质, 2005(1): 168-175. [本文引用:1]
[3] 樊建强, 吴金凤, 吴晓峰, . 地球化学异常评价中的几个问题[J]. 矿产与地质, 2005(3): 306-309. [本文引用:1]
[4] 王学求, 叶荣. 纳米金属微粒发现——深穿透地球化学的微观证据[J]. 地球学报, 2011(1): 7-12. [本文引用:1]
[5] 姚涛, 陈守余, 廖阮颖子. 地球化学异常下限不同确定方法及合理性探讨[J]. 地质找矿论丛, 2011(01): 96-101. [本文引用:1]
[6] 陈建平, 肖克炎, 陈勇, . 中国数学地质与地学信息应用研究进展[C]//2008~2009地质学学科发展报告, 2008. [本文引用:1]
[7] 李春华, 路来君, 王抵修. 地球化学元素空间定量组合求异模型及其应用[J]. 吉林大学学报: 地球科学版, 2010(2): 461-468. [本文引用:1]
[8] 曹梦雪, 路来君, 陈国强, . 区域地球化学元素分布与组合求异方法[J]. 世界地质, 2012(3): 515-521. [本文引用:1]
[9] 丛源, 陈建平, 肖克炎, . “三江”地区北段区域地球化学元素组合异常提取及其找矿意义[J]. 地质通报, 2012(7): 1164-1169. [本文引用:1]
[10] 苟建德, 朱从龙, 谢洪春, . 甘肃两河口地区水系沉积物异常评价[J]. 物探与化探, 2008, 32(2): 135-138. [本文引用:1]
[11] 石文杰, 魏俊浩, 张德才, . 基于数字高程模型因子分析的地球化学异常提取[J]. 物探与化探, 2012, 36(1): 103-108. [本文引用:1]
[12] 缪远兴, 罗卫, 唐攀科, . 广东省麻布岗地区1:5万水系沉积物测量异常评价及找矿方向[J]. 物探与化探, 2014, 38(1): 10-17. [本文引用:1]
[13] 王启, 蒋永建, 于海涛, . 浙西南南弄铅锌多金属矿床原生晕特征与隐伏矿预测[J]. 物探与化探, 2011, 35(2): 170-175. [本文引用:1]
[14] 周蒂. 地质成分数据统计分析——困难和探索[J]. 地球科学, 1998(2): 41-46. [本文引用:1]
[15] Zuo R, Xia Q, Wang H. Compositional data analysis in the study of integrated geochemical anomalies associated with mineralization[J]. Applied Geochemistry, 2013, 28: 202-211. [本文引用:1]
[16] 孟洁. 成分数据多元分析方法研究[M]. 北京: 中国统计出版社, 2008: 139. [本文引用:1]
[17] 张尧庭. 成分数据统计分析引论[M]. 北京: 科学出版社, 2000: 164. [本文引用:1]
[18] 罗卫, 尹展, 孔令, . 花垣李梅铅锌矿集区地质特征及矿床成因探讨[J]. 地质调查与研究, 2009(3): 194-202. [本文引用:1]
[19] 刘文均, 郑荣才. 花垣铅锌矿床成矿流体特征及动态[J]. 矿床地质, 2000(2): 173-181. [本文引用:1]
[20] 陈明辉, 胡祥昭, 鲍振襄, . 湖南渔塘铅锌矿集中区地质特征及成矿问题讨论[J]. 地质与勘探, 2011(2): 251-260. [本文引用:2]
[21] 杨绍祥, 劳可通. 湘西北铅锌矿床的地质特征及找矿标志[J]. 地质通报, 2007(7): 899-908. [本文引用:1]
[22] 付胜云, 彭志刚, 刘红梅. 湘西北铅锌矿带成矿地质特征[J]. 国土资源导刊, 2006(3): 99-103. [本文引用:1]
[23] 付胜云. 湘西铅锌矿富矿成矿规律探讨[J]. 有色金属: 矿山部分, 2011(6): 27-35. [本文引用:1]
[24] 周云, 段其发, 彭三国, . 湘西花垣地区铅锌成矿规律及矿床成因探讨[J]. 矿物学报, 2011(S1): 234-235. [本文引用:1]
[25] Zhao J, Wang W, Dong L, et al. Application of geochemical anomaly identification methods in mapping of intermediate and felsic igneous rocks in eastern Tianshan, China[J]. Journal of Geochemical Exploration, 2012, 122: 81-89. [本文引用:1]
[26] Carranza E J M. Analysis and mapping of geochemical anomalies using logratio-transformed stream sediment data with censored values[J]. Journal of Geochemical Exploration, 2011, 110: 167-185. [本文引用:1]
[27] Egozcue J J, Pawlowsky-Glahn V, Mateu-Figueras G, et al. Isometric logratio transformations for compositional data analysis[J]. Mathematical Geology, 2003, 35(3): 279-300. [本文引用:1]
[28] 郭慧芳, 陈亚君, 董增川, . PLS在提取需水量预测影响因素中的应用[J]. 中国农村水利水电, 2011(10): 59-61. [本文引用:1]
[29] 林燕. 偏最小二乘变量筛选法及其应用研究[D]. 厦门: 厦门大学, 2007. [本文引用:1]
[30] 王惠文. 偏最小二乘回归方法及其应用[J]. 北京: 国防工业出版社, 1999: 274. [本文引用:1]