变换后数据的因子分区标准化在东昆仑东段地球化学异常圈定中的应用
The application of ILR transromed data factor analysis to delineating geochemical anomalies
通讯作者: 杨帆(1983-),男,高级工程师,博士研究生,主要从事勘查地球化学及环境地球化学相关基础理论研究和调查评价工作。Email:yangfan@igge.cn
责任编辑: 蒋实
收稿日期: 2019-01-7 修回日期: 2019-07-25 网络出版日期: 2020-02-20
基金资助: |
|
Received: 2019-01-7 Revised: 2019-07-25 Online: 2020-02-20
作者简介 About authors
耿国帅(1972-),男,高级工程师,在读博士研究生,主要从事勘查地球化学相关基础理论研究和调查评价工作。Email:hnsmxggs@163.com 。
从区域地球化学勘查数据中提取找矿地球化学信息是目前化探工作的重要研究课题之一。地球化学背景与异常划分是提取找矿地球化学信息的关键,而地球化学数据是成分数据,具有闭合效应,使得数据在进行主成分分析和因子分析时需进行变换。笔者采用东昆仑东段水系沉积物中11种常量元素的含量数据,通过ILR数据变换后进行因子分析,根据因子分区结果,结合EDA法,对样品数据进行分区标准化,以标准化后的值来圈定异常。结果表明,与传统方法相比,利用ILR变换后的因子分区标准化方法所圈定的异常可以去除地质体中高背景值的影响,与矿床空间位置对应较好,且该方法受人为因素影响较小,实际应用效果显著。
关键词:
The reliable detection of data outliers and unusual data behavior is one of the key task in the statistical analysis of applied geochemical data, and has remained a core problem. Factor analysis is a multivariate statistical analysis method, which is used to solve the problem of complex geological origin and superimposed mineralization; nevertheless, geochemical data are compositional data, there exist their closure effects, closure has a major influence on the covariance and correlation matrices, the very base of principal component analysis (PCA) and factor analysis (FA). So the authors applied isometric logratio-transformed (ILR) to 'open' the data before FA. The study area is located in the east of East Kunlun polymetallic mineralization zone. The authors used ILR transformed 11 major elements to conduct FA, extracted four public factors and calculated the four factor scores. According to the results of FA with EDA method , the authors standardized geochemical data and delineated Au anomaly. Compared with traditional method, this method can eliminate the influence of high background values.
Keywords:
本文引用格式
耿国帅, 杨帆, 郭建娜.
GENG Guo-Shuai, YANG Fan, GUO Jian-Na.
0 引言
地球化学背景与异常划分是地球化学找矿中信息提取的关键问题。元素地球化学背景受地质环境、景观条件等诸多因素的制约,在一定区域内、 同一景观条件下,地质环境是影响元素地球化学背景的主要因素[1,2,3]。以往按 1∶20万图幅确定统一异常下限的做法,导致低背景区矿化信息被掩盖,而高背景区出现了较多的非矿异常,背景与异常的划分存在一定的不合理性。为此,勘查地球化学工作者使用移动平均法、分区背景校正法[4]、子区中位数衬值滤波法[5,6]、归一化法[7]、小波分析法[8]、趋势面法[9,10]、 C型转换法[11]、泛克里格法和局部奇异性分析法[12]等来处理区域化探数据,在很大程度上提高了异常找矿信息的可靠性,有其优越性,但仍然存在一定的局限性。这些方法要么注重控制元素含量分布的地质因素,要么把地球化学场看作一个连续变化的曲面而采用各种方法去拟合。
时艳香提出了地球化学单元的概念,利用R型因子分析方法对样品进行地球化学分区[13],并在实际应用中取得了一定的效果,使地球化学分区标准化得到了很好的应用和推广[14,15,16,17,18,19]。因子分区标准化的方法充分考虑了地质背景与元素组合之间的关系,有一定的客观性。但地球化学元素的含量数据是成分数据,具有闭合效应。Filzmoser指出,地球化学数据在进行计算时,如果不对数据进行变换,即使是做平均值和标准方差这样简单的统计或者是做直方图,都可能得出错误的结果;用原始数据统计标准差和方差几乎是没有意义的[20],方差矩阵是做因子分析和主成分分析的基础,方差矩阵的不准确会使因子分析的结果与实际结果不相符,从而影响其效果。因此,笔者试图采用ILR变换后的因子分区标准化法来圈定地球化学异常,旨在进一步消除高背景地质体对异常圈定的影响。结果表明,与传统方法相比,利用ILR变换后的因子分区标准化方法所圈定的地球化学异常可以去除地质体中高背景值的影响,与矿床空间位置对应较好,且该方法受人为因素影响较小,实际应用效果显著。
1 研究区概况
表1 东昆仑东段大地构造分区
Table 1
一级构造单元 | 二级构造单元 | 三级构造单元 |
---|---|---|
秦祁昆(东昆仑—祁连—北秦岭)晚加 里东造山系(Ⅰ) | Ⅰ2东昆仑造山带 | |
特提斯(东特提斯北部)华力西—印支 造山系(Ⅱ) | Ⅱ1巴颜喀拉晚印支造山带 |
图1
图1
东昆仑东段矿床分布及构造分区
Fig.1
The sketch map of deposit and geotectonic in study area
不同的沉积环境具有不同的岩石组合,研究区昆北主要为海相沉积的碳酸盐岩和火山岩组合;昆中主要为古老变质岩和花岗岩组合,昆南主要为洋盆环境下形成的火山岩、碎屑岩和碳酸盐岩组合,而北巴则主要为三叠纪的复理石沉积建造。不同的岩石组合造成了不同的地球化学特征和矿床组合。
2 成分数据的概念和变换
目前成分数据的处理与分析有3种变换:ALR变换(additive log-ratio transformation)、CLR变换(centered log-ratio transformation)和ILR变换(isometric log-ratio transformation)。3种变换的共同点在于变换形式都是变量的对数比值,因而统称为对数比变换。本质上,ALR变换和CLR变换不能消除成分数据的闭合效应,而ILR变换可以;原始成分数据经ALR变换和ILR变换之后,减少一个变量;CLR变换之后的数据与原始数据的变量数相同。
从3种变换的结果来看,ILR变换无疑是最好的,但由于变换结果减少了一个变量,增加了结果解释难度,而CLR变换能够保持变换前后变量数不变,因此Filzmoser利用标准正交基,把ILR变换后的因子分析结果在CLR空间下表示出来,既克服了成分数据的闭合效应,又突显了元素组合的地球化学意义。CLR变换和ILR变换以及与之联系的标准正交基简要介绍如下。
以一个原始数据矩阵Xij(m×n,其中m为样品数,n为元素个数)为例,分别介绍2种变换。
1) CLR变换
ILR变换是在CLR变换和标准正交基vj的基础上得来的,标准正交基[25]
因此CLR变换和ILR变换可以通过标准正交基联系起来。
笔者利用研究区所收集到的4 001件水系沉积物样品中11种常量元素(或氧化物)的含量数据,将其未经变换和经ILR变换后的数据作主成分分析(图2)。结果表明,未经ILR变换的元素(或氧化物)主要分布在主成分双标图的右半部分,除SiO2,其余10个元素或氧化物在第一主成分的载荷都是正数;在第二主成分中,除CaO、MgO、P、Mn等元素和氧化物的载荷为负外,其余元素和氧化物的载荷为正; SiO2和其他元素间隔较远,显示SiO2与其他元素的相关性较差,成独立一簇。
图2
图2
青海省东昆仑东段常量元素ILR变换和未经变换的主成分分析双标图
a—经ILR变换后的第一、第二主成分双标图;b—未经变换的第一、第二主成分双标图;图中红色圆点为第一和第二主成分的得分
Fig.2
Biplot of principle component analysis from the major elements in the study area
a—the biplot of the first and second principal component from ILR transformed geochemical data;b—the biplot of the first and second principal component from raw geochemical data;the red dots in the picture are the scores of the first and second principal components
对数据作ILR变换,计算其主成分并变换在CLR 空间下显示其结果。经ILR变换的主成分双标图显示,11个元素(或氧化物)较均匀地分布在一~四号象限中,第一象限中是CaO和MgO,代表钙碱性元素的氧化物,第二象限Fe2O3、Mn、P、Ti等,代表的是基性元素组合,第三象限是Al2O3、K2O氧化物,代表碱性氧化物,而第四象限是SiO2、Na2O,代表的是酸性元素组合。
同时,笔者又利用Ag、As、Au、Bi、Cd、Co、Cr、Cu、Hg、Mo、Ni、Pb、Sb、Sn、W、Zn等17种成矿元素经ILR变换和未经变换的数据分别做主成分分析双标图,结果显示,未经变换的数据双标图中,17种元素都分布在第一主成分的正载荷部分,而经变换后的数据,则较均匀地分布在各个象限(图3)。
图3
图3
青海省东昆仑东段成矿元素经ILR变换和未经变换的主成分分析双标图
a—经ILR变换后的第一、第二主成分双标图;b—未经变换的第一、第二主成分双标图;图中红色圆点为第一和第二主成分的得分
Fig.3
Biplot of principle component analysis from the ore forming elements in the study area
a—the biplot of the first and second principal component from ILR transformed geochemical data;b—the biplot of the first and second principal component from raw geochemical data;the red dots in the picture are the scores of the first and second principal components
综上对比结果可知,对原始化探数据作主成分分析有2个重大缺陷:①由于成分数据存在闭合效应,原始化探数据的第一主成分的载荷几乎都为正数,且这一现象普遍存在;②承载最大信息量的第一主成分通常是难以解释的,而经过ILR变换后的第一主成分则具有较为明确的地球化学意义。
3 ILR变换的数据因子分区标准化
主量组分是构成岩石的主体,主量组分的组成和相对含量决定了岩石性质,支配了微量元素的地球化学行为及其在岩石中的分配,因此主量组分可作为地球化学分区的数据基础。
3.1 数据处理步骤
首先,选择研究区水系沉积物样品中常量元素的氧化物(Al2O3、CaO、Fe2O3、K2O、MgO、Na2O、SiO2)和含量相对较大的元素(Mn、P、Ti、Zr)共11种成分,并对数据进行ILR变换。其次,确定分区类型,即对样品中所选择的成分作因子分析,根据因子载荷矩阵中所反映的不同组合来确定分区的地球化学类型。然后,确定子区边界,因子得分是标准化值, 可以进行大小比较。当某样品在因子k中的得分值的绝对值最大, 说明该样品在元素组合k中所占份额最大, 故将其归为第k类(其中正值为k1类,负值为k2类)
根据分区结果对各变量进行分区标准化,圈定地球化学异常。 标准化公式如下:
其中Zik表示标准化后的值;Xik为原始分析值;Q3k为第k类样品的上四分位值;IQRk为第k类样品的内散度,其值为上分四位点的值减去下四分位点的值。
分区标准化是基于EDA(exploratory data analysis)非常规化探数据处理方法,EDA技术以稳健统计学为基础,不需要设定假设条件,也无需对原始数据作任何处理,而是根据数据本身的特点来提取异常。EDA方法的统计参数包括中位数、2个极值点和上下四分位点,该方法认为数据集中有25%的数据是无效的,这些数据对整个数据集的中位数和上下四分位点不产生影响。绝大多数情况下,EDA方法提供的中位数比平均值能更好地估计数据的中心位置,内散度比标准离差能更好地估计数据的离散程度。它们都能抵抗特高值和特低值的干扰,比传统的方法能更有效地处理化探数据,因此EDA法受到了地球化学家的关注[26,27,28,29,30,31,32]。
根据EDA方法以Q3+1.5倍IQR作为地球化学异常下限,并根据上述标准化计算公式,就能很方便地圈定异常,即标准化值大于1、小于2是弱异常点,大于2是强异常点。
3.2 结果分析
表2 研究区主成分分析特征值和累积方差贡献率
Table 2
主成分 | 特征值 | 方差贡献率/% | 累计贡献率/% |
---|---|---|---|
PC1 | 2.95429 | 29.5429 | 29.5429 |
PC2 | 2.209107 | 22.09107 | 51.63397 |
PC3 | 1.451425 | 14.51425 | 66.14822 |
PC4 | 1.26463 | 12.6463 | 78.79452 |
PC5 | 0.686685 | 6.866845 | 85.66137 |
PC6 | 0.523345 | 5.233451 | 90.89482 |
PC7 | 0.461487 | 4.614866 | 95.50969 |
PC8 | 0.252381 | 2.523811 | 98.0335 |
PC9 | 0.11301 | 1.130104 | 99.1636 |
PC10 | 0.08364 | 0.8364 | 100 |
表3 研究区正交旋转因子载荷
Table 3
指标 | F1 | F2 | F3 | F4 |
---|---|---|---|---|
Mn | -0.07738 | -0.07873 | -0.09688 | -0.83041 |
P | 0.702332 | -0.01513 | 0.075709 | 0.038553 |
Ti | 0.710837 | -0.14553 | 0.096094 | -0.26549 |
Zr | 0.482694 | -0.18209 | -0.38805 | 0.396661 |
Al2O3 | -0.2006 | -0.8244 | -0.00632 | 0.018327 |
CaO | -0.50636 | 0.941437 | 0.227767 | 0.310812 |
Fe2O3 | 0.215612 | 0.058648 | 0.045556 | -0.63857 |
K2O | -0.29089 | -0.59256 | 0.308376 | 0.3833 |
MgO | -0.08812 | 0.649321 | 0.456313 | -0.03996 |
Na2O | -0.5376 | -0.03472 | 0.228541 | 0.462876 |
SiO2 | -0.41052 | 0.223752 | -0.9471 | 0.163893 |
图4
图4
研究区常量元素经ILR变换后4个因子得分计量
Fig.4
Four factor score maps of major component from ILR-transformated data in study area
图5
由表3、图4和图5可知,F11为P、Ti、Zr、Fe2O3组合,反映的是与基性、超基性岩分布有关的元素组合,主要分布于昆南带内,此外还分布于昆南断裂带上,与该区中基性岩的分布较一致;F12为Na2O、CaO、SiO2、K2O组合,反映的是与中酸性岩有关的元素组合,主要分布于昆北及昆中带上,与中酸性花岗岩的分布范围较一致。F21为CaO、MgO组合,反映的是与生物沉积为主的灰岩、白云岩等元素组合,分布于昆中和昆南带上,与碳酸盐岩的分布范围较一致;F22为Al2O3、K2O组合,反应的是与碎屑沉积为主的砂泥岩的元素组合,分布于北巴颜喀拉,与北巴颜喀拉地层的板岩分布范围较一致。F31为K2O、MgO、Na2O组合,反映的是与河流的蒸发作用有关的元素组合,主体分布于柴达木盆地南缘;F32为SiO2、Zr组合,反映的是与河流的搬运作用有关的元素组合,主体分布于昆南断裂带以南。F31和F32是表生地球化学作用因子,在柴达木盆地的南缘,地表由于蒸发作用,可溶性组分结晶形成各种盐类,形成K2O、MgO、Na2O等易溶元素组合,东昆仑断裂带以南,蒸发作用弱,而与河流的搬运为主,形成难溶的Si、Zr等元素组合。F41为Na2O、K2O、Zr、CaO组合,反映的是与河流碎屑沉积为主的元素组合,主要分布于昆中带上,与河流碎屑沉积环境有关;F42为F2O3、Mn组合,反映的是与海相页岩、泥质岩为主的元素组合,主要分布于北巴,与海相的泥、页岩沉积环境有关。
表4 研究区各分区中常量组分中位数统计
Table 4
指标 | F11 | F12 | F21 | F22 | F31 | F32 | F41 | F42 |
---|---|---|---|---|---|---|---|---|
Mn | 532.5 | 467.8 | 515 | 531 | 610 | 372.9 | 389 | 767 |
P | 604 | 341 | 437 | 457.65 | 540.45 | 323 | 424 | 454 |
Ti | 3746.5 | 1954.8 | 2704 | 3364.5 | 3481.55 | 2037 | 2609 | 3254.8 |
Zr | 215 | 113 | 136 | 166 | 160 | 121 | 165 | 149.3 |
Al2O3 | 11.6 | 10.8 | 9.1 | 13.6 | 12.1 | 7.5 | 9.6 | 11.94 |
CaO | 4.4 | 4.83 | 9.1 | 2.32 | 6.2 | 2.64 | 4.7 | 3.3 |
Fe2O3 | 4.68 | 3.06 | 3.6 | 4.84 | 4.8 | 2.77 | 3.06 | 5.25 |
K2O | 2.3 | 2.1 | 1.7 | 2.72 | 2.49 | 1.3 | 2 | 2.1 |
MgO | 1.75 | 1.13 | 1.8 | 1.51 | 2.1 | 0.8 | 1.21 | 1.53 |
Na2O | 1.8 | 2 | 1.5 | 1.82 | 2.1 | 1.4 | 1.8 | 1.68 |
SiO2 | 64.6 | 69.28 | 59.39 | 66.945 | 60.215 | 78.2 | 69.69 | 67.71 |
图6
图6
ILR变换后数据因子分区标准化及传统化探数据处理方法圈定的Au异常分布对比
a—ILR变换后因子分区标准化圈定的Au异常; b—传统化探数据方法圈定的Au异常
Fig.6
The comparison diagram of Au anomalies and deposits from geochemical subdivision standardized of ILR and classical method
a—Au anomalies delineated from geochemical subdivision standardition of ILR;b—Au anomalies delineated from classical method
图7
图7
传统方法与因子分区标准化方法圈定的金异常对比
a—因子分区标准化圈定的金异常点及金矿床点;b—传统方法圈定的金异常点及金矿床点;c—两种方法都圈定出的金异常点及金矿床点;d—只在其中一种方法中圈定的金异常点
Fig.7
Comparsion diagram of detecting Au outliers from subdivised standardization and classical method
a—gold outliers detected from geochemical subdivised standardization;b—gold outliers detected from classical method;c—gold outliers detected from both method;d—gold outliers detected from one of two methods
表5 两种方法圈定的金异常点位统计
Table 5
处理方法 | 异常下限值 | 圈定的异常 点数 | 占样品总数 /% | 两种都有的 异常点数 | 只在其中一种出现的 异常点数 |
---|---|---|---|---|---|
传统方法 | 2.7×10-9 | 415 | 10.4 | 307 | 108 |
因子分区标准化 | 1 | 325 | 8.1 | 18 |
从图6可知,用IIR变换后数据分区标准化圈定的异常和直接用原始数据圈定的异常在西部矿床(点)上都有良好的指示,而东北部指示效果不太理想,其原因推测与该区的表生地球化学环境有关,该区受风成砂影响严重。
直接用原始数据所圈定的异常较零星,浓集趋势相对较差,而用分区标准化所圈定的异常浓集趋势明显,与矿床点的对应关系也较好,因此用分区标准化圈定的异常更具有找矿指导意义。
结合图7和表5可知,用传统方法所圈定的金异常点数占总样品数的10.4%,而用分区标准化所圈定的异常点数只占总样品数的8.1%,两种方法都圈定出的异常点数占总样品数的7.7%,且金矿床(点)几乎都处于两种方法都圈定出的异常点位处,表明分区标准化圈定的异常具有更高的可信度。此外,传统方法还在图幅的东南端圈定了大量的非矿异常点。东南端处于北巴子区中,出露地层主要为三叠系巴颜喀拉群,其砂泥质类复理石沉积建造是Au、Sb、As、Hg的重要矿源层[33]。麻多幅和扎陵湖幅地球化学调查结果显示,巴颜喀拉山群变砂岩中Au的背景含量达到1.85×1
4 结论
1) 地球化学数据是成分数据,由于其有闭合效应,因此在进行因子分析之前,要对数据进行变换。从变换后的主成分分析来看,其结果更符合实际地质情况,更便于解释。
2) 因子分区标准化圈定的金异常和传统方法圈定的金异常对比认为,虽然两者在金矿床(点)上也都有显示,但是传统方法由于没有考虑地质条件的差异,在高背景地段也圈定了大量的非矿异常,而因子分区标准化考虑了地质条件的差异,因此圈定的异常更合理。
参考文献
区域地球化学异常信息提取方法研讨
[J].
Study on the method of geochemical anomalies analysis
[J].
确定岩性复杂区的地球化学背景与异常的方法
[J].
Method for determining the geochemical background and anomalies in areas with complex lithology
[J].
分区背景校正法及其对化探异常圈定的意义
[J].
Unit-wise adustment of geochemical background data and its significant geochemical anomaly delineation
[J].
子区中位数衬值滤波法及弱小异常识别
[J].
Subregion median contrast filtering method and recognition of weak anomalies
[J].
不同方法在栾川北部化探数据处理中的应用
[J].
Application of different data processing method in geochemical exploration in the North Luanchuan
[J].
区域地球化学数据的归一化处理及应用
[J].
The normalization of regional geochemical data and its application
[J].
利用小波分析提取深层次物化探异常信息
[J].
Wavelet-based extraction of geophysical and geochemical anomaly information
[J].
Sufer软件中利用趋势面方法圈定化探异常
[J].
Using tendency analysis method to deal with geochemical data based on the Suffer software
[J].
应用MAPGIS数字高程模型提取区域地球化学异常信息的方法探讨
[J].
A discussion on the method for extracting regional geochemical anomaly based on mapgis digital elevation model
[J].
化探背景与异常划分中的C型转换法
[J].
The C-type transformation method for recognition of geochemical background and anomaly
[J].
奇异性理论在个旧锡铜矿产资源预测中的应用:成矿弱信息提取和复合信息分解
[J].
Application of singularity theory in prediction of tin and copper mineral deposits in Gejiu District, Yunnan, China: weak information extraction and mixing information decomposition
[J].
水系沉积物地球化学分区的因子分析方法与应用
[J].
Factor analysis method and application of stream sediment geochemical partition
[J].
区域地球化学单元的概念、方法及应用研究
[D].
Research of regional geochemical Units: concept, methods and applications
[D].
利用水系沉积物识别基岩类型的方法研究——以大兴安岭浅覆盖区为例
[J].
The technique of inveting bedrock types by residual stream sediment in Daxing’anling shallow overlay
[J].
区域化探数据在浅覆盖区地质填图中的应用方法研究
[J].
Method of using regional geochemical data in geological mapping in shallow overburden areas
[J].
因子分类法在黑龙江塔河地区地质填图中的应用
[J].
Application of factor classification in geological mapping in Tahe area, Heilongjiang Province
[J].
因子分析在水系沉积物测量地球化学分区中的应用探讨——以青海都兰地区为例
[J].
Discussion of applying factor analysis to the geochemical subareas measurement in stream sediment:A case study of Dulan area in Qinghai Province
[J].
因子分析在地球化学分区中的应用:以内蒙在石板井地区1∶5万岩屑地球化学测量数据为例
[J].
Factor analysis in the geochemical subdivisions: Taking 1∶50 000 debris geochemical survey in the Shibanjing area of Inner Mongolia as an example
[J].
Univariate statistical analysis of environmental (compositional) data:problems and possibilities
[J].
Buccianti A. compositional data analysis: theory and application
[M].
The statistical analysis of compositional data
[J].
Spatial analysis of compositional data: a historical review
[J].
Modeling and analysis of compositional data
[M].
Principal component analysis for compositional data with outliers
[J].
Exploratory data analysis
[M].
Understanding robust and exploratory data analysis(2nd edition)
[M].
勘查数据分析(EDA) 技术的应用
[J].
Application of exploratory data analysis technology
[J].
Background and threshold: critical comparison of metholds determination
[J].
Geochemical background-concept and reality
[J].
The evaluation of geochemical survey data: data analysis and statestical methods using geographic information systems[G]//Harris J R.Gis for the Earth Sciences, Geological Association of Canada Special Publication 44. Geological Association of Canada, St
东昆仑造山带成矿作用与矿产资源评价
[D].
Metallogenesis and mineral resources assessment in Eastern Kunlun orogenic belt
[D].
中华人民共和国地球化学图说明书—I-47-[7](麻多幅)、I-47-[8](扎陵湖幅)
[R].
Specification of geochemical map of the People’s Republic of China—I-47-[7]、I-47-[8]
[R].
/
〈 |
|
〉 |
