马氏距离法在东昆仑东段多元异常圈定中的对比试验
The application of Mahalanobis distance to the delineation of multivariate outliers in the East Kunlun Mountains
通讯作者: 杨帆(1983-),男,高级工程师,博士,主要从事勘查地球化学及环境地球化学相关基础理论研究和调查评价工作。Email:yangfan@igge.cn
责任编辑: 蒋实
收稿日期: 2020-02-6 修回日期: 2020-10-18 网络出版日期: 2021-04-20
基金资助: |
|
Received: 2020-02-6 Revised: 2020-10-18 Online: 2021-04-20
作者简介 About authors
耿国帅(1972-),男,高级工程师,博士研究生,主要从事勘查地球化学相关基础理论研究和调查评价工作。Email:
马氏距离是一种多元异常识别方法,目前已有多种基于马氏距离的异常识别方法。笔者选择青海省东昆仑东段1∶50万水系沉积物测量数据,对比常规马氏距离、基于最小方差行列式(FMCD)的稳健马氏距离、基于校正的最小方差行列式的稳健马氏距离(Adaptive)和基于协中值的稳健马氏距离(Comedian)4种方法在识别Cu、Co、Cr、Ni、V、Fe,Cd、Cu、Mo、Pb、Zn、Ag和Au、As、Sb三种组合异常中的应用效果。结果显示,基于Comedian方法识别的异常效果最好,而常规方法识别的异常效果最差,因此Comedian方法是该区最有效的多元异常识别方法。
关键词:
Mahalanobis distance is a multivariate outlier detection method. At present, there are many outlier detection methods based on Mahalanobis distance. The purpose of this paper is to compare the advantages/disadvantages of various Mahalanobis distances in identifying multivariate outliers and to select a more suitable method for identifying multivariate anomalies. The authors selected 1∶500 000 stream sediment data in the East Kunlun Mountains of Qinghai Province to compare the effects of four methods: classical Mahalanobis distance, robust Mahalanobis distance based on minimum variance determinant (FMCD), robust mahalanobis distance based on Adaptive minimum variance determinant (Adaptive), and robust mahalanobis distance based on Comedian (Comedian) in identifying Cu, Co, Cr, Ni, V, Fe; Cd, Cu, Mo, Pb, Zn, Ag and three association outliers of Au, As, Sb. The result shows that the Comedian method is the superior, while the classical method is the worst. So Comedian method is the most effective multivariate outlier detection method in this area.
Keywords:
本文引用格式
耿国帅, 杨帆.
GENG Guo-Shuai, YANG Fan.
0 引言
在地球化学数据处理中,许多情况下异常下限并不是某个重要元素的浓度值, 而是样品中几种元素的相互关系[1],因此,用传统的统计学方法确定的单元素异常下限, 可能无法揭示或突出数据集中有价值的复合信息, 还可能误入歧途。目前,已有多种方法来识别多元素地球化学异常[2,3,4,5],但应用最广泛的是基于马氏距离的多元异常识别方法[6,7,8,9,10,11,12,13]。常规马氏距离方法是依据数据的算术平均值和样本的协方差矩阵来计算各样本点离数据中心的距离,将计算的马氏距离与卡方分布的临界值(通常取卡方分布的97.5%)相比较,大于临界值的数据点为异常点[14]。但算术平均值和协方差矩阵是不稳健的统计量,部分异常点的存在会造成算术平均值的偏大或偏小及协方差矩阵的变化,进而掩盖一些异常点[15,16,17,18,19]。为了克服不稳健的问题,许多科学家采用了稳健的方法来计算马氏距离[20,21]。应用最广泛的是Rousseeuw提出的基于最小协方差矩阵行列式(MCD)的快速方法(FMCD)[22]。Majewska认为,基于M-估计、S-估计、MM-估计、MVE、MCD 和FMCD的稳健马氏距离在识别异常的效果上已经证明比常规马氏距离好,在这些稳健方法中,FMCD的方法相对较好[23]。Filzmoser等认为这种根据马氏距离大于某一固定值判定为异常的方法也有很大的缺陷,它没有考虑样品的个数及数据的结构,因此提出了基于校正的稳健马氏距离法(adaptive method)[24]。此外Sajesh和Srinivasan提出了用Comedian来代替Covariance的稳健马氏距离法来识别异常(comedian method)[25]。笔者利用常规马氏距离方法、FMCD法、Adaptive法和Comedian法等4种方法,分别对东昆仑东段水系沉积物测量地球化学数据进行处理,用于圈定多元素组合异常效果对比,旨在优选适宜该区的方法。
1 研究区概况
青海省东昆仑东段跨越了古亚洲和特提斯两大构造域,位于南北两大构造域结合部位,区内可划分为秦祁昆、特提斯2个一级单元,东昆仑造山带、巴颜喀拉造山带2个二级构造单元及昆北、昆中、昆南、北巴 4 个三级构造单元(图1)。
图1
图1
东昆仑地区大地构造分区
1—主缝合带;2—次缝合带;3—新元古代-早古生代结合带俯冲方向(一侧有齿者为单向俯冲,两侧有齿者为双向俯冲);4—晚古生代-早中生代缝合带俯冲方向;5—A型俯冲带;6—公路;7—研究区位置;Ⅰ—柴达木地块;Ⅱ—东昆仑造山带;Ⅱ1—东昆北早古生代弧后裂陷带(昆北带);Ⅱ2—东昆中岩浆弧带(昆中带);Ⅱ3—东昆南构造-混杂岩带(昆南带);Ⅲ—巴颜喀拉造山带(北巴带)
Fig.1
The map of geotectonic units in the study area
1—main structure zone; 2—secondary structure zone; 3—Neoproterozoic-early Paleozoic combined belt subduction direction(one-way subduction with teeth on one side and two-way subduction with teeth on both sides); 4—subduction direction of late Paleozoic and early Mesozoic suture belt; 5—A type subduction zones; 6—high way; 7—location of study area; Ⅰ—Qaidam massif; Ⅱ—East Kunlun orogenic belt; Ⅱ1—East Kunbei early paleozoic back-arc rife (Kunbei belt); Ⅱ2—East Kunzhong magmatic arc zone(Kunzhong belt); Ⅱ3—East-Kunnan tectonomagmatic belt(Kunnan belt); Ⅲ—Bayan Kara orogenic belt (Beiba belt)
区内地层出露齐全,从古元古界到新生界均有出露,其中昆北带主要出露三叠系鄂拉山组,昆中带主要出露太古宇古老变质岩系,昆南带出露地层最为复杂,从古元古界到侏罗系均有出露,北巴带内主要出露三叠系巴颜喀拉群的复理石沉积。区内岩浆侵入活动强烈,以花岗岩类为主,在4个构造单元均有出露,尤以昆中带最密集,北巴带最稀少,时代从元古宙、早古生代、晚古生代到中生代均有分布,其中中生代最为发育。
该区已发现金、铁、铜、铅、锌、钨、锡、钴等矿床(点)110多处,其中大型矿床4处,都为金矿床;中型矿床7处,为金、铁、多金属矿;小型矿床13处,为金、铜、铁、多金属矿;矿点46处;矿化点41处。近些年来,该区一直是找矿工作的热点地区之一。
表1 研究区矿床成因类型
Table 1
组合 | 类型 | 有用组分 | 矿床(点) |
---|---|---|---|
VHMS型 | Cu、Co、S(Au) | 督冷沟、驼路沟 | |
与基性岩有关的矿床组合 | SEDEX型 | Cu、Co、Pb、Zn(S、Ag、Au) | 纳赤台 |
沉积变质型 | Fe、Mn | 洪水河、清水河 | |
与中酸性岩浆岩有关矿床组合 | 斑岩型 | Cu(Mo,Au) | 托克妥 |
矽卡岩型 | Fe、Pb、Zn、Co、Cu、Au | 白石崖 | |
造山型金矿组合 | 蚀变岩型 | Au、As、Sb | 五龙沟、小干沟、东大滩、西藏大沟、大场 |
石英脉型 | Au、Sb、As | 开荒北 |
2 四种马氏距离算法和元素组合的选取
2.1 四种马氏距离算法
马氏距离是由印度统计学家P. C.Mahalanobis提出的,表示数据的协方差距离[29]。它是一种广义距离,因为考虑了各变量间的协方差,与普通欧氏距离相比,能消除量纲及各变量间相关性的影响。马氏距离的计算方法为
式中:Xi为分析数据;T为数据中心位置估计值;C为数据离散的估计值。
1) 在常规方法中,T为算术平均值,C为协方差矩阵。
2) FMCD法,实际上就是挑选一个不含异常点的背景子样本,使其矩阵行列式的值最小,从而计算出该子样本的算术平均值和协方差矩阵,来代替上式中的T和C。子样本个数须适宜,少了代表性差,多了稳健性差,样本个数一般在(n+p+1)/2~3n/4,其中n为样本数,p为元素个数[22]。
3) Adaptive法,计算马氏距离的算法同步骤2),只是判断异常下限的方法不同,它考虑了样本容量和元素个数对异常下限的影响[24]。
4) Comedian法,是利用Comedian来代替Covariance的方法,但直接计算的Comedian是一个非半正定矩阵,因此采用了奇异值分解的方法来重新生成一个半正定的Comedian矩阵和计算出中心位置的估计值[25]。
2.2 元素组合的选择
马氏距离圈定多元素异常,通常是针对不同类型矿床的特征元素组合的。本文根据该区的矿床(点)个数、规模及与元素间的关系,挑选出下列3种元素组合:
1) 以基性岩有关的矿床类型的元素组合:Cu、Co、Cr、Ni、V、Fe;
2) 以酸性岩有关的矿床类型的元素组合:Cu、Mo、Pb、Zn、Ag、Cd;
3) 以造山型金矿有关的元素组合:Au、As、Sb。
3 结果及讨论
3.1 数据的来源
3.2 不同方法计算的马氏距离对比
对研究区4 001件样品按照上述3种元素组合计算其马氏距离,由于Adaptive马氏距离是利用FMCD的方法计算得出的,因此4种方法仅有3种马氏距离。把3种元素组合经FMCD、基于Comedian计算的马氏距离分别与常规方法计算的马氏距离进行对比(图2)。从图2可看出:① 常规马氏距离与基于FMCD计算的马氏距离相关性较好,如Au、As、Sb中,两者的相关性近乎呈一条直线。而基于Comedian计算的马氏距离与常规马氏距离的相关性较差。② 几乎所有基于FMCD计算的稳健马氏距离值都大于常规方法计算的马氏距离值,而基于Comedian计算的稳健马氏距离值大部分大于常规方法计算的距离值,少部分小于常规方法计算的距离值。③ 常规方法圈定的异常点一定是基于FMCD和Adaptive方法圈定的异常点(通过计算,Adaptive法确定的异常下限都大于FMCD法确定的异常下限,因此FMCD稳健距离确定的异常点一定包括Adaptive稳健马氏距离确定的异常点),但不一定是基于Comedian稳健距离圈定的异常点。④基于FMCD计算的马氏距离最大值(图2中红色圆圈所突出的点)与基于Comedian计算的马氏距离最大值(图2中蓝色圆圈所突出的点)通常不一致,且相差较大,例如Cd、Pb、Zn、Cu、Mo、Ag元素组合中,用FMCD计算的距离最大值,在Comedian计算的距离中甚至达不到异常点的标准,而用Comedian计算出的最大值点,在FMCD计算的距离中值都较大,在FMCD和Adaptive中都是异常点。
图2
图2
3种元素组合的常规(a)和稳健(b)马氏距离对比
Fig.2
The comparison of classical and robust mahalanobis distance from three element associations
3.3 异常下限及识别的异常点数对比
Z=(X-median(X))/MAD(X),
MAD(X)=1.4826×median|X-median(X)|。
表2 4种马氏距离确定的异常下限及异常点数统计
元素组合 | 常规 | FMCD | Adaptive | Comedian | ||||
---|---|---|---|---|---|---|---|---|
异常下限 | 异常个数 | 异常下限 | 异常个数 | 异常下限 | 异常个数 | 异常下限 | 异常个数 | |
Cu、Co、Cr、Ni、V、Fe | 3.8 | 238 | 3.8 | 747 | 4.06 | 642 | 5.31 | 617 |
Cd、Cu、Mo、Pb、Zn、Ag | 3.8 | 192 | 3.8 | 710 | 4.15 | 592 | 4.92 | 703 |
Au、As、Sb | 3.06 | 173 | 3.06 | 753 | 3.4 | 658 | 3.85 | 793 |
图3
式中:median表示数据集的中值,而MAD表示中值的绝对偏差,目的是统一各元素的量纲,使各元素值在统一水平线上,同时使各元素的中值处于箱线图纵轴的零刻度位置,方便进行比较。
标准化元素箱线图显示,该区Sb、Au、As元素组合中,元素的离散度都较大,高值点较多,形成的异常也应该较多;Cd、Cu、Mo、Pb、Zn、Ag元素组合中,Pb、Mo、Cd、Ag离散度也较大,Cu、Zn离散度较小; 而Co、Cr、Cu、Ni、V、Fe元素组合中,除Cr、Ni离散度较高外,其他元素离散度都较小。
从该区所形成的矿床来看,造山型金矿床无疑是该区最具找矿潜力的类型,与中酸性岩有关的矽卡岩型和斑岩型次之,与基性岩有关的矿床找矿潜力最小。故基于Comedian的方法较其他两种稳健方法更好。
3.4 圈定的异常对比
图4
图4
4种马氏距离圈定的Co、Cr、Cu、Ni、V、Fe组合异常
Fig.4
Multivariate outlier delineation for Co,Cr,Cu,V,Ni and Fe from four mahalanobis diatance methods in study area
图5
图5
4种马氏距离圈定的Cd、Cu、Mo、Pb、Zn、Ag组合异常
Fig.5
Multivariate outlier delineation for Cd,Cu,Mo,Pb,Zn and Ag from four mahalanobis diatance methods in study area
图6
图6
4种马氏距离圈定的Au,As,Sb组合异常
Fig.6
Multivariate outlier delineation for Au,As,Sb from mahalanobis distance methods in study area
3.4.1 Cu、Co、Cr、Ni、V、Fe组合异常
使用常规马氏距离方法圈定的异常面积较小,异常较零星,强度较低,浓集趋势不明显,而基于稳健马氏距离圈定的异常,强度较高,浓集趋势也比较明显。从3种稳健方法所圈定的异常看,Comedian圈定的异常主要集中分布在昆南带内,而FMCD和Adaptive所圈定的异常,除了大部分集中在昆南带内外,在昆北带内也有较多的小异常存在,在昆中和北巴带内的异常也较前者多。常规方法和FMCD计算的马氏距离最大值点都分布在北巴带内,而Comedian计算的马氏距离最大值点分布在昆南带内的清水泉铬铁矿点附近。相较于FMCD方法,Adaptive方法所圈定的异常面积减少,但浓集趋势不变,矿床与异常对应关系也没有改变,表明Adaptive圈定的异常较FMCD合理。总之,Comedian法更符合地质情况,所圈定的异常最真实,其次是Adaptive,常规方法效果最差。
3.4.2 Cd、Cu、Mo、Pb、Zn、Ag组合异常
使用常规马氏距离圈定的异常面积较小,分布较零星,强度较低,浓集趋势不明显,而采用稳健马氏距离圈定的异常面积较大,强度较高,浓集趋势较明显,与矿床点的对应性较好。从3种稳健方法所圈定的异常看,Comedian所圈定的异常强度更高,浓集趋势更明显,与矿床点的对应性也更好。从马氏距离最大值所处位置来看,常规方法和Comedian稳健方法计算的最大值点都处在图幅中间,山根果勒南端,而FMCD所计算的最大值点处于图幅最东端哈拉深沟的南东。目前在Comedian极值点附近已发现了没桑确昂、注斯楞等热液脉型铅矿点。相较于FMCD,Adaptive圈定的异常面积减小,但浓集趋势及与矿床点的关系没有改变。
3.4.3 Au、As、Sb组合异常
使用常规方法圈定的Au、As、Sb组合异常,较常规方法所圈定的前两种元素组合异常,分布更零星,面积更小,强度更低,也说明了常规方法不稳健所带来的掩蔽效果对Au、As、Sb组合更严重。而从3种稳健方法所圈定的异常来看,用Comedian所圈定的异常强度更高,浓集趋势更明显,且从马氏距离最大值所处的位置来看,Comedian所计算的马氏距离最大值处于五龙沟矿床,而其他两种方法计算的马氏距离都处于研究区的最南端。
3.5 Adaptive和Comedian识别出的异常点分布
对Adaptive和Comedian所识别出的异常点分别进行统计(见表3),从所识别的异常点数看,两种方法识别的Co、Cr、Cu、Ni、V、Fe组合异常点数区别较小,共同识别的异常点数占总异常点数近50%,仅被一种方法所识别的异常点数各占总异常点数的近25%。而在识别其他两种元素组合的异常点数时差别较大,在Cd、Cu、Mo、Pb、Zn、Ag元素组合中,两者共同识别出的异常点数仅占1/3左右,而Comedian所识别的异常点数远高于Adaptive所识别的异常点数;在Au、As、Sb元素组合中,两者共同识别出的异常点数大于总异常点数的40%,Comedian所识别的异常点数也远远大于Adaptive所识别的异常点数。
表3 Adaptive和Comedian异常点统计
Table 3
元素组合 | Adaptive | Comedian | both | |||
---|---|---|---|---|---|---|
异常点数 | 占比/% | 异常点数 | 占比/% | 异常点数 | 占比/% | |
Cu、Co、Cr、Ni、V、Fe | 233 | 27.61 | 201 | 23.82 | 410 | 48.58 |
Cd、Cu、Mo、Pb、Zn、Ag | 275 | 28.19 | 387 | 39.53 | 316 | 32.28 |
Au、As、Sb | 211 | 21.79 | 356 | 35.11 | 437 | 43.10 |
异常识别方法的优劣,取决于异常点个数及其与地质及矿床点分布的吻合程度。因此,笔者选择两种方法所识别异常点数区别较小的Co、Cr、Cu、Ni、V、Fe组合,比较两种方法所识别的异常点与矿床点的吻合程度(见图7)。
图7
图7
Adaptive和Comedian识别的Co、Cr、Cu、Ni、V、Fe组合异常点分布
Fig.7
Outliers distribution of Co,Cr,Cu,Ni,V,Fe association using Adaptive and Comedian methods
从该区所收集到的25处该类型的矿床点与异常点的分布情况看,除了1处矿床点周围无异常点外,其他24处矿床点都处在异常点上或异常点附近,且大都处于两者共同识别出的异常点上,但从矿床点与两者单独识别出的异常点的关系看,9处矿床点处于Comdeian识别出的异常点附近,而只有3处矿床点处于Adaptive识别出的异常点附近,故Comedian识别出的异常点更合理。
4 结论
常规马氏距离法、FMCD法、Adaptive法、Comedian法在东昆仑东段异常识别和圈定中的实际效果显示:
1) 常规马氏距离容易受到特异值的影响,而造成异常的掩蔽效应,识别出的异常点数较少,圈定的异常面积小,分布零星,强度低。
3) 综上所述,4种方法在东昆仑东段多元素异常圈定效果依次为Comedian方法、Adaptive法、FMCD法、常规方法。
参考文献
Multivariate geochemical modeling and integration with petrophysical
[J]. ,DOI:10.1016/0375-6742(87)90082-3 URL [本文引用: 1]
Anomaly recognition for multi-element geochemical—A background characterization approach
[J]. ,DOI:10.1016/0375-6742(87)90085-9 URL [本文引用: 1]
Rock geochemistry in mineral exploration, Vol.3 of handbook of exploration geochemistry
[M]. ,
Identification of outliers in multivariate data
[J]. ,DOI:10.1080/01621459.1996.10476975 URL [本文引用: 1]
On using robust Mahalanobis distance estimations for feature discrimination in a damage detection scenario
[J]. ,
Outlier detection based on robust mahalanobis distance and its application
[J]. ,
High-breakdown robust multivariate methods
[J]. ,
Identification of outliers: A simulation study
[J]. ,
Unmasking multivariate outliers and leverage points
[J]. ,DOI:10.1080/01621459.1990.10474920 URL [本文引用: 1]
马氏距离与欧氏距离方法在地球化学异常处理中的对比
[J]. ,
Contrast between Mahalanobis distance and Eucliean distance in geochemical exploration processing
[J].
Multiple outlier detection and cluster analysis of multivariate normal data
[D]. ,
The efficiency of statistical tools and a criterion for the rejection of outlying observations
[J]. ,
Unmasking multivariate anomalous observations in exploration geochemical data from sheetedvein tin mineralisation near Emmaville, N.S.W
[J]. ,
Interpreting exploration geochemical data from Outukumpu, Finland: A MVE-robust factor analysis
[J]. ,
Robust statistics:The approach based on influence functions
[M]. ,
High-breakdown robust multivariate methods. Statistical
[J]. ,DOI:10.1126/science.ns-23.576.92-d URL PMID:17736351 [本文引用: 1]
Algorithm for the Minimum covariance determinant estimator
[J]. ,
Identification of multivariate outliers-problems and challenges of visualization methods
[J]. ,
Multivariate outlier detection in exploration geochemistry
[J]. ,
outlier detection for high dimensional data using the comedian approach
[J]. ,
东昆仑造山带区域成矿作用与矿产资源评价
[D]. ,
Metallogenesis and mineral resources assessment in East Kunlun Orogenic belt
[D].
青海省东昆仑成矿带区域地球化学数据处理及靶区优选
[D]. ,
Geochemical data processing and targets optimization in Eastern Kunlun orogenic belt, Qinghai province
[D].
依据化探成果对东昆仑地质背景的讨论
[J]. ,
A discussion on geological based on background of the East Kunlun area by geochemical exploration data
[J].
青海省东昆仑地区地球化学异常特征及金矿找矿靶区筛选与评价
[J]. ,
Geochemical characteristics and gold metallogenic target area selection and evaluation in east Kunlun region, Qinghai Province
[J].
青海省东昆仑中段地区构造地球化学特征及地质意义
[J]. ,
Tectonic geochemistry of the central segment of the East Kunlun Mountains in Qinghai Province and its geological significance
[J].
Robust and efficient estimation of multivariate scatter and location
[J]. ,
/
〈 | 〉 |