浅谈基于Shapley值的数据融合反欺骗数据判断相关

天翼云开发者 | 2023-05-19 11:01:33 阅读：168

本文分享自天翼云开发者社区《浅谈基于Shapley值的数据融合反欺骗数据判断相关》

作者:z****n，https://www.ctyun.cn/developer/article/416084394414149

一、相关背景

多个信息源的数据进行融合处理后的信息具有较高准确性，同时具备互补性、及时性等特征，在一定程度上能够克服单信息源获取信息的局限性，能更加客观地对目标形成认识，具有更高置信度和较强鲁棒性。信息融合技术随着人工智能及物联网的发展，在人们日常生活中已被广泛应用。然而，在通过该技术享受生活便利的同时，也承担着其所带来的决策的误判、情报处理混乱等风险。

现代信息融合技术担当着越发重要的角色，其原理是通过传感器获取对状态、环境及目标的相关信息，并根据特定的算法对多个传感器所获信息进行处理，为得到用于评估战场的状态、敌方潜在的威胁以及自身相关方面的稳定性等重要信息提供依据。欺骗信息往往可以定义为故意或者无意操作产生的异常数据，比如假设一个欺骗者通过观察使用者与传感器之间的通信，然后发送虚假信息给使用者以干扰决策。

证据理论是由Dempster于1967年提出，之后由其学生Shafer对其进行了优化和改进，将之进一步发展，实现了相较于概率论等传统方法更加有效的表示和处理不确定性信息。此外，该理论将经典概率论中的基本时间空间拓宽为所有可能包含基本事件的幂集，也就是辨识框架的概念，同时在此基础上建立基本概率指派函数（Basic Probability Assignment, BPA）。源于该理论有着较强的不确定信息表示和处理能力，并且可以实现在无需先验信息的条件下进行融合等优点，在现代信息融合系统中得到了广泛的应用，是处理不确定信息的经典理论工具之一。

Shapley值最早是由诺贝尔经济学奖获得者L. Shapley在合作博弈论中提出的，旨在针对如何合理分配收益的问题，同时考虑到整体活动中每个参与成员之间的平等性，将成本或者收益按照所有的边际成本进行平均分配的原则，也就是说，每个参与者获得的收益值等于该参与人对所有可能联盟合作的边际贡献和的平均值。Yager将这种测量与变量相关的区分知识（不确定性-确定性）的想法扩展引入Shapley熵的模糊测度的情况，将Shapley值熵概念扩展到模糊度量方法，同时引入了模糊测度的基数指数，用它来定义模糊测度的态度特征并称之为Shapley熵，目前关于模糊信任函数讨论最广泛的转换方法是Shapley值。

二、意义所在

管理虚假和来自可能故意欺骗的信息一直以来都是信息融合过程中的一个重要问题。如果不积极管理虚假和欺骗性信息便相信基于组合来自多个不同来源的信息的任何结论，当真实信息与支持不真实可能性的欺骗性信息相结合时，基于来自所有来源的信息组合得出的结论可能会变得退化或错误。因此，提供有效可行的证据判定方案为高质量生成证据融合结果是有意义的。

三、问题与思路

仅是通过指标观察潜在欺骗数据的影响，并未给出一个直观可以理解的基础框架探讨一条证据是否应该融合或者是否存在欺骗证据的方法和方案，依旧存在值得进一步讨论和发展的研究问题，试想一下，1）当面向一个证据源时，无法直接判断即将融合的数据源中是否存在欺骗数据，即判断每条证据应不应该融合，其本质问题是讨论证据的可用性问题，即如何有效的判断证据是否可用；2）判断证据之后的下一步操作--丢弃还是进一步处理；3）进一步处理的方法。总技术路线概述如下：

基于技术路线分析：主要为针对多源（多属性）反欺骗信息判定机制以及证据融合策略的关键问题，基于Shapley值方法从证据差异性研究、证据合作收益模型、欺骗证据判定规则、欺骗消解机制以及冲突消解机制五部分内容进行研究。

四、冲突与欺骗

不一致信息往往由于信息源受到了干扰，更多层面上表现为客观数据的差异性，指标数据上表现为规律性或者自然噪声干扰引起的非剧烈波动。这种情况下，我们认为该信息虽然存在一定的差异性，但仍然具备有效信息量，应被Dempster组合规则接收融合，即不一致证据。

欺骗证据更多的是面向同一个问题，由于辨识框架的不完整或者是源自刻意以真实情况为依托进一步杜撰的一种反事实信息（Negative Information），数据上表现为无规律性，在一般情况下欺骗证据的数量应远小于正常数据，或不超过正常数据的一半。在这种情况下，基于对欺骗证据的慎重判定和筛选，我们假设欺骗证据存在两种情况，即强欺骗和弱欺骗。强欺骗是指完全欺骗，也就是对于其他BPA都高度支持的某一事件的基本分配概率为0，即对正确决策产生没有贡献和有效信息量。弱欺骗是指即使该证据对于正确决策的产生有贡献值（非0），但是基于证据判定规则依旧判断为欺骗证据的证据（下文简写为欺骗证据）。

综上，冲突证据包括不一致证据和欺骗证据，欺骗证据一定是冲突证据。因此，对待不一致证据和欺骗证据的处理方法应该不同。

五、小结

反欺骗一直是数据融合中的重要研究内容，现有的改变融合规则及证据折扣融合处理方法均基于需包含所有证据。然而，当前方法在确定所有证据的可用性的前提下，扩展了反欺骗方法的范围。首先对欺骗证据与冲突证据的概念分析和讨论了，通过欺骗证据判定模型实现对证据源中欺骗证据的有效判断，以构建数据融合前对证据进行反欺骗处理的数据模型思路。此外，针对证据理论中证据之间往往存在的不一致导致的证据冲突问题，基于Shapley值制定证据融合策略以实现更好的证据冲突管理。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。