2018小议P2P 环境用户共享行为及对防污染方案的干扰
1. 引 言P2P 文件共享系统是目前互联网上重要的应用系统之一, 其匿名性、动态性等特点使其成为各种恶意行为的温床. 为了保护知识版权或者获得激励机制的奖励, 污染文件的制造者发布一些虚假甚至含有病毒的文件, 欺骗用户下载, 并通过P2P 文件共享系统广泛传播,严重危害系统的可用性和安全性. 表明KaZaA 系统存在50%~80%的文件受到污染.
Maze 系统中热门主题被污染的比例也接近50%。
面对各种可下载文件, 用户难以识别文件真假而感到困惑. 在下载到虚假文件后, 用户需要重新下载目标文件, 大量浪费的系统资源和网络带宽, 并受到网络运营商的抵制. 含有病毒、木马的虚假文件更会给用户带来安全上的隐患. 用户在多次下载到虚假文件后, 渐渐对文件共享系统失去信心, 甚至离开该系统. 如果缺乏有效的防污染方案, 就难以保证系统在安全、可用的环境下运行和发展, 甚至可能导致P2P 文件共享系统的消亡.
为了解决文件污染问题, 出现了各种信誉机制和基于文件特征的防污染方案。
当前的防污染方案主要存在未考虑多种用户共享行为带来的影响、难以获得大量原始数据等一系列问题. 这些防污染方案几乎没有考虑系统中多种用户共享行为造成的干扰, 无法保证防污染方案真实运行的效果. 基于用户的信誉机制无法正确评价版本的内在属性, 既难以检测出高可信节点发布的虚假文件, 也无法共享低可信节点提供的真实文件.
提到用户倾向于较长时间保留真实文件, 较快删除虚假文件的思想, 但同样没有考虑多种用户共享行为的干扰。通过分析真实系统运行日志, 首次发现存在用户共享习惯差异性、用户特别长时间保留个别文件等多种用户共享行为, 并分析其对防污染方案的影响.
本文第2 节介绍相关工作. 第3 节定义基本概念和模型,并介绍数据集. 第4 节中发现多种用户共享行为, 并分析其对防污染方案的干扰. 第5 节总结全文并介绍未来工作.
2. 相关工作
针对 P2P 环境下的文件污染问题, 主要的防御方案是信誉机制。 基本思想是让参与用户评价交易, 然后将这些评价信息按照一定的算法进行计算, 从而得到用户或者文件的可信度, 为其他用户选择交易对象提供参考. 信誉机制主要包括基于用户的信誉机制和基于版本的信誉机制。
在基于用户的信誉机制中, EigenTrust根据信任的传递性, 利用直接信任关系计算用户的全局可信度。的算法和EigenTrust 类似, 但在全局可信度计算的收敛性、安全性等方面有所增强. TrustGuard考虑当前信誉、历史信誉、信誉摇摆等因素来抵抗用户的摇摆行为, 并使用反馈可信度过滤不诚实的反馈. SWRTrust是一种基于评价相似度加权推荐的全局信任模型. RRM考虑用户行为的持续性, 并建立相应的激励与惩罚机制.
在基于版本的信誉机制中, Credence根据用户评价相似性作为权重, 计算局部的用户和版本可信性度, 并与可信度高的用户交换数据, 以缓解缺乏评价信息的问题。Hybrid加大对虚假评价和上传虚假文件等恶意行为的惩罚, 加快版本可信度计算的收敛速度。Holistic也根据评价相似性计算版本可信度, 按照一定的概率检验部分块以避免文件损坏,并保证较低的计算开销。
除了信誉机制, 另外还存在一些基于文件特征的防污染方案。根据能否转换为PCM 格式、播放时间是否正常来判断MP3 格式文件的真假. 使用能否转换为WAV 格式、压缩比是否达到20%等方法进行判断。提到用户倾向于较长时间保留真实文件, 较快删除虚假文件的思想, 并且根据视频文件发布时间是否早于DIV 资料库中的发布时间、哈希值是否出现过等方式识别虚假文件.
另外, 基于文件特征的防污染方案往往适用于特定的文件格式, 无法判断其他格式的文件. 基于用户的信誉机制忽略了用户可信度和版本可信度的区别, 难以检测出高可信节点发布的虚假文件, 也无法共享低可信节点提供的真实文件. 同时, 版本可信度取决于其内在属性, 是稳定不变的. 动态变化的用户可信度无法准确反映版本可信度. 用户可信度还容易受到洗白攻击(sybil attack)。
3. 基本概念、模型及数据集
3.1 基本概念
本文先介绍防污染方案中用到的一些基本概念。
{定义1} 文件是P2P 文件共享系统中对等节点共享的实体,主要属性包括文件内容和文件标识符等。
{定义2} 主题由一个或者多个关键词标识, 描述了文件内容. 例如标识一部电影的关键词组,就是一个主题。
{定义3} 版本描述了根据文件内容哈希计算得到的标识符相同的一组文件. 在BitTorrent 系统中, 版本标识符体现为tracker 服务器登记的种子对象. 而eDonkey/eMule 系统中的版本标识符体现为唯一的URI 地址. 针对某个主题, 存在不同的版本. 这些版本可能是真实的, 也可能是虚假的.
{定义4} 真实版本是主题和文件内容相符合的版本。
{定义5} 虚假版本是主题和文件内容不符合的版本。
3.2 基本模型
页:
[1]