比特币,基于交易图网络数据分析的去匿名性问题论文阅读

所有的论文都放在这边

  1. Do Bitcoin Users Really Care about Anonymity? An Analysis of the Bitcoin Transaction Graph Proceedings - 2018 IEEE International Conference on Big Data, Big Data 2018
  2. Harlev M A, Sun Yin H, Langenheldt K C, et al. Breaking bad: De-anonymising entity types on the bitcoin blockchain using supervised machine learning[C]//Proceedings of the 51st Hawaii International Conference on System Sciences. 2018.

Do Bitcoin Users Really Care About Anonymity?

Do Bitcoin Users Really Care about Anonymity? An Analysis of the Bitcoin Transaction Graph Proceedings - 2018 IEEE International Conference on Big Data, Big Data 2018

看了一下,感觉可能和我想的有些不太一样。这个是关于比特币交易网络分析的文章,重点在于用户对于自身匿名性的在意程度。 文章介绍了目前主流的四种去匿名性思路:

  1. 直接与比特币用户交流来追踪比特币。比如在商品交易中,一方需要提供自己的地址以进行收款。
  2. 爬取第三方信息,建立开放的区块链分析网络。通过第三方的讨论组来收集比特币地址,包括用户无意泄漏,或者一些商人和组织的有意发布。
  3. 破解比特币的客户端,使IP与P2P网络对应。在交易过程中,会有一方来初始化整个交易,通过分析交易的形式和时间戳,是可以从比特币交易数据中提取出对应的IP地址,从而解析出真实的物理地址。
  4. 分析比特币交易图,这个是现在做的比较多的。Reid and Harrigan使用了一个多输入的启发式方法来进行分析,完成地址到用户的映射,等等。

学界关于比特币的匿名性和去匿名性进行了激烈的竞争,但是没有人想过一个问题:比特币用户自身关心匿名性吗?从结果来看,越富有的账户越关心自身匿名性,但是大部分用户本身是不关心匿名性的,我们可以轻松找到大型组织的所有对应地址。

相关工作

不太重要,其中分析比特币交易图所列出的文献值得进行阅读。

Breaking bad: De-anonymising entity types on the bitcoin blockchain using supervised machine learning

文章来源:课程论文搜索

本文使用了有监督机器学习的方式,预测未定义实体的类型。数据集采用了从200M个交易记录中提取出的434个实体,将其分为10类。采用的方法Gradient Boosting,准确率77%,F1大约0.75。

Intro

与公司合作,该数据提供方标注了一些数据,但是目前比特币网络上的大部分地址是没有被标注出来的。 标注类别:exchange, gambling, hosted wallet, merchant services, mining pool, mixing, ransomware, scam, tor market or other

相关工作

与比特币相关的工作比较多的是采用无监督学习方式,比如聚类算法。

Could Network Information Facilitate Address Clustering in Bitcoin?

论文计划使用地址信息来进行比特币的聚类,将所有用同一个用户创建的地址聚为一类。 结果显示只有8%的聚类与单个IP相关,说明比特币用户往往会使用很多个IP。 由于比特币交易的特性,为了确认一个交易必须要向全网进行广播,因此持续的网络监听很可能可以将比特币地址与特定的IP相连接。但是如果用户使用动态分配的IP,比如在NAT路由器之后或者使用钱包应用。因此这些信息就不一定能够用在去匿名化上。 思路:使用已有的启发式算法对用户和地址进行映射,然后对整个数据集进行聚类,看聚类所得到的用户与IP的对应关系。

相关工作

去匿名化的第一个工作:Reid and Harrigan(前面提到过),使用启发式方法,多输入模型分析追踪之后的交易。 Meiklejohn,基于标准用户的行为进行

A Survey on Blockchain Anomaly Detection Using Data Mining Techniques

匿名检测技术的综述 将方法分为两大类,一类为泛用检测方法,一类为专用检测方法。下面共有八个子类。

Universal Detection Methods

指不为特定的异常设计的检测方法 分为三个小类:entity portrait/ transaction pattern recognition/ double angle detection model

entity portrait

主要任务是存储用户的活动,并对这些活动的性质进行分析。这方面活动的目的主要是为了去匿名化。

  • Harlev: Breaking bad: de-anonymising entity types on the bitcoin blockchain using supervised machine learning.,这个前面有,使用了两百万个交易数据的434个实体,使用SMOTE方法解决类间不平衡问题,然后用Gradient Boosting监督学习方法进行分类。精确度77%、F1 75%
  • Regulating cryptocurrencies: a supervised machine learning approach to de-anonymizing the bitcoin blockchain,同样使用了有监督的机器学习方法来预测没有分类的应用,训练数据中有957个实体,针对12类进行预测。使用了同样的Gradient Boosting算法(默认参数)
  • 我们的文章,深度学习方法
  • Deanonymizing cryptocurrency with graph learn- ing: the promises and challenges,意图使用图学习相关方法来进行去匿名化的工作。 上述是间接进行去匿名化。下面这些方法计划学习用户的行为特征,直接进行去匿名化:
  • A Bayesian approach to identify bitcoin users,使用贝叶斯方法,构建概率论模型来对用户的行为特征建模,完成将比特币地址与交易和IP地址对应。通过两个月对一百多个用户的观察,他们能够识别几千个比特币用户,并将他们的交易行为与地理位置绑定。
  • Learning to classify blockchain peers according to their behavior sequences,基于深度学习的方法,可以将用户根据行为进行分类,通过提取代表用户行为的序列数据来解决问题。

Transaction Pattern Recognition

计划通过机器学习方法决定交易的类型。 好像没什么用

Double angle detection

计划同时找出异常的用户和地址

  • Anomaly detection in bitcoin network using unsupervised learning methods
  • Anomaly detection in the bitcoin system - a network perspective 该方法从30个已知事件中找出了一个偷窃事件。

An evaluation of bitcoin address classifi- cation based on transaction history summarization

构建了新的feature来进行Bitcoin地址的分类,将交易历史集合表示为新的特征。

T-EDGE: temporal weighted multidigraph embedding for Ethereum transaction network analysis

graph embeding方法,为了避免启发式特征提取的问题,更全面地代表动态交易网络的时序和经济结构,作者通过网络压缩的方式构建了以太坊的分析框架。

A New Bitcoin Address Association Method Using a Two-Level Learner Model

来源:后续发展 做的仍然是比特币地址与用户的相关性分析,使得地址追踪变得可能。 提取了比特币地址中的重要特征(主要是历史交易数据),将聚类问题转变为二分类问题来降低计算复杂度。采用了一个两层的learner模型来分析两个比特币地址是否属于同一个用户。 精度提升6~20%,召回率10% XGBoost,LightGBM, GBDT用在第一层,因为它们可以很好地处理所有的特征。DNN用在第二层,因为它在分类上表现出色。 达到了95%以上

启发式分析方法

在最早的时候,人们使用基于启发式的方法来分析整个网络 目前最常用的方法就是多输入启发式方法,这个方法最早由:Bitcoin: a peer-to-peer electronic cash system此文是第一个提出使用启发式方法分析比特币交易网络的。启发式方法认为无论有多少输入,交易都会从一个用户开始,因此交易的地址应该全部归属于最初发出交易的用户。如此,可以合并所有交易中的输入地址,并合并成一个聚类,识别出这个聚类的地址所有者。

Shadow address heuristic,第一次提出是在Evaluating user privacy in bitcoin中,并在A fistful of bitcoins: characterizing payments among men with no names被定义为change address。在比特币交易中,用户经常会新开一个地址来存放零钱。这个启发式方法的容错会更低一些,因为对shadow address的识别是基于对交易现象的观察而不是客观现象进行的。其他一些情况也使用了这种方法,在Data-driven de-anonymization in bitcoin中,使用了两种启发式方法来进行去匿名化,召回率69.3%,并研究了多种启发式方法结合的情况,发现结合后的提升小于1%。

在Deanonymisation of clients in bitcoin P2P network和An analysis of anonymity in bitcoin using P2P network traffic中,与之前的分析交易图不同,它们更关注交易地址与实际IP地址的对应关系。使用网络层级技术来追踪IP地址,但是很容易被防御,如果使用了CoinShuffle: practical decentralized coin mixing for bitcoin中提到的VPN或混淆技术

0%