比特币交易图数据集研究与应用

·

比特币自2008年由中本聪创立以来,建立了一种全新的去中心化数字经济体系,用户无需依赖中央机构即可存储和转移价值。本文介绍了一个大规模交易图数据集,包含2.52亿个节点和7.85亿条边,覆盖近13年内的6.7亿笔交易,每个节点和边均带有时间戳。该数据集为研究者提供了标记数据,包括基于实体类型的3.3万个节点标记和近10万个带有实体名称及类型的比特币地址标记。我们训练了多种图神经网络模型进行节点分类预测,构建了基线研究标准,并展示了该数据集在比特币分析以外的多个应用场景。

背景概述

比特币作为分布式账本技术的代表,其交易数据完全公开,但可供研究的高质量数据集却十分稀缺。现有数据集大多仅提供地址标记,研究者需自行构建交易图,这要求具备深入的比特币系统知识,形成了较高的研究门槛。少数开源图数据集如Elliptic系列专注于反洗钱研究,应用范围有限。

本文提出的数据集直接以图结构呈现,节点代表实际参与比特币网络的实体(如个人、交易所、矿工等),边代表实体间的价值转移。该数据集有效解决了现有数据不足的问题,为比特币经济网络分析、异常交易检测、资金流向追踪等研究提供了坚实基础。

数据构建方法论

图结构构建

原始数据提取自比特币核心节点下载的完整区块链数据,解析前70万个区块内的交易信息。节点定义基于脚本聚类,通过启发式方法将同一实体控制的多个地址聚合为一个节点,最终形成2.52亿个节点。边构建考虑了交易中的净价值转移,排除了CoinJoin混合交易和彩色币等非标准交易,以确保数据纯净性。

节点标记策略

节点标记主要依赖链外数据,特别是Bitcointalk论坛的1400万条文本帖子。利用ChatGPT分析帖子上下文,提取地址与实体的关联信息,并结合以下多种数据源进行交叉验证:

标记覆盖了12类实体,包括交易所、矿工、赌博平台、勒索软件等关键角色。

数据集核心内容

论坛数据结构

包含54.6万条论坛线程,每条线程以JSON格式存储标题、发帖人、日期和内容信息,平均每条帖子包含58个单词,为地址标记提供丰富的上下文依据。

地址标记统计

共标记10.1万个地址,其中交易所占比最高(约40%),其次为个人(21%)和矿工(11%)。标记来源多样化,包括论坛分析(62%)、公开数据源(20%)和外部数据集(18%)。

图数据库特性

数据以PostgreSQL数据库存储,包含节点特征表和交易边表。图密度约为1%,表明网络连接稀疏。3.4万个节点带有类型标记,时间序列分析显示节点和边数量随比特币经济发展持续增长。

技术验证与模型训练

通过节点分类任务验证数据集质量,使用图卷积网络(GCN)、GraphSage、图注意力网络(GAT)和图同构网络(GIN)等模型进行训练,并对比梯度提升分类器(GBC)性能。

特征工程与预处理

除原始特征外,新增:

训练与采样策略

采用邻域采样解决大规模图训练难题,设置最大深度2层,每层采样5-10个邻居。通过数据增强技术生成多个子图样本,提升模型泛化能力。

性能分析

GAT和GIN模型表现最佳,宏观F1分数分别达到0.64和0.63。各类别中,赌博平台和投注地址识别准确率最高,而勒索软件类别由于样本较少且模式复杂,预测难度较大。混淆矩阵显示个体类别存在一定误判,表明模型需进一步优化区分能力。

👉 获取区块链数据分析进阶方法

应用场景展望

该数据集支持多维度研究:

价值流动网络分析:研究不同实体类型间的交互模式,分析政治、监管和经济因素对资金流动的影响,特别在反洗钱和打击金融犯罪领域具有应用价值。

时间演化研究:追踪网络拓扑结构随时间的演变,从早期小众使用到近期机构化进程,揭示比特币经济发展规律。

跨网络对比分析:与传统金融网络和其他加密货币网络进行拓扑特征对比,深化对比特币生态系统独特性的认识。

预训练模型开发:大规模图数据为预训练神经网络提供理想素材,可迁移至其他交易网络分析任务。

常见问题

该数据集与其他比特币数据集相比有何优势?
这是目前最大的公开比特币交易图数据集,直接提供图结构而非原始地址标记,大大降低了研究门槛。同时包含丰富的时间戳信息和多元实体分类,支持更复杂的时序分析和网络动力学研究。

如何访问和使用这个数据集?
数据集以PostgreSQL数据库格式提供,需使用pg_restore工具导入。建议配置充足的存储空间(约120GB)和优化数据库参数以获得最佳性能。详细代码和操作指南已在GitHub开源。

非技术人员能否使用这个数据集?
数据集主要面向具备图神经网络和区块链分析基础的研究人员。但提供的预处理特征和基线模型使得具有一定机器学习背景的研究者也能快速开始实验和研究。

数据集中是否包含隐私敏感信息?
所有数据均来自公开的区块链数据和论坛信息,不包含任何非公开的个人身份信息。地址和交易数据本身就是比特币网络设计的公开信息。

未来会更新数据集版本吗?
研究团队将持续关注比特币生态发展,计划定期更新数据集以覆盖更长时间范围和新增实体类型,同时欢迎社区贡献改进建议和标记数据。

该数据集最适合哪些研究领域?
除了比特币经济分析,还适用于图机器学习算法测试、异常检测模型评估、金融网络分析、时间序列预测等多个前沿研究领域。