下载数据集时遇到的问题:Terminal error from download_bios.py: the following arguments are required: wetpaths

我在尝试从PapersWithCode下载数据集时,运行下载程序时收到了以下错误信息:

usage: download_bios.py [-h] [-o OUT] [-r RETRIES] [-p N] wetpaths download_bios.py: error: the following arguments are required: wetpaths

我不知道如何解决这个问题

我尝试联系了一些程序员朋友和上网查资料,但没有人知道“wetpaths”是什么,所以我想在这里寻求帮助


回答:

wetpathsdownload_bios.py 脚本的一个参数,它指的是由 CommonCrawl 使用的WET文件类型的路径。源代码中提到它期望的是

类似于2017-43的CommonCrawl日期 一个指向-wet.paths文件的路径

所以你应该传入一个有效的日期作为参数(例如,2022-49是2022年11月/12月的最新爬取日期)。

要理解WET格式的来源及其用途,需要一些背景知识。

网络爬虫(例如CommonCrawl进行的爬虫)最初是存储在 互联网档案(ARC)格式中的。 Web ARChive(WARC)是对此格式的修订,增加了额外的次级数据,如元数据、简化的重复检测事件以及后期日期的转换。自2013年以来,CommonCrawl使用了WARC格式,这使得档案的存储和处理更加高效。WARC的完整规范可以在 这里 找到。

可以将WARC文件视为CommonCrawl爬取过程中的原始数据。另外还提供了两种格式,即WET和WAT:

  • WAT文件格式包含存储在WARC格式中的记录的元数据。
  • WET文件格式包含从WARC格式中记录中提取的纯文本。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注