我在尝试从PapersWithCode下载数据集时,运行下载程序时收到了以下错误信息:
usage: download_bios.py [-h] [-o OUT] [-r RETRIES] [-p N] wetpaths download_bios.py: error: the following arguments are required: wetpaths
我不知道如何解决这个问题
我尝试联系了一些程序员朋友和上网查资料,但没有人知道“wetpaths”是什么,所以我想在这里寻求帮助
回答:
wetpaths
是 download_bios.py 脚本的一个参数,它指的是由 CommonCrawl 使用的WET文件类型的路径。源代码中提到它期望的是
类似于2017-43的CommonCrawl日期 或 一个指向-wet.paths文件的路径
所以你应该传入一个有效的日期作为参数(例如,2022-49是2022年11月/12月的最新爬取日期)。
要理解WET格式的来源及其用途,需要一些背景知识。
网络爬虫(例如CommonCrawl进行的爬虫)最初是存储在 互联网档案(ARC)格式中的。 Web ARChive(WARC)是对此格式的修订,增加了额外的次级数据,如元数据、简化的重复检测事件以及后期日期的转换。自2013年以来,CommonCrawl使用了WARC格式,这使得档案的存储和处理更加高效。WARC的完整规范可以在 这里 找到。
可以将WARC文件视为CommonCrawl爬取过程中的原始数据。另外还提供了两种格式,即WET和WAT:
- WAT文件格式包含存储在WARC格式中的记录的元数据。
- WET文件格式包含从WARC格式中记录中提取的纯文本。