下载数据集时遇到的问题：Terminal error from download_bios.py: the following arguments are required: wetpaths

我在尝试从PapersWithCode下载数据集时，运行下载程序时收到了以下错误信息：

usage: download_bios.py [-h] [-o OUT] [-r RETRIES] [-p N] wetpaths download_bios.py: error: the following arguments are required: wetpaths

我不知道如何解决这个问题

我尝试联系了一些程序员朋友和上网查资料，但没有人知道“wetpaths”是什么，所以我想在这里寻求帮助

回答：

wetpaths 是 download_bios.py 脚本的一个参数，它指的是由 CommonCrawl 使用的WET文件类型的路径。源代码中提到它期望的是

类似于2017-43的CommonCrawl日期或一个指向-wet.paths文件的路径

所以你应该传入一个有效的日期作为参数（例如，2022-49是2022年11月/12月的最新爬取日期）。

要理解WET格式的来源及其用途，需要一些背景知识。

网络爬虫（例如CommonCrawl进行的爬虫）最初是存储在互联网档案（ARC）格式中的。 Web ARChive（WARC）是对此格式的修订，增加了额外的次级数据，如元数据、简化的重复检测事件以及后期日期的转换。自2013年以来，CommonCrawl使用了WARC格式，这使得档案的存储和处理更加高效。WARC的完整规范可以在这里找到。

可以将WARC文件视为CommonCrawl爬取过程中的原始数据。另外还提供了两种格式，即WET和WAT：

WAT文件格式包含存储在WARC格式中的记录的元数据。
WET文件格式包含从WARC格式中记录中提取的纯文本。

学技术

下载数据集时遇到的问题：Terminal error from download_bios.py: the following arguments are required: wetpaths

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复