下载数据集时遇到的问题:Terminal error from download_bios.py: the following arguments are required: wetpaths

我在尝试从PapersWithCode下载数据集时,运行下载程序时收到了以下错误信息:

usage: download_bios.py [-h] [-o OUT] [-r RETRIES] [-p N] wetpaths download_bios.py: error: the following arguments are required: wetpaths

我不知道如何解决这个问题

我尝试联系了一些程序员朋友和上网查资料,但没有人知道“wetpaths”是什么,所以我想在这里寻求帮助


回答:

wetpathsdownload_bios.py 脚本的一个参数,它指的是由 CommonCrawl 使用的WET文件类型的路径。源代码中提到它期望的是

类似于2017-43的CommonCrawl日期 一个指向-wet.paths文件的路径

所以你应该传入一个有效的日期作为参数(例如,2022-49是2022年11月/12月的最新爬取日期)。

要理解WET格式的来源及其用途,需要一些背景知识。

网络爬虫(例如CommonCrawl进行的爬虫)最初是存储在 互联网档案(ARC)格式中的。 Web ARChive(WARC)是对此格式的修订,增加了额外的次级数据,如元数据、简化的重复检测事件以及后期日期的转换。自2013年以来,CommonCrawl使用了WARC格式,这使得档案的存储和处理更加高效。WARC的完整规范可以在 这里 找到。

可以将WARC文件视为CommonCrawl爬取过程中的原始数据。另外还提供了两种格式,即WET和WAT:

  • WAT文件格式包含存储在WARC格式中的记录的元数据。
  • WET文件格式包含从WARC格式中记录中提取的纯文本。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注