通用句子编码器的输入数据是否需要标准化?

我目前正在使用TensorFlow的通用句子编码器(https://arxiv.org/pdf/1803.11175.pdf)进行我的本科论文研究,研究提取式摘要技术。在大多数用于此任务的技术中(如https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/view/11225/10855),句子通常会先进行标准化处理(小写化、停用词删除、词形还原),但我没有找到任何提示说明输入到通用句子编码器的句子是否也需要先进行标准化处理。情况是否如此?这重要吗?


回答:

选择是否标准化主要取决于设计的应用需求。

关于停用词删除和词形还原:这些操作通常会从文本中移除一些内容,因此可能会丢失信息。然而,如果这些操作对结果没有影响,那么你可以进行删除。(最好总是尝试两种方法。一般来说,性能差异不会太大)。

小写化取决于你使用的预训练模型(例如,在BERT中,你有bert-base-uncasedbert-base-cased)以及应用的选择。一个简单的验证方法是,将一段文本输入到通用句子编码器中,获取其句子嵌入,然后将相同的输入文本小写化,再次获取其句子嵌入。如果嵌入相同,说明你的模型不区分大小写。然而,如果嵌入不同,则说明模型区分大小写。(通过运行此处提供的程序,似乎通用句子编码器是区分大小写的)。小写化的选择再次取决于具体应用。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注