Home IT技术 BERT tokenize URLs

BERT tokenize URLs

IT技术 xiaolong · 2025年5月29日 · 0 Comment

我想对一堆推文进行分类，因此我使用了Hugging Face实现的BERT。然而我注意到，默认的BertTokenizer并未为URL使用特殊标记。

>>> from transformers import BertTokenizer>>> tokenizer = BertTokenizer.from_pretrained("bert-base-cased")>>> tokenizer.tokenize("https://stackoverflow.com/questions/ask")['https', ':', '/', '/', 'stack', '##over', '##flow', '.', 'com', '/', 'questions', '/', 'ask']

这对我来说似乎效率不高。编码URL的最佳方法是什么？

回答：

嗯，这取决于情况。如果URL包含对分类有用的信息，那么最好的做法是保持原样。预训练数据中肯定有一些URL，BERT已经学会了如何正确处理它们。

如果你确定URL对分类无关紧要，你可以用一个特殊标记替换它们，这在NLP中是很常见的做法。但在这种情况下，你需要对BERT进行微调，让它知道特殊标记的含义。如果你没有微调BERT，而只是在其上训练一个分类器，那么最好的做法还是保持URL原样。

bert-language-model huggingface-tokenizers huggingface-transformers machine-learning python

发表回复取消回复