Home huggingface-tokenizers

huggingface-tokenizers

如何在Python的tokenizers库中设置词汇大小？

xiaolong · 2025年6月1日 · 0 Comment

我想训练我自己的分词器，并进一步将其用于预训练模型。然…

Keras tokenizer.fit_on_texts 做了什么？

xiaolong · 2025年6月1日 · 0 Comment

如何使用 Keras Tokenizer 方法 fit…

为什么我的Python代码在将字典列表加载到Tokenizer对象时出现类型错误，提示字典对象不可调用？

xiaolong · 2025年5月30日 · 0 Comment

我在使用Jupyter Notebook尝试编写一个使…

BERT tokenize URLs

xiaolong · 2025年5月29日 · 0 Comment

我想对一堆推文进行分类，因此我使用了Hugging F…

如何为keras Tokenizer选择num_words参数？

xiaolong · 2025年5月28日 · 0 Comment

tokenizer = Tokenizer(num_w…

如何在未指定时查找Keras分词器的”num_words”或词汇量？

xiaolong · 2025年5月22日 · 0 Comment

如果我在初始化Tokenizer()时没有传递num_…

Keras Tokenizer的num_words参数似乎不起作用

xiaolong · 2025年4月13日 · 0 Comment

>>> t = Tokenizer(…

使用Stanford NLP进行文本分词：过滤不需要的词和字符

xiaolong · 2025年4月7日 · 0 Comment

我在分类工具中使用Stanford NLP进行字符串分…

在自然语言处理中查找文本中的标记概率

xiaolong · 2025年4月7日 · 0 Comment

我在opennlp的文档页面上发现了这个类Tokeni…

Regex / “token_pattern” for scikit-learn text Vectorizer

xiaolong · 2025年4月7日 · 0 Comment

我在使用sklearn进行自然语言处理的向量化，使用的…

计算OPENAI调用中代币的定价

xiaolong · 2025年4月6日 · 0 Comment

我正在尝试计算在调用OPENAI时使用的代币的价格。我…

Embedding Token限额超限通过分块连接和降维处理

xiaolong · 2025年4月6日 · 0 Comment

如果你想使用Azure OpenAI的ada-002模…

计算向ChatGPT API请求的总令牌数，包括函数

xiaolong · 2025年4月6日 · 0 Comment

大家好，Stack Overflow社区，我一直在尝…

JavaScript中是否有cl100k_base分词器的实现？

xiaolong · 2025年4月5日 · 0 Comment

OpenAI的新嵌入API使用了cl100k_base…

Llama 2-7B模型输出限制在511个标记的问题

xiaolong · 2025年4月5日 · 0 Comment

我在使用Llama 2-7B模型时遇到了一个问题，模型…

AttributeError: ‘Dataset’ 对象没有属性 ‘remove_columns’ in hugging face

xiaolong · 2025年4月5日 · 0 Comment

我想从 hugging face 的 Billsum …

如何从HuggingFace安装库？例如GPT Neo 125M

xiaolong · 2025年4月5日 · 0 Comment

我对如何在自己的桌面或服务器上从HuggingFace…

Huggingface sagemaker

xiaolong · 2025年4月5日 · 0 Comment

我正在尝试使用text2text（翻译）模型faceb…