OpenAI的新嵌入API使用了cl100k_base
分词器。我通过Node.js客户端调用它,但没有发现任何简单的方法来切分我的字符串,以确保它们不超过OpenAI规定的8192个token的限制。
如果我能先对字符串进行编码,然后将其切分到限制之内,再解码并发送到API,这将变得非常简单。
回答:
@dqbd/tiktoken支持cl100k_base
编码。
OpenAI的新嵌入API使用了cl100k_base
分词器。我通过Node.js客户端调用它,但没有发现任何简单的方法来切分我的字符串,以确保它们不超过OpenAI规定的8192个token的限制。
如果我能先对字符串进行编码,然后将其切分到限制之内,再解码并发送到API,这将变得非常简单。
回答:
@dqbd/tiktoken支持cl100k_base
编码。