目前我正在进行一个项目,并遇到了一个问题。我有一个数据集(由于不能展示原始数据集,这里是一个样本)如下:
标题 | 独特性 |
---|---|
某个标题 | 52.36 |
另一个标题 | 21.89 |
再一个标题 | 46.88 |
以此类推…
这里的独特性表示给定标题在给定数据集中有多独特,这是使用spacy计算得出的。此外,标题包含唯一值,而独特性包含浮点值。
我的问题是,有人能建议一个好的机器学习模型,可以接受一个字符串作为输入(标题)并预测其独特性吗?
回答:
我认为你的问题可以很好地通过使用Levenshtein距离度量来处理。请参阅