关于半监督自动标记系统的实施建议

我想了解开发自动标记系统的方法。我正在构建一个公司内部的反馈平台，我们的业务用户希望在帖子上添加标签。我希望构建一个系统，当用户发布帖子时，系统可以建议标签，允许用户纠正这些建议，并让系统从中学习。我们有一些初始标签希望使用，但也允许用户根据需要添加更多标签。

我知道LDA算法和Kea/Mallet，但这些似乎是不完整的解决方案。我希望将我们预定义的标签添加到现有帖子中，然后以此作为系统前进的指导。

只是想寻求一些关于如何进行的建议。一个问题是目前数据集非常小（约90个帖子）。

谢谢！

回答：

对于这个问题，我写了一篇博士论文，名为生成式AI。由于你可能不会阅读这篇论文，这里是这类问题的通用算法：

1)标准化数据：确保数值范围在0到1之间，或-1到1之间；如果是单词/名称，只使用小写（或只使用大写）；如果两者都有，将数据分成数字和其他标签，并使其成为多分类系统。

2)使用KNN（K-最近邻）算法，直到类别变得足够大（通常对于类别/类别中的前几百个项目可以使用KNN）。尝试不同的设置来优化结果。调整K值（我通常使用1到21的范围，总是使用奇数）和距离函数。Scipy有易于使用的不错实现。

此外，使用标签的排名来影响决策。例如，如果K值为11，那么你得到的第一个项目所有标签获得11分。第二个项目标签获得10分，依此类推。然后收集标签并根据标签获得的分数显示最佳（N）标签。

然后将标签显示给用户，以便用户可以提供反馈，系统可以自我更新。显示更多标签的好处是用户需要输入的文字更少。

3) 一旦你有足够的项目，你应该用支持向量机替换KNN算法。通常线性支持向量机就足够了。对于（线性）支持向量机的优化，使用参数的网格搜索。

基本思想是你有一个生成假设的系统（在这种情况下是标签），用户提供反馈，通常是在生产系统中，以便AI可以自我优化。

如果你非常感兴趣，这里是我的博士论文：

https:/irs.ub.rug.nl/dbi/4c86122381f79

目前我用它来进行实时学习的机器人…

学技术