BerTopic模型生成以下主题:
如上所示,模型经过微调后生成的异常值’-1’较少,数量为3,且出现在最后。
在可视化每个类别中的主题时,
topic_model.visualize_topics_per_class(topics_per_class)
生成以下交互式可视化图表,然而它忽略了0th
索引,确切地说是主题0。全局主题表示从1, 2, 3, 4, 5, 6, -1
显示。
BerTopic的设计是否总是假设第一个索引是异常值(-1
),并盲目地将其排除?
生成的主题是否总是根据数量大小访问,可能是以降序排列?
回答:
这个问题也在BerTopic的github论坛上发布,作者本人也做出了回应,
通过设置top_n_topics=None
,在可视化时可以查看所有主题,包括0th
索引,
topic_model.visualize_topics_per_class(topics_per_class, top_n_topics=None)