问题描述:
我需要根据用户即将创建的列表标题(5到15个词)向他们建议标签。
我们有大约30个预设标签 –
Gaming, Movies, TV shows, Documentaries, Books, Music, Art, History, People, Adventure, Sports, Cooking, Travel, Places, Food, Drinks, Fitness, DIY, Technology, Science, Cars, Bikes, Comedy, Shopping, Clothes, Fashion, Photography, Nature, etc.
例如,对于标题为‘世界上最昂贵的精致餐厅’的列表,建议的标签可以是(Food, Places, Drinks, Travel)。
不需要非常精确,只需要能令人满意地工作即可,我相信随着我们从用户那里获得更多的训练数据,效果会越来越好。目前我还没有监督学习的训练数据。
我在机器学习和自然语言处理的广阔领域中感到迷失。如果有人能建议我针对这个特定任务应该使用哪些方法/算法/库,以及在此之前应该进行哪些背景阅读,将会非常有帮助。
谢谢
回答:
你可以使用word2vec。获取一些预训练模型,计算标签的向量。然后计算新标题的向量。计算标题向量与每个标签向量之间的余弦相似度。选择与标题相似度高于某个阈值的标签作为描述标签。