我在jupyter上清理一个csv文件以进行机器学习。然而,有几列包含字符串值,比如“description”列:
我知道需要使用NLP来清理数据,但不知道如何在jupyter上操作。你能建议我如何将这些值转换为数值吗?
谢谢
回答:
数值比文字或图像更适合创建学习模型。(为什么?因为可以进行降维)
常见的机器学习算法期望接收数值输入。
将一个词转换为相应数值的技术称为词嵌入。
可以使用词袋模型、word2vec、GloVe来实现这一转换。
通常建议忽略那些对模型不重要的字段。因此,只有在绝对必要时才包含描述信息。