我正在尝试将大量词语分类到5个类别中。每个类别的示例和字符串包括:
invoice-Number : "inv123","in12","123"
invoice-Date : "22/09/1994","22-Mon-16"
vendor-Name : "samplevendorname"
email : "[email protected]"
net-amount : "1234.56"
如果有任何关于如何用Python实现的建议,将不胜感激。
编辑1:我正在寻找一种机器学习方法,因为类别的数量会更多,且每个类别中的数据会有所不同,所以正则表达式不可行。
回答:
你可以从基于词袋模型(BoW)的想法开始,(词袋模型),但修改为字符袋模型(BoC),使用一个不会移除任何字符的分词器,并构建1到4个字符的n-gram词典。
之后,你可以将任何词表示为向量,可以计算出现的次数,是否出现,或者使用tfidf。
然后构建你的模型,并将词向量传递给它进行学习。你可以研究n-gram的交叉标签,以剔除数据集中产生噪音的部分。
希望这能帮助你起步。