我正在尝试将计数向量化器应用于印度语中的泰卢固语和印地语。但向量化器会自动对词根进行处理。
count_vect = CountVectorizer()xv=count_vect.fit_transform(['she is a good girl','वो बहुत सुन्दर है','ఇది చాలా లాడిష్ మరియు బాల్య టీనేజ్ కుర్రాళ్ళు మాత్రమే దీనిని ఫన్నీగా చూడవచ్చు', 'దోపిడీ మరియు ఎక్కువగా లోతు లేదా అధునాతనత లేని నేరాలకు సంబంధించిన గ్రాఫిక్ చికిత్సను చూడటం భరించదగినది'])count_vect.get_feature_names()
输出如下:
['girl', 'good', 'is', 'she', 'दर', 'बह', 'అధ', 'ఇద', 'ఎక', 'చదగ', 'డట', 'డవచ', 'తనత', 'నద', 'ఫన', 'భర', 'మర', 'రమ', 'లక', 'వగ', 'సన']
显然,它会自动对泰卢固语和印地语的词进行词根处理,有什么方法可以避免这种情况吗?
回答:
CountVectorizer()
使用的分析器似乎对某些编码支持不佳。你可以定义一个自定义分析器,来定义如何分隔单词。为了正确分隔单词,你可以使用正则表达式: