您好,我正在处理由IBM分享的关键点分析任务,这是链接。在给定的数据集中,有多行文本数据,任何人能告诉我如何将这些文本列转换为张量,并且再次将它们分配到同一个DataFrame中,因为那里还有其他数据列。
问题
我在这里遇到一个问题,我之前从未见过这种类型的数据,比如有多个文本列,我如何将所有这些列转换为张量,然后应用一个模型。大多数时候数据是这样的:一个文本列和其他列是标签,例如:电影评论,有毒评论分类。
def clean_text(text):""" text: a string return: modified initial string"""text = text.lower() # lowercase texttext = REPLACE_BY_SPACE_RE.sub(' ', text) text = BAD_SYMBOLS_RE.sub('', text) text = text.replace('x', '')# text = re.sub(r'\W+', '', text)text = ' '.join(word for word in text.split() if word not in STOPWORDS) return text
回答:
from transformers import RobertaTokenizertokenizer = RobertaTokenizer.from_pretrained("roberta-base")DF["args"]=DF["args"].apply(lambda x:tokenizer(x)['input_ids'])
这将把句子转换为标记数组。