我有一个用于自然语言处理的数据框 ‘data_clean’,在 ‘louis’ 这一栏,你可以看到转录中有 [摇滚音乐播放][观众欢呼]。我如何移除 ‘[]’ 中的内容以清理文本?
回答:
pandas 有许多绑定字符串方法,可以对整个列进行操作。其中一种方法是用 ” 替换不需要的字符,这相当于移除它们。请看以下示例:
>>> import pandas as pd>>> df = pd.DataFrame(data=dict(a=['abc]', 'def']))>>> df a0 abc]1 def>>> df['a'].str.replace(']', '')0 abc1 defName: a, dtype: object
通用的解决方案是创建一个不需要的字符数组 a = '[](){}'
并遍历它们,对每个字符执行上述操作。