这是两个数据集,分别是业务和评论文件。如何将多个评论按业务ID分组,以便将用户提供的所有评论合并成一个文本。
如何合并这些数据集以业务ID为键,并获得如图所示的最终数据集?
我如何使用Pandas库来实现这一操作?
回答:
您可以将df1
(左上角)与df2
(右上角)的.groupby
版本合并:
df3 = df1.merge(df2.groupby('Business_id')['Review_text'].apply(list).reset_index(), how='left', on='Business_id').rename({'Review_text':'All_reviews'}, axis=1)Out[1]: Business_id category star Review_count All_reviews0 1 shopping 3.5 3 [Text_1, Text_2, Text_4]1 2 restaurant 5.0 1 [Text_3, Text_5]2 3 Home services 4.0 6 NaN