是否可以创建一个随机的pandas数据框,其中包含1500行的类别标签为0,以及500行的类别标签为1?
应该像这样
feature_1 class_labelsdfdsfsdfd 0kjdkfkjdsf 0jkkjhjknn 1dfsfgdsfd 0gfdgdfsdd 1
feature_1列的值可以是任何内容,但其1500个值应标记为0,500个值应标记为1。
回答:
尝试以下代码:
import randomimport stringimport numpy as npimport pandas as pddef get_random_string(length): letters = string.ascii_lowercase result_str = ''.join(random.choice(letters) for i in range(length)) return result_strarr=[]label=[]for i in range(2000): if i<1500: label.append(0) else: label.append(1) arr.append(get_random_string(8))df=pd.DataFrame([arr,label]).Tdf.columns=['f1','label']df.head()
输出结果:
f1 label0 twfzvgpp 01 fvndhbaq 02 sawoflua 03 yqdgqtmx 04 glfsdyix 0