我对machine learning
和scikit-learn
是初学者,所以这个问题可能有点傻…
我想做类似这样的事情:
features = [['adam'], ['james'], ['amy']]labels = ['hello adam', 'hello james', 'hello amy']clf = clf.fit(features, labels)print clf.predict(['john'])# 这应该输出'hello john'
使用scikit-learn可以实现这个吗?
提前谢谢!
回答:
解决这个问题的原则方法是进行序列到序列的学习,这是一个更复杂的任务,超出了scikit-learn的范围。
通过足够的特征工程和正确的问题表述,你仍然可以帮助scikit-learn中的简单算法完成这个任务。需要解决的主要困难有两个:
- 如何将你的特征和标签转换为数值表示(独热编码、嵌入等)
- 如何将可变长度的序列编码成固定长度的向量,以便输入到scikit-learn的算法中(词袋、均值池化、循环神经网络)。