我想使用电影上映前的可用数据(例如标题、演员、导演、制片厂、影评评分、类型等)来预测电影的总票房。我已经找到了一种方法来对这些数据进行数值量化,但无法量化标题。标题传达了很多有用的信息,例如电影是否为续集、标题的长度、与之相关的情感等。如何从标题中定量提取这些信息?
回答:
词袋模型(BoWs)是创建基于文本特征的标准方法,不过我不建议使用,因为电影标题较短,且许多标题包含了脱离上下文的词汇、命名实体……这会使你的特征向量变得更加稀疏。
你可以对标题中的每个词进行word2vec编码,然后将标题的平均向量作为你的特征。我推荐的工具是:gensim 或 Facebook fast Text