如何构建一个模型来区分关于苹果公司(Apple Inc.)和苹果(水果)的推文?

请看下方关于“苹果”的50条推文。我已经手动标记了关于苹果公司的正面匹配。它们在下方标记为1。

以下是几行示例:

1|“@chrisgilmer: Apple targets big business with new iOS 7 features http://bit.ly/15F9JeF ”. Finally.. A corp iTunes account!0|“@Zach_Paull: When did green skittles change from lime to green apple? #notafan” @Skittles1|@dtfcdvEric: @MaroneyFan11 apple inc is searching for people to help and tryout all their upcoming tablet within our own net page No.0|@STFUTimothy have you tried apple pie shine?1|#SuryaRay #India Microsoft to bring Xbox and PC games to Apple, Android phones: Report: Microsoft Corp... http://dlvr.it/3YvbQx  @SuryaRay

这是完整的数据集: http://pastebin.com/eJuEb4eB

我需要构建一个模型来分类“苹果”(公司)与其他内容。

我不是在寻找机器学习的一般概述,而是希望得到实际的代码模型(首选Python)。


回答:

我会按照以下步骤进行:

  1. 将句子拆分为单词,对它们进行标准化,构建一个词典
  2. 对于每个单词,记录它们在关于公司的推文中出现的次数,以及在关于水果的推文中出现的次数——这些推文必须由人工确认
  3. 当有新的推文进来时,在词典中查找推文中的每个单词,计算一个加权分数——与公司相关的单词如果使用频繁,会得到较高的公司分数,反之亦然;使用较少的单词,或者同时与公司和水果相关的单词,分数不会太高。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注