请看下方关于“苹果”的50条推文。我已经手动标记了关于苹果公司的正面匹配。它们在下方标记为1。
以下是几行示例:
1|“@chrisgilmer: Apple targets big business with new iOS 7 features http://bit.ly/15F9JeF ”. Finally.. A corp iTunes account!0|“@Zach_Paull: When did green skittles change from lime to green apple? #notafan” @Skittles1|@dtfcdvEric: @MaroneyFan11 apple inc is searching for people to help and tryout all their upcoming tablet within our own net page No.0|@STFUTimothy have you tried apple pie shine?1|#SuryaRay #India Microsoft to bring Xbox and PC games to Apple, Android phones: Report: Microsoft Corp... http://dlvr.it/3YvbQx @SuryaRay
这是完整的数据集: http://pastebin.com/eJuEb4eB
我需要构建一个模型来分类“苹果”(公司)与其他内容。
我不是在寻找机器学习的一般概述,而是希望得到实际的代码模型(首选Python)。
回答:
我会按照以下步骤进行:
- 将句子拆分为单词,对它们进行标准化,构建一个词典
- 对于每个单词,记录它们在关于公司的推文中出现的次数,以及在关于水果的推文中出现的次数——这些推文必须由人工确认
- 当有新的推文进来时,在词典中查找推文中的每个单词,计算一个加权分数——与公司相关的单词如果使用频繁,会得到较高的公司分数,反之亦然;使用较少的单词,或者同时与公司和水果相关的单词,分数不会太高。