用于电子邮件垃圾邮件检测的神经网络输入

我正在尝试为电子邮件垃圾邮件检测实现神经网络。我已经有一个用于解决XOR问题的现成神经网络,我想对其进行修改以适应我的需求并使用它。该网络在这里可以访问:https://github.com/trentsartain/Neural-Network

我下载了一些文本格式的电子邮件垃圾邮件和正常邮件数据库,用于训练网络。因此,我已经有了一些训练集。但我的问题是:

该神经网络的输入应该是什么?

感谢大家的每一条评论!:)


回答:

简短回答:输入将是你的垃圾邮件。

更详细的回答,在最基本的层面上:假设你的邮件中没有奇怪的字符。想象一个向量,其中每个元素代表邮件中出现的一个单词。
对于每封邮件,你创建一个这样的向量,并为每个元素计算该单词在邮件中的频率。
所有这些向量,每封邮件一个,将成为你的输入。

这是基本的想法。然后你可以通过应用词干提取、使用tf-idf代替简单的频率、引入其他输入元素(例如来自邮件头部的数据)来进行改进。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注