我刚刚开始处理一个分类问题。这是一个二分类问题,我的训练模型(机器学习)需要决定/预测是允许一个URL还是阻止它。
我的问题非常具体。
- 如何对URL进行分类?我应该使用普通的文本分析方法吗?
- URL的特征是什么?
- 如何从URL中选择和提取特征?
回答:
我假设你无法访问URL的内容,因此你只能从URL字符串本身提取特征。否则,使用URL的内容会更有意义。
以下是我会尝试的一些特征。请参阅这篇论文以获取更多想法:
-
URL的所有组成部分。例如,此页面具有以下URL:
http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features
在URL的不同部分出现的所有标记对分类应该具有不同的价值。在这种情况下,标记化后的最后一部分为此页面提供了很好的特征。(例如,分类,URL,选择,提取,特征)
* stackoverflow * com * questions * 26456904 * 如何对URL进行分类URL的特征是什么如何从URL中选择和提取特征
- URL的长度;
- n-grams(以下以2-grams为例)
- stackoverflow-com
- com-questions
- questions-26456904
- 26456904-how
- how-to
- ….