从HTML页面提取纯净内容/文本,排除导航和框架内容

我正在抓取新闻网站,并希望提取新闻标题、新闻摘要(第一段)等。

我接入了webkit解析器代码,以便轻松地将网页作为树进行导航。为了消除导航和其他非新闻内容,我获取文章的文本版本(减去html标签,webkit提供了相应的api)。然后,我运行差异算法,比较来自同一网站的各种文章的文本,从而消除相似的文本。这使我获得了减去常见导航内容等的内容。

尽管采用了上述方法,但在最终文本中仍然存在很多垃圾信息。这导致提取的新闻摘要不正确。错误率是十分之五,即50%。错误表现为:

您能否

  1. 建议一种提取纯净内容的替代策略,

  2. 学习自然语言处理是否有助于从这些文章中提取正确的摘要?

  3. 您将如何解决上述问题?

  4. 是否有关于此问题的任何研究论文?

此致

@人名


回答:

关于问题(1),我不确定。我以前没有做过这个。也许其他答案会有帮助。

关于问题(2),自动创建摘要不是一个发达的领域。它通常被称为“句子选择”,因为目前典型的方法只是选择完整的句子。

关于问题(3),从机器学习创建摘要的基本方法是:

  1. 创建现有摘要的语料库
  2. 以有用的方式注释摘要。例如,您可能需要指示是否选择了原文中的每个句子以及原因(或为什么不选择)。
  3. 在语料库上训练某种分类器,然后使用它来对新文章中的句子进行分类。

我最喜欢的机器学习参考资料是Tom Mitchell的Machine Learning。它列出了许多实现步骤(3)的方法。

关于问题(4),我确信有一些论文,因为我的导师去年提到了它,但我不知道从哪里开始,因为我不是该领域的专家。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注