基于文档重要性的句子排名算法

对于任意文档,如何根据句子对文档的重要性对其进行排名?重要句子的删除会显著改变文档传达的意思,而不重要句子的删除则不会对文档产生太大影响(甚至完全没有影响)。

该算法应独立于领域而工作——可以是新闻文章、期刊出版物、电影评论等。

如果没有具体的算法来实现这一点,那么为了能够提出这样的算法,应该学习哪些关键概念?应该从哪里开始解决这个问题?

到目前为止,我已经阅读了这两篇研究论文:

基于图的排名

基于词簇的排名

但我希望从问题的根源开始,并尝试找到一个新的解决方案。因此,我想探索更多的算法,并理解基本概念,以便更好地理解如何解决这个问题。


回答:

查看你找到的论文的参考文献,并通过所引用的作品的参考文献倒推。这应该会引导你找到基本概念。无论如何,在你进行彻底的文献综述之前,你无法知道你提出的解决方案是否是新的。(我之前作为评论发布了这一点;经过反思,我认为这是对问题的回应性答案。)

编辑补充:你可以通过查看CiteSeer(http://citeseerx.ist.psu.edu)、Google Scholar、科学引文索引等来查找较新的作品,以查看谁引用了你已经知道的论文。然后你跟随他们的参考文献等,直到你相当确定你已经覆盖了关于你主题的工作。这里有一组关于进行文献综述的提示:http://www.writing.utoronto.ca/advice/specific-types-of-writing/literature-review

你可能还想在https://academia.stackexchange.com/上发布这个问题的修订版本

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注