对于任意文档,如何根据句子对文档的重要性对其进行排名?重要句子的删除会显著改变文档传达的意思,而不重要句子的删除则不会对文档产生太大影响(甚至完全没有影响)。
该算法应独立于领域而工作——可以是新闻文章、期刊出版物、电影评论等。
如果没有具体的算法来实现这一点,那么为了能够提出这样的算法,应该学习哪些关键概念?应该从哪里开始解决这个问题?
到目前为止,我已经阅读了这两篇研究论文:
但我希望从问题的根源开始,并尝试找到一个新的解决方案。因此,我想探索更多的算法,并理解基本概念,以便更好地理解如何解决这个问题。
回答:
查看你找到的论文的参考文献,并通过所引用的作品的参考文献倒推。这应该会引导你找到基本概念。无论如何,在你进行彻底的文献综述之前,你无法知道你提出的解决方案是否是新的。(我之前作为评论发布了这一点;经过反思,我认为这是对问题的回应性答案。)
编辑补充:你可以通过查看CiteSeer(http://citeseerx.ist.psu.edu)、Google Scholar、科学引文索引等来查找较新的作品,以查看谁引用了你已经知道的论文。然后你跟随他们的参考文献等,直到你相当确定你已经覆盖了关于你主题的工作。这里有一组关于进行文献综述的提示:http://www.writing.utoronto.ca/advice/specific-types-of-writing/literature-review
你可能还想在https://academia.stackexchange.com/上发布这个问题的修订版本