我正在寻找一个基于句子概念或意义进行AI文本摘要的引擎,我查看了开源项目如(ginger, paraphrase, ace),但它们不符合要求。它们的工作方式是尝试为每个词找到同义词并替换当前的词,这样它们会生成许多句子的替代方案,但大多数时候意思是错误的。
我曾使用斯坦福的引擎对文章进行类似高亮处理,并基于此提取最重要的句子,但这仍然不是抽象,而是提取。
我寻找的引擎应该能够随着时间的推移学习,并且每次摘要后结果都会得到改善。
请在这里提供帮助,您的帮助将不胜感激!
回答:
我不知道有哪个开源项目符合您关于抽象和意义的要求,我认为是这样。
但我有一些关于如何构建这样一个引擎以及如何训练它的想法。
简而言之,我认为我们都在脑海中保持着某种贝叶斯网络结构,这不仅帮助我们对数据进行分类,还帮助我们形成对文本或信息的抽象意义。
由于不可能从我们的大脑中提取所有这些抽象类别结构,我认为最好构建一个机制,允许我们一步一步地重建它。
摘要
提出的解决方案的关键思想是使用更易于自动化计算机系统操作的方法提取对话的意义。这将允许创造出与另一个人进行真实对话的良好幻觉水平。
提出的模型支持两种抽象层次:
第一种,较简单的层次包括识别一组词或单个词作为与类别、实例或实例属性相关的组。
实例意味着从真实或抽象的主题、对象、动作、属性或其他类型的实例的一般类别中实例化。例如 – 两个或多个主题之间的具体关系:雇主与雇员之间的具体关系,具体城市和它所在的国家等。这种基本意义识别方法使我们能够创建能够维持对话的机器人。这种能力基于对基本意义元素的识别:类别、实例和实例属性。
第二种,最复杂的方法基于情景识别并将它们存储在对话上下文中,同时使用实例/类别,并使用它们来完成一些已识别的情景。
相关情景将用于完成对话的下一条消息,同时一些情景可以用于生成下一条消息或通过使用条件和从上下文中使用意义元素来识别意义元素。
类似这样:
基本分类应手动输入,并在未来由教师进行更正/添加。
对话中的句子中的词和句子中的情景可以从上下文中填充
对话情景/类别可以通过之前识别的实例或通过未来对话中描述的实例来填充(自我学习)
图1 – 词检测/分类基本流程视图
图2 – 系统总体视图大图视图
图3 – 意义元素分类
图4 – 基本类别结构可能如下所示