自动化新闻

一个名为StatSheet的Web应用程序今天(2010年8月4日)获得了资金。

http://techcrunch.com/2010/08/04/former-crunchies-finalist-statsheet-recieves-1-3-million-in-series-a/

他们正在进行“自动化新闻”——使用计算机从统计数据中生成看起来像是人工撰写的体育比赛报道。

http://www.guardian.co.uk/media/pda/2010/mar/30/digital-media-algorithms-reporting-journalism

有没有人对用于实现此目的的方法/算法,或者如何复制它有任何见解?


回答:

这类项目的细节有点少,但看起来棒球摘要器 Stats Monkey 包含以下内容:

  1. 统计模型:他们构建了一个棒球比赛如何展开的典型模型,很可能是通过观察某些变量(例如,跑垒、击球等)在比赛过程中的变化,或者与你期望看到的(例如,一支无名球队比一支备受青睐的球队得分更高)不同。一场给定的比赛如何符合(或不符合)这个模型,让他们了解这场比赛可能有趣的地方(例如,关键的攻防或球员)。

  2. 文本生成:给定一个预先编写的叙事弧库(例如,来回拉锯战,惊天逆转等),他们使用来自比赛模型的“有趣信息”来构建比赛摘要。我不确定,但看起来他们使用了一个决策树——以模型中的信息为条件——来选择这些弧线之一。

  3. 其他粘合剂:他们的文章中没有提到这一点,但我想像一下,有相当多的硬编码规则将主要的叙事弧线“粘合”成一个单一的、有凝聚力的故事。

Stats Monkey的作者在相关领域做了相当多的研究,比如网站摘要和自动内容聚合与生成。以下是一些可能有趣的论文:

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注