一个名为StatSheet的Web应用程序今天(2010年8月4日)获得了资金。
他们正在进行“自动化新闻”——使用计算机从统计数据中生成看起来像是人工撰写的体育比赛报道。
http://www.guardian.co.uk/media/pda/2010/mar/30/digital-media-algorithms-reporting-journalism
有没有人对用于实现此目的的方法/算法,或者如何复制它有任何见解?
回答:
这类项目的细节有点少,但看起来棒球摘要器 Stats Monkey 包含以下内容:
-
统计模型:他们构建了一个棒球比赛如何展开的典型模型,很可能是通过观察某些变量(例如,跑垒、击球等)在比赛过程中的变化,或者与你期望看到的(例如,一支无名球队比一支备受青睐的球队得分更高)不同。一场给定的比赛如何符合(或不符合)这个模型,让他们了解这场比赛可能有趣的地方(例如,关键的攻防或球员)。
-
文本生成:给定一个预先编写的叙事弧库(例如,来回拉锯战,惊天逆转等),他们使用来自比赛模型的“有趣信息”来构建比赛摘要。我不确定,但看起来他们使用了一个决策树——以模型中的信息为条件——来选择这些弧线之一。
-
其他粘合剂:他们的文章中没有提到这一点,但我想像一下,有相当多的硬编码规则将主要的叙事弧线“粘合”成一个单一的、有凝聚力的故事。
Stats Monkey的作者在相关领域做了相当多的研究,比如网站摘要和自动内容聚合与生成。以下是一些可能有趣的论文:
-
Nathan Nichols and Kristian Hammond. “Machine-Generated Multimedia Content.” Proceedings of the Second International Conference on Advances in Computer-Human Interactions, 2009.
-
Nathan Nichols, Lisa Gandy, and Kristian Hammond. “From Generating to Mining: Automatically Scripting Conversation Using Existing Online Sources.” The Proceedings of the Third International Conference on Weblogs and Social Media, 2009.
-
J. Liu and L. Birnbaum. 2008. “LocalSavvy: Aggregating Local Points of View about News Issues”. WWW 2008 Workshop on Location on the Web.