自动化新闻 – 学技术

一个名为StatSheet的Web应用程序今天（2010年8月4日）获得了资金。

他们正在进行“自动化新闻”——使用计算机从统计数据中生成看起来像是人工撰写的体育比赛报道。

有没有人对用于实现此目的的方法/算法，或者如何复制它有任何见解？

回答：

这类项目的细节有点少，但看起来棒球摘要器 Stats Monkey 包含以下内容：

统计模型：他们构建了一个棒球比赛如何展开的典型模型，很可能是通过观察某些变量（例如，跑垒、击球等）在比赛过程中的变化，或者与你期望看到的（例如，一支无名球队比一支备受青睐的球队得分更高）不同。一场给定的比赛如何符合（或不符合）这个模型，让他们了解这场比赛可能有趣的地方（例如，关键的攻防或球员）。
文本生成：给定一个预先编写的叙事弧库（例如，来回拉锯战，惊天逆转等），他们使用来自比赛模型的“有趣信息”来构建比赛摘要。我不确定，但看起来他们使用了一个决策树——以模型中的信息为条件——来选择这些弧线之一。
其他粘合剂：他们的文章中没有提到这一点，但我想像一下，有相当多的硬编码规则将主要的叙事弧线“粘合”成一个单一的、有凝聚力的故事。

Stats Monkey的作者在相关领域做了相当多的研究，比如网站摘要和自动内容聚合与生成。以下是一些可能有趣的论文：

Nathan Nichols and Kristian Hammond. “Machine-Generated Multimedia Content.” Proceedings of the Second International Conference on Advances in Computer-Human Interactions, 2009.
Nathan Nichols, Lisa Gandy, and Kristian Hammond. “From Generating to Mining: Automatically Scripting Conversation Using Existing Online Sources.” The Proceedings of the Third International Conference on Weblogs and Social Media, 2009.
J. Liu and L. Birnbaum. 2008. “LocalSavvy: Aggregating Local Points of View about News Issues”. WWW 2008 Workshop on Location on the Web.

使用LSTM在Python中预测未来值