自动化新闻

一个名为StatSheet的Web应用程序今天(2010年8月4日)获得了资金。

http://techcrunch.com/2010/08/04/former-crunchies-finalist-statsheet-recieves-1-3-million-in-series-a/

他们正在进行“自动化新闻”——使用计算机从统计数据中生成看起来像是人工撰写的体育比赛报道。

http://www.guardian.co.uk/media/pda/2010/mar/30/digital-media-algorithms-reporting-journalism

有没有人对用于实现此目的的方法/算法,或者如何复制它有任何见解?


回答:

这类项目的细节有点少,但看起来棒球摘要器 Stats Monkey 包含以下内容:

  1. 统计模型:他们构建了一个棒球比赛如何展开的典型模型,很可能是通过观察某些变量(例如,跑垒、击球等)在比赛过程中的变化,或者与你期望看到的(例如,一支无名球队比一支备受青睐的球队得分更高)不同。一场给定的比赛如何符合(或不符合)这个模型,让他们了解这场比赛可能有趣的地方(例如,关键的攻防或球员)。

  2. 文本生成:给定一个预先编写的叙事弧库(例如,来回拉锯战,惊天逆转等),他们使用来自比赛模型的“有趣信息”来构建比赛摘要。我不确定,但看起来他们使用了一个决策树——以模型中的信息为条件——来选择这些弧线之一。

  3. 其他粘合剂:他们的文章中没有提到这一点,但我想像一下,有相当多的硬编码规则将主要的叙事弧线“粘合”成一个单一的、有凝聚力的故事。

Stats Monkey的作者在相关领域做了相当多的研究,比如网站摘要和自动内容聚合与生成。以下是一些可能有趣的论文:

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注