如何在这种类型的数据上使用机器学习算法?

以下是场景描述:

我们有一个网站,学生可以在上面创建电子作品集,这类似于一个个人资料页面,学生可以添加自己的项目到其中。

对于每个学生的作品集,我们将安排教育工作者审阅作品集,并根据作品集的内容给出一组评分。这些评分将被加总为一个总分,每个学生的作品集都将关联到这一总分。

因此,我们有评分数据和作品集数据,我们希望使用这些数据作为监督学习的训练数据。这样,计算机就可以审查成千上万的案例,寻找模式,提供见解,并能够预测其他作品集的评分。

我们为每个人收集的数据如下:

**作品集数据:**关于我:'学生撰写的关于自己的文本段落'技能:'技能的文本项目列表'职业兴趣:'职业兴趣的文本项目列表'工作经验:'文本段落'教育历史:'学生填写的大学、专业、GPA和就读日期'课程:'课程的文本项目列表'兴趣:'学生撰写的关于兴趣的文本段落'作品:'每个学生向作品集中添加作品,并输入以下数据'   作品标题:'文本标题'   附件:'附加到作品集的文件和文档(jpg, doc, pdf, youtube, dropbox 等)'   作品描述:'作品的文本描述'   作品类别:'从类别列表中选择'   标签:'学生添加到作品的测试标签列表'   我的贡献:'学生对项目的贡献的文本描述'**我们为每个作品集收集的评分数据,每个关键领域的评分从1到100:**内容完整性:作品选择:反思:学术概念:展示和外观:布局和可读性:多媒体使用:受众:内容组织:书面沟通:总分:

我们计划随着时间的推移收集数千个学生的作品集和评分。我们可以使用哪种算法来分析这些数据,以找出获得相似评分的作品集之间的相关性?然后使用这些数据来预测学生填写作品集后的成功程度。请告诉我是否有任何不清楚的地方,或者您是否需要更多信息,非常感谢!


回答:

您试图解决的问题有很多方面。

首先想到的是进行特征提取,然后应用回归来预测评分。现在,由于您不仅仅使用作品集中的文本信息,您需要的不仅仅是文本特征。我不知道哪些特征可以帮助您将作品集的“展示和外观”与其评分相关联。一个方法是获取颜色、字体、字体大小信息,并将它们表示为特征。为了从文本中获取见解,您可以使用向量空间模型来表示您的文本。

我会尽快回来写一个详细的回答。如果现在这些听起来太模糊了,我很抱歉。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注