以下是场景描述:
我们有一个网站,学生可以在上面创建电子作品集,这类似于一个个人资料页面,学生可以添加自己的项目到其中。
对于每个学生的作品集,我们将安排教育工作者审阅作品集,并根据作品集的内容给出一组评分。这些评分将被加总为一个总分,每个学生的作品集都将关联到这一总分。
因此,我们有评分数据和作品集数据,我们希望使用这些数据作为监督学习的训练数据。这样,计算机就可以审查成千上万的案例,寻找模式,提供见解,并能够预测其他作品集的评分。
我们为每个人收集的数据如下:
**作品集数据:**关于我:'学生撰写的关于自己的文本段落'技能:'技能的文本项目列表'职业兴趣:'职业兴趣的文本项目列表'工作经验:'文本段落'教育历史:'学生填写的大学、专业、GPA和就读日期'课程:'课程的文本项目列表'兴趣:'学生撰写的关于兴趣的文本段落'作品:'每个学生向作品集中添加作品,并输入以下数据' 作品标题:'文本标题' 附件:'附加到作品集的文件和文档(jpg, doc, pdf, youtube, dropbox 等)' 作品描述:'作品的文本描述' 作品类别:'从类别列表中选择' 标签:'学生添加到作品的测试标签列表' 我的贡献:'学生对项目的贡献的文本描述'**我们为每个作品集收集的评分数据,每个关键领域的评分从1到100:**内容完整性:作品选择:反思:学术概念:展示和外观:布局和可读性:多媒体使用:受众:内容组织:书面沟通:总分:
我们计划随着时间的推移收集数千个学生的作品集和评分。我们可以使用哪种算法来分析这些数据,以找出获得相似评分的作品集之间的相关性?然后使用这些数据来预测学生填写作品集后的成功程度。请告诉我是否有任何不清楚的地方,或者您是否需要更多信息,非常感谢!
回答:
您试图解决的问题有很多方面。
首先想到的是进行特征提取,然后应用回归来预测评分。现在,由于您不仅仅使用作品集中的文本信息,您需要的不仅仅是文本特征。我不知道哪些特征可以帮助您将作品集的“展示和外观”与其评分相关联。一个方法是获取颜色、字体、字体大小信息,并将它们表示为特征。为了从文本中获取见解,您可以使用向量空间模型来表示您的文本。
我会尽快回来写一个详细的回答。如果现在这些听起来太模糊了,我很抱歉。