我正在尝试解决提交信息和拉取请求描述无意义的问题,并想到了结合使用TensorFlow和GitHub操作的方法。点击此处查看链接描述
然而,我在如何定义文本的“无意义”方面遇到了困难,例如:
无意义描述向仓库添加新文件夹
有意义描述添加资产文件夹以存放图像文件
任何指向正确方向的建议都将不胜感激。
回答:
显然,这是一个文本分类问题,你的用例非常经典。要将GitHub提交描述分类为有意义或无意义,你需要大量的训练数据。这些数据将包括被标记为有意义/无意义的描述字符串。我设想的方法是使用TensorFlow和其他深度学习库如Keras来处理这种分类问题,通常是将训练数据存储在包含两列的.csv文件中,比如,
description
(包含提交的描述字符串)result
(包含类似有意义/无意义
或1 / 0
的判断结果)
然后,你可以使用这些数据训练一个文本分类器,训练后的模型可以用来预测给定的描述是否合格。
我建议你尝试一下Ludwig。这是Uber的开源深度学习库,非常适合像文本分类这样的任务。它基于TensorFlow构建,使用起来非常简单。
希望这能解答你的疑问。谢谢!