我想就我被分配的一个有趣问题征求一些意见。任务是分析数百甚至数千份隐私政策,并识别它们的核心特征。例如,它们是否获取用户的位置?它们是否与第三方共享/出售数据?等等。
我已经与几个人讨论过,阅读了大量关于隐私政策的内容,并自己思考了这个问题。这是我的当前攻击计划:
首先,阅读大量隐私政策,找出某些特征被满足的主要“线索”或指示。例如,如果数百份隐私政策都有相同的句子:“我们将获取你的位置。”,那么这句话可以作为一个100%确信的线索,表明该隐私政策包括获取用户的位置。其他的线索则会对某一特征的可能性提供较小的信心度。例如,出现“位置”这个词可能会使用户位置被存储的可能性增加25%。
想法是继续开发这些线索及其适当的信心区间,直到我能够以高信心度对所有隐私政策进行分类。这里可以类比为使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的电子邮件垃圾邮件捕捉系统。
我想问大家是否认为这是解决这个问题的好方法。你们会如何处理这样的问题?此外,你们是否推荐使用任何特定的工具或框架?欢迎任何意见。这是我的第一次从事涉及人工智能,特别是机器学习和NLP的项目。
回答:
想法是继续开发这些线索及其适当的信心区间,直到我能够以高信心度对所有隐私政策进行分类。这里可以类比为使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的电子邮件垃圾邮件捕捉系统。
这是文本分类。鉴于你有每个文档的多个输出类别,实际上是多标签分类。标准方法是手动标记一组文档,标记你想要预测的类别/标签,然后基于文档的特征(通常是词或n-gram的出现或计数,可能由tf-idf加权)训练一个分类器。
用于文档分类的流行学习算法包括朴素贝叶斯和线性SVM,尽管其他分类器学习器也可能有效。任何分类器都可以通过一对多(OvR)构造扩展为多标签分类器。