令人感兴趣的NLP/机器学习风格项目 — 分析隐私政策

我想就我被分配的一个有趣问题征求一些意见。任务是分析数百甚至数千份隐私政策,并识别它们的核心特征。例如,它们是否获取用户的位置?它们是否与第三方共享/出售数据?等等。

我已经与几个人讨论过,阅读了大量关于隐私政策的内容,并自己思考了这个问题。这是我的当前攻击计划:

首先,阅读大量隐私政策,找出某些特征被满足的主要“线索”或指示。例如,如果数百份隐私政策都有相同的句子:“我们将获取你的位置。”,那么这句话可以作为一个100%确信的线索,表明该隐私政策包括获取用户的位置。其他的线索则会对某一特征的可能性提供较小的信心度。例如,出现“位置”这个词可能会使用户位置被存储的可能性增加25%。

想法是继续开发这些线索及其适当的信心区间,直到我能够以高信心度对所有隐私政策进行分类。这里可以类比为使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的电子邮件垃圾邮件捕捉系统。

我想问大家是否认为这是解决这个问题的好方法。你们会如何处理这样的问题?此外,你们是否推荐使用任何特定的工具或框架?欢迎任何意见。这是我的第一次从事涉及人工智能,特别是机器学习和NLP的项目。


回答:

想法是继续开发这些线索及其适当的信心区间,直到我能够以高信心度对所有隐私政策进行分类。这里可以类比为使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的电子邮件垃圾邮件捕捉系统。

这是文本分类。鉴于你有每个文档的多个输出类别,实际上是多标签分类。标准方法是手动标记一组文档,标记你想要预测的类别/标签,然后基于文档的特征(通常是词或n-gram的出现或计数,可能由tf-idf加权)训练一个分类器。

用于文档分类的流行学习算法包括朴素贝叶斯和线性SVM,尽管其他分类器学习器也可能有效。任何分类器都可以通过一对多(OvR)构造扩展为多标签分类器。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注