令人感兴趣的NLP/机器学习风格项目 — 分析隐私政策

我想就我被分配的一个有趣问题征求一些意见。任务是分析数百甚至数千份隐私政策,并识别它们的核心特征。例如,它们是否获取用户的位置?它们是否与第三方共享/出售数据?等等。

我已经与几个人讨论过,阅读了大量关于隐私政策的内容,并自己思考了这个问题。这是我的当前攻击计划:

首先,阅读大量隐私政策,找出某些特征被满足的主要“线索”或指示。例如,如果数百份隐私政策都有相同的句子:“我们将获取你的位置。”,那么这句话可以作为一个100%确信的线索,表明该隐私政策包括获取用户的位置。其他的线索则会对某一特征的可能性提供较小的信心度。例如,出现“位置”这个词可能会使用户位置被存储的可能性增加25%。

想法是继续开发这些线索及其适当的信心区间,直到我能够以高信心度对所有隐私政策进行分类。这里可以类比为使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的电子邮件垃圾邮件捕捉系统。

我想问大家是否认为这是解决这个问题的好方法。你们会如何处理这样的问题?此外,你们是否推荐使用任何特定的工具或框架?欢迎任何意见。这是我的第一次从事涉及人工智能,特别是机器学习和NLP的项目。


回答:

想法是继续开发这些线索及其适当的信心区间,直到我能够以高信心度对所有隐私政策进行分类。这里可以类比为使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的电子邮件垃圾邮件捕捉系统。

这是文本分类。鉴于你有每个文档的多个输出类别,实际上是多标签分类。标准方法是手动标记一组文档,标记你想要预测的类别/标签,然后基于文档的特征(通常是词或n-gram的出现或计数,可能由tf-idf加权)训练一个分类器。

用于文档分类的流行学习算法包括朴素贝叶斯和线性SVM,尽管其他分类器学习器也可能有效。任何分类器都可以通过一对多(OvR)构造扩展为多标签分类器。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注