我正在进行一个项目,我有一组用户按键时间数据。这意味着用户进行了n次尝试,我将使用这些记录的尝试时间数据在各种分类算法中,用于验证未来的用户尝试是用户本人还是其他人完成的登录过程。(简单来说,这属于生物识别技术)
我有用户登录尝试过程的三种不同时间,当然这是无限数据的一个子集。
到目前为止,这是一个简单的分类问题,我决定使用WEKA,但据我所知,我需要创建一些假数据来供分类算法使用。用户的测量尝试将标记为1,假数据将标记为0。
我可以使用一些优化算法吗?或者有什么方法可以创建这种假数据以最小化误报?
谢谢
回答:
有几种不同的方法可以解决这个问题。
收集负面示例 – 一个简单的解决方案是收集其他人的按键时间数据作为负面示例。如果你想以非常低的成本收集大量样本,例如以大约10美元的价格收集1000个样本,你可以使用像Amazon Mechanical Turk这样的服务。
也就是说,你可以创建一个人类智能任务(HIT),让人们输入随机的类似密码的序列。为了获取时间信息,你需要使用外部问题,因为常规问题的受限HTML不支持JavaScript。
使用生成模型 – 另一种方法是训练一个生成概率模型来模拟用户的按键行为。例如,你可以训练一个高斯混合模型(GMM)来模拟用户按键之间的延迟。
这样的模型将为你提供按键时间信息由特定用户生成的概率估计。你只需要设定一个阈值,确定时间信息的可能性达到什么程度才能认证用户。
使用一类SVM – 最后,一类SVM允许你仅使用正面示例来训练类似SVM的分类器。要在WEKA中学习一类SVM,如果使用的是v3.6版本,请使用LibSVM包装器。如果你使用的是最新的开发者版本,则有weka.classifiers.meta.OneClassClassifier
。