我的日常工作是在一个基于浏览器的在线游戏中,这个游戏规模很小,员工也很少。 事实上,我们的大部分员工都是志愿者。
今天我专注于一个方面。 我想创建一个人工智能系统,分析我们的用户数据库,并报告可能由同一用户运行的帐户——这显然违反了我们的条款和条件。 这种“复制”是我们的员工的主要时间消耗,如果我可以给他们一个简短的名称列表首先检查,这样可以加快速度。
问题是,我对人工智能不是很精通。 我了解非常非常基础的知识,但目前还没有成功地实施解决方案。 我一直在研究启发式搜索,特别是 A* 搜索,我“认为”它可能适合我正在寻找的东西,但我不能确定。
所以我的问题是:使用 A* 搜索,是否可以准确地分析两个用户帐户的数据,例如用户名、密码、电子邮件、帐户之间的交互、与其他人的交互、登录时间、活动时间等。如果不能,您是否知道一种系统,可以分析这些数据量,并给出两个帐户可能由同一个人运行的“概率”?
回答:
至少在很大程度上,这是我的日常工作。 从你的问题来看,你似乎正在考虑机器学习(而不是更广泛的人工智能)。 我认为你的直觉是正确的——ML 算法非常适合欺诈预测/检测,因为它可以泛化到一个高度非线性的领域,并且可以适应(随着新数据输入其中)。 因此,由于这两个主要特征,欺诈者很难辨别算法的预测“规则”——因为这些规则实际上是一组复杂且相互关联的软约束,并且随着算法学习新数据而随时间变化。 (但我建议搁置 A*,除非你有特别的理由相信寻路对你的问题来说是一个有用的启发式方法——我不太愿意说两者没有联系,但如果有,那肯定是一种非正统的方法——我从未见过寻路应用于这类问题)。
你提到的关于你想识别的在线欺诈类型,唯一的事实是单个用户的多个帐户。 毫无疑问,这里可以应用各种技术,但我将特别提到一种分析技术,因为:(i) 我实际上已经在你提到的场景中使用过它;并且 (ii) 到目前为止,它超出了其他答案的范围。
该技术基于图论。
前提是:由同一用户拥有的帐户通常最好不是通过他们的个人行为(点击流)来识别,而是通过他们彼此之间的关系来识别——换句话说,通过他们的网络行为。
一个例子:在线扑克中的筹码倾销。 在这里,一个人在扑克网站上开设多个新帐户(使用虚假信息),然后声明每个帐户的广告奖金(例如,存款 100 美元,可获得 100 美元的奖金)。 当然,奖金有高度限制性的“兑现规则,通常是在奖金变成现金并可以从玩家帐户中提取为现金之前,必须达到一定数量的手数。
因此,筹码倾销的目标是将这些奖金变成真金白银。 一个人开设五个单独的帐户(作为五个不同的人),然后开设另一个“合法”帐户(使用他们真实的身份)。 这六个玩家——实际上只是一个玩家——将在一张桌子上互相玩,五个虚假帐户将迅速将他们的筹码输给合法帐户,该帐户会迅速兑现他们的奖金,因为当然,奖金的兑现限制仅适用于最初获得奖金的帐户;因此,兑现限制被完全规避。
这种方案的困难之处在于,几乎不可能在单个帐户的基础上检测到非法行为——*不良行为,勾结,源于一组共同拥有的帐户的交互*——换句话说,需要在网络级别研究感兴趣的行为。
因此,图论是分析的自然框架。
我应用的技术基于卡内基梅隆大学 Chau 等人撰写的一篇学术论文,题为 检测在线拍卖商网络中的欺诈人格 (PDF)。
本文核心的欺诈场景是:eBay 上的卖家希望向愿意的买家出售非常昂贵的商品(他们可能甚至不拥有该商品,但在任何情况下,都没有打算将其运送给买家)。 为了诱使无辜的买家自愿参与交易,欺诈卖家首先通过向一组买家“成功”销售商品来获得非常高(人为地高)的声誉;这些买家通常是由买家控制的虚假帐户。
更具体地说,本文的作者使用 马尔可夫随机场 上的 信念传播 算法,将来自两个级别(帐户级别和网络级别)的数据组合起来。
顺便说一句,签名图结构被称为 二分核心,它来自一组帐户,这些帐户在该组的成员之间有非常多的交易,但该组之外的交易很少(即,与 eBay 社区的其余成员)。