如何查找数据集中的异常?

如今,我面临一个问题,就是有些数据集中包含异常。例如,在一个数据集中有一个数字列。从外部可以很容易地识别出该列的最大字段是数字,但其数据类型却是对象。不仅如此,其中一些字段还包含非数字值。
例如:
一个数据集有一个”年龄“列:[23, 34, 54, 33, pp, 27, 43],其数据类型为对象。
现在,检查一下其中包含一个字符串值”pp“,这被我们称为数据集中的异常。
现在我的问题是,如何找到那些包含类似”pp“这样的异常的行。

这里有一张我想与你讨论的图片

谢谢。


回答:

你可以使用pd.to_numeric()将非数字值的错误强制转换为NaN,然后使用isna()检查NaN。接着,使用.loc定位包含这些NaN值(来自非数字值)的行:

df.loc[pd.to_numeric(df['Age'], errors='coerce').isna()]

示例

data = {"Age": [23, 34, 54, 33, 'pp', 27, 43] }df = pd.DataFrame(data)df.loc[pd.to_numeric(df['Age'], errors='coerce').isna()]  Age4  pp

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注