我开始使用scikit-learn进行工作。因此,我正在查看教程,其中提供了加载一些数据集的标准程序:
$ python>>> from sklearn import datasets>>> iris = datasets.load_iris()>>> digits = datasets.load_digits()
然而,为了方便起见,我尝试了以下方式加载数据:
In [1]: import sklearnIn [2]: iris = sklearn.datasets.load_iris()
然而,这会抛出以下错误:
---------------------------------------------------------------------------AttributeError Traceback (most recent call last)<ipython-input-2-db77d2036db5> in <module>()----> 1 iris = sklearn.datasets.load_iris()AttributeError: 'module' object has no attribute 'datasets'
然而,如果我使用看似相似的方法:
In [3]: from sklearn import datasetsIn [4]: iris = datasets.load_iris()
它可以正常工作。事实上,以下方法也可以工作:
In [5]: iris = sklearn.datasets.load_iris()
我对此完全感到困惑。我是不是忽略了什么非常简单的东西?这两种方法有什么区别?
回答:
当你导入一个包时,只有该包的
__init__.py
文件中的变量/函数/类是直接可见的,而不是子包或模块。
datasets
是sklearn
的一个子包。这就是为什么会发生这种情况:
In [1]: import sklearnIn [2]: sklearn.datasets---------------------------------------------------------------------------AttributeError Traceback (most recent call last)<ipython-input-2-325a2bfc35d0> in <module>()----> 1 sklearn.datasetsAttributeError: module 'sklearn' has no attribute 'datasets'
然而,以下方法可以工作的原因是:
In [3]: from sklearn import datasetsIn [4]: sklearn.datasetsOut[4]: <module 'sklearn.datasets' from '/home/ethan/.virtualenvs/test3/lib/python3.5/site-packages/sklearn/datasets/__init__.py'>
当你通过from sklearn import datasets
加载子包datasets
时,它会自动添加到包sklearn
的命名空间中。这是Python导入系统中较少为人所知的“陷阱”之一。
另外,请注意,如果你查看sklearn
的__init__.py
,你会看到'datasets'
作为__all__
的成员,但这只允许你这样做:
In [1]: from sklearn import *In [2]: datasetsOut[2]: <module 'sklearn.datasets' from '/home/ethan/.virtualenvs/test3/lib/python3.5/site-packages/sklearn/datasets/__init__.py'>
最后要注意的一点是,如果你检查sklearn
或datasets
,你会发现,尽管它们是包,但它们的类型是module
。这是因为所有包都被视为模块 – 然而,并非所有模块都是包。