我是一个Python新手,正在尝试了解机器学习。以下是我从Udacity作业中获取的一个代码块。
def maybe_download(filename, expected_bytes, force=False): """如果文件不存在则下载,并确保文件大小正确。""" dest_filename = os.path.join(data_root, filename) if force or not os.path.exists(dest_filename): print('尝试下载:', filename) filename, _ = urlretrieve(url + filename, dest_filename, reporthook=download_progress_hook) print('\n下载完成!') statinfo = os.stat(dest_filename) if statinfo.st_size == expected_bytes: print('找到并验证', dest_filename) else: raise Exception( '验证失败 ' + dest_filename + '。你能用浏览器访问它吗?') return dest_filename
我能理解大部分内容。然而,我对filename, _ = urlretrieve(...)
部分感到非常困惑。这是在分配什么?我在调试器中跟踪,发现filename = '.\\notMNIST_large.tar.gz'
在该表达式前后都没有变化。
所以我的问题是filename, _ = urlretrieve(...)
到底是什么意思?这是某种高级技术,用于在隐藏表达式中分配值吗?
回答:
Python有一个名为“元组解包”的功能,允许将tuple
(实际上是任何序列)的元素分配给变量。所以如果你有一个(width, height)
元组,并且想将其元素分配给单个变量,你可以在一行中完成分配,例如:
size = (42, 124) width, height = sizeprint widthprint height
一些函数通过返回元组来利用这一特性,通常在函数调用返回时进行解包,例如:
def foo(): return "a", 42letter, answer = foo()
有时调用者对其中一个值不感兴趣,因此将不需要的值分配给_
是一种常见的约定,意思是“我不关心这个值”(顺便说一句,’_’ 没有什么特别或神奇的,它只是一个有效的变量名,就像 ‘a’ 或 ‘foo’ 或其他任何名称一样)。
urlretrieve()
恰好是这些函数之一 – 它实际上
返回一个元组 (filename, headers),其中 filename 是可以找到对象的本地文件名,headers 是 urlopen() 返回的对象的 info() 方法返回的内容(对于远程对象,可能已缓存)
https://docs.python.org/2/library/urllib.html#urllib.urlretrieve
返回本地文件名的原因是urlretrieve
可以不带filename
参数调用,在这种情况下,它会将内容保存到一个生成名称的临时文件中,并返回此名称,以便调用者可以访问该文件。
在你的代码片段中,实际上没有真正的理由将这个值重新分配给现有的filename
,因为它应该是同一个名称,所以这最多是令人困惑的。检查头信息(这里被忽略)以找出我们得到的是否真的是我们期望的(内容类型、编码等)会是一个更好的主意。