我有一个包含900行的CSV文件,里面有URL链接。我想在使用scikit-learn之前检测出哪些链接是损坏的或404死链。所以,我想知道是否有办法使用Python 3.7生成一个CSV文件,指出哪些是死链,哪些是活跃的链接。
希望能找到愿意帮助我的人,提前感谢。
回答:
你需要详细说明什么样的链接算作损坏的。这里有一个样本代码,你可以通过更新is_broken方法来调整它以满足你的需求:
import pandas as pd import requests # 准备虚拟数据 links = ['https://google.com', 'http://thisisinvalid.de', 'http://docs.python-requests.org/en/master/api/broken'] df = pd.DataFrame(links, columns=['links']) # 根据需要更新 def is_broken(link): try: response = requests.get(link) if response.status_code == 404: return True return False except Exception as e: return True df.ix[:, 'is_broken'] = df.ix[:, 'links'].map(lambda link: is_broken(link))
https://google.com 不是损坏的,http://thisisinvalid.de 无法解析,http://docs.python-requests.org/en/master/api/broken 返回 404