从HTML页面提取纯净内容/文本,排除导航和框架内容

我正在抓取新闻网站,并希望提取新闻标题、新闻摘要(第一…