我想使用我的笔记本电脑作为本地服务器来制作一个新闻聚合android
应用程序,用于我的项目。我计划在后端使用Apache、PHP和MySQL。我决定在这个应用程序中应用简单的机器学习技术。因此,这个应用程序不仅能够收集文章,还能根据主题对其进行分类。
我已经实现了基本的Scikit-learn
Naive Bayes分类器
。我想知道如何在服务器上自动从多个网站定期抓取并存储RSS
订阅源。我应该使用什么样的库或技术来实现这一点?
回答:
我建议你使用Python中常用且广泛使用的库来完成这项任务,并根据你使用的操作系统,使用Cron或Windows任务计划程序来运行你的脚本。
使用常用库可以让你更容易获得支持,阅读优秀的文档,或者在线搜索错误/教程时找到更多的页面。
我会用于一般抓取和RSS的库包括:
- Urllib2 或 Requests(用于获取网页)
- BeautifulSoup(用于从HTML和XML文件中提取数据)
- FeedParser(用于处理RSS订阅源)
这是一个简单且最小的示例,使用BeautifulSoup从网站抓取当前以太坊的价值:
这是一个简单且最小的示例,使用FeedParser: