Web Mining Via Search Engines

我在用谷歌地图找公寓,把各种房源信息复制到电子表格中,以便更方便地比较和添加备注时,突然意识到这种方法是多么的重复和低效。我完全可以编写一个脚本来自动查询谷歌并提取我需要的数据,但要获取一些数据(例如联系电话),我需要点击链接进入特定房源的网站,然后在里面寻找数据,而我从未编写过这样动态的网络爬虫。给定任意HTML,提取某条信息的“最佳猜测”时,常用的数据挖掘和/或机器学习技术和工具有哪些?


回答:

这不是后端技术,但在评论中被认为是有帮助的。访问http://www.google.com/squared,然后将结果导出为谷歌电子表格或csv数据。它会为你命名字段并从网页中填充数据。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注