什么是网络爬虫?

网络爬虫是一种相对简单的自动程序或脚本,能有条理的扫描或“爬”过互联网网页并创建需要的数据库索引。这种程序有许多用途,其中最知名的就是搜索引擎用于给浏览者提供相关网站和网页。其它用途还包括语言学家和市场研究人员,或尝试以组织方式在互联网调查信息的人。网络爬虫的代名词还包括网络蜘蛛,网络机器人和自动索引器等。可以在网上买到爬虫程序,许多公司出售这种软件

常见用途

网络爬虫的用途有很多种,但最经常被人用于在互联网上寻找和收集信息。搜索引擎频繁使用网络爬虫搜集公共网页的信息。他们的主要目的是收集资料,并能在浏览者查询词汇时迅速提供相关网站。语言学家可能使用网络爬虫做文本分析,以帮助他们梳理出如今最常用的词汇。市场研究人员也用这种程序确定和了解特定市场的未来趋势。

网络爬虫是一个收集信息很重要的方法,并能迅速跟上互联网的扩展。每天都有大量网页添加进来,并且信息也在不断改变。网络爬虫是一种搜索引擎和其它用户确保更新数据的方式。当然,网络爬虫也有一些非法应用,如被黑客利用了解更多服务器隐私信息等。

工作原理

在搜索引擎的网络爬虫访问一个网页时,它“读取”可视文字,超链接和用于网站的不同标签,如关键词丰富的meta标签等。搜索引擎会用这些搜集到的信息确定网站索引的信息。网站然后被搜索引擎的数据库收录并给予适当排名。