什么是网络爬虫？

作者: meilin
位于: 数码电子

网络爬虫是一种相对简单的自动程序或脚本，能有条理的扫描或“爬”过互联网网页并创建需要的数据库索引。这种程序有许多用途，其中最知名的就是搜索引擎用于给浏览者提供相关网站和网页。其它用途还包括语言学家和市场研究人员，或尝试以组织方式在互联网调查信息的人。网络爬虫的代名词还包括网络蜘蛛，网络机器人和自动索引器等。可以在网上买到爬虫程序，许多公司出售这种软件。

常见用途

网络爬虫的用途有很多种，但最经常被人用于在互联网上寻找和收集信息。搜索引擎频繁使用网络爬虫搜集公共网页的信息。他们的主要目的是收集资料，并能在浏览者查询词汇时迅速提供相关网站。语言学家可能使用网络爬虫做文本分析，以帮助他们梳理出如今最常用的词汇。市场研究人员也用这种程序确定和了解特定市场的未来趋势。

网络爬虫是一个收集信息很重要的方法，并能迅速跟上互联网的扩展。每天都有大量网页添加进来，并且信息也在不断改变。网络爬虫是一种搜索引擎和其它用户确保更新数据的方式。当然，网络爬虫也有一些非法应用，如被黑客利用了解更多服务器隐私信息等。

工作原理

在搜索引擎的网络爬虫访问一个网页时，它“读取”可视文字，超链接和用于网站的不同标签，如关键词丰富的meta标签等。搜索引擎会用这些搜集到的信息确定网站索引的信息。网站然后被搜索引擎的数据库收录并给予适当排名。

相关文章：

......

下一篇: 怎样识别在家创业商机的真假？

前一篇: 酪氨酸的副作用

一问就知

什么是网络爬虫？

最新文章