所谓爬虫,就是一种程序,其可以按照一定的规则自动提取和收集网页中的信息。“再形象一点说,爬虫就是一种网络智能机器人,其模仿人的行为,去众多的网站上溜达,提取对自己来说有用的信息。”方维网络一位建站工程师解释说。方维网络是深圳地区一流的建站服务商,从事网站建设、APP开发有十年之久。
对于一名建站工程师来说,或者程序员来说,在建设网站的时候,是否也需要考虑到“爬虫”呢?在方维网络该工程师看来,这是肯定的。
考虑百度爬虫
百度爬虫被称之为“百度蜘蛛”,其会对网站的内容进行提取、建库,建站公司在为企业建站之前,需要对百度蜘蛛的抓取规则有一些了解。例如,百度蜘蛛更喜欢怎么构架的网站?百度蜘蛛更倾向于抓取那些内容?对那些网站和内容,百度蜘蛛是抗拒的?例如一些灰色行业和违法行业网站。
“这些因素需要在网站策划阶段就考虑清楚,如果将如上问题均想清楚了,网站建成之后,百度蜘蛛会不断从网站抓取信息,网站的排名也会获得快速的提升。”方维网络一位程序员认为。
考虑同行的爬虫
爬虫是一种程序,所以,竞争网站也会使用。例如,方维网络就发现,有多家建站公司从方维网络官网抓取信息。如何应对竞争对手的“爬虫”呢?这就是网站建设中的“反爬虫技术”。
在方维网络看来,在网站不同的阶段,如何应对竞争对手的“爬虫”,态度应该是不同的?
如果是新站,竞争对手的爬虫,对网站来说是利大于弊。因为是新站,百度的爬虫的网站的兴趣并不是很大,此时,如果竞争对手将网站原创文章转载和抓取,是扩大了网站的传播范围,反而有利于百度识别公司网站的独特性,有助于网站权重的提升和收录的加快。
如果是老站,竞争对手的爬虫,对网站来说是弊大于利。这是因为如果是老站,百度的收录可能很高效,而竞争对手的爬虫抓取效率很慢,百度爬虫优于竞争对手爬虫,竞争对手对网站内容的抓取,网站不但不能获得好处,反而,部分原创内容免费为对手所用。
方维网络建议,如果不想要竞争对手爬虫光顾网站,一是可以在文章随机加入网站信息。二是可以从程序方面着手,禁止对手拷贝和复制。
考虑自己的爬虫
企业自身的网站,是否要考虑爬虫呢?方维网络认为,也应该分情况视之。
如果是大型网站,并且是新站,网站的容量还非常有限,就需要设立爬虫,从同行业的知名网站抓取一定的信息。例如,新成立的B2B网站,需要从成立时间较久的B2B网站抓取一定量的信息。
而对于一般的企业站来说,方维网络认为是无需设立爬虫的,当然一些竞争激烈的行业除外。
即使是设立爬虫的网站,对于爬虫抓取的信息,也应该有人工进行一定的编辑和审核,因为爬虫抓取的信息可能存在乱码、带链接文本、图片等信息。
总之,在方维网络看来,爬虫是建站服务商必须要考虑的问题。
一个制作成功的网站,不光有漂亮的页面设计,还要方便营销,需要考虑很多细节的因素。