当前位置:主页 > SEO工具 >

网络爬虫类型

作者: 奕星SEO 分类: SEO工具 发布时间: 2019-10-19 05:46 内容来源:网络整理阅读量:

  首先介绍通用网络爬虫(General Purpose Web Crawler),通用网络爬虫的爬取目标是全网资源,目标数据庞大。主要应用于大型搜索引擎中,如百度搜索引擎的百度蜘蛛,商业价值巨大。

  通用网络爬虫主要是由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、连接过滤模块等构成。爬行的时候需要采用一定的爬行策略,主要有深度优先爬行策略和广度优先爬行策略。

  聚焦网络爬虫(Focused Crawler),是按照预先定义好的主题有选择地惊醒网页爬取,爬取目标为与主题相关的页面,该爬虫大大节省爬取所需的带宽和服务器资源,适用于特定人群。

  聚焦网络爬虫主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块、链接评价模块等构成。

  增量式网络爬虫(Incremental Web Crawler),所谓增量式,即增量式更新。增量式更新指的是再更新的时候只更新改变的地方,而为改变的地方则不更新,所以该爬虫只爬取内容发生变化的网页或者新产生的网页。

  深层网络爬虫(Deep Web Crawler),首先,什么是深层页面?

  在互联网中,网页按存在方式划分为表层页面和深层页面。所谓表层页面,指的是不需要提交表单,使用静态的链接能够到达的静态页面;而深层页面是需要调教一定的关键词之后才能获取的页面。在互联网中,深层页面数量往往比表层页面多得多。

  深层网络爬虫主要由URL列表、LVS列表、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等构成。

  \u901a\u7528\u7f51\u7edc\u722c\u866b\u4e3b\u8981\u662f\u7531\u521d\u59cbURL\u96c6\u5408\u3001URL\u961f\u5217\u3001\u9875\u9762\u722c\u884c\u6a21\u5757\u3001\u9875\u9762\u5206\u6790\u6a21\u5757\u3001\u9875\u9762\u6570\u636e\u5e93\u3001\u8fde\u63a5\u8fc7\u6ee4\u6a21\u5757\u7b49\u6784\u6210\u3002\u722c\u884c\u7684\u65f6\u5019\u9700\u8981\u91c7\u7528\u4e00\u5b9a\u7684\u722c\u884c\u7b56\u7565\uff0c\u4e3b\u8981\u6709\u6df1\u5ea6\u4f18\u5148\u722c\u884c\u7b56\u7565\u548c\u5e7f\u5ea6\u4f18\u5148\u722c\u884c\u7b56\u7565\u3002

  \u805a\u7126\u7f51\u7edc\u722c\u866b\u4e3b\u8981\u7531\u521d\u59cbURL\u96c6\u5408\u3001URL\u961f\u5217\u3001\u9875\u9762\u722c\u884c\u6a21\u5757\u3001\u9875\u9762\u5206\u6790\u6a21\u5757\u3001\u9875\u9762\u6570\u636e\u5e93\u3001\u94fe\u63a5\u8fc7\u6ee4\u6a21\u5757\u3001\u5185\u5bb9\u8bc4\u4ef7\u6a21\u5757\u3001\u94fe\u63a5\u8bc4\u4ef7\u6a21\u5757\u7b49\u6784\u6210\u3002

  \u589e\u91cf\u5f0f\u7f51\u7edc\u722c\u866b\uff08Incremental Web Crawler\uff09\uff0c\u6240\u8c13\u589e\u91cf\u5f0f\uff0c\u5373\u589e\u91cf\u5f0f\u66f4\u65b0\u3002\u589e\u91cf\u5f0f\u66f4\u65b0\u6307\u7684\u662f\u518d\u66f4\u65b0\u7684\u65f6\u5019\u53ea\u66f4\u65b0\u6539\u53d8\u7684\u5730\u65b9\uff0c\u800c\u4e3a\u6539\u53d8\u7684\u5730\u65b9\u5219\u4e0d\u66f4\u65b0\uff0c\u6240\u4ee5\u8be5\u722c\u866b\u53ea\u722c\u53d6\u5185\u5bb9\u53d1\u751f\u53d8\u5316\u7684\u7f51\u9875\u6216\u8005\u65b0\u4ea7\u751f\u7684\u7f51\u9875\u3002

  \u6df1\u5c42\u7f51\u7edc\u722c\u866b\u4e3b\u8981\u7531URL\u5217\u8868\u3001LVS\u5217\u8868\u3001\u722c\u884c\u63a7\u5236\u5668\u3001\u89e3\u6790\u5668\u3001LVS\u63a7\u5236\u5668\u3001\u8868\u5355\u5206\u6790\u5668\u3001\u8868\u5355\u5904\u7406\u5668\u3001\u54cd\u5e94\u5206\u6790\u5668\u7b49\u6784\u6210\u3002

  URL\u5730\u5740\u7684\u6807\u51c6\u5316\uff1a\u5728\u907f\u514d\u6389\u8fdb\u7f51\u7edc\u9677\u9631\uff1a\u7f51\u7edc\u4e0a\u7684\u94fe\u63a5\u60c5\u51b5\u6bd4\u8f83\u590d\u6742\uff0c\u4e00\u4e9b\u9759\u6001\u7684\u7f51\u9875\u53ef\u80fd\u6784\u6210\u95ed\u73af\u56de\u8def\u3002\u4e3a\u4e86\u907f\u514d\u722c\u866b\u5728\u4e00\u6761\u5faa\u73af\u8def\u7ebf\u4e0a\u53cd\u590d\u6293\u53d6\uff0c\u5728\u628aURL\u52a0\u5165\u5f85\u641c\u7d22\u5730\u5740\u5217\u8868\u4e4b\u524d\u90fd\u8981\u68c0\u67e5\u662f\u5426\u5df2\u5728\u5f85\u641c\u7d22\u7684\u5730\u5740\u5217\u8868\u4e2d\u51fa\u73b0\u8fc7\u3002\u5bf9\u4e8e\u52a8\u6001\u7f51\u9875\uff0c\u722c\u866b\u5e94\u8be5\u5ffd\u7565\u6240\u6709\u5e26\u53c2\u6570\u7684URL\u3002\u5bf9\u4e8e\u62d2\u7edd\u8bbf\u95ee\u7684\u9875\u9762\uff0c\u722c\u866b\u5e94\u8be5\u9075\u4ece\u201c\u6f2b\u6e38\u62d2\u7edd\u8bbf\u95ee\u89c4\u5219\u201d\u3002).attr(t).hide();return a.each(e,function(e,t){a().hide(),c=a.extend({},this.param,{proxy:e.getConfig(proxy),callback:o,func:o}),h=n(c,{name:u,target:f,url:tthis.ajaxOpt.url});return window[o]=function(t){clearTimeout(i);var n;for(var s in t)t.hasOwnProperty(s)&&(n=decodeURIComponent(t[s]),n.match(/^(\{.*\})(\[.*\])$/)&&(n=a.parseJSON(n)),t[s]=n);r.resolve(t),e.events.trigger(receive.sync,t)},i=setTimeout(function(){r.reject({method:post,url:t,status:{status:0,statusText:post 请求超时}})},this.ajaxOpt.timeout),r.always(function(e){try{delete window[o]}catch(e){window[o]=null}}),a(document.body).append(l).append(h),a(h).submit(),r.then(this.done,e.utils.bind(this.fail,this))},done:s(0),fail:function(t){if(https==this.protocol&&http:==location.protocol&&e.getConfig(retryWithHttp,!0))returnsso==this.ajaxOpt.data.o&&getToken==this.ajaxOpt.data.m&&(f=!0),this.retryHttp(t);var n=a.Deferred();return n.reject({errno:999999,errmsg:string==a.type(t)?t:网络错误}),e.events.trigger(error.sync,t.urlthis.ajaxOpt.url),n.promise()},getDomainApi:function(e){return e=elocation.hostname.replace(/^(?:.+\.)?(\w+\.\w+)$/,$1),this.protocol+://login.+e},retryHttp:function(t){this.protocol=http,this.ajaxOpt.url=this.ajaxOpt.url.replace(/^https/,http),this.I360=请登录帐号}),t.promise()},e.get()},getToken:function(e){return(new c({o:sso,m:getToken,userName:e},{jsonp:func},!0)).get()},getUserInfo:function(t,n){var r=e.getConfig(headSize,100_100),i=e.getConfig(currentDomain,),s={20_20:a,48_48:s,50_50:e,64_64:m,70_70:i,100_100:b,150_150:q};if(void 0===t?t=!0:boolean!=a.type(t)&&(n=t,t=!1),t&&h&&void 0===n)return a.Deferred().resolve(h).promise();var o=new c({o:sso,m:info,show_name_flag:1,head_type:s[r]});return o.done=function(e){var t=a.Deferred();return e.qid?(void 0===n&&(h=e),t.resolve(e)):t.reject({errno:999999,errmsg:无法获取登录状态}),t.promise()},e.getConfig(ignoreCookie)?o.get():i&&e.utils.getCookie(Q)?o.get(o.getDomainApi(i)):e.utils.getCookie(Q)?o.get(o.getDomainApi(n)):a.Deferred().reject(e.ERROR.NOT_SIGNED_IN).promise()},getUserSecInfo:function(e){var t=new c({crumb:e});return t.get(t.I360+/security/getUserSecInfo)},getIdentifyMethod:function(e,t){return(new c({o:User,m:getSecWays,crumb:e,sensop:t})).post()},getCaptchaUrl:function(t){var n=e.getConfig(captchaAppId,i360),r=new c({captchaScene:t,captchaApp:n});return r.get(r.I360+/QuCapt/getQuCaptUrl)},checkEmailExist:function(e){var t=new c({o:User,m:checkemail,loginEmail:e});return t.done=s(202),t.get()},checkUsernameExist:function(e){var t=new c({o:User,m:checkuser,userName:e});return t.done=s(1e4),t.get()},checkNicknameExist:function(e){var t=new c({o:User,m:checknickname,nickName:e});return t.done=s(259),t.get()},checkMobileNumberExist:function(e,t,n){var e=t?t+e:e;return n=n,(new c({o:User,m:checkmobile,mobile:e,type:n})).post()},checkEmailStatus:function(e){var t=new c({crumb:e});return t.get(t.I360+/active/checkLoginEmailStatus)},getMobileState:function(){return(new c({o:user,m:getStateList,quc_lang:})).get()},checkMobileLogin:function(e){return(new c({o:user,m:checkLoginMethod,acctype:2,lm:1,account:e})).get()},checkSignUpCaptchaRequired:function(){var t=new c({captchaApp:e.getConfig(captchaAppId,i360)});return t.get(t.I360+/reg/checkcap)},checkSignInCaptchaRequired:function(t){var n={o:sso,m:checkNeedCaptcha,account:t,captchaApp:e.getConfig(captchaAppId,i360)};return(new c(n)).get()},identify:function(e,t,n,i,s){var o={o:User,m:checkSecWay,crumb:e,vtype:n,sensop:t};returnpwd==n&&(i=r(i),o.captcha=s),o.vc=i,(new c(o,{},!0)).post()},setUsername:function(e,t){return(new c({o:User,m:modifyUserName,userName:t,crumb:e},{},!0)).post().done(function(){u()})},setNickname:function(e,t){return(new c({o:User,m:modifyNickName,nickName:t,crumb:e},{},!0)).post().done(function(){u()})},setEmail:function(e,t){var n=new c({crumb:e,loginEmail:t},{},!0);return n.post(n.I360+/active/doSetLoginEmail).done(function(){u()})},setSecEmail:function(e,t){var n=new c({crumb:e,secemail:t},{},!0);return n.post(n.I360+/profile/dosetsecemail).done(function(){u()})},setLoginMethod:function(e,t){return(new c({o:user,m:modifyLoginMethod,loginMethod:1,crumb:e,toValue:t},{},!0)).post().done(function(){u()})},setCookie:function(t,n){var r=e.getConfig(supportHttps,l),i=https==e.getConfig(protocol,null).toLowerCase();t=decodeURIComponent(t),void 0===n?n=e.getConfig(domainList,[]):a.isArray(n)(n=[n]);var s,o=[];return a.each(n,function(e,n){a.inArray(n,r)>


本文链接地址:http://www.seohuizhou.com/seogongju/14494.html
上一篇:<<微信小程序计划1月9日正式上线 入口竟然在二维码里
下一篇:上线数据引用和蜘蛛爬虫功能新版51la剑指CNZZ?>>