硅谷風(fēng)投大牛Peter Thiel真的了解中國嗎? |
發(fā)布時間:2015-08-10 文章來源: 瀏覽次數(shù):4099 |
Google使用兩個探測器來抓取網(wǎng)站上的內(nèi)容:Freshbot和Deepbot。深度探測器(Deepbot)每月出擊一次,受訪內(nèi)容在Google的主要索引之中。刷新探測器(Freshbot)是持續(xù)不斷地發(fā)現(xiàn)新的內(nèi)容,例如新的網(wǎng)站、論壇、博客等?雌饋,Google是發(fā)現(xiàn)了一個新的網(wǎng)頁,之后再頻繁地再訪,來看看是否還有什么新的更新。假如有,這個新網(wǎng)站就會被加入到刷新探測器的名單中進行訪問。 刷新探測器取得的結(jié)果是匯總在一個單獨的數(shù)據(jù)庫里。每一次刷新探測器進行新的一輪輪回的時候都被重寫。刷新探測器和Google的主要索引是合在一起提供搜索結(jié)果的。 Google的操縱模式 收集---->采編/索引---->反饋的工作程序。事實上,搜索引擎包括以下幾個元素。 ·抓取狀態(tài):搜索引擎派出探測器到互聯(lián)網(wǎng)上不知倦怠地搜集網(wǎng)頁。 ·網(wǎng)頁倉庫:搜索來的網(wǎng)頁要集中在一個地方存儲,等候索引處理。 ·索引收拾整頓:將網(wǎng)頁分門別類,進行壓縮,等候進行索引編類,而未壓縮的原始網(wǎng)頁資料被刪除掉。 ·索引狀態(tài):將壓縮后的網(wǎng)頁編目在不同的索引之下。 ·問詢狀態(tài):將用戶問詢所用的口語轉(zhuǎn)換成搜索引擎讀的懂的計算機語言,來咨詢各個索引求得相關(guān)謎底。 ·排名狀態(tài):搜索引擎將相關(guān)謎底根據(jù)一定的尺度以列表的形式排列給用戶。搜索引擎以為最好的謎底被推薦在首位,較次的排列隨后,以此類推。 SEO是逆向搜索推理 網(wǎng)站首先要知道搜索引擎是怎樣判斷網(wǎng)站質(zhì)量的,這個揣度搜索引擎的過程是逆向推理。這個逆向推理是從搜索引擎的搜索排名開始,去探索畢竟搜索引擎會將一些網(wǎng)站排列在搜索結(jié)果的前列,為什么一些網(wǎng)站連顯示的機會都沒有。最后推理出的結(jié)論是知道搜索引擎判斷和排名網(wǎng)站存在著哪些普遍規(guī)律,進而知道網(wǎng)站的設(shè)計和推廣中哪些是應(yīng)該做的,哪些是不應(yīng)該做的。 Google的PageRank(PR) PageRank并非是“頁面等級”,而是“佩奇等級”。由于這里的Page指的是Google的創(chuàng)始人之一拉里·佩奇(Larry Page),從名字可以看出有的人生成就是為互聯(lián)網(wǎng)而存在。 公式 PR(A) = (1-d) + d(PR(Ti)/C(Ti)+...+PR(Tn)/C(Tn)) PR(A):網(wǎng)頁A的佩奇等級(PR) PR(Ti):鏈接網(wǎng)頁A的網(wǎng)頁Ti的佩奇等級(PR)。i可以是0-n,n是鏈接的總數(shù)。這個鏈接可以是來自任何網(wǎng)站的導(dǎo)入鏈接 C(Ti):網(wǎng)頁Ti往其他網(wǎng)站鏈接的數(shù)目(導(dǎo)出鏈接) d:阻尼系數(shù),介于0-1之間,Google設(shè)為0.85。 可以看出,網(wǎng)頁A的PR是由鏈接它的其他網(wǎng)頁Ti所決定的。假如在網(wǎng)頁Ti中有一個鏈接指向網(wǎng)頁A,那么A就得到了一個“投票”。但是假如網(wǎng)頁Ti中的導(dǎo)出鏈接假如越多,點擊指向A的可能性就越小。所以網(wǎng)頁Ti的PR只需要用C(Ti)來加權(quán)均勻。 當(dāng)然,決定網(wǎng)站排名的不僅僅是PR值,還有其他的因素。但是PR在google判定網(wǎng)站質(zhì)量中起著很重要的作用。 |
|