SEO的藝術(shù)：文檔剖析和語義聯(lián)絡(luò)

發(fā)布時(shí)間：2018-06-29 文章來源：本站瀏覽次數(shù)：3514

2.3.1 文檔剖析和語義聯(lián)絡(luò)

在文檔剖析（document analysis）中，查找引擎重視于文檔重要區(qū)域中是否找到查找詞，這些區(qū)域包括標(biāo)題、元數(shù)據(jù)、標(biāo)題標(biāo)記和正文。它們還企圖依據(jù)文檔剖析以及其他許多種要素主動(dòng)衡量文件質(zhì)量。

關(guān)于當(dāng)今的查找引擎而言，僅僅依托文檔剖析是不行的，所以它們還重視語義的聯(lián)絡(luò)性。語義聯(lián)絡(luò)（semantic connectivity）指的是常常彼此相關(guān)的單詞或許短語。例如，假如你看到Aloha譯注1一詞，就會(huì)聯(lián)想到夏威夷，而不是佛羅里達(dá)。查找引擎主動(dòng)地構(gòu)建自己的同義詞庫和詞典，協(xié)助它們斷定某些詞和主題之間的相關(guān)。經(jīng)過掃描自己的很多Web內(nèi)容數(shù)據(jù)庫，查找引擎可以運(yùn)用含糊調(diào)集理論和某些公式將詞語聯(lián)絡(luò)起來，開端像人類一樣了解網(wǎng)頁/網(wǎng)站。

專業(yè)的SEO人員不需求運(yùn)用語義聯(lián)絡(luò)衡量東西來優(yōu)化網(wǎng)站，可是高檔的從業(yè)者會(huì)尋求每一個(gè)可供運(yùn)用的要素，語義聯(lián)絡(luò)衡量對(duì)以下這幾個(gè)方面可能有所協(xié)助。

衡量方針的要害短語。

衡量有關(guān)某個(gè)主題的頁面上應(yīng)該包括的要害短語。

衡量其他高排位網(wǎng)站/網(wǎng)頁上文本之間的聯(lián)絡(luò)。

尋覓供給"相關(guān)"主題鏈接的頁面。

這些材料來歷的技能性很強(qiáng)，可是SEO專家只需求了解獲取重要信息的原則。重要的是，盡管IR范疇包括數(shù)千個(gè)技能性用語，這些術(shù)語往往難以了解，可是即使是SEO新手也可以剖析和了解。

下面是IR范疇的常見查找類型。

附近查找

附近查找用查找短語的順序?qū)ひ捪嚓P(guān)的文檔。例如，當(dāng)查找"sweet German mustard"（德國(guó)甜芥末）時(shí)，你指定的只有一個(gè)精確的附近查找。假如去掉引號(hào)，查找詞的附近性對(duì)查找引擎依然很重要，可是查找引擎回來的內(nèi)容就不會(huì)精確匹配查找短語，例如，Sweet Mustard-German.

含糊邏輯

從技能上講，含糊邏輯指的是無法僅用真/假來區(qū)分的邏輯，常見的比如之一是某天是不是晴天（例如，有50%的云，是否依然可以稱為晴天）。含糊邏輯是查找引擎用于檢測(cè)和處理拼寫錯(cuò)誤的手法之一。

布爾查找

布爾查找運(yùn)用布爾運(yùn)算符，如AND、OR和NOT.這類邏輯用于擴(kuò)展或許限制查找中回來的文檔。

查找詞加權(quán)

查找詞加權(quán)指的是特定查找詞對(duì)查詢的重要程度。原理是為特定的詞語賦以比其他詞更高的權(quán)重，以得到更好的查找成果。例如，在查詢中的單詞the得到的權(quán)重很小，由于它幾乎在一切英語文檔中都會(huì)呈現(xiàn)，沒有什么獨(dú)特性，對(duì)文檔的挑選沒有任何協(xié)助。

IR模型（查找引擎）運(yùn)用含糊調(diào)集理論（Lotfi Zadeh博士于1969年創(chuàng)建的含糊邏輯分支）發(fā)現(xiàn)兩個(gè)單詞之間的語義聯(lián)絡(luò)。和用同義詞庫或許詞典揣度兩個(gè)詞是否相關(guān)不同，IR體系可以運(yùn)用巨大的內(nèi)容數(shù)據(jù)庫推測(cè)出詞語之間的聯(lián)絡(luò)。

這一進(jìn)程聽上去好像很復(fù)雜，可是原理卻很簡(jiǎn)單。查找引擎需求依靠機(jī)器邏輯（真/假，是/否等）。機(jī)器邏輯關(guān)于人有一些優(yōu)勢(shì)，可是不像人那樣拿手處理某些類型的問題。對(duì)人來說很直觀的工作，關(guān)于計(jì)算機(jī)來說卻很難了解。例如，桔子和香蕉都是生果，可是兩者不都是圓的，這一點(diǎn)對(duì)人來說很直觀。

關(guān)于機(jī)器來說，要了解這一點(diǎn)以及其他類似的概念，語義聯(lián)絡(luò)是要害。Web上的很多人類知識(shí)可以在體系的索引中獲得，并從中剖析人類現(xiàn)已樹立的聯(lián)絡(luò)。因而，機(jī)器可以經(jīng)過掃描索引中呈現(xiàn)的"香蕉"和"桔子",注意，"圓形"和"香蕉"不常常一同呈現(xiàn)，而"桔子"和"圓形"常常一同呈現(xiàn)，然后斷定桔子是圓的，而香蕉不是圓的。

這就是含糊邏輯的用武之地。運(yùn)用邏輯調(diào)集理論協(xié)助計(jì)算機(jī)經(jīng)過衡量?jī)蓚€(gè)詞一同呈現(xiàn)的頻率和語境，就能了解兩個(gè)詞的相關(guān)性。

在此基礎(chǔ)上擴(kuò)展起來的相關(guān)概念之一是潛在語義剖析（Latent Semantic Analysis,LSA）。思路是經(jīng)過對(duì)幾十億個(gè)各種網(wǎng)頁（索引）的研討，查找引擎可以"學(xué)習(xí)"到哪些詞是相關(guān)的，哪些概念彼此之間有聯(lián)絡(luò)。

例如，運(yùn)用LSA,查找引擎可以發(fā)現(xiàn)前往"zoo"（動(dòng)物園）的"trips"（游覽）往往包括"viewing wildlife"（觀看野生動(dòng)物）和"animals"（動(dòng)物），這可能是"tour"（游覽）的一部分。

在Google上測(cè)驗(yàn)查找"~zoo ~trips"（波濤號(hào)是一個(gè)查找運(yùn)算符，本章后邊將有更多的相關(guān)內(nèi)容）。注意，回來成果中粗體的單詞與上一段中說到的那些單詞相符。Google識(shí)別出索引中常常一同呈現(xiàn)（一同呈現(xiàn)、在同一個(gè)網(wǎng)頁中呈現(xiàn)或許方位挨近）的詞語，并將"相關(guān)"的詞語顯現(xiàn)為粗體。

有些方式的LSA計(jì)算成本太高，無法在實(shí)踐中運(yùn)用。例如，現(xiàn)在的查找引擎無法像較新的MIT學(xué)習(xí)型計(jì)算機(jī)那樣聰明地"學(xué)習(xí)".例如，它們無法經(jīng)過索引學(xué)習(xí)到"斑馬"和"山君"都是帶有斑紋的動(dòng)物，盡管它們可能發(fā)現(xiàn)"斑紋"和"斑馬"比"斑紋"和"鴨子"在語義上有更多聯(lián)絡(luò)。

潛在語義索引（Latent Semantic Indexing ,LSI）更進(jìn)一步，運(yùn)用語義剖析來識(shí)別相關(guān)的網(wǎng)頁。例如，查找引擎可能注意到某個(gè)網(wǎng)頁談及doctor（醫(yī)師或許博士），另一個(gè)網(wǎng)頁談及physicians（醫(yī)師），并且依據(jù)這些頁面中常見的其他單詞斷定這些頁面之間的聯(lián)絡(luò)。成果是，引證doctor的頁面在查找physician時(shí)也可能呈現(xiàn)。

查找引擎在此類技能上的出資現(xiàn)已持續(xù)了很多年。

從SEO方面看，這些使用讓我們認(rèn)識(shí)到查找引擎是怎么發(fā)現(xiàn)網(wǎng)絡(luò)上的單詞、短語和概念之間的聯(lián)絡(luò)的。跟著語義聯(lián)絡(luò)越來越成為查找引擎算法的重要組成部分，可以預(yù)見，頁面、網(wǎng)站和鏈接的主題將會(huì)越來越受到重視。我們應(yīng)該認(rèn)識(shí)到，未來查找引擎了解概念主題以及發(fā)現(xiàn)不適合網(wǎng)站結(jié)構(gòu)的內(nèi)容、鏈接和頁面的才能將更為重要。

上一條：SEO的藝術(shù)：衡量?jī)?nèi)容質(zhì)...

下一條：SEO的藝術(shù)：斷定查找者...