設(shè)計思維與出稿方法談出稿方法論

發(fā)布時間：2016-10-13 文章來源：瀏覽次數(shù)：2922

現(xiàn)在人們上網(wǎng)購物都習慣了系統(tǒng)給出的“猜你(還會)喜歡”，有時候它似乎比你自己都還要了解你。推薦系統(tǒng)畢竟是怎樣“猜”中你心思的呢?
　　
(文/Joseph A. Konstan & John Riedl)如今，到網(wǎng)上購物的人已經(jīng)習慣了收到系統(tǒng)為他們做出的個性化推薦。Netflix 會推薦你可能會喜歡看的視頻。TiVo 會自動把節(jié)目錄下來，假如你感愛好就可以看。Pandora 會通過猜測我們想要聽什么歌曲從而天生個性化的音樂流。
所有這些推薦結(jié)果都來自于各式各樣的推薦系統(tǒng)。它們依賴計算機算法運行，根據(jù)顧客的瀏覽、搜索、下單和喜好，為顧客選擇他們可能會喜歡、有可能會購買的商品，從而為消費者服務(wù)。推薦系統(tǒng)的設(shè)計初衷是匡助在線零售商進步銷售額，現(xiàn)在這是一塊兒規(guī)模巨大且不斷增長的業(yè)務(wù)。與此同時，推薦系統(tǒng)的開發(fā)也已經(jīng)從上世紀 90 年代中期只有幾十個人研究，發(fā)展到了今天擁有數(shù)百名研究職員，分別供職于各高校、大型在線零售商和數(shù)十家專注于這類系統(tǒng)的其他企業(yè)。
這些年來，推薦系統(tǒng)有了相稱的進展。開始時它們還相對較為粗拙，往往對行為做出不正確的猜測;但跟著更多的和不同類型的網(wǎng)站用戶數(shù)據(jù)變得可用，推薦系統(tǒng)得以將立異算法應(yīng)用于這些數(shù)據(jù)之上，它們迅速得到了改善。今天，推薦系統(tǒng)都是些極其復(fù)雜和精專的系統(tǒng)，經(jīng)�？雌饋肀饶阕约哼€要了解你。同時，推薦系統(tǒng)正在向零售網(wǎng)站以外的領(lǐng)域拓展：大學(xué)用它們來引導(dǎo)學(xué)生選課，移動電話公司靠它們來猜測哪些用戶有可能轉(zhuǎn)投另一家供給商，會議主辦方也測試過用它們來分配論文給審稿專家。
我們兩人從推薦系統(tǒng)的早期開始便一直在開發(fā)和研究它們，最初是以學(xué)術(shù)研究者的身份，介入 GroupLens 計劃(GroupLens Project)。1992 年起，GroupLens 通過對美國愛好論壇網(wǎng)站 Usenet 討論區(qū)里的動靜進行排序，將用戶指向他們可能會感愛好、但自己尚未發(fā)現(xiàn)的話題線索。幾年以后，我們成立了 Net Perceptions，這是一家推薦算法公司，在互聯(lián)網(wǎng)第一次高潮期間(1997 年 - 2000 年)，一直處于業(yè)界領(lǐng)先地位。有鑒于此，固然這些公司極少公然談?wù)撍麄兊耐扑]系統(tǒng)是如何運作的，我們的經(jīng)驗使我們能夠深入了解亞馬遜和其他在線零售商幕后的情景。(在本文中，我們的分析是在觀察和推理的基礎(chǔ)上得出的，不包含任何內(nèi)部動靜)。
你有沒有想過自己在亞馬遜眼中是什么樣子?謎底是：你是一個很大、很大的表格里一串很長的數(shù)字。這串數(shù)字描述了你所看過的每一樣?xùn)|西，你點擊的每一個鏈接以及你在亞馬遜網(wǎng)站上買的每一件商品;表格里的其余部門則代表了其他數(shù)百萬到亞馬遜購物的人。你每次登陸網(wǎng)站，你的數(shù)字就會發(fā)生改變;在此期間，你在網(wǎng)站上每動一下，這個數(shù)字就會隨著改變。這個信息又會反過來影響你在訪問的每個頁面上會看到什么，還有你會從亞馬遜公司收到什么郵件和優(yōu)惠信息。
很多年來，推薦系統(tǒng)的開發(fā)者試過用各種各樣的方法來采集和解析所有這些數(shù)據(jù)。最近這段時間，多數(shù)人都選擇使用被稱為個性化協(xié)同推薦(Personalized Collaborative Recommender)的算法。這也是亞馬遜、Netflix、Facebook 的摯友推薦，以及一家英國流行音樂網(wǎng)站 Last.fm 的核心算法。說它 “個性化”，是由于這種算法會追蹤用戶的每一個行為(如瀏覽過的頁面、訂單記實和商品評分)，以此進行推薦;它們可不是瞎貓碰上死耗子——全憑命運運限。說它 “協(xié)同”，則是由于這種算法會根據(jù)很多其他的顧客也購買了這些商品或者對其顯示出好感，而將兩樣物品視為彼此聯(lián)系關(guān)系，它不是通過分析商品特征或者樞紐詞來進行判定的。
不同類型的個性化協(xié)同推薦系統(tǒng)最晚從 1992 年開始便已經(jīng)泛起。除了 GroupLens 計劃，另一項早期的推薦系統(tǒng)是 MIT 的 Ringo，它會根據(jù)用戶的音樂播放列表從而給用戶推薦其他他們有可能會喜歡的音樂。
User-User 算法：計算用戶之間的相似度
GroupLens 和 Ringo 都使用了一種簡樸的協(xié)同算法，被稱為 “用戶聯(lián)系關(guān)系”(user-user)的算法。這種類型的算法會計算一對用戶之間的 “間隔”，根據(jù)的是他們對統(tǒng)一物品打分的相似程度。舉例來說，假如吉姆和簡都給《電子世界爭霸戰(zhàn)》(Tron)這部片子打了 5 分，那么他們之間的間隔就是 0。假如吉姆給它的續(xù)集《創(chuàng)：戰(zhàn)紀》(Tron: Legacy )這部片子打了 5 分，而簡只打了 3 分，那么他們之間的間隔就變大了。按照這樣的計算得出來品味相對 “靠近” 的用戶，我們把他們稱之為共有一個 “鄰集”(neighborhood)。
但是，這種用戶聯(lián)系關(guān)系的策略效果并不是很好。首先，形成有意義的鄰集很難：良多用戶兩兩之間只有很少幾個共同評分，有的就完全沒有;而僅有的那幾個都打了分的項目呢，往往是票房大片，基本上人人都喜歡的那種。再來，因為用戶之間的間隔可以變得很快，算法必需當場就進行大部門的計算;而這可能會比一個在網(wǎng)站上這兒點點那兒戳戳的人下一個動作發(fā)出之前需要更久的時間。
Item-Item 算法：計算物品之間的聯(lián)系關(guān)系
因此，大部門的推薦系統(tǒng)如今都依賴一種“物-物聯(lián)系關(guān)系”(item-item)的算法，這種算法計算的是兩本書、兩部片子或者兩個其他什么東西之間的間隔，依據(jù)的是給它們打過分的用戶的相似度。喜歡 Tom Clancy 書的人很可能會給 Clive Cussler 的作品打高分，因此 Clancy 和 Cussler 的書就共處一個鄰集。一對物品之間的間隔可能是根據(jù)成百上千萬的用戶的評分計算得出，在一段時間里往往保持相對不亂，因此推薦系統(tǒng)可以預(yù)先計算間隔，并更快的天生推薦結(jié)果。亞馬遜和 Netflix 都曾公然表示過他們使用的是物-物聯(lián)系關(guān)系算法的變種，但對細節(jié)都絕口不提。
用戶聯(lián)系關(guān)系算法和物-物聯(lián)系關(guān)系算法都有的一個題目，是用戶評分的不一致性。當給他們機會再評一次分時，用戶往往會對統(tǒng)一件物品給出不同的得分。品味在變、心情在變，印象也在變。MIT 在上世紀 90 年代進行的一項研究表明，在最初打分一年以后，用戶的評分會發(fā)生均勻 1 分(滿分 7 分)的變動。研究職員們也在一直在嘗試不同的方法在模型中納入這一變量;好比說，假如用戶給某個商品了打一個分，但這個評分與推薦算法所了解的關(guān)于這個人和這個商品的所有其他信息不相符，有的推薦算法就會邀請用戶再次對這個商品進行評價。
降維算法：把事物特征一般化
不外，用戶聯(lián)系關(guān)系算法和物-物聯(lián)系關(guān)系算法還存在一個比一致性更大的題目：它們太死了。就是說，它們能發(fā)現(xiàn)都喜歡統(tǒng)一樣?xùn)|西的人，但卻忽略了興趣非常相似的潛伏用戶組合。好比說你喜歡莫奈的睡蓮。那么，在這個法國印象派巨匠畫的 250 幅睡蓮中，你最喜歡哪一幅?在一群喜歡莫奈的人當中，完全可能每個人喜歡的睡蓮都不相同，而基本的算法就有可能識別不出這些人都有著共同的興趣。
大約十年前，研究者們想出了一個辦法，通過一個叫降維(Dimensionality Reduction)的過程，把事物更一般化的表現(xiàn)出來。這種方法在計算量上比用戶聯(lián)系關(guān)系和物-物聯(lián)系關(guān)系算法要密集得多，因此也就沒有那么快的得到采用。但跟著計算機變更快更便宜，降維算法也逐步取得了一些進展。
為了弄清降維算法是怎么工作的，我們來看看你愛吃的東西，以及如何把它跟其他一百萬人愛吃的東西做比較。你可以把這些信息用一個巨型矩陣表示出來，每一條豎線代表一樣食品，每個人愛吃什么東西就天然形成了一行。在你的這一行上面或許會顯示你給了烤牛排 5 顆星、紅燒小排 4 星半、烤雞翅 2 顆星、凍豆腐卷 1 顆星、奶酪烤蘑菇 5 顆星、鹽水毛豆 4 顆星，等等。
然而，使用這個矩陣的推薦算法并不關(guān)心你給哪種食品評了多少顆星。它想要了解的是你一般而言的喜好，這樣它可以將這個信息應(yīng)用到更豐碩多樣的食品上。好比說，基于你上面給出的信息，算法可能會以為你喜歡牛肉、咸的東西和烤制菜品，不喜歡雞肉和任何油炸的東西，不喜歡也不討厭蔬菜，依此類推。你愛吃的食品所擁有的特點或者說維度，它的數(shù)目和符合你要求的食品的數(shù)目比起來要小得多——至多可能 50 或 100。通過查對這些維度，推薦算法可以迅速決定你是否會喜歡一種新的食品(比方說鹽焗排骨)，方法就是把這種食品的各項維度(咸的、牛肉做的、不是雞肉、不是炒的、不是蔬菜、不是烤的)同你的資料進行比對。這種更為一般性的呈現(xiàn)使得推薦算法能正確的發(fā)現(xiàn)有著相似但不同喜好的用戶。而且，它大幅壓縮了矩陣的規(guī)模，使算法變得更加高效。
這是一個很酷的解決方案。不外，你愛吃的食品的維度該上哪兒去找呢?肯定不是去問廚師。推薦系統(tǒng)會使用一種稱為奇特值分解的數(shù)學(xué)方法來計算維度。這種方法涉及到把最初的一個巨型矩陣分解為兩個 “口味矩陣”——其中一個包含了所有的用戶和 100 項口味維度，另一個則包含了所有的食品和 100 項口味維度——再加上第三個矩陣，當乘以前面兩個矩陣中的任意一個時，會得到最初的那個矩陣(※此處已更改)。
不像上面例子中說的那樣，計算用的維度既不是描述性的，也一點兒都不直觀;它們是純抽象的值。這并沒有什么，只要這些值終極天生正確的推薦結(jié)果就行了。這種方法的主要缺點是，創(chuàng)建矩陣所需要的時間會跟著客戶和產(chǎn)品數(shù)目的增多而飛速增長——創(chuàng)建一個擁有 2.5 億名客戶和 1000 萬種產(chǎn)品的矩陣，需要花上創(chuàng)建一個 25 萬名客戶和 1 萬種產(chǎn)品的矩陣 10 億倍那么多的時間。而且這一過程還需要常常重復(fù)。一旦收到新的評分，矩陣就已經(jīng)由期;在像亞馬遜這樣的公司，每一秒鐘都會收到新的評論。幸運的是，就算略微過期，矩陣仍舊能以一個挺不錯的水平運作。研究職員們也已經(jīng)在設(shè)計新的算法，為奇特值分解提供可用的近似值并明顯縮短計算時間。
Joseph A. Konstan 和 John Riedl 都是美國明尼蘇達大學(xué)的計算機科學(xué)教授。身為 IEEE 高級會員的 Konstan 和 IEEE 會士的 Riedl 介入創(chuàng)建了 MovieLens 推薦系統(tǒng)。在接下來的文章里面，兩位作者將繼承先容，推薦算法絕對不會向你推薦的是什么。
更正說明：文章發(fā)布之初，倒數(shù)第二天然段有關(guān)奇特值分解的內(nèi)容表述有誤，現(xiàn)已更改，特此說明。

上一條：網(wǎng)站分析數(shù)據(jù)收集方式詳解...

下一條：電商網(wǎng)站購買流程的一些思...

設(shè)計思維與出稿方法 談出稿方法論

設(shè)計思維與出稿方法談出稿方法論