什麼都不用做,一直看就對了!Netflix 怎麼打造世界上最精準的推薦引擎?(下)

「我們在獲取你的喜好資訊,而你什麼都不用做。」沃林斯基在比賽結束後這樣告訴我。訂戶甚至不需要再為電影評分,因為植入機上盒或網飛網站的一個程式,就會監測他們觀看的節目與電影,以及觀看方式,進而分辨訂戶的選擇是否值得記憶,以及如何在串流資料庫提供的電影複製這個經驗。
評論
評論

〉〉一直看一直看就對了!Netflix 怎麼打造世界上最精準的推薦引擎?(上)

用科技找出顧客喜歡的電影類型

一九九九年,包括哈斯汀在內、創辦網飛的軟體工程師打算建立一個推薦引擎時,剛開始的方法相當幼稚,是透過共同屬性,即類型、演員、導演、背景、喜劇或悲劇,來將電影分類。隨著電影庫存增加,這種方法被證明既繁瑣又不精確,因為無論賦予每部電影多少屬性,都無法判斷《麻雀變鳳凰》(Pretty Woman)和《美國舞男》(American Gigolo)的差別所在。這兩部電影都由李察.吉爾(Richard Gere)主演,都和賣春有關,也同樣以美國大城市做為背景,但是兩者不可能吸引到同一批觀眾。

早期的推薦引擎無法進行預測。廣為人知的一次失誤是,沃爾瑪網站推薦電影給尋找「黑人歷史月」(Black History Month)相關電影的購物者,結果推薦的竟然是《決戰猩球》(Planet of the Apes),該公司不得不發表道歉聲明,並且終止搜尋引擎。

接下來,網飛軟體工程師轉向一個「最接近」(nearest neighbor)的演算法,這種演算法主要是根據顧客的電影愛好來分組,而不是將影片的關係相互串連。

到了網飛獎公布時,訂戶已經對六萬部電影與電視節目進行十億次評分,這是一個豐富的資料集,只是 Cinematch 未能探究到其中微妙之處。

「貝爾科」及其他團隊從零開始,寫出各自的推薦演算法,而且他們在短短幾個月內,就經歷網飛花了好幾年時間才度過的學習曲線,之後更加以超越。他們建立的演算法,發現了龐大的資料集中沃林斯基、貝爾及科倫完全陌生的領域。演算法分析根據訂戶評分建立的模式,為每部影片指派專屬的「描述子」1(descriptor),這些描述子比導演、演員和類型等標籤更豐富也更精確,對於人類思維卻沒有實質意義。

例如,貝爾注意到,這個演算法「學習」到:喜歡伍迪.艾倫(Woody Allen)電影的訂戶,往往只關心他創作(也許是在他生涯的某個時期,或是特殊的設定)的特定類型電影,因此不會再推薦他導演的其他作品。

第二年,比賽的進展趨緩,尤其是「貝爾科」在網飛獎規則要求的一篇論文中,不小心洩露解決方案,只能眼睜睜看著別人藉助他們的方法逐漸逼近。貝爾科的進度在 Cinematch 的八.六%改進率上停滯不前。

第二年過了將近一半,科倫在雅虎的以色列研究中心找到工作,他不確定自己未來的發展方向,只好在離開前全力解決這個難題。他們的發展動能,時而緩慢增加○.五個百分點,時而慢慢提升○.一個百分點,於是貝爾和沃林斯基轉而關注排行榜,尋找能帶領他們走出低潮的新血。

一個被稱為「大混沌」(Big Chaos)的新團隊,由兩個年輕的奧地利數學家組成,根據「貝爾科」在第一年的成果為基礎,排名正在飛快上升,他們引起貝爾和沃林斯基的注意。在一場為了觀察雙方對問題的解決與個性是否吻合的科學「相親」中,貝爾向「安德瑞斯.托雪與麥可.亞赫里爾推薦研究」(Andreas Toscher and Michael Jahrer of Commendo Research)這個團隊發送電子郵件,探討合作的可能性。在一連串的電子郵件後,「貝爾科」團隊確信托雪和亞赫里爾會坦誠以待,於是雙方在跨越大西洋的電話中同意聯手,成為「大混沌中的貝爾科」(BellKor in Big Chaos)團隊。

他們接著開始尋找會影響人們用特定方式進行電影評分的環境與心理因素。訂戶在週末評分時,會比平時寬容還是更嚴苛?一次為很多部電影打分數,會有什麼後果?人們是否會根據心情而給出不同的評分,如果是的話,又要如何加以量化?嚴苛或寬容的個人性格,是否會隨著時間產生變化,如果是的話,變化的方式與原因又會是什麼?

每個問題都變成跟自身相關的一個有待測試的方程式,在結果一致且相關的情況下,這個方程式會被併入構成制勝公式的方程組中。

由於對 Cinematch 的改進,只增加了令人痛苦不堪的○.五和○.一個百分點,有少部分的電影仍然難以分類,並在第二年成為橫亙在網飛獎參賽選手及一百萬美元支付日之間的主要障礙。這些電影通常具有諷刺性或爭議性,到底算是傑作還是垃圾,觀眾與影評人有截然不同的看法。

這類電影的代表性作品,是獨立製作的荒誕片《拿破崙炸藥》(Napoleon Dynamite)(在貝爾科所有的模型中,這個片名出現最嚴重的錯誤率),以及具有政治傾向的電影,如麥可.摩爾(Michael Moore)執導的紀錄片《華氏九一一》(Fahrenheit 9/11),講述針對紐約和華盛頓的恐怖攻擊,還有第二次伊拉克戰爭。為《心靈偵探社》(I Heart Huckabees)、《愛情不用翻譯》、《海海人生》(The Life Aquaticwith Steve Zissou)和《受難記:最後的激情》(The Passion of the Christ)等類的電影評分,當存在風險時,對於評分的眾多訂戶會站在哪一方的預測能力就會下降,因為之前的評分並不會呈現人們對這類電影的感受。

貝爾推論,《拿破崙炸藥》問題的解決方案,不僅在於找到近似的電影,還要在不夠了解某個訂戶的情況下,讓演算法全部進行預測。這樣的結果,可能會形成一個這樣的方程式—忽略了那些評分過低,或者對某類型電影評分太高,或是少數評分一直忽高忽低的訂戶。

儘管第二年有了開創性見解,但團隊也只在前一年的進展基礎上勉強提高了一%。「大混沌中的貝爾科」再次獲得五萬美元的進步獎,他們拿到的獎項越來越多,還包括前一年贏得、放在美國 AT&T 香儂實驗室大廳的好萊塢星光大道之星的俗氣複製品。

網飛的貝內特(二○○九年退休),很懷疑是否有團隊能得到百萬大獎。比賽在同年一月再次隆重啟動。隨著各團隊為了贏得大獎,拚命拉近與「大混沌中的貝爾科」成果相差不到一%的差距,導致排行榜上競爭激烈。

各團隊開始大規模結合,希望結合彼此的方法,有助於跨越最後幾個千分點的差距,超越一○%的臨界值。「大混沌中的貝爾科」也開始尋找新思維,他們找到兩個法裔加拿大軟體程式設計師馬丁.沙貝爾(Martin Chabbert)與馬丁.皮奧特(Martin Piotte),兩人結合進步獎獲獎方程式和自己的非正統解決方案,藉此衝進排行榜。

沙貝爾與皮奧特自稱「實用主義理論」團隊,他們不曾接受任何資料探勘方法的培訓,而且刻意不去學習比賽頭兩年產生的研究結果。他們說自己喜歡的解決方案,是藉由發現訂戶的資料或心理因素的模式,而後轉化為有效的軟體模型。他們排斥外部電影資料,注重預測評分結果,而不會試著利用公式加以說明。

「這個演算法能在資料的無盡灰暗中找出真正的脈絡,比任何一種隸屬於『黑箱』或『白箱』的元資料(metadata)強大得多。」沙貝爾說。

他們的創造力,讓這個現在稱為「貝爾科的實用主義混沌」(BellKor’s Pragmatic Chaos)聯合團隊的改進速度,提高了關鍵性的○.六五%,讓他們得以在二○○九年六月二十六日,突破一○%_ 這個臨界值。

按照網飛獎的規則,在為期三十天的最後挑戰期,參賽團隊可以挑戰貝爾科可能勝出的提案— 這也讓該團隊的所有人傷透腦筋。幾個名列前茅的團隊結合為「大合唱」(Ensemble)團隊,並於二○○九年七月二十五日,提交一個比貝爾科領先○.○四%的解決方案。

在競賽結束前手忙腳亂的二十四小時,科倫和大混沌團隊持續保持聯絡,努力從方程組中提高○.一或○.二個百分點的預測能力。他們交出了最後、也是最好的解決方案,各自在四個國家等待競賽落幕。二十分鐘後,「大合唱」的結果,似乎比貝爾科領先了○.○一%。

比賽結束大約一個小時,網飛陷入沉寂。正在西雅圖享受家族旅遊的沃林斯基,每隔一段時間就會溜到旁邊確認電子郵件,沒想到卻一無所獲。當初他們贏得兩項進步獎時,網飛在數分鐘內就會發通知。

心情沮喪的沃林斯基,與回到紐澤西州的貝爾及其他團隊成員交換意見,決定要把手機關掉。只是,他還是忍不住點選了「重新整理」鍵,電子郵件下載時,他終於看到了網飛的訊息:他們贏了。

更先進的推薦系統誕生了

「貝爾科的實用主義混沌」團隊成員第一次見面,是在紐約市四季飯店(Four SeasonsHotel)的記者會上接受哈斯汀頒發獎章,與會的有美國 AT&T 實驗室主任、哈斯汀、網飛技術長杭特、「大合唱」成員,還有一群採訪記者。

哈斯汀本來不想到紐約召開記者會,希望在洛斯加托斯舉行,但是史瓦塞堅持這麼做。

史瓦塞知道,這個獎項及其將近三年來的爭奪者,已經吸引全世界科學界與眾多一般人的關注。他們的成就,值得透過全面性的正式典禮加以慶祝,儀式上要有演講、頒發金牌獎章給優勝者,還要與記者完整對話。

典禮結束後,獲勝團隊召開技術簡報會議,說明他們如何獲勝。到場人數已經讓史瓦塞非常興奮,所有媒體幾乎都願意留下來,聽取極其晦澀且長達一個小時的介紹,讓他喜出望外。這場活動凸顯出史瓦塞三年來在幕後所做的扎實工作,他激發了媒體對一場科學競賽產生興趣。為了慶祝自己當天成功製造頭條新聞,他從四季飯店的轉角處走出,獨自享用價格不菲卻平淡無奇的壽司晚餐—所有樂趣宣告結束,讓他感到有點淒涼。

網飛獎的記者會,及其網路橫幅廣告(banner)、醒目的道具和高科技硬體,後來成為低調的網飛國際服務發表會的範本。

貝爾和沃林斯基並未留下這筆獎金,而是捐贈給各自想捐助的慈善機構。根據競賽規則,美國 AT&T 授權網飛使用勝出的演算法,並應用到自己的 U-verse 電視服務中,以監測使用者的收視習慣,推薦他們可能喜歡的節目。

這次比賽打造出先進的推薦系統,能從行為線索中讀取人們的電影喜好,也不再需要評分系統過多的輸入資訊,特別是搭配一個影片串流應用程式時。例如,這個系統可以快速推測:特定訂戶在週間的某幾個晚上看喜劇、在週末盡情欣賞以警察為主角的電視影集,或是在特定演員或場景出現時,倒帶觀看劇情的情況。

「我們在獲取你的喜好資訊,而你什麼都不用做。」沃林斯基在比賽結束後這樣告訴我。訂戶甚至不需要再為電影評分,因為植入機上盒或網飛網站的一個程式,就會監測他們觀看的節目與電影,以及觀看方式,進而分辨訂戶的選擇是否值得記憶,以及如何在串流資料庫提供的電影複製這個經驗。如果演算法精確的機會比失誤來得多,就具備了一個成功品牌的要素—消費者的信任。

Cinematch 演算法代表了行銷和技術的緊密結合,賦予網飛如此非凡的成就。由於消費者在有限的 DVD 資料庫中找到想要的東西,就會離開錄影帶門市,並且上網追隨網飛。他們對網飛的信任(藉由藍道夫的直觀使用者介面與無與倫比的顧客服務,並結合哈斯汀的美妙演算法),讓公司得以將電影租片模式順利轉向影片串流,而這曾是許多企業慘遭滑鐵盧的領域。

好友人數


精選熱門好工作

行銷企劃主管

安力國際開發股份有限公司
臺北市.台灣

獎勵 NT$15,000

人力資源經(副)理 / HR Professional

布爾喬亞公關顧問股份有限公司
臺北市.台灣

獎勵 NT$15,000

Android 工程師

FunNow
臺北市.台灣

獎勵 NT$15,000