網路電商霸主亞馬遜在 1997 年上市時的股東信中有一段文字:「今天,電子商務為顧客省下了寶貴的時間和金錢;明天,通過個人化的服務,電子商務會加速探索的過程。」在 2017 年,就算經過近 20 年的時間,「個人化服務」在許多產業中,仍是一間公司重要的成功的重要因素,而「個人化商品推薦」在這個領域扮演著舉足輕重的角色。


人工的商品推薦方法已不再適用

人工的商品推薦方法在大數據時代,遇到了不少問題。首先,電商平台往往擁有大量的商品資訊,但使用者購買商品的紀錄卻相對量少,使得我們難以運用過去的消費紀錄,辨認出值得推薦的商品,常常需要等到商品大賣後,才能用事後諸葛的方式猜測該商品大賣的原因。雖然對市場夠靈敏的品類經理或行銷人員,可能有機會提早辨認出值得推薦的商品,但這樣的人往往很少,而且他們也難以提出客觀的資料,說服其他同事推廣他們認為會大賣的產品。更重要的是,能夠大賣的產品一季可能也就那麼一兩項,但如果能更有效率、更大量地推薦「能在小眾族群賣得不錯的商品」,累積下來的銷量將為企業帶來龐大獲利。

另一方面,過去我們時常請行銷人員以人工的方式進行客戶分群 (customer segmentation),並針對不同的目標客戶 (target audience) 以小編的方式進行推薦與溝通,以達到提升銷量與客戶關係管理的目標。然而在大數據時代,使用者資料量大而駁雜,若要持續以人工的方式進行分群與推薦,往往會需要大量人力,增加企業成本,同時也較難確認分群結果的可靠性,因而降低推薦商品成交的可能性。

透過機器學習 (machine learning) 我們將有能力建立更精準的「個人化商品推薦系統」,除了能夠自動化的分析客戶與商品資料,更能抓出人力難以辨別的隱藏偏好,幫助電商平台達成真正的「個人化商品推薦」。同時,推薦系統能夠讓客戶在想到要買該商品「之前」就先看到商品,在提升消費者體驗的同時,更能增加交易成功的機率。接下來,我們將介紹推薦系統的運作原理,以及幾種常見的推薦系統演算法。


運用資料進行商品推薦

為了能夠讓人工智慧有效率的學習使用者偏好,「資料蒐集」是建立有效推薦系統的第一步。一般來說,推薦系統主要運用四種類型的資料,分別是:評分資料 (rating data)、使用行為資料 (behavioral pattern data)、交易資料 (transaction data) 以及產品資料 (product data)。評分資料通常是使用者對於商品的評分紀錄,可以是尺度的分數,如評分為 1, 2, 3, 4, 5 分,也可以是連續的分數,如 1–100 分任一個分數。使用行為資料主要是使用者在平台上的操作軌跡,可能包含的資料有:點擊率 (click-through rate)、跳出率 (bounce rate) 、搜尋紀錄等。交易資料是使用者進行交易當下蒐集到的資料,如:購買日期與時間、商品種類、購買價格、折價券金額等資訊。產品資料則是各個產品相關的資訊,可能是製造商、生產日期、品類、價格,也可以是文字的資料,如產品介紹文字等。

大部分的公司在建立資料庫時,應該都有下意識地進行蒐集上述這些資料,但要讓電腦聰明而有效率地分析這些資料,是需要下一番苦工的。一般而言,我們會運用上述的資料得到兩種類型的相關性:一是商品與商品間的相似性 (item-to-item similarity) ,另一種則是客戶與客戶間的相似性 (people-to-people similarity) 。針對「商品與商品間的相似性」,最常見的演算法便是「關聯法則 (association rule) 」;針對「客戶與客戶間的相似性」,最常見的演算法便是「使用者-使用者的協同過濾 (user-user collaborative filtering) 」。


關聯法則 (Association Rule)

關聯法則是「購物籃分析 (market-basket analysis) 」中最常使用的分析工具,購物籃分析是在顧客同一次購買紀錄,該筆紀錄中購買商品組成的相關性進行研究。比如說,現在有產品組合 與產品組合 Y,關聯法則希望分析如果一個客戶購買了產品組合 X,是否該客戶購買產品組合Y的機率會上升,也就是想要根據過去的交易資料,評估「購買 X → 購買 Y」的關聯法則是否成立,如果成立,那麼一旦發現某個客戶購買了產品組合 X,就可以進一步推薦他購買產品組合 Y,以協助商家進行同類性擺設 (affinity positioning) 或交叉銷售 (cross selling)。

從機率的角度出發,就是想了解假設消費者已經購買產品組合 X,則購買產品組合Y的「條件機率」P(Y|X) ,是否比直接購買產品組合 Y 的機率 P(Y) 更高,如果 P(Y|X) 超出 P(Y)許多,我們便可以認定「購買產品組合 X 的消費者有更強的傾向購買產品組合 Y」,也就是「購買 X → 購買 Y」的關聯法則成立。因此,關聯法則最重要的一步就是估計 P(Y|X) 與 P(Y)。

因此,我們會透過資料去計算所有人中購買產品組合 X 的比率,作為 P(X) 的估計值,也會透過資料去計算所有人中購買產品組合 Y 的比率,作為 P(Y) 的估計值,而根據交易資料計算出來購買產品組合X的比率,就稱為 X 的支持度 (support),記作 supp(X)。同時我們也會試著去估計條件機率 P(Y|X),估計的方法就是計算「在所有購買產品組合 中的人,有多少比率會去購買產品組合 」,也就是 supp(X∩Y) / supp(X),該比率稱作 XY 的信賴度 (confidence),記作 conf(XY)。有了 P(Y) 的估計值 supp(Y) 與 P(Y|X) 的估計值 conf(X→Y),就可以計算增益 (lyft),定義為 lyft(XY) = conf(XY) / supp(Y),當 lyft(XY) 大於1時,我們會認為 P(Y|X) > P(Y),也就是購買產品組合 X 的消費者更有可能購買產品組合 Y ;反之,當 lyft(XY) < 1 時,則代表購買產品組合 X 的消費者較不可能購買產品組合 Y


使用者-使用者協同過濾 (User-user Collaborative Filtering)

另一種常見的推薦系統演算法是協同過濾,協同過濾與關聯法則的目標都在於建立「相關性」,但與關聯法則不同的是,協同過濾除了商品與商品間的相關性之外,也能夠建立消費者與消費者的相關性。為什麼要找消費者之間的相關性呢?演算法背後的假設是,有相似購買行為的人,對同一個商品很可能有相同的偏好。舉例來說,假設現在有 個客戶1, 2, …, n,有商品X1, X2, …, Xd,如果我們能夠蒐集到客戶對於特定商品的評分或是購買次數,可得到下面的效用矩陣 (utility matrix),其中 1 代表喜歡,-1 代表不喜歡,0 代表尚未評分。

 

接著,我們可以定義客戶 i 與客戶 j 的相似度 (similarity)。首先,將客戶 i 對於所有商品的評分與客戶 j 對於所有商品的評分記為 2 個向量 (vector)。相似度的衡量指標有許多種,如:經常被使用的 cosine 相似程度,計算了客戶 i 與客戶 j 兩向量夾角的 cosine 值,如果兩向量的夾角為 0 度,代表客戶 i 與客戶 j 評分的模式完全一致,此時 cosine 值為 1;如果兩向量的夾角為 180度,代表客戶 i 與客戶 j 評分的模式完全不一致,此時cosine值為 -1。因此,若相似度指標如果越靠近 1,代表客戶 i 與客戶 j 的相似度越高,若越靠近 -1,則代表兩客戶間的評分相去甚遠。

有了相似度,若遇到客戶 對於商品 X的評分為 0 時,我們可以將其他所有客戶對於商品 X的評分,以他和客戶i的相似度進行加權平均,得到客戶 對於商品 X的預測分數。,我們便可以將預測分數較高的商品優先推薦給該客戶以促成交易。


個人化的推薦確實能提升銷量

現在許多網路平台積極尋找成長駭客 (growth hacker),希望他們透過數位操作,以低成本的方式提升初訪客戶或是流量,以增加客戶數量,這是個人化服務難以達成的目標。然而,當客戶已經有幾次消費紀錄之後,增加這些回訪客的購買機率,將能以指數成長的方式提升公司的銷售額。麥肯錫在其報告中指出,一間中南美洲的銀行透過大量的交易資料進行購物籃分析,協助其分行行員進行銷售以及商品推薦服務,提升了3–5% 的獲利。Netflix 更在論文中提到,他們有 80% 的觀看時間是來自推薦系統的推薦,僅有 20% 的觀看時間是來自使用者主動搜尋的結果。

然而,一般中型企業要如 Netflix 一般,有一個近百人的大型團隊專門負責建立推薦系統,是相當不切實際的。此外,因為資料團隊沒有足夠專業的知識,且時間與資源有限,一般企業內部的推薦系統往往成效不彰。在成本合理的情況下,想要擁有一個預測表現優異的推薦系統,最佳的方式是:尋找外部的推薦系統服務,在顯著降低建置成本的情況下,讓專家為公司設計適合公司且表現穩健的推薦系統。


參考資料

  1. Mckinsey & Company,Big Data and Advanced Analytics,頁16,取自https://goo.gl/lBa0nE
  2. Gomez-Uribe, Carlos A., and Neil Hunt. “The netflix recommender system: Algorithms, business value, and innovation.” ACM Transactions on Management Information Systems (TMIS) 6.4 (2016): 13.
  3. Su, Xiaoyuan, and Taghi M. Khoshgoftaar. “A survey of collaborative filtering techniques.” Advances in artificial intelligence 2009 (2009): 4.

作者介紹

黃大維╱優拓資訊產業分析師

國立臺灣大學統計碩士,研究專長為財務時間序列、降維分析、機器學習,同時經營部落格 David’s Perspective,時常分享從商業角度切入大數據與資料科學的各種獨到觀點。

過往經歷包含:
1. 歐酷網路 (CHOCOLABS) 實習資料科學家,進行使用者行為巨量資料分析
2. 科技部「大專學生研究計畫」,研究主題為「相對隱含波動率指數選擇權統計套利」
3. 北京大學莙政學者暑期研究生,研究主題為「應用多變量方法於中國銀行業績效分析」


 

轉貼自: YOCTOL


留下你的回應

以訪客張貼回應

0

在此對話中的人們

熱門標籤雲

訪客 - Case Study Help
訪客 - Do My Medical Dissertation Writing
Do My Medical Dissertation Writing
Pretty helpful material, much thanks for this article
Tutuapp is an app store same as google play store but extends the limits more than google play store...
訪客 - Homework Help
Homework Help I personally like your post, you have shared good article. It will help me in great de...
訪客 - Nordictrack Treadmills Reviews 2018
Nordictrack Treadmills Reviews 2018 Great Information,it has lot for stuff which is informative.I wi...