online gambling singapore online gambling singapore online slot malaysia online slot malaysia mega888 malaysia slot gacor live casino malaysia online betting malaysia mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 大數據探索航空資料系列-達美航空

繼續本系列主題,本次介紹的應用是來自達美航空(Delta Air Lines),達美航空在這幾年扶搖直上,於2010年完成跟西北航空合併之後,成為全世界航線里程與客運機隊規模最大的航空公司。

Logo/達美航空、攝影/Jerry



這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章,介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。

 

Myles Harrison從 達美航空的官方網站(Delta.com)取出客機本身的數據,以AIRBUS A330-200為例,就包含巡行航速(Cruising speed)、載客數(Accommodation)等16種可以被量化的資料,像Wi-Fi就可以用Y跟N來做表示,網站上一共提供了44架客機的數 據。

※原文中提到的客機型號為AIRBUS A319 VIP,可被量化的屬性共33種。

筆者這邊整理他分析的過程,有興趣可以回到原文去查看他所撰寫的R原始碼。

  1. 進行探索式資料分析(Exploratory data analysis),發現這些數據有許多正相關(Positive correlation)
  2. 接著採用主成分分析(Principal component analysis)進行降維的動作,找到可以解釋85%的數據的主成分。 
  3. 最後採用K平均算法(k-means)將數據分成4種群組。

原作整理分析結果如下:


  1. 第1個群組只有一架飛機,就是Airbus A319 VIP,本身就是有錢人才會搭的飛機。
  2. 第2個群組為CRJ 100/200's、E120 、ERJ-145,屬於載客量較小的飛機。
  3. 剩下3跟4的群組為常見的客機,像是波音757、767等。

看到這也許有些朋友會覺得,哎呀結果看起來沒什麼特別,甚至覺得沒有管理意涵,因為這些客機組合本來就是航空公司會知道的事情,像上述的第1個群組與第2個群組用載客量就可以分辨。

但事實上原作對筆者來看,是充滿想像空間的,我們可以嘗試透過資料組合來做很多事情,筆者針對管理與工程的應用舉出兩個,譬如:


  1. 將乘客資料與這些數據整合一起,找到乘客群組,客製化行銷。
  2. 將每一台維修資料整合一起,找到經常維修的群組,加強客機的維運。

傳統的敘述統計只能幫我們找到單項或交叉的統計數據,但是資料探勘的方法卻是可以找出一堆數據組合的結果,尤其是類別型的資料。在大數據的環境下,可以組 合的資料又非常的多,因此筆者認為善用數據組合(Data matching)這樣的概念,並且搭配領域知識,相信可以挖掘到不少好商機。

最後,這篇文章與上一篇最大的不同在於不是告訴我們「做什麼」,而是「怎麼做」,因此可以作為實作的參考文章,對R程式碼有興趣朋友可以回原文觀賞。

參考資料:
PCA and K-means Clustering of Delta Aircraft 


k-means clustering

本文同步刊載於Data Science Program 資料科學計畫

資料來源:資料科學實驗室


留下你的回應

以訪客張貼回應

0

在此對話中的人們

YOU MAY BE INTERESTED