麵向缺失數據的客戶價值區分集成模型研究
肖進、賀昌政
(四川大學工商管理學院四川成都610064)
摘要:當客戶數據包含缺失時,已有的大多數研究工作采用“兩步式”客戶價值區分策略。將集成學習技術與數據分組處理(group method of data handling,GMDH)理論相結合,提出了麵向缺失數據的客戶價值區分“一步式”集成模型GDCEMV。實證分析表明,與已有的4種“兩步式”策略以及1種“一步式”策略相比,GDCEMV在客戶數據包含缺失情況下能夠取得更好的客戶價值區分效果。
關鍵詞:客戶價值區分;缺失數據;“一步式”集成模型;數據分組處理;集成學習
中圖分類號:F830.91.文獻標識碼:A
0.引言
客戶價值區分是根據客戶為企業創造價值的能力對客戶進行分類,提供針對性的產品、服務和營銷模式的過程,能夠使企業更合理的分配資源,有效地降低成本,同時獲得更有利可圖的市場滲透。客戶信用評估、客戶流失預測、客戶交叉銷售等均屬於客戶價值區分的範疇,它們都是按價值的不同維度對客戶進行區分,比如客戶信用評估是按客戶當前價值的大小進行分類,而客戶流失預測則按客戶潛在價值的大小來分類。
在客戶價值區分中,客戶數據在很多時候都包含缺失數據。如在利用調查問卷搜集數據時,由於客戶不願回答一些敏感的問題(如收入、年齡),或沒有足夠的知識和經驗回答某些問題,都有可能造成數據缺失。Yim等學者通過問卷調查搜集數據來研究顧客滿意度問題,他們指出在回收的450份問卷中有90份含有大量的缺失數據。不僅是來自問卷的數據,很多來自企業的CRM數據庫的客戶資料數據也常常包含缺失。以全球500強企業霍尼韋爾(Honeywell)為例,雖然他們的數據收集有一套嚴格的規範,但該公司的客戶數據庫中數據缺失率仍然高達50%!
目前常用的客戶價值區分模型如神經網絡、支持向量機等都要求模型的訓練集數據必須是完整的,隻要待分類客戶有一個特征的值是缺失的,模型就沒有辦法對其進行分類。為了解決這一問題,Kim等學者提出了一個客戶價值區分的3階段框架:1)數據收集和預處理;2)客戶價值分類建模;3)營銷策略的製定。在這一框架下,當客戶數據包含缺失時,大量研究是先對缺失數據進行預處理,使數據集變得完整,然後在完整的數據集上建立客戶價值區分模型,這兩個階段是彼此相對獨立進行的,我們稱之為“兩步式”客戶價值區分策略。其中使用得最多的預處理方法還是插補法,包括單值插補方法如均值替代、線性回歸插補、EM插補和多重插補方法。如Lessmann and Vo提出了一種基於支持向量機的層次參考模型用於信用評估,在建立模型之前采用均值替代來處理缺失數據,Shao等人在進行客戶流失預測時,根據屬性是連續還是離散而采用不同的預處理方案,對於連續屬性,采用均值替代;對於離散的屬性,則將缺失值看做該變量的一種新的狀態。然而,插補法仍有不足之處,常用的插補方法都是基於隨機缺失假設的,且都需要假定數據服從某一分布模型,但在實際應用中,各種缺失方式經常是交織在一起的,采用的假設、模型不合理,將影響後繼分類器的學習效果。因此,“兩步式”策略有待改進。
為了彌補插補法的不足,近年來在數據挖掘領域,有學者嚐試使用集成學習技術直接構建麵向缺失數據的分類模型。如Krause等人提出了一種直接為含有缺失的數據進行分類的集成方法learn++ MF(Learn++ for Missing Features),簡稱LMF。該方法首先從特征空間選擇一係列特征子集,通過映射計算得到若幹訓練子集,並在每個訓練子集上產生一個弱的基本分類器構成基分類器池,然後對於每一個待分類樣本x*(可能含有缺失特征),用基分類器池中沒有使用x*中的缺失特征的那些基本分類器為其分類,最後將這些基分類器的分類結果進行投票得到最終分類結果。LMF屬於“一步式”客戶價值區分的範疇。實驗分析表明,LMF具有較好的分類性能。然而,需要指出的是,該方法著重研究了測試集中包含缺失的情形,沒有考慮訓練集中也包含缺失的情形,但在現實的客戶分類問題中,訓練集和測試集通常都存在數據缺失,同時,Krause等人也指出,當某一測試樣本包含較多缺失特征時,很可能在基分類器池中一個可行的分類器都找不到,這時LMF方法將無法對其進行分類。最後,對於每一個待分類樣本x*,LMF方法將基分類器池中滿足要求的全部基分類器的分類結果通過多數投票來得到最終分類結果,但這些基分類器之間可能存在冗餘,因此若能從中選擇一個適當的子集進行集成,將有望進一步提高分類性能。