《保險研究》第九期刊登了中心成員的研究成果《考慮老年癡呆症的醫療險住院費用預測與比較——基于機器學習模型》。該研究成果是3篇醫險創新融合研究的第1篇,同時也是醫險創新系統的核心技術之一——該系統作為健康财富管理平台的組成部分預計将于2020年底上線。
這篇文章主要利用廣義線性模型和三種機器學習模型——Lasso、RF、LightGBM,對老年癡呆症患者住院費用進行估算。雖然機器學習模型的解釋性不如傳統的廣義線性模型,但是文中機器學習模型的拟合效果卻普遍優于GLM。最後,文章還對不同年齡段的的個體做費用作出預測,并結合不同的免賠額和自付比例測算了保費。
本文使用的模型是:廣義線性模型、Lasoo、随機森林和LightGBM。廣義線性模型基于指數族分布,通過聯結函數将自變量的線性組合和因變量聯系起來,是常用的非壽險定價模型。而且廣義線性模型的因變量的方差是其均值的函數,這一特點也很适合保險公司的數據。Lasso回歸在目标函數中通過添加正則項(L1範式)有效地解決過拟合、多重共線性問題,還可以實現特征選擇的功能。随機森林和LightGBM都是集成學習方法(若對集成學習不了解,可翻至公衆号1月19号推文)。RF屬于bagging集成學習方法,LightGBM屬于boosting集成學習方法。RF簡單、容易實現、計算開銷小,還可以處理高維度數據,被廣泛應用于風險因子重要性測度、準備金相關測算等領域。LightGBM基于 GBDT 數據模型,同時加入了梯度單邊采樣技術和獨立特征合并技術,采用更高效率的葉子生長算法,速度得到很大提升。
文章數據選取2015-2017年來自全國30個省、自治區和直轄市,來自綜合醫院、腦科專科醫院、精神專科醫院、其他專科醫院等超過600家醫院的101,341住院人次。測算費用的變量類型大體分為保單屬性、疾病屬性、客戶屬性。具體如下表所示
将上述變量輸入GLM模型和機器學習模型,模型預測效果如下表所示:
模型拟合效果對比
GLM相較于OLS雖然在對數據分布的要求上有所降低,但仍需要滿足數據服從指數族分布,既定的幾種連接函數不一定能夠有效捕捉數據的非線性結構,而機器學習模型對數據的分布要求更低,所以GLM的拟合效果不如機器學習模型。從文章中模型拟合結果可以看出,機器學習模型在文中的三個評價指标下都普遍優于GLM。
由于RF是基于決策樹模型的集成學習,因此文中還給出了調整并發症前後的RF模型影響因素大小排序,可以看出并發症對住院費用有較大的影響,年齡對費用的影響效果最明顯。
随機森林影響因素大小排序( 調整并發症前)
随機森林影響因素大小排序( 調整并發症後)
文章最後兩部分對費用和保費做了測算,結果如圖所示,從中可以看出随着年齡增加住院費用會不斷增長,而免賠額的增加則會大幅降低保費,自付比例的上升也會降低保費。
這篇文章證實機器學習方法能夠較為準确地為帶病體住院費用進行預測,有利于擴大投保人,為健康險精算定價創新提供了思路。老年性癡呆患病人群數持續增長為照護人帶來巨大的精神壓力、經濟和心理負擔,且研究表明老年性癡呆商業保險的覆蓋嚴重不足,因此本文研究還可以幫助創新産品,滿足老年人的健康需求,具有重要的實際應用意義。