這篇文章是在“醫險創新”的大背景下聚焦于糖尿病帶病人群醫療風險保費測算,是中國金融科技研究中心一系列健康财富融合研究的一部分。
這篇文章主要利用廣義線性模型和機器學習模型——Lasso、RF、LightGBM、XGboost,對糖尿病帶病人群住院費用進行估算。文章還對住院率、社保支付比例進行測算,并結合不同的免賠額和自付比例,對年齡、性别、并發症、主要合并症做敏感性分析,預測保費。
模型
一、費用預測模型:
本文使用的模型是:廣義線性模型、Lasoo、RF、XGBoost和LightGBM。
廣義線性模型基于指數族分布,通過聯結函數将自變量的線性組合和因變量聯系起來,是常用的非壽險定價模型。而且廣義線性模型的因變量的方差是其均值的函數,這一特點也很适合保險公司的數據。
Lasso回歸在目标函數中通過添加正則項(L1範式)有效地解決過拟合、多重共線性問題,還可以實現特征選擇的功能。
随機森林、XGBoost和LightGBM都是集成學習方法(若對集成學習不了解,可翻至公衆号1月19号推文)。RF屬于bagging集成學習方法,XGBoost、LightGBM屬于boosting集成學習方法。RF簡單、容易實現、計算開銷小,還可以處理高維度數據,被廣泛應用于風險因子重要性測度、準備金相關測算等領域。XGBoost是Chen和Guestrin(2016)提出的一種集成學習模型,是GBDT算法(GradientBoostingDecisionTree,GBDT)的工程實現。XGBoost對損失函數進行二階泰勒展開,并加入了正則項來防止過拟合,從而進一步提高了模型泛化能力。LightGBM基于 GBDT 數據模型,同時加入了梯度單邊采樣技術和獨立特征合并技術,采用更高效率的葉子生長算法,速度得到很大提升。
二、住院率模型
,類似估計。
這裡為糖尿病主要診斷人數和糖尿病次要診斷人數,為對應時間的門診人數,為通過Lee-Carter模型估計的發病率。該式是一個線性結構,可以通過最小化誤差求解一個最優結果
三定價模型
保單純保費p的測算公式:
COB為社保等其他保障支付所占總費用比例,d為免賠額,c為賠付比例,E(N)是住院率。
數據和模型應用
本文選取2015~2017年來自全國30個省、自治區和直轄市的主要診斷或者其他診斷的住院病例共計3835960條,表2是變量類型及描述性統計表
模型預測效果如下表所示。
其中LightGBM拟合效果最佳,因此選用LightGBM預測住院費用
費用預測結果如下圖所示:
圖5、圖6
保費測算與分析
1 基礎因素的定價影響與分析
從下面的圖表可以看出年齡、地區、性别、社保類型、婚姻、并發症、重點合并症都會影響最後的保費測算結果。
2綜合測算結果
圖12~14給出了以某省為例的帶有糖尿病并發症的保費綜合測算結果。該結果測算的保費為精算純保費。
結論
本研究在醫療保險協同創新的背景下,通過機器學習方法,考慮不同因素的“非标準體”保費測算,并給出了不同因素對保費的影響,從而支持針對非标準體的定價,為保險公司開發帶病投保的産品,進行保費測算提供基礎。從應用視角看,借助機器學習的保費測算還可以為保險反欺詐和運營控費提供支持
以上内容隻是對論文的簡單介紹,如果想要深入了解論文内容,可點擊左下角查看原文。