bevictor伟德官网
學校主頁 | 中文 | English
 
 
 
 
 
 

基于機器學習模型的糖尿病帶病人群醫療風險保費測算

[發布日期]:2020-12-30  [浏覽次數]:

這篇文章是在“醫險創新”的大背景下聚焦于糖尿病帶病人群醫療風險保費測算,是中國金融科技研究中心一系列健康财富融合研究的一部分。

這篇文章主要利用廣義線性模型和機器學習模型——LassoRFLightGBMXGboost,對糖尿病帶病人群住院費用進行估算。文章還對住院率、社保支付比例進行測算,并結合不同的免賠額和自付比例,對年齡、性别、并發症、主要合并症做敏感性分析,預測保費。

模型

一、費用預測模型:

本文使用的模型是:廣義線性模型、LasooRFXGBoostLightGBM

廣義線性模型基于指數族分布,通過聯結函數将自變量的線性組合和因變量聯系起來,是常用的非壽險定價模型。而且廣義線性模型的因變量的方差是其均值的函數,這一特點也很适合保險公司的數據。

      Lasso回歸在目标函數中通過添加正則項(L1範式)有效地解決過拟合、多重共線性問題,還可以實現特征選擇的功能。

随機森林、XGBoostLightGBM都是集成學習方法(若對集成學習不了解,可翻至公衆号119号推文)。RF屬于bagging集成學習方法,XGBoostLightGBM屬于boosting集成學習方法。RF簡單、容易實現、計算開銷小,還可以處理高維度數據,被廣泛應用于風險因子重要性測度、準備金相關測算等領域。XGBoostChenGuestrin(2016)提出的一種集成學習模型,是GBDT算法(GradientBoostingDecisionTreeGBDT)的工程實現。XGBoost對損失函數進行二階泰勒展開,并加入了正則項來防止過拟合,從而進一步提高了模型泛化能力。LightGBM基于 GBDT 數據模型,同時加入了梯度單邊采樣技術和獨立特征合并技術,采用更高效率的葉子生長算法,速度得到很大提升。

二、住院率模型

,類似估計。

這裡為糖尿病主要診斷人數和糖尿病次要診斷人數,為對應時間的門診人數,為通過Lee-Carter模型估計的發病率。該式是一個線性結構,可以通過最小化誤差求解一個最優結果

三定價模型

保單純保費p的測算公式:

COB為社保等其他保障支付所占總費用比例,d為免賠額,c為賠付比例,E(N)是住院率。

 

數據和模型應用

本文選取20152017年來自全國30個省、自治區和直轄市的主要診斷或者其他診斷的住院病例共計3835960條,表2是變量類型及描述性統計表

模型預測效果如下表所示。

其中LightGBM拟合效果最佳,因此選用LightGBM預測住院費用

費用預測結果如下圖所示:

5、圖6

保費測算與分析

1 基礎因素的定價影響與分析

從下面的圖表可以看出年齡、地區、性别、社保類型、婚姻、并發症、重點合并症都會影響最後的保費測算結果。

2綜合測算結果

1214給出了以某省為例的帶有糖尿病并發症的保費綜合測算結果。該結果測算的保費為精算純保費。

結論

本研究在醫療保險協同創新的背景下,通過機器學習方法,考慮不同因素的“非标準體”保費測算,并給出了不同因素對保費的影響,從而支持針對非标準體的定價,為保險公司開發帶病投保的産品,進行保費測算提供基礎。從應用視角看,借助機器學習的保費測算還可以為保險反欺詐和運營控費提供支持

以上内容隻是對論文的簡單介紹,如果想要深入了解論文内容,可點擊左下角查看原文。

 



上一條:多位中心成員參與的《金融科技學》教材由高等教育出版社出版 下一條: 中心成員助力金融科技行業發展

關閉

 
Baidu
sogou