當前位置：首頁>>科研動态>>科研機構>>中國金融科技研究中心>>中心動态>>正文

基于機器學習模型的糖尿病帶病人群醫療風險保費測算

[發布日期]:2020-12-30 [浏覽次數]:

這篇文章是在“醫險創新”的大背景下聚焦于糖尿病帶病人群醫療風險保費測算，是中國金融科技研究中心一系列健康财富融合研究的一部分。

這篇文章主要利用廣義線性模型和機器學習模型——Lasso、RF、LightGBM、XGboost，對糖尿病帶病人群住院費用進行估算。文章還對住院率、社保支付比例進行測算，并結合不同的免賠額和自付比例，對年齡、性别、并發症、主要合并症做敏感性分析，預測保費。

模型

一、費用預測模型：

本文使用的模型是：廣義線性模型、Lasoo、RF、XGBoost和LightGBM。

廣義線性模型基于指數族分布，通過聯結函數将自變量的線性組合和因變量聯系起來，是常用的非壽險定價模型。而且廣義線性模型的因變量的方差是其均值的函數，這一特點也很适合保險公司的數據。

Lasso回歸在目标函數中通過添加正則項（L1範式）有效地解決過拟合、多重共線性問題，還可以實現特征選擇的功能。

随機森林、XGBoost和LightGBM都是集成學習方法（若對集成學習不了解，可翻至公衆号1月19号推文）。RF屬于bagging集成學習方法，XGBoost、LightGBM屬于boosting集成學習方法。RF簡單、容易實現、計算開銷小，還可以處理高維度數據，被廣泛應用于風險因子重要性測度、準備金相關測算等領域。XGBoost是Chen和Guestrin(2016)提出的一種集成學習模型，是GBDT算法(GradientBoostingDecisionTree，GBDT)的工程實現。XGBoost對損失函數進行二階泰勒展開，并加入了正則項來防止過拟合，從而進一步提高了模型泛化能力。LightGBM基于 GBDT 數據模型，同時加入了梯度單邊采樣技術和獨立特征合并技術，采用更高效率的葉子生長算法，速度得到很大提升。