2021年7月2日上午,中国人民大学统计学院副教授、应用统计科学研究中心研究员高光远老师开启精算论坛活动第188期,为我院师生带来车险索赔中数据和模型的相对重要性的探讨。
图1讲座开始
高光远老师从数据清理讲起。他笑谈到,数据清理占据了绝大多数的工作时间,但在最终结果的呈现里却篇幅很小。高老师与合作者从GPS、仪表盘和陀螺仪三个渠道提取出了众多数据,经过校准检测、其他指标计算、缺失数据补充、数据整合等等繁复而必不可少的工作,最终获得了速度、加速度和转角三个方面的新颖数据。
然后,高老师解释了模型的选择。他讲到,假设索赔次数服从泊松分布,而参数的值会因模型使用的不同而不同。传统车险索赔建模使用GLM,但它没有考虑到指标的非线性影响。所以,高老师与合作者加入了XGBoost的估计来提升参数捕捉非线性信息的能力。但是,检验发现XGBoost不能提升广义线性回归的预测能力。老师解释到,这可能是由于数据的预处理工作比较到位,也有可能是数据量不够造成的。
接着,高老师加入了车联网的数据。在加入了速度、加速度、转角以及它们的平方项之后,CNN的模型表现比GLM好。但是老师也提到,CNN更多基于经验为训练模型加入变量,由此它的解释性较弱,比较适合用于后验费率厘定。
基于以上工作,高老师总结到:有数据的时候,数据比模型对预测能力的提升更高;而对于模型而言,机器学习的价值要在数据量较大时才能体现出来。
讲座的最后环节,高光远老师细致回答了现场师生的提问,就数据的来源、细节的处理进行了分享。
通过高光远老师的精彩演讲,师生们对车险索赔的建模有了更为深刻的认识、对新兴技术在传统保险的应用有了更为前沿的思考。现场师生纷纷对高老师丰硕的成果和耐心的解答给出了高度好评,讲座圆满结束。