2023年11月16日下午14:00,中央财经大学中国精算研究院精算论坛第232期在沙河校区13号学院楼209教室举行。本次论坛邀请到了来自南开大学数学科学学院概率统计系的韩霞老师,她为与会师生做题为“Choquet regularization for reinforcement learning and its application”的学术报告,本次讲座由刘敬真教授主持。
在报告中,韩老师首先深入浅出地阐释了Choquet正则化的基本概念、形式与性质,突出其在度量模型探索过程中不确定性的优势。她指出,Choquet正则化的方法与传统依赖于Shannon信息熵的正则化手段相比,它可以在不同策略分布下进行探索,而并非仅限于正态分布。为了更清晰地理解Choquet正则化与探索分布之间的关系,韩老师通过LQ问题,向同学们展示了不同探索分布下所对应的Choquet正则化算子的显式形式。在讲座的后半段,韩老师就经典的均值方差问题,向同学们介绍了在该框架下使用强化学习提升策略的算法。同时,她通过数值模拟的方法,向同学们展示了在市场环境未知条件下,采用不同策略分布进行探索的动态过程,并强调了该算法框架具有的收敛性。
图 韩老师讲座现场
精彩的报告之后,与会师生与韩老师就模型的适用范围、策略提升算法等问题进行了热烈地讨论。
撰稿:刘敬真
审稿:王颖
编辑:薛丽娜
审核:王颖