上海财经大学冯兴东教授到访 畅谈“分布式回归在大数据中的应用”

3月22日下午,上海财经大学冯兴东教授到访经济学科,为两院师生做了题为“分布式回归在大数据中的应用”的讲座。本场讲座由钟威副教授主持。
 
冯教授首先从论文选题背景出发,随后介绍了交替方向乘法器法(Alternative Direction Dethod of Multipliers, 简称ADMM)的主要思想,并向在场师生演示了Apache Spark软件,并对现场师生提出的问题耐心解答。
 
冯教授指出,近些年越来越多的数据被收集、储存和分析,随着信息时代的来临,数据量呈现爆炸式的增长,同时因信息安全等一系列因素,得到的数据常常不是完整的。随着数据量的上升,使得越来越多的数据以分布式的方式被存储起来。在很多情况下,我们需要使用分布式计算来进行数据分析,而在分布式计算中比较成功的两款软件是Apache Hadoop和Apache Spark。
 
接着冯教授介绍了使用分位数回归的优点:分位数回归可研究在不同分位的响应分布对预测变量的影响,因而能够给我们提供关于响应和协变量之间的关系全貌,并且分位数回归对离群值不敏感。随后冯教授介绍了几种主要的分位数回归的计算方式,主要包括线性规划、MM算法、坐标下降法和交替方向乘法器法(ADMM)这四种方法。冯教授着重介绍了ADMM方法的主要原理,并将ADMM运用于带有惩罚项的分位数回归。接着,冯教授进行了详细讲解:选择一个初始惩罚变量,然后通过Karush-Khun-Tucker最优化条件可以不断地产生惩罚变量,同时可根据BIC准则来选取最优的惩罚数。冯教授补充,ADMM方法可以和分布式方法形成互补。
 
随后冯教授介绍了分布式计算平台——Apache Hadoop和Apache Spark,介绍了Hadoop分布式文件系统和分布式计算中的Map-reduce策略,以及Spark软件及其具备的多个优点:一是比Hadoop在缓存管理上更有效;二是Spark提供了许多有用的库,包括机器学习、实时分析和图形分析等;三是Spark免费且得到了相关团体很好的维护。
 
讲座的最后,冯教授讲解了相关的仿真研究,并与现场的师生进行了热烈的讨论。
 
(WISE2016MA 钟盛贵  经济学院 陈小鸿)