2022年3月4日,10:00-11:30,由上海市数据科技与决策前沿科学研究基地,商务分析研究中心,上海财经大学商学院主办的“量化方法与数据分析讲座系列”(Quantitative Methods and Data Analytics Seminar Series,QMDA)第2期在线上如期举行。来自加拿大皇后大学的Steven F. Lehrer教授受邀做了主题为“Algorithms for Predictive Analysis: Communication, Privacy and Weights”的精彩学术讲座。本次讲座由上海财经大学商学院王文斌教授和谢天副教授主持。
Lehrer教授认为机器学习算法在个人生活中发挥着越来越重要的作用,而政界、法律界和业界目前一个主要关注点就是如何在不破坏算法有效性的前提下,尽最大的努力去规范机器学习算法合法合规。而本文试图给上述问题提供一个潜在的解决方向。
作者首先阐述了,在进行预测计算时,很多传统计量经济学和前言机器学习策略其实都是对训练数据集中的响应变量的每个观察值赋予不同的权重,并进行加权平均来完成最终计算步骤。作者的理论研究表明,基于回归的策略(包括那些涉及惩罚或模型不确定性的策略)会产生无限权重,而许多基于树的策略会产生在单位区间内有界的权重,进而确保任何预测值都在响应变量的支持下生成。相比之下,最小二乘提升法和支持向量回归法则允许单位区间之外的权重,从而允许预测可能更好地推断响应变量的支持之外。
使用 Lehrer and Xie (Management Science, 2022) 一文的数据,作者说明了如何计算这些权重,以便在训练数据支持范围内和外部进行预测。本文强调了预测权重如何帮助确定横截面数据下进行预测的可信度。作者还检查了这些权重与变量重要性指标的相关性,从而给解析算法如何提取有效信息提供了更多角度的解读。最后,从最新的数据相关的政策执行层面上看(如《欧盟通用数据保护条例》等),本文的结论可以很好地与相关政策法规相结合。即算法的效用和准确率可以通过本文中提出的权重来进行检测,而无需报告复杂的算法细节,从而避免了商业机密以及隐私泄露的可能。
报告的过程中以及报告最后,参与讲座的同学老师都与Steven Lehrer教授进行了热烈的互动与讨论。最后,讲座在大家的热烈研讨中圆满结束。