Q: 能否介绍一下这次比赛的赛题?

A: 这次比赛的赛题是因果推断。我可以用一个例子讲讲:我们已知一个因果关系——空气湿度的上升是“下雨”的一个原因。这时我们希望知道第三个变量,比如“冷暖气流交汇”与这个因果关系的关系。比如说,我们知道冷暖气流交汇往往会引起空气湿度的上升,同时也可以通过强对流直接引发降雨。那么“冷暖气流交汇”在这里就被叫做一个Confounder,即同时为“空气湿度上升”和“下雨”的原因。

我们这次比赛的目标就是预测这里的“第三个变量”的角色,将其视为一个分类任务。比如,我们拥有今年某地区一整年每一天的空气湿度、是否有冷暖气流交汇的现象、是否下雨的数据,我们就要基于这些数据来预测“冷暖气流交汇”的类别。这里一共有八种可能的类别,而我们需要训练机器学习模型,预测其对应的类别。但这次比赛中的数据并不是真实数据,是通过一种新方法合成的模拟数据。

(比赛题目示意:左侧为观测数据,右侧为因果图)

因果推断在经济、医疗、社会科学中都具有重要的作用。它能够帮助人们了解现象背后的真实原因,进而做出更好的决策。


Q: 能否讲讲你比赛的历程?

A: 最初是通过朋友了解到创管学院这个比赛机会。虽然我此前对因果推断领域完全不了解,但比赛主题引起了我的兴趣。我邀请了一位在厦门大学主修金融工程的朋友组队,他在计量经济学课程中接触过因果推断的知识。

在比赛期间,我们建立起了一套完整的实验流程。我目前在加州伯克利大学交换,作为跨国组队,我们克服了8小时的时差,通过异步沟通和定期语音会议保持紧密协作。从最初基线模型仅有37%的分类准确率起步,通过查阅大量文献和技术文档,我们不断优化特征工程和模型表现,历时最终将准确率提升至74%。在最后的冲刺阶段,我们一边兼顾着期中考试,一边持续改进模型,最终在众多优秀团队中脱颖而出。

(实验的记录表格)


Q: 这次比赛的经历对你们未来的学习或职业规划有什么影响?

A: 说到未来规划,我的队友对因果推断领域产生了浓厚的兴趣,打算深耕这个方向,并将其作为未来的研究重点。

这次比赛也为我打开了因果推断研究的新视角。返校后,我将参与导师的一个新课题,运用因果推断的方法研究细胞癌变的原因。与此同时,我也计划在学校中积极发展数据科学社区。我在伯克利交换期间,被那里蓬勃发展的数据科学氛围深深打动。校园里有六七个数据科学社团,他们不仅开设专业课程、组织竞赛,还积极运用AI技术解决社会问题。这些经历给了我很大的启发,让我萌生了在上科大建立类似社团的想法。利用奖金,我计划在这个寒假期间办一场校内的数据科学比赛,希望通过这样的活动,能够吸引更多同学投入到数据科学的精彩世界中来。期待能与更多对数据科学与AI感兴趣的同学一起探讨和交流!也欢迎大家加入GeekPie数据科学分部群聊,获取更多比赛信息!


更多信息:

比赛链接:Overview - Causality Discovery Competition - CrunchDAO

完整技术方案:ADIA Lab causal discovery 3rd solution Chinese version

完整代码:Ori-Replication/ADIA-Lab-Causal-Discovery

GeekPie数据科学分部QQ群:161981467