上海科技大学计算机科学与技术专业2022级本科生洪沐天及其团队近日在ADIA Lab举办的因果发现竞赛中从全球近2000名参赛者中脱颖而出,获得第三名.

阿布扎比投资局(Abu Dhabi Investment Authority, ADIA)是全球第三大的主权基金,而 ADIA Lab 是阿布扎比投资局旗下专注于金融科技、数据分析和投资研究的创新实验室。该机构致力于通过先进的技术、前沿的数据科学和量化研究,为全球投资战略提供深刻洞见。ADIA Lab 以推动人工智能、机器学习和大数据在资产管理领域的应用为使命,汇聚全球顶尖人才,促进跨学科合作,助力全球金融生态系统的持续发展。

ADIA Lab因果发现竞赛(ADIA Lab Causal Discovery Challenge)是一项国际级数据科学竞赛,旨在解决现代数据科学中最关键的挑战之一:从观测数据中发现变量之间的因果关系。该竞赛吸引了来自全球的数据科学家参与,总奖金池高达10万美元。比赛从8月1日持续到10月24日。


Q: 能否介绍一下这次比赛的赛题?

A: 这次比赛的赛题是因果推断。我可以用一个例子讲讲:我们已知一个因果关系——空气湿度的上升是“下雨”的一个原因。这时我们希望知道第三个变量,比如“冷暖气流交汇”与这个因果关系的关系。比如说,我们知道冷暖气流交汇往往会引起空气湿度的上升,同时也可以通过强对流直接引发降雨。那么“冷暖气流交汇”在这里就被叫做一个Confounder,即同时为“空气湿度上升”和“下雨”的原因。

我们这次比赛的目标就是预测这里的“第三个变量”的角色,将其视为一个分类任务。比如,我们拥有今年某地区一整年每一天的空气湿度、是否有冷暖气流交汇的现象、是否下雨的数据,我们就要基于这些数据来预测“冷暖气流交汇”的类别。这里一共有八种可能的类别,而我们需要训练机器学习模型,预测其对应的类别。但这次比赛中的数据并不是真实数据,是通过一种新方法合成的模拟数据。

(比赛题目示意:左侧为观测数据,右侧为因果图)

因果推断在经济、医疗、社会科学中都具有重要的作用。它能够帮助人们了解现象背后的真实原因,进而做出更好的决策。


Q: 能否讲讲你比赛的历程?

A: 最初是通过两位朋友转发的创管学院比赛信息让我了解到这个机会。比赛的主题引起了我的兴趣,加上奖励颇为丰厚,我便决定报名参加。我此前对因果推断这个领域完全不了解,在自己摸索了一周后,我想到了一位在厦门大学就读的朋友。他主修金融工程,在计量经济学课程中接触过一点因果推断的知识。我们之前曾在另一个数据科学比赛中合作过,虽然那次与获奖擦肩而过,但这次我们依然决定再次携手。

随着项目的开展,我们深入钻研因果推断这个领域。在比赛期间,我们不断查阅文献资料,翻看技术文档,并浏览了数十篇相关论文。在比赛的初期,我们就建立起了一套完整的实验流程,持续改进特征工程和模型表现。这个过程虽然充满挑战,但收获颇丰。我们采取边实践边学习的方式,从最初对领域的一无所知,逐渐积累起扎实的专业知识,对因果推断有了更深入的理解。

(实验的记录表格)

比赛过程可谓跌宕起伏。我们从最初基线模型仅有37%的分类准确率起步,通过不懈努力,最终将准确率提升至74%,几乎翻了一倍。每提升一个百分点都凝聚着我们的心血,是我们点滴技术积累的见证。排行榜上的竞争更是激烈,参赛队伍竞争激烈,排名频繁变动。在最后的冲刺阶段,我们一边兼顾着期中考试,一边挤出时间不断优化特征和模型。所幸这些付出都没有白费,我们最终在众多优秀团队中脱颖而出。


Q: 作为跨校组队,你们是如何保持高效沟通的?你们团队是如何分工合作的?

A: 我们这次不仅仅是跨校组队,更是跨国组队。我当前正在加州伯克利大学进行 3+1 ,与我的队友有着8小时的时差。因为团队只有两个人,沟通起来还是比较方便的,我们使用微信进行异步沟通,克服时差带来的挑战。每隔一段时间我们会进行语音通话,保持信息同步。在技术层面,我们使用git管理代码,在代码实现上进行了较好的模块化,使得我们能够同时进行不同的实验。在分工合作方面,我们采用敏捷开发的方式,根据实验需求灵活分配任务,当我们有了一些 idea 的时候,就会记录下来,分配给一个人来完成。


Q: 你觉得你们这次能够成功的原因是什么?

A: 在这次成功之前,我已经经历了数次失败。我从大一就开始接触机器学习,在大一的暑假参加了第一次数据科学竞赛,而这次,已经是我完整参加的第四次数据科学竞赛。我从前几次失败的经历中汲取了很多经验教训,比如学会了构建更加系统化的实验流程,也深刻认识到只有真正深入理解领域知识,才能在比赛中取得突破性进展。这些教训让我在本次比赛中少走了许多弯路。


Q: 这次比赛的经历对你们未来的学习或职业规划有什么影响?

A: 说到未来规划,我的队友对因果推断领域产生了浓厚的兴趣,打算深耕这个方向,并将其作为未来的研究重点。

我后续可能不会过多地去研究该领域,但我计划继续在学校中积极发展数据科学社区。我在伯克利交换期间,被那里蓬勃发展的数据科学氛围深深打动。校园里有六七个数据科学社团,他们不仅开设专业课程、组织竞赛,还积极运用AI技术解决社会问题。这些经历给了我很大的启发,让我萌生了在上科大建立类似社团的想法。利用奖金,我计划在这个寒假期间办一场校内的数据科学比赛,希望通过这样的活动,能够吸引更多同学投入到数据科学的精彩世界中来。期待能与更多对数据科学与AI感兴趣的同学一起探讨和交流!


更多信息:

比赛链接:Overview - Causality Discovery Competition - CrunchDAO

完整技术方案:ADIA Lab causal discovery 3rd solution Chinese version

完整代码:Ori-Replication/ADIA-Lab-Causal-Discovery