广州数学大讲坛第六期
第五十八讲——上海交通大学许志钦教授学术报告
题目:通过隐式偏好理解语言模型的推理
时间:2025年11月4日(星期二)上午10:00-11:00
地点:理学实验楼314
报告人:许志钦 教授
摘要:深度神经网络是一个复杂的系统,也存在许多令人难以理解问题,例如过参数化的模型为何常常泛化好,Transformer是偏好推理还是记忆等。这个报告将从频率原则、参数凝聚现象切入,对深度学习的泛化能力和语言模型的推理性能提供一些理解,并对实际的模型训练提供一些参考。
报告人简介:
许志钦,上海交通大学自然科学研究院/数学科学学院教授。主持基金委优秀青年项目、科技部重点研发计划青年科学家项目、面上等。2012年本科毕业于上海交通大学致远学院。2016年博士毕业于上海交通大学,获应用数学博士学位。2016年至2019年,在纽约大学阿布扎比分校和柯朗研究所做博士后。2019年至2025年,上海交通大学长聘教轨副教授。在大模型方面,发现复杂度对大模型记忆和推理影响的机制。在深度学习基础研究方面,与合作者共同发现深度学习中的频率原则、参数凝聚和能量景观嵌入原则,发展多尺度神经网络等。在AI for Science,主要是在燃烧化学反应方面,与合作者共同发展基于深度深习的机理简化方法和基于深度学习的替代模型加速燃烧模拟。以第一作者或者通讯作者身份发表论文于TPAMI, JMLR,NeurIPS,ICML,ICLR, AAAI,SIMODS,CiCP,CSIAM Trans. Appl. Math.,JCP, Combustion and Flame,Eur. J. Neurosci.等学术期刊和会议。现为Journal of Machine Learning的managing editor。