Cognitive Computing and Intelligent Information Processing (CCIIP) Laboratory
暑假期间,CCIIP实验室22级硕士生李文迪、鲁镇仪、范士轩、王钰同学分别进入威斯康星麦迪逊大学深度学习实验室、字节跳动、蚂蚁集团平台技术事业群、华为ICT产品与解决方案·昇腾计算上研部门进行实习,实习期间同学们勤奋乐观的工作态度和扎实务实的研究基础给实习单位各位老师、工程师留下了深刻的印象,他们对认知计算与智能信息处理实验室的研究生培养质量赞不绝口。
实验室2022级研究生李文迪在威斯康星麦迪逊大学深度学习实验室进行了时长3个月的科研实习,实习期间对过程奖励模型进行了研究,并提出了基于Q-value排序的过程奖励模型框架。通过此次实习,李文迪同学深刻认识到了当前大语言模型推理能力的挑战和机遇。
实验室2022级研究生鲁镇仪在字节跳动进行了时长3个月的暑期实习,实习期间对基座训练架构优化进行了研究,完善了真实工业场景基座能力。
实验室2022级研究生范士轩在蚂蚁集团平台技术事业群进行了时长3个月的暑期实习,实习期间对代码大模型的蒸馏压缩和推理加速进行研究,并提出了基于深层注意力对齐的蒸馏模式,和跨tokenizer蒸馏框架。通过此次实习,范士轩同学深刻认识到了AI infra在工业场景下面临的挑战和难点。
实验室2022级研究生王钰通过了华为技术有限公司2024年暑期实习面试,并于2024年7月进入ICT产品与解决方案·昇腾计算上研部门开展了为期2个月的实习工作。在实习期间,王钰同学基于昇腾AI硬件和pytorch生态参与研发昇腾大模型训练框架。通过和导师与Leader的讨论与合作,基于昇腾芯片实现了端到端的大语言模型训练、评估、推理方案的部署,并完成多个加速特性的穿刺并上仓。通过此次实习,王钰同学深刻了解到了大模型训练框架下训练方案选择以及加速特性研发的复杂性,相比学术界专注于模型性能优化,真实工业场景下的硬件对大语言模型训练精度的影响和加速特性的部署都更加复杂。