CCIIP实验室2019级研究生刘家邑、王赞博同学参与阿里、腾讯暑期实习

来源: 浏览量: 日期:2020-10-07

实验室2019级研究生刘家邑同学通过阿里达摩院暑期实习面试,并于2020年7月进入阿里达摩院阿里小蜜团队对基于多样性的文本生成问题开展了为期2个月的实习工作,并最终顺利拿到阿里达摩院云智能事业群机器智能方面算法工程师offer。目前,现有文本多样性生成相关研究主要通过引入随机因素(Stochastic Factor)来增强文本多样性,但该类方法可能导致准确性及BLEU等指标上有一定下降,因此家邑在实习期间重点研究如何在减少多样性生成当中的随机因素条件下通过引入后验排序等方法以提升其性能,并最终在阿里客服真实对话数据集上实验显示所提出模型在部分指标上已超过已有模型性能。通过此次实习,刘家邑同学深刻感受到科研和实际应用落地间差异性比较大,相对来说科研中对具体问题定义比较明确,而场景化方面比较简单,而实际应用中算法落地涉及很多复杂预处理操作(如数据预处理、特征挖掘、数据分布平衡等),且很多科研场景下假设在实际应用中不成立,因此在实际算法落地中可能要考虑因素较多,比如算法输出稳定性、时间效率、算法是否能真实上线等。在整个实习过程中,家邑同学深深体会到了阿里拼搏、高效协同、严谨的企业文化。


实验室2019级研究生王赞博同学通过腾讯暑期实习面试,并于2020年6月进入腾讯PCG创新业务团队“小鹅拼拼” 拼购电商平台对商品类目预测问题开展了为期3个月的实习工作,并最终顺利拿到腾讯PCG平台与内容事业群战略管理中心自然语言处理研究员offer。在实习期间,赞博同学主要针对数据缺失、数据过时和spu丰富度不足、类别分布不平衡等问题,提出基于类目层级信息的多任务学习框架以提升类目预测准确率,其模型在腾讯真实数据上测试显示,模型线下及线上测试指标(如NDCG@5)等方面均有提升,该成果结合模型预测置信度与规则匹配等方法在真实淘宝-小鹅数据映射任务上实现了全流程动态自动化。通过本次实习,赞博同学接触到了真实公司业务,对真实数据理解更为深刻,尤其是bad case的重要性,提升了其数据敏感度以及解决真实问题的实际动手能力。