实验室2020级研究生在“KDD Cup 2020”比赛中喜获佳绩

来源: 浏览量: 日期:2020-06-22

2020年6月11日,经过紧张激烈的角逐,“KDD Cup 2020” 结果提交截止,华科认知计算与智能信息处理实验室参赛团队喜获佳绩,在常规机器学习赛道“电子商务平台挑战”的多模态召回任务上取得了第15名(15/1433)的成绩。自2020年3月30日启动报名并发布数据,在本任务共有来自全球高校及工业界的1433支队伍(包括台湾大学、新加坡南洋理工大学、The State University of New Jerse、Texas Tech University、日本东京大学/京都大学、中国科学技术学院,浙江大学,大连理工大学,上海交通大学,北京大学等,以及科技企业阿里巴巴、美团、京东等)。至6月11日截止时提交了最终结果。比赛第一名最终由来自台湾大学的队伍斩获。在历是近3个月的比赛时间里,CCIIP实验室的参赛队员们坚持不懈努力,克服远程办公沟通不便等困难,以B榜15名(A榜21名)为这次的参赛经历画上了句号。虽然未能跻身前十之列,但这次是实验室首次参加“跨模态”方面比赛,很好的锻炼了实验室同学们在“跨模态”研究方面的比赛经验和动手能力。

“KDD Cup 2020”由 ACM知识发现和数据挖掘特别兴趣小组组织的年度数据挖掘和知识发现竞赛。今年延续去年的传统,共有三个赛道:常规机器学习赛道--电子商务平台挑战和学术图谱上的对抗性攻击和防御;自动机器学习赛道—图表示学习上的自动机器学习;强化学习赛到—学习在按需移动平台上的调度和重新定位。

“电子商务平台挑战”赛道由阿里巴巴,阿里巴巴达摩院、杜克大学、清华大学和UIUC赞助。参与者考虑不同类型的复杂信息以及模态之间的紧密联系,学习高质量的跨模态的表示,之后所学习的表示可以用于计算表示之间的相似度得分,并选择与文本相关的图像/视频。

实验室团队的参赛题目为“电子商务平台挑战”赛道的多模态召回(Multimodalities Recall)任务, 要求针对给定的文本召回最相关的商品图片。

随着网购、直播等的磅礴发展,更精准的搜索结果和平台推送涉及到多模态数据间的良好匹配与利用。对于电商行业而言,利用好多模态数据能够极大地节省用户搜索时间,给与用户良好的购物体验,并促进电商行业的发展。本次任务阿里巴巴提供了丰富的数据,包括商品查询文本,商品图片等,规模达300万以上,用以参赛者进行模型训练,推动相关技术应用发展。



排名网址:https://tianchi.aliyun.com/competition/entrance/231786/rankingList

下图为比赛官网的最终结果排行榜截图:


竞赛详情介绍

1. 竞赛任务

给定一个query和一系列候选的product图片特征,其中query使用自然语言形式描述product的特征,例如leopard-print women's shoes,children's princess umbrella等。任务要求从候选的product图片中选择出与描述query最相关的top-5的products,即输出最相关的前五product的id:[pid1,pid2,pid3,pid4,pid5]。

l 输入:query以及约30个候选product图像特征

l 输出:与给定query最相关的top-5的products


2. 数据简介

本次竞赛使用了从淘宝平台收集的搜索查询(search queries)与产品图像特征(product image features)对,用于构建基于query的检索任务,其中训练集包含300万的query-product对,下表展示了数据集中query和product的示例,绿框是product的特征,红框是query的特征。数据集的划分为300万训练集、500条query验证集(对应约1.5万个候选product)、2000条query测试集(对应约6万个候选product)。其中训练集和验证集用于本地训练和验证,可供自由下载,测试集分为TestA和TestB,TestA用于参赛者在平台上自主验证,TestB在比赛结束前一周发布,不能在平台上自主验证,并将作为最终的平台排名。


比赛用例