2024年12月13日上午,华中科技大学计算机科学与技术专业学术讲座于线上成功举行,应认知计算与智能信息处理实验室主任魏巍教授的邀请,上海Al Lab青年科学家,上海创智学院博士生导师吴志勇老师以Climbing the Sealing Law of OS Agents为主题为参会师生分享了一场精彩的学术报告。
报告内容:
吴志勇老师首先介绍了智能体如何通过操作计算机完成日常工作以及生产力相关的任务,从应用的角度阐释了智能体的具体定义,讲述了Foundation models、Foundation action models和Agentic models之间的差异性。
在本次报告中,吴志勇老师主要就OS Agent在scaling law方面的发现与研究进行了分享,并对相关的两个方向进行了具体介绍:一是扩大数据和模型的参数,二是扩展Agent的数量来探索OS Agent的性能增强。之后,吴老师讨论了当前信息结构化的难点,包括错误信息多、文本输入过长、软件闭源及API限制等,强调了上述问题对Agent生成正确动作的影响,并进一步探讨了采用VLM或GUI的视觉解决方案相对于文本输入的优势,如不同平台间GUI操作逻辑的相似性,训练过程的泛化性及视觉动作空间的相对小规模对强化学习的友好性。
随后,吴志勇老师举例详细讲解了数据收集与模型训练中的挑战,以及如何将不同平台的动作统一化以提高Agent的通用性,并在之后对智能体协作的方式进行了讨论与分析,如通过大量人工指令来实现任务协作的局限性,以及基于训练的方法解决多智能体协作问题的可行性。
报告结尾,参会师生围绕RPA与Agent的发展前景展开深入探讨,重点讨论了单智能体与多智能体系统间的异同和协同能力,同时就Agent范式的最新研究进展、应用场景及未来发展方向进行了交流,吴老师指出,未来研究的方向包括更强大的视觉模型、规划能力的提升以及强化学习与大模型的结合等。
吴志勇,上海 Al Lab 的青年科学家,上海创智学院博士生导师,本科毕业于武汉大学,博士毕业于香港大学。入选上海市海外高层次人才引进计划。主要研究兴趣为预训练语言大模型,已在人工智能领域顶级会议(NeurIPS, ICML, ICLR, ACL等)发表学术论文 30 余篇,并担任自然语言处理顶会的领域主席(ACL, EMNLP等),谷歌学术论文引用超过 3000 次。在computer agent领域发布了多个早期开创性模型和数据集。
吴老师以“Climbing the Sealing Law of OS Agents”为主题,为大家带来了一场精彩的线上报告。报告内容深入探讨了OS Agents领域当前存在的关键挑战与前沿进展,整场讲座逻辑严谨、深入浅出,参会听众纷纷表示受益匪浅,并踊跃参与讨论,对OS Agents领域的前沿研究有了更深刻的认识与启发。此次报告会促进了专家学者与学生之间的高效互动,拓宽了我校师生的学术视野,为推动跨校合作与领域创新注入了新活力。