多模态多方对话场景下的发言人识别
Open for registrationFeaturedAI & ML

多模态多方对话场景下的发言人识别

本赛题收集了一个多模态多方对话说话人识别数据集。

中国计算机学会Organizer 中国计算机学会
Official site

Register · remaining

About this hackathon

### 大赛介绍

CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。

大赛迄今已成功举办十届,累计吸引全球25个国家,1500余所高校、1800余家企事业单位及80余所科研机构的18万余人参与,已成为中国大数据与人工智能领域影响力最广、参赛规模最大、成熟度最高的综合赛事之一。

2023年,我们将迎来第十一届CCF BDCI,十余年砥砺革新,持续探索数据价值新优势,构筑良性数据生态氛围,CCF BDCI将进一步扩大影响力,关注数字经济技术发展与人才培养,助力推动我国大数据技术及产业生态发展。

本赛题为大赛赛题之一,查看全部赛题可点击进入 **[2023 CCF大数据与计算智能大赛(CCF BDCI)](https://www.datafountain.cn/special/BDCI2023?preview=true)** 官网。

### 赛题介绍

**• 赛题背景**

现有多模态对话研究存在两个主要缺陷:1.对话是在一个人与一个系统之间进行的,而不是在几个人之间进行对话。2.视觉信息通常作为旁观附加信息给出,而非作为对话对象所处的视觉语境。

但是在多模态对话系统的许多实际应用,例如智能机器人中,机器人在对话期期间会用摄像头“看着”用户(视觉信息包含对话发生的场景和参与对话的用户),并且对话期间可能出现多个用户,这些用户可能是也可能不是说话人,说话人也可能暂时从视觉情境中消失。

针对上诉多模态对话在研究和实际应用上的差异,我们提出“多模态多方对话场景下的发言人识别”任务,以促进多模态对话理解的研究。

**• 赛题简介**

本赛题收集了一个多模态多方对话说话人识别数据集。

数据集中每条数据包含多轮连续的对话内容,每轮对应一个视频帧,并标注了每帧中出现的人脸的位置、姓名。要求参赛者对于每轮对话从所有帧中出现的人脸的姓名中选择一个作为本轮的说话人。

**• 赛题任务**

每条数据包含m轮连续的对话内容,每轮对应一个视频帧,并标注了每帧中出现的人脸的位置、姓名。要求判断这m轮对话每轮的说话人姓名。

图片和基线模型checkpoint下载地址:

https://pan.baidu.com/s/1NoMh3mZkA5KDgQRKjR3I0Q?pwd=nwkt

### 赛题合作

• 出题专家及学生代表:

赵东岩,北京大学王选计算机研究所书记、研究员

王越千,北京大学博士研究生(研究方向:自然语言处理,多模态对话)

袁旦龙,北京大学硕士研究生(研究方向:自然语言处理,多模态对话)

### 赛程规划

本赛题为训练赛,具体赛程安排如下:

> ▪ 2023年10月19日,发布赛题,选手可登录大赛官网报名,在赛题详情页下载数据集,同步开启初赛线上评测,选手可在线提交结果文件至竞赛平台,每日每队最多可提交3次,测评系统将自动评测得分并同步更新至排行榜。排行榜上将记录选手的最高成绩,相关团队必须自行保存最高成绩作品的源代码以备审核;

> ▪ 2023年11月22日(12:00),截止报名组队及团队信息修改;

> ▪ 2023年11月24日(24:00),截止初赛作品提交,遴选决出前20支团队入围复赛(入围名额根据实际情况进行调整);

> ▪ 2023年11月27日–12月09日,入围复赛的团队登录PC端大赛官网赛题详情页下载复赛数据集,选手可在线提交结果文件至竞赛平台,每日每队最多可提交3次,测评系统将自动评测得分并同步更新至排行榜。排行榜上将记录选手的最高成绩,相关团队必须自行保存最高成绩作品的源代码以备审核;

> ▪ 2023年12月,获奖名单公示。

### 奖项设置

**• 赛题奖项**

| 奖项 | 数量 | 证书/奖杯 |

| :--------: | :----: | :----: |

| 一等奖 | 本赛题1支团队 | 由CCF颁发的权威证书

Tracks

General Track

本赛题收集了一个多模态多方对话说话人识别数据集。 数据集中每条数据包含多轮连续的对话内容,每轮对应一个视频帧,并标注了每帧中出现的人脸的位置、姓名。要求参赛者对于每轮对话从所有帧中出现的人脸的姓名中

Schedule

  1. Oct 13, 08:00 AM

  2. Dec 31, 07:59 AM

Tags

#DataFountain#国内比赛#AI#Data#Science#大数据

Comments

0