机器翻译领域适应
Open for registrationFeaturedAI & MLHealth & BioOpen Source

机器翻译领域适应

大赛背景

中国计算机学会Organizer 中国计算机学会
Official site

Register · remaining

About this hackathon

#### 大赛背景

CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办。大赛由国家自然科学基金委员会指导,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。

大赛迄今已成功举办八届,累计吸引全球1500余所高校、1800家企事业单位及80余所科研机构的12万余人参与,已成为中国大数据与人工智能领域最具影响力的活动之一,是中国大数据综合赛事第一品牌。

2021年第九届大赛以“数引创新,竞促汇智”为主题,立足余杭、面向全球,于9月至12月举办。大赛将致力于解决来自政府、企业真实场景中的痛点、难点问题,邀请全球优秀团队参与数据资源开发利用,广泛征集信息技术应用解决方案。

#### 赛题介绍

**1、赛题名称**

机器翻译领域适应

**2、赛题背景**

目前,机器翻译技术已经取得了很大的突破。机器翻译的性能不仅依赖于大规模的双语数据,还取决于训练和测试数据之间的领域匹配程度。具有丰富数据资源领域的机器翻译性能不断提高,但是由于数据资源获取困难等原因,某些特殊领域的翻译效果还不够理想。如何利用富资源领域的数据帮助低资源领域提升翻译质量是一个热点研究问题。

**3、赛题任务**

本次任务旨在面向低资源神经机器翻译的领域适应方法研究,提供口语领域的中英平行句对、专利领域的中英平行句对和英文单语数据以及医药领域英文单语数据作为训练样本,参赛队伍需要基于提供的训练样本进行中到英机器翻译模型的构建与训练,并基于口语、专利、医药三个领域测试集分别提供翻译结果。(注:本次任务不可以使用提供数据外的其他数据。)

#### 出题专家

**肖桐老师**,博士,东北大学教授、博士生导师,东北大学计算机学院人工智能系系主任,东北大学自然语言处理实验室主任,小牛翻译(NiuTrans )联合创始人。于东北大学计算机专业获得博士学位。2006—2009年赴日本富士施乐、微软亚洲研究院访问学习,并于2013—2014年赴英国剑桥大学开展博士后研究。主要研究领域包括自然语言处理、机器学习等。在国内外相关领域高水平会议及期刊上发表学术论文70余篇。作为项目技术负责人,研发成功了NiuTrans、NiuTensor等开源系统,在WMT、CCMT/CWMT、NTCIR等国内外评测中多次获得冠军。2014年获得中国中文信息学会首届优秀博士论文提名奖,2016年获得中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。任ACL、EMNLP等国际著名会议的领域主席。

**小牛翻译**致力于为企业级用户提供全栈式机器翻译解决方案,坚持以提供高品质的机器翻译为宗旨,依托深厚的机器翻译自主研发背景,为国内外众多用户解决跨语言沟通障碍。

特别感谢**肖桐老师**、**小牛翻译**为数据科学人才培养做出的贡献。

#### 赛制规则

本赛题为训练赛,如无特别通知,永久开放

> 2021年9月16日15:00正式开放线上报名;

> 2021年10月11日上线赛题训练数据开放排名;

> 2021年12月06日进行大赛名次及奖品公布。

#### 奖励机制

本赛题为训练赛,不设置奖金。截至2021年12月6日0时整,排行榜前3名的队伍将会获得1个CCF会员名额+纪念奖牌,排行榜前50名的团队将会获得平台发出的电子证书。

注:如遇不同队伍得分相同的情形,排行榜会按照该评分提交时间的升序进行队伍排名。

#### 参赛交流

赛事交流微信群与客服微信

#### 参赛规则

**参赛组队规则**

Event Images

BDCI训练赛好友引群.png
BDCI训练赛好友引群.png

Tracks

General Track

#### 大赛背景 CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办。大赛由国家自然科学基金委员会指导,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。 大赛迄今已成功举办八届,累计吸引全球1500余所高校、1800家企事业单位及80余所科研机构的12万余人参与,已成为中国大数据与人工智能领域最具影响力的活动之一,是中国大数据综合赛事第一品牌。 2021年第九届大赛以“数引创新,竞促汇智”为主题,立足余杭、面向全球,于9月至12月举办。大赛将致力于解决来自政府、企业真实场景中的痛点、难点问题,邀请全球优秀团队参与数据资源开发利用,广泛征集信息技术应用解决方案。 #### 赛题介绍 **1、赛题名称** 机器翻译领域适应 **2、赛题背景** 目前,机器翻译技术已经取得了很大的突破。机器翻译的性能不仅依赖于大规模的双语数据,还取决于训练和测试数据之间的领域匹配程度。具有丰富数据资源领域的机器翻译性能不断提高,但是由于数据资源获取困难等原因,某些特殊领域的翻译效果还不够理想。如何利用富资源领域的数据帮助低资源领域提升翻译质量是一个热点研究问题。 **3、赛题任务** 本次任务旨在面向低资源神经机器翻译的领域适应方法研究,提供口语领域的中英平行句对、专利领域的中英平行句对和英文单语数据以及医药领域英文单语数据作为训练样本,参赛队伍需要基于提供的训练样本进行中到英机器翻译模型的构建与训练,并基于口语、专利、医药三个领域测试集分别提供翻译结果。(注:本

Schedule

  1. Sep 26, 11:00 PM

  2. Dec 31, 07:59 AM

Tags

#DataFountain#国内比赛#AI#Data#Science#自然语言处理#机器翻译#医疗#其他

Comments

0