NLP相关链接

国际学术组织、学术会议与学术论文

自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合,是计算机科学与语言学的交叉学科,也是人工智能的重要方向。与其他很多计算机分支方向类似,由于技术发展迅速,NLP/CL重视学术会议胜过学术期刊。由于发表周期短,并可以通过会议进行交流,绝大多数最新的重要科研进展都首先发表在学术会议上,而学术期刊更多用来发表会议论文的扩展整理版本,起到归档作用。

NLP/CL领域重要的国际学术会议均由国际专业学会发起和举办。NLP/CL最权威的国际专业学会是The Association for Computational Linguistics(ACL,URL:The Association for Computational Linguistics Member Portal),这个学会主办了NLP/CL历史最悠久也最权威的国际会议,即ACL年会。ACL学会还会在北美和欧洲召开分年会,分别称为NAACL和EACL。此外,ACL学会下设多个特殊兴趣小组(special interest groups,SIGs),性质类似大学校园的兴趣社团,聚集了NLP/CL不同子领域的学者。其中比较有名的包括SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。这些SIGs也会组织一些国际学术会议,其中比较有名的就是SIGDAT组织的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL组织的CoNLL(Conference on Natural Language Learning)。此外,还有一个全称International Committee on Computational Linguistics的老牌NLP/CL学术组织,每两年组织International Conference on Computational Linguistics(COLING)国际会议,也是NLP/CL的重要学术会议。NLP/CL领域的绝大部分重要进展都发表在这些学术会议上。

从论文水平和关注度来看,一般公认ACL、NAACL、EMNLP、COLING为NLP/CL最重要的四大顶级学术会议。其中ACL是公认最权威的NLP/CL会议,参会人数也最多。ACL 2015在北京举办,参会人数为1200;ACL 2016在德国举办,参会人数达到1600多人。美国是NLP/CL重镇,因此NAACL的论文质量也非常高。EMNLP是相对年轻的学术会议,创立于1995年前后。创立EMNLP的目的就是关注统计机器学习方法在NLP/CL中的应用。因此,随着最近10余年互联网高速发展,基于大规模数据的机器学习方法特别是近年来深度学习大行其道,最近几届EMNLP发展很快,例如EMNLP 2016有800余人参加。COLING是老牌的NLP/CL的学术会议,历史非常悠久。也许由于每两年召开一次的传统,似乎不太适应最近NLP/CL技术高速发展的特点,近年来COLING论文关注度有较为明显的下降,不过仍然是NLP/CL值得关注的重要会议。

作为NLP/CL领域的学者最大的幸福在于,ACL学会网站建立了称作ACL Anthology的页面(URL:ACL Anthology),为其主办的所有国际学术会议论文提供免费下载,甚至也囊括了其他组织主办的学术会议,例如COLING、IJCNLP等。该平台还支持基于Google的全文检索功能,可谓一站在手论文我有。

NLP/CL的旗舰学术期刊是Computational Linguistics(MIT Press Journals - Computational Linguistics),发表过很多经典学术论文。该期刊每期只有几篇文章,平均质量高于会议论文,而且一般内容比较全面详细,值得认真研习。特别是其中的综述文章,是快速全面了解相关NLP/CL任务的最好文献。此外,ACL学会为了提高学术影响力,也创办了论文要求篇幅相对较短的Transactions of ACL(TACL,URL:http://www.transacl.org/),值得关注。值得一提的是,这两份期刊也都是开放获取的。此外也有很多与NLP/CL有关的期刊,如ACM Transactions on Information Systems,ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。

根据Google Scholar Metrics 2016年对NLP/CL学术期刊和会议的评价,ACL、EMNLP、NAACL、LREC、Computational Linguistics位于前5位,COLING排在第9位,基本上反映了本领域学者的关注程度。

NLP/CL作为交叉学科,其相关领域也值得关注。主要包括以下几个方面:(1)信息检索和数据挖掘领域。相关学术会议主要由美国计算机学会(ACM)主办,包括SIGIR、WWW、KDD、WSDM等;(2)人工智能领域。相关学术会议主要包括AAAI和IJCAI等,相关学术期刊主要包括Artificial Intelligence和Journal of AI Research;(3)机器学习领域,相关学术会议主要包括ICML,NIPS,AISTATS,UAI等,相关学术期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。例如最近兴起的knowledge graph研究论文,就有相当一部分发表在人工智能和信息检索领域的会议和期刊上。我国计算机学会(CCF)制定了一份“中国计算机学会推荐国际学术会议和期刊目录”(CCF推荐排名),已经经过若干次重要修订,是迅速了解每个领域主要期刊与学术会议的方式。

最后,ACL学会维护了一个wiki页面(ACL Wiki),包含了大量NLP/CL的相关信息,如著名研究机构、历届会议录用率,等等,都是居家必备之良品,值得深挖。例如,我们可以从相应wiki页面(https://www.aclweb.org/adminwiki/index.php?title=2016Q3_Reports:_Program_Chairs )看到ACL 2016 PC主席的工作总结,了解投稿主题分布、审稿流程、录用决策方式、录用情况等信息,这对研究选题、改进论文写作和提高投稿命中率很有帮助。

值得一提的是,随着深度学习技术的兴起,NLP/CL的新模型层出不穷,这两年来有越来越多的国际顶级学者选择在预印本文库http://arxiv.org上首先发布自己的最新成果,已经成为了解NLP/CL深度学习最新技术的重要信息源。由于http://arxiv.org上的论文发布并不包括同行评审,发布速度比学术会议更快;但相应的,http://arxiv.org上的论文良莠不齐,不乏内容粗劣不堪的占坑之作。因此,建议大家在关注http://arxiv.org论文时,特别注意那些来自著名研究机构(如Google DeepMind、Facebook AI Research等)和著名学者(如Yoshua Bengio等)的论文,而对来源不太知名的论文则应多些审慎态度,避免浪费时间和精力。

国内会议

全国计算语言学大会(CCL)。CCL是中国中文信息学会的旗舰会议,由CIPS的计算语言学专委会举办。CCL从1991年开始每两年举办一次,从2013年开始每年举办一次,2018年是第十七届。经过20余年的发展,是国内自然语言处理领域权威性最高口碑最好规模最大(2017年注册人次超过1千)的学术会议,是国内NLP学者每年都会参加的盛会,现场交流氛围极佳。CCL设置的讲习班、特邀报告、NLP任务评测、前沿动态综述等环节,均有较大影响力,也是快速了解NLP前沿动态的绝佳方式。

其中,CCL的特邀报告环节最具特色,CCL程序委员会主席孙茂松教授每年都会大力邀请多学科相关重量级学者担纲。以CCL 2017为例,特邀讲者包括了中国工程院院士、西安交通大学郑南宁教授,清华大学社会科学学院院长彭凯平教授,香港科技大学计算机科学与工程学系系主任杨强教授,北京大学统计科学中心联席主任耿直教授,搜狗公司总裁王小川等,主题涵盖认知科学、心理学、机器学习、统计学等方向,议题与内容极具启发性。

全国知识图谱与语义计算大会(CCKS)。CCKS由CIPS的语言与知识计算专委会举办,由国内两个相关会议合并而来,分别是中文知识图谱研讨会(CKGS)和中国语义互联网与Web科学大会(CSWS)。CCKS是国内知识图谱、语义技术、链接数据等领域的核心会议,2017年有500位学者注册参加。CCKS设置的讲习班、工业论坛、评测竞赛、知识图谱顶会回顾、特邀报告等环节,具有较大影响力,是快速了解知识图谱等方向前沿动态的绝佳方式。

全国社会媒体处理大会(SMP)。SMP由CIPS的社会媒体处理专委会举办,SMP 2018是第七届,是国内聚焦社会媒体、面向社会计算和计算社会科学交叉学科的权威会议,SMP 2017年有800多人次参加。SMP也设置有讲习班、专题论坛、评测任务等环节。

其中,SMP专题论坛非常活跃,以SMP 2017年为例,共设置了智能金融、计算社会学、情感分析、推荐系统、计算传播学、智能教育、表示学习及企业论坛等8个论坛,均有相关领域重量级学者担任讲者进行交流。

全国信息检索学术会议(CCIR)。CCIR由CIPS和CCF联合主办,是中国信息检索领域最重要的盛会。会议除包含大会报告、论文报告、Poster交流、评测活动外,还组织青年学者论坛、博士生指导论坛,以及面向热点研究问题的前沿讲习班等。大会也会邀请部分相关国际期刊、会议(如TOIS、SIGIR、WWW、WSDM、CIKM)的中国作者交流论文。

全国机器翻译研讨会(CWMT)。CWMT从2005年开始举办,2018年是第14届,其中共组织过七次机器翻译评测,是国内最权威的机器翻译学术会议。除了传统的论文宣讲、特邀报告等环节,最近还设置了新人秀、产业论坛等环节,从事机器翻译研究与开发的同学不能错过。

自然语言处理青年学者研讨会(YSSNLP)。YSSNLP是CIPS青年工作委员会的学术年会,其特色是采取邀请制,只允许青工委委员及其邀请的代表参加,每年约有150位青年学者参加,几乎囊括国内从事NLP研究的所有青年学者。青工委非常活跃,除了组织YSSNLP年会外,青工委还组织大量的国际顶级会议预讲会、学术沙龙等学术活动。

其中国际顶级会议预讲会是青工委的品牌活动之一,每年在 ACL、SIGIR、IJCAI、AAAI等国际顶级会议正式召开之前,邀请国内有论文发表的学者介绍自己的论文工作。每次活动都吸引了大量来自学术界和工业界的现场和在线听众,极大促进了国内相关领域研究的发展以及研究者之间的交流。2018年学术活动安排如下,欢迎大家关注并积极参与。

CIPS暑期学校(CIPS Summer School)。这是CIPS的老牌学术活动,旨在面向青年学生进行前沿课题的教学与普及工作,带领同学迅速进入前沿。2018年将是CIPS暑期学校的第13届。以2016年和2017年的暑期学校为例,均以深度学习技术在NLP中的应用开展教学,邀请国内一线青年教师和博士生担任讲者,系统深入地介绍深度学习的相关知识与动态。暑期学校每次持续4天课程,由于其较好的系统性和连续性,受到国内同学的广泛好评,近两年注册人数都超过场地容量。我个人担任了2016年暑期学校的讲者,以及2017年暑期学校的组织者,感觉这是非常好的系统学习NLP前沿动态的方式(虽然收费有点高)。

值得一提的是,从2016年起,CIPS暑期学校被纳入到了CIPS《前沿技术讲习班》编制,而CIPS组织的各大学术会议的讲习班也编入CIPS《前沿技术讲习班》,由CIPS统一保证讲习班质量。

CCF国际自然语言处理与中文计算会议(NLPCC)。NLPCC由CCF中文信息技术专委会举办,NLPCC 2018是第七届。NLPCC按照国际会议模式组织,组织委员会注重吸纳国际学者,论文报告均用英文进行,是近年来国内崛起的重要NLP学术会议,2017年参会人数超过500人,是在国内了解NLP前沿动态的又一个重要平台。值得一提的是,CCF学科前沿讲习班(ADL)类似于CIPS ATT,也是面向各类专题开展的讲习班,是CCF的老牌学术活动。NLPCC每次都会附带一次面向NLP的CCF ADL讲习班,值得关注。

国内外NLP实验室

随意收集一些国内外NLP相关领域的实验室,列举如下:

1.国内

2.国外

3.工业界

部分活跃的NLP学者(列出仅是便于查找,方向主要与信息抽取、知识图谱相关)

以上部分内容转载自刘知远老师的知乎文章,实验室部分参考了CSDN上的博客,在此表示感谢。

打赏一下

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦