-
初入NLP领域的一些小建议
ACL2019投稿刚刚落幕,投稿数超过了2800篇,可以说是历史以来最盛大的一届ACL。在深度学习的推动下,自然语言处理这个子领域也逐渐被推上人工智能大舞台的最前列。最近在跟同学的邮件、或者知乎留言中的交流中,不少同学尤其是刚入(jin)门(keng)的同学,提到了深度学习背景下做NLP科研的很多迷茫。基本可以归纳为如下几点:如今一个模型,几十行TensorFlow或者PyTorch就可以解决掉,大家不厌其烦地刷数据集的benchmark,但是因为如今实现模型的门槛低一些,SOTA很难...…
-
NLP相关链接
国际学术组织、学术会议与学术论文自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合,是计算机科学与语言学的交叉学科,也是人工智能的重要方向。与其他很多计算机分支方向类似,由于技术发展迅速,NLP/CL重视学术会议胜过学术期刊。由于发表周期短,并可以通过会议进行交流,绝大多数最新的重要科研进展都首先发表在学术会议上,而学术期刊更多用来发表会议论文的扩展整理版本,起到归档作用。N...…
-
Must-read papers on Sememe Computation
Contributed by Fanchao Qi.IntroductionSememes are defined as the minimum indivisible semantic units of meaning. Some people believe that semantic meanings of all the concepts including words can be composed of a limited closed set of sememes.As a ...…
-
How to do research
Research Skills◇ 关于研究的若干问题,作者:陈熙霖。(ppt)◇ A Letter to Research Students, by Duane A. Bailey. (pdf)(Research can be made more enjoyable and productive through a little organization. For many computer scientists, research techniques are a product of ...…
-
如何写一篇合格的NLP论文
前几天刚过完ACL 2019投稿季,给不少同学的论文提供了修改建议。其中很多论文,特别是初学者的论文的问题都很相似。一想到未来还要给更多新同学重复这些话,决定索性把这些建议总结出来,不仅以后能少费一番唇舌,说不定还能帮助更多同学。于是就有了这篇短文。本文题目取“合格”的论文,而不是优美的论文,或精彩的论文。一个原因是,我自知英文水平特别是词汇有限,从未写过自认精彩或优美的论文,并无资格提供这方面的建议。另一个原因是,下面会讲到,学术论文的关键目标并非辞藻优美而是清晰准确,我在这方面还积累了...…
-
Markdown工具集
什么是 Markdown Markdown 是一种方便记忆、书写的纯文本标记语言,用户可以使用这些标记符号以最小的输入代价生成极富表现力的文档:如您正在阅读的这篇文章。它使用简单的符号标记不同的标题,分割不同的段落,粗体 或者 斜体 某些文字. 很多产品的文档也是用markdown编写的,并且以“README.MD”的文件名保存在软件的目录下面。 一些基本语法标题 H1 :# Header 1 H2 :## Header ...…
-
Must-read papers on Machine Reading Comprehension.
Contributed by Yankai Lin, Deming Ye and Haozhe Ji.Model Architecture Memory networks. Jason Weston, Sumit Chopra, and Antoine Bordes. arXiv preprint arXiv:1410.3916 (2014). paper Teaching Machines to Read and Comprehend. Karl Moritz Hermann, To...…
-
Must-read papers on NRL/NE.
NRL: network representation learning. NE: network embedding.Contributed by Cunchao Tu, Yuan Yao and Zhengyan Zhang.We release OpenNE, an open source toolkit for NE/NRL. This repository provides a standard NE/NRL(Network Representation Learning)tra...…
-
Must-read papers on NRE
NRE: Neural Relation Extraction.Contributed by Tianyu Gao and Xu Han.We released OpenNRE, an open-source framework for neural relation extraction. This repository provides several relation extraction methods and an easy-to-use training and testing...…
-
MetaPost图形语言
什么是 MetaPost?MetaPost 是由 Bell Labs 的 John Hobby 设计的一种绘图语言, 它的语法近似于 MetaFont. 实际上, John Hobby 在 Stanford 的时候曾经为 Knuth 的 MetaFont 的设计作出过很大的贡献.MetaPost 是一种描述性的语言, 用它可以作出非常漂亮的图形. 特别适合于精确的图形. MetaPost 可以生成最高质量的 EPS 文件,可以方便的插入到 TeX 文件里。生成的 dvi 文件可以没有任何问...…
-
Must-read papers on KRL/KE.
Must-read papers on KRL/KE.KRL: knowledge representation learning. KE: knowledge embedding.Contributed by Shulin Cao and Xu Han.We release OpenKE, an open source toolkit for KRL/KE. This repository provides a standard KRL/KE training and testing f...…
-
Must-read papers on GNN
GNN: graph neural networkContributed by Jie Zhou, Ganqu Cui and Zhengyan Zhang.Survey papers Graph Neural Networks: A Review of Methods and Applications.Jie Zhou, Ganqu Cui, Zhengyan Zhang, Cheng Yang, Zhiyuan Liu, Maosong Sun. 2018. paper ...…
-
natural language processing system
简介NLPtool natural language processing system实习期间做的NLP的基础工具,包括中文分词、词性标注和命名实体识别功能,使用的方法是基于词典、规则加CRF统计的方法,仅使用pku的数据训练了一个crf模型,由于pku分词数据和msr粒度和规范不太相同,所以用pku数据训练的模型在msr数据上表现一般。词性标注使用的是人民日报的标注规范。名词 n nr 人名 ns 地名 ...…
-
CPPJieba分词学习
cppjieba分词包主要提供中文分词、关键词提取、词性标注三种功能分词cppjieba分词用的方法是最大概率分词(MP)和隐马尔科夫模型(HMM),以及将MP和HMM结合成的MixSegment分词器。除此之外,cppjieba支持三种模式的分词: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学 搜索引擎模式,在精确模式的基础上,...…