近些年杂七杂八读了很多文献,但是没有一个较为系统的总结,尤其是经常会钻进死胡同,因此,今天巩固了一下@CQU弟中弟 总结的 怎样阅读NLP论文 ,对其中的部分内容做一个系统总结。
目录
1.文献查找和归类
1.1 文献查找
1.2 文献归纳
2.文献阅读与笔记
2.1 阅读顺序
2.2 笔记
3.讨论与总结
1.文献查找和归类
面对一个新的课题时,文献查找和归类显得极为重要,这里主要有两个核心问题:
(1)找的文献是否“足够好”?
(2)文献如何分类?
1.1 文献查找
在确定开始某个研究方向以后,首先就是要大量阅读这个方向的论文,NLP可以参考的文献检索网站有:
- ACL Anthology:这是ACL学会建立的网站,支持该领域绝大部分国际学术会议论文的免费下载,甚至包含了其他组织主办的学术会议,例如COLING、IJCNLP等。
- arXiv:这是一个预发表网站,一般很多研究者会将很多已投稿还没有发表的文章会放到arxiv上让大家知道这方面的研究内容已经有人做了,不必再做重复性的工作。
- DBLP:这是计算机领域内对研究成果以作者为核心的一个强大的计算机类英文文献的集成数据库系统。
检索文献的同时还需要注意上述第一个问题,“足够好”是指这篇文献具有很好的质量。通常来说,可以通过下面这些指标来识别高质量文章:
- 发表期刊/会议
- 被引用次数
- 发表组织/个人
- 是否有源码
从刊物和会议角度来说,NLP方向可以参考以下会议/期刊:
ACL | 会议 | NLP | |
EMNLP | 会议 | NLP | |
NAACL | 会议 | NLP | |
COLING | 会议 | NLP | |
AAAI | 会议 | AI | |
IJCAI | 会议 | AI | |
NeurIPS | 会议 | AI | |
ICLR | 会议 | AI | |
NLPCC | 会议 | NLP | |
CCIR | 会议 | NLP | |
Computational Linguistics | 期刊 | NLP | |
Transactions of the Association for Computational Linguistics | 期刊 | Transactions of the Association for Computational Linguistics | NLP |
在上述表格中,会议的地址都来自 DBLP 。
1.2 文献归纳
下载好论文以后,还需要对文献有科学的分类和管理,这样有利于后期快速找到自己下载好的论文。这里可以参考:
- 文献来源——根据会议和期刊名构建文件夹
- 是否预发表
- 研究问题——还可以将研究问题细分,进一步做较为细致的分类(推荐)
- 方法/模型——CNN, RNN, Bert, Prompt等
- 优化方法
合理的分类可以帮助自己梳理文献和总结。
2.文献阅读与笔记
文献不仅要读,更要记笔记!
2.1 阅读顺序
为了快速知道作者的研究问题、内容和结论,必须有一套有效的论文阅读方法,这里推荐如下阅读顺序:
- Title+Abstract——一般来说,标题中可以获得本文的大致研究内容,通常也用于大家快速检索与自己研究相关的内容,不过部分论文的标题非常含蓄,可能会让我们出现遗漏,例如Attention is all you need。进一步阅读摘要能更加有效获取文章的工作核心,这里也还需要注意,有的文章可能做了与自己相同的研究,但因为不是其核心创新而没有写到摘要中,这就需要进一步阅读更多内容。
- Abstract+Introduction (The second half)——因为引言的前半部多半在介绍研究背景和早期研究,只有后半部才是自己的工作,因此核心看后半部分。
- Experiments+Conclusion——学习作者的实验思路和分析方法,获得有效的研究结论
- Proposal——根据自己的敏感程度进行阅读,分析作者工作和自己的不同之处和效果
2.2 笔记
阅读完以后,一定不能忘记记笔记,记录好文献的笔记后,可以帮助后期快速对比各个论文的不同点,并用于总结。
这里推荐up主的笔记方法,通过构建一个表格,将每篇文献的详细内容进行总结:
3.讨论与总结
讨论与总结是一个很好提升自己对文章理解、消化吸收的手段。当阅读完一篇文献后,往往只是片面掌握了文章研究的问题、方法和结论,但对于其中的内在逻辑可能缺乏充分的理解,同时,也因为自己知识的局限性,往往很难发现文章中存在的问题。
在这种时候,最好是能够和其他人进行较为细致的讨论和分析,通过尝试去说服他人,回答对方的问题,从而让自己对文章理解的更为透彻。