博客原文:The Best and Most Current of Modern Natural Language Processing

作者:Victor Sanh

Photo by Radu Marcusu on Unsplash

过去的两年,NLP社区目睹了各种任务和应用的加速发展🚀。这一进展是由于我们传统地构建NLP系统的方式发生了转变:长久以来,我们使用预训练的词嵌入,像word2vec或GloVe来初始化神经网络的第一层,然后用单个数据集通过监督学习来训练具体任务的体系结构。

最近,一些作品证明了我们可以在网络规模的数据集📖上学习分层上下文表示,利用无监督(或半监督)信号例如语言模型,把这些预训练任务的转换成下游任务(迁移学习)。令人鼓舞地是,这种转换导致了各种下游应用的重大进步,从问答,到自然语言推理,再到的句法分析。

我该读哪些论文来了解现代NLP的最新趋势?

几周前,我的一个朋友决定潜心研究NLP。他已经有机器学习和深度学习的背景,所以他真诚地问我:“我该读哪些论文来了解现代NLP的最新趋势?”。 👩‍🎓👨‍🎓

这是一个好问题,尤其是当你考虑到NLP会议(和一般的机器学习会议)获得指数增长的提交数量时,2019年NAACL的提交量比2018年增加了80%,ACL增加了90%

我为他编写了这个论文列表和资源📚,并且我认为把它分享给NLP社区会很棒,我相信它会帮到更多人。

免责声明:这个列表不会面面俱到也不会囊括NLP的每一个领域(例如,没有语义分析,对抗学习,增强学习在NLP方面的应用)。这是过去几年、几个月中最新最有影响的作品(截至2019年5月),主要是受到所读的东西的影响。

通常来说,一个好的开始方式是读介绍性或总结性的博客文章(例如,这篇文章这篇),在真正花费时间读论文之前,这些文章能从高层次的视角给你足够的背景 ✋。

Who said that naming models should be boring and sad? — Source: Moviefone

🌊 一种新范式:迁移学习

The Transformer architecture has become ubiquitous in sequence modeling tasks. — Source:
Attention is all you need

🖼 表示学习

🗣 神经对话

🍱 任你选

一个好的法则是,你应该阅读那些你感兴趣并能激发你快乐的文章!🤷‍🌟

🌍 通用资源

还有大量可选择的资源供你使用,并不一定是论文,如下所示:

书籍:

课程材料:

博客和播客

其他

🎅 写在最后

就到这里!阅读其中的这些资源应该可以让你对现代NLP的最新趋势有一个很好的认识并希望帮你建立自己的NLP系统!🎮

最后一件事,我没有在这篇博客里过多谈及,但是我发现它是极其重要的(有时候可以忽略),那就是动手实践比单纯的阅读要更好! 👩‍💻通过深入阅读附带的代码或尝试自己实现一些代码,你常常能学到更多。实践的资源包括the amazing blog posts and courses from fast.ai或我们的开源库🤗

你感觉如何呢?哪些作品对你影响最深?现在就告诉我们吧!⌨️

像往常一样,如果你喜欢这篇文章,👏 告诉我们并分享一些你身边的消息吧!

非常感谢Lysandre Debut, Clément Delangue, Thibault Févry, Peter Martigny, Anthony Moi and Thomas Wolf 提供的评价和反馈。