专栏 | 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

时间：07-18 来源：机器之心点击：

估集、调试提取的特征等。

神经指代消解（Neural Coref Models），在论文 Learning Global Features for Coreference Resolution（Sam Wiseman, Alexander M. Rush, and Stuart M. Shieber, NAACL 2015）和 Learning Anaphoricity and Antecedent Ranking Features for Coreference Resolution（Sam Wiseman, Alexander M. Rush, Stuart M. Shieber, and Jason Weston. ACL 2015）中有所描述。Github 中开源的指代消解项目有 https://github.com/swiseman/nn_coref。

自然语言生成，能够根据一些关键信息及其在机器内部的表达形式，经过一个规划过程，来自动生成一段高质量的自然语言文本。目前关于自然语言生成有一些比较有趣的研究，比如 https://github.com/karpathy/char-rnn 是一个基于 RNN 的文本生成器，可以自动生成莎士比亚的剧本或者 shell 代码；https://link.zhihu.com/?target=https%3A//github.com/phunterlau/wangfeng-rnn 基于 char-rnn 的汪峰歌词生成器等。

知识问答，可以用深度学习模型，从语料中学习获得一些问题的答案，比如 https://github.com/facebook/MemNN，是 memmnn 的一个官方实现，可以从诸如「小明在操场；小王在办公室；小明捡起了足球；小王走进了厨房」的语境中，获得问题「小王在去厨房前在哪里？」这样涉及推理和理解的问题；例如斯坦福的 http://cs.stanford.edu/~danqi/papers/nips2013.pdf 利用深度学习实现的知识问答系统。

神经机器翻译（NMT）在翻译中提供了统计方式之外的另一种方式，同时也更加简便。Github 上基于 Sequence-to-Sequence Learning with Attentional Neural Networks 的开源项目： http://github.com/harvardnlp/seq2seq-attn，以及基于上述项目和 http://www.people.fas.harvard.edu/~yoonkim/data/emnlp_2016.pdf 的安卓系统中的神经机器翻译。该项目考虑了将知识提炼（knowledge distillation）方式加入机器神经翻译中，以解决其体量问题，这种方式已在其他领域中被证明能够成功减小神经模型的尺寸。

在 Github 上还有一些有趣的关于深度学习与自然语言处理的项目。比如：Google Brain 团队的一组研究人员发布了一个项目 Project Magenta，其主要目标是利用机器学习创作艺术和谱写曲子 https://github.com/tensorflow/magenta；https://github.com/ryankiros/neural-storyteller 是一个自然语言生成项目，实现了看图讲故事的功能。

以上是对深度学习在 NLP 领域运用的一些总结和说明。最后，再讲回竹间全力打造的自然语言对话系统。之前提到 2017 年的对话系统一定是在限定的场景下发挥作用的，而竹间智能基于深度学习打造的人机交互系统，在金融、电商及 IoT 等限定领域中已经实现了比较好的可控人机对话。未来，竹间希望在更多垂直领域形成突破。

上一篇：大胆自信地提供线性充电器以前不曾提供的功能
下一篇：如何快速选择工业以太网标准之串行实时通信协议

栏目分类