自然语言处理第一番之文本分类器_科技资讯

　　文本分类应该是自然语言处理中最普遍的一个应用，例如文章自动分类、邮件自动分类、垃圾邮件识别、用户情感分类等等，在生活中有很多例子，这篇文章主要从传统和深度学习两块来解释下我们如何做一个文本分类器。

　　文本分类方法

　　传统的文本方法的主要流程是人工设计一些特征，从原始文档中提取特征，然后指定分类器如LR、SVM，训练模型对文章进行分类，比较经典的特征提取方法如频次法、tf-idf、互信息方法、N-Gram。

　　深度学习火了之后，也有很多人开始使用一些经典的模型如CNN、LSTM这类方法来做特征的提取，这篇文章会比较粗地描述下，在文本分类的一些实验

　　传统文本分类方法

　　这里主要描述两种特征提取方法：频次法、tf-idf、互信息、N-Gram。

　　频次法

　　频次法，顾名思义，十分简单，记录每篇文章的次数分布，然后将分布输入机器学习模型，训练一个合适的分类模型，对这类数据进行分类，需要指出的时，在统计次数分布时，可合理提出假设，频次比较小的词对文章分类的影响比较小，因此我们可合理地假设阈值，滤除频次小于阈值的词，减少特征空间维度。

　　TF-IDF

　　TF-IDF相对于频次法，有更进一步的考量，词出现的次数能从一定程度反应文章的特点，即TF，而TF-IDF，增加了所谓的反文档频率，如果一个词在某个类别上出现的次数多，而在全部文本上出现的次数相对比较少，我们认为这个词有更强大的文档区分能力，TF-IDF就是综合考虑了频次和反文档频率两个因素。

　　互信息方法

　　互信息方法也是一种基于统计的方法，计算文档中出现词和文档类别的相关程度，即互信息

　　N-Gram

　　基于N-Gram的方法是把文章序列，通过大小为N的窗口，形成一个个Group，然后对这些Group做统计，滤除出现频次较低的Group，把这些Group组成特征空间，传入分类器，进行分类。

　　深度学习方法

　　基于CNN的文本分类方法

　　最普通的基于CNN的方法就是Keras上的example做情感分析，接Conv1D，指定大小的window size来遍历文章，加上一个maxpool，如此多接入几个，得到特征表示，然后加上FC，进行最终的分类输出。

　　基于CNN的文本分类方法，最出名的应该是2014 Emnlp的 Convolutional Neural Networks for Sentence Classiﬁcation，使用不同filter的cnn网络，然后加入maxpool，然后concat到一起。

　　这类CNN的方法，通过设计不同的window size来建模不同尺度的关系，但是很明显，丢失了大部分的上下文关系，Recurrent Convolutional Neural Networks for Text Classification,将每一个词形成向量化表示时，加上上文和下文的信息，每一个词的表示如下：

　　整个结构框架如下：

　　如针对这句话”A sunset stroll along the South Bank affords an array of stunning vantage points”，stroll的表示包括c_l(stroll),pre_word2vec(stroll),c_r(stroll), c_l(stroll)编码A sunset的语义，而c_r(stroll)编码along the South Bank affords an array of stunning vantage points的信息，每一个词都如此处理，因此会避免普通cnn方法的上下文缺失的信息。

　　基于LSTM的方法

　　和基于CNN的方法中第一种类似，直接暴力地在embedding之后加入LSTM，然后输出到一个FC进行分类，基于LSTM的方法，我觉得这也是一种特征提取方式，可能比较偏向建模时序的特征;

　　在暴力的方法之上，A C-LSTM Neural Network for Text Classification，将embedding输出不直接接入LSTM，而是接入到cnn，通过cnn得到一些序列，然后吧这些序列再接入到LSTM，文章说这么做会提高最后分类的准去率。

　　代码实践

　　语料及任务介绍

　　训练的语料来自于大概31个新闻类别的新闻语料，但是其中有一些新闻数目比较少，所以取了数量比较多的前20个新闻类比的新闻语料，每篇新闻稿字数从几百到几千不等，任务就是训练合适的分类器然后将新闻分为不同类别:

　　Bow

　　Bow对语料处理，得到tokens set：

　　然后，tokens set 以频率阈值进行滤除，然后对每篇文章做处理来进行向量化：

　　最终就得到每篇文章的bow的向量，由于这块的代码是在我的笔记本上运行的，直接跑占用内存太大，因为每一篇文章在token set中的表示是极其稀疏的，因此我们可以选择将其转为csr表示，然后进行模型训练，转为csr并保存中间结果代码如下：

　　最后训练模型代码如下：

　　TF-IDF

　　TF-IDF和Bow的操作十分类似，只是在向量化使使用tf-idf的方法：

　　这两类方法效果都不错，都能达到98+%的准确率。

　　CNN

　　语料处理的方法和传统的差不多，分词之后，使用pretrain 的word2vec，这里我遇到一个坑，我开始对我的分词太自信了，最后模型一直不能收敛，后来向我们组博士请教，极有可能是由于分词的词序列中很多在pretrained word2vec里面是不存在的，而我这部分直接丢弃了，所有可能存在问题，分词添加了词典，然后，对于pre-trained word2vec不存在的词做了一个随机初始化，然后就能收敛了，学习了!

　　载入word2vec模型和构建cnn网络代码如下(增加了一些bn和dropout的手段)：