卷积神经网络(Text--cnn),知识点整理

参考:http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/

独热编码(one-hot)编码:

也称为有效编码,其方法是用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存位,并且在任意时候,只存在一个1,其他全为0.

例如对六个状态进行编码:

自然顺序码为:000,001,010,011,100,101

独热编码是000001,000010,000100,001000,010000,100000

再举一个例子:

假如只有一个特征是离散值:

{sex:{male,femal,other}}

该特征总共有3个不同的分类值,此时需要3个bit位表示该特征是什么值,此时得到的独热码为{100}男性、{010}女性、{001}其他(一般来说1的位置按照从前往后进行顺序摆放)

假如多个特征需要独热编码,那么就按照上面的方法将依次将每个特征的独热码拼接起来:

{sex:{male,femal,other}}

{grade:{一年级,二年级,三年级,四年级}}

此时对输入为{sex:male,grade:四年级}进行独热编码,可以首先将sex按照上面编码得到:{100},然后按照grade进行编码为{0001},那么拼接起来得到最后的独热编码{1000001}