tensorflow mnist模块详解

tensorflow的官方文档是以mnist数据集为例子开始的.文档本身没有介绍tensorflow.contrib.learn.python.learn.datasets.mnist模块.要想用tensorflow处理自己的数据集必须100%把这个模块弄明白.之后可以模仿mnist模块,定义自己的数据集.

extract_images方法

该方法是从压缩包中把数据读出来,将数据存入numpy的数组中.代码细节看参考资料1.最终返回一个n28281的numpy数组.n代表数据集中有几张图片.2828代表图片长,宽.1代表通道数(黑白图片通道数为1).

extract_labels

如果one_hot为False,返回一个长度为n的numpy数组.每个元素代表图片上的数字.如果one_hot为True,返回一个n*10的numpy数组,里面的值非0即1.每一行代表一个图片上的数字,第几列为1,就代表图片上是几.从压缩文件中读取数据的方法和上面的思路完全一致.

DataSet

在mnist中定义._images是n*784的numpy型数组,_labels是长度为n的数组(one_hot为False时)

read_data_sets

返回Datasets. Datasets在tensorflow.contrib.learn.python.learn.datasets.mnist.base中定义.Datasets是一个元组,里面有3个元素train,validation,test.在这个函数中,这3个元素都被初始化成DataSet型. next_batch的非常简单,每次返回batch_size个代表图片的numpy型数组和标签.

问题

fake_data为True有什么作用

参考资料

  1. python读取,显示,保存mnist图片
  2. mnist模块源代码