原创：岐山凤鸣，转载请注明本站域名

阶段性进行一些总结，这是总结的第一部分，包含三个内容，tf.data即读取数据相关内容并且进行了独立测速，以及和之前不同的一款ResNet的精简写法。

觉得不错不妨star/follow一下我的Github

数据读取相关

我写的测速项目地址在这：https://github.com/Ecohnoch/Test_Speed_Tensorflow

如需要引用，注明本站域名即可。

原始方法feed_dict

顾名思义，tf.data即和数据相关的方法，tf最原始的数据读入方法是feed_dict，形如下面的代码：

_, loss_val, acc_val = sess.run([train_op, loss, acc], feed_dict={x: batch_train, y: batch_label})

但是这样肯定是不好的，仅限于小规模的数据，一旦遇到大规模训练数据的时候很容易出问题，首要一点便是它的速度太慢。

在Voxceleb说话人识别的数据集上测试的Feed_dict直接读取速度如下所示：

Counter: 0 Step time: 6.295599699020386 Batch time: 2.5750744342803955
Counter: 1 Step time: 7.346299886703491 Batch time: 0.4196662902832031
Counter: 2 Step time: 7.89916205406189 Batch time: 0.42375802993774414
Counter: 3 Step time: 7.849005222320557 Batch time: 0.42288804054260254
Counter: 4 Step time: 7.825454950332642 Batch time: 0.42127156257629395
Counter: 5 Step time: 7.741421699523926 Batch time: 0.42023229598999023
Counter: 6 Step time: 7.170980215072632 Batch time: 0.3953855037689209
Counter: 7 Step time: 7.0572052001953125 Batch time: 0.39606690406799316
Counter: 8 Step time: 7.011394262313843 Batch time: 0.4239654541015625
Counter: 9 Step time: 7.550851821899414 Batch time: 0.41985249519348145
10 Batch time consumed:  73.74794006347656

多线程方法

第二种是使用多线程方法，这种需要用到tf.coordinator进行线程管理。

它总共分为三步：

Step1: 定义一个数据读取的Tensor，这个Tensor是一个队列，需要给开一个BufferSize并且形式定义，一个图像里的写法形如：

with tf.device('/cpu:0'):
	q = tf.FIFOQueue(BATCH_SIZE*3, [tf.float32, tf.int64], shapes=[[224, 224, 3], []])
    enqueue_op = q.enqueue_many([x, y])
    x_b, y_b = q.dequeue_many(BATCH_SIZE)

其中x和y分别是Placeholder，且之后不用x和y，而用x_b, y_b, 因为在计算图里一旦计算了enqueue_op，当前数据位置已经到了x_b, y_b

Step2: 定义一个多线程控制器，且初始化线程启动，并且要告诉线程每一步做什么

tf里的多线程控制器是tf.coordinator，可以和saver放到一起，定义如下：

coord = tf.coordinator()

之后启动Session后，需要在Session中启动线程，并且要告诉线程每步做什么

告诉线程每步做什么：

def enqueue_batches():
    while not coord.should_stop():
        global idx_thread_train
        global idx_thread_label
        batch_train, idx_train, end_epoch = get_batch(train_file_list, idx_thread_train, batch_size=BATCH_SIZE)
        batch_train_label, idx_train_label, end_epoch = get_label_batch(train_label_list, idx_thread_train, batch_size=BATCH_SIZE)
        batch_train = np.array(batch_train)
        sess.run(enqueue_op, feed_dict={x: batch_train, y: batch_train_label})
        if end_epoch:
            idx_thread_train = 0
			idx_thread_label = 0

可以看到每步线程都需要去跑计算图，跑什么呢，自然是跑enqueue_op，即我们Step1定义的Tensor，让数据入队

然后启动线程：

num_threads = 3
for j in range(num_threads):
	t = threading.Thread(target=enqueue_batches)
	t.setDaemon(True)
	t.start()

线程启动后就会自己开始跑了，等你的计算图需要用到数据的时候，线程会自动出队一个数据。

Step3: 全部结束后控制线程停止

注：多线程方法进行数据训练的时候是不需要填充feed_dict的，直接sess.run(train_op)即可。

程序最后需要停止线程，即：

coord.request_stop()
coord.join()

最后测试的时间为：

Counter: 0 Step time: 6.949103832244873 Batch time: 6.949103832244873
Counter: 1 Step time: 0.4178884029388428 Batch time: 0.41788816452026367
Counter: 2 Step time: 0.41602659225463867 Batch time: 0.41602659225463867
Counter: 3 Step time: 1.6344246864318848 Batch time: 1.6344244480133057
Counter: 4 Step time: 0.4172630310058594 Batch time: 0.4172627925872803
Counter: 5 Step time: 0.4188086986541748 Batch time: 0.4188082218170166
Counter: 6 Step time: 3.5055649280548096 Batch time: 3.5055646896362305
Counter: 7 Step time: 0.41728734970092773 Batch time: 0.41728711128234863
Counter: 8 Step time: 0.4174153804779053 Batch time: 0.41741514205932617
Counter: 9 Step time: 3.524942398071289 Batch time: 3.52494215965271
10 Batch time consumed:  18.121190071105957

可以看到每三个Batch都会有一个多出来的时间，是因为我的Queue Buffer设置为3，三个线程去填充。

这个方法比原始方法快了很多，大概4倍左右。

TFRecord

这是tf自带的一种数据方法，专门用来处理大规模数据的。

我们之前的逻辑是每轮训练生成一个Batch，拿Batch去跑计算图。而我们现在不这样做。

我们直接先把所有的Batch跑一遍，但不去算计算图，而是把这过程的数据以二进制形式写进另一个文件，即TFRecord文件。

之后我们训练计算图的时候，只要跟着这个TFRecord文件出来的数据跑就可以了。

所以很明显有一个劣势，那就是你原始数据如果有100G，那这个TFRecord文件也差不多是100G，需要生成很久。

好处是只要生成了这个文件，读取数据就再也不用愁了，它也会自动给你一个Batch一个Batch的出来，很方便。

Step1: 跑一遍所有的原始数据，生成TFRecord文件

def generate_tfrecord(output_path):
    train_file_list, train_label_list = audio_data_extracted(SPLIT_FILE, WAV_DIR)
    writer = tf.python_io.TFRecordWriter(os.path.join(output_path, 'tran.tfrecords'))
    for ind, (file, label) in enumerate(zip(train_file_list, train_label_list)):
        audio = load_data(file)
        audio_raw = audio.tobytes()
        label = int(label)
        example = tf.train.Example(features=tf.train.Features(feature={
                'audio_raw': tf.train.Feature(bytes_list=tf.train.BytesList(value=[audio_raw])),
                'label':     tf.train.Feature(int64_list=tf.train.Int64List(value=[label]))
            }))
        writer.write(example.SerializeToString())
        if i != 0 and ind % 1000 == 0:
            print("%d num audios processed" % ind)
	writer.close()

可以看到这里要使用tf.train.Example去生成一个example，然后使用writer每轮写进一个数据，每轮写进的数据包含两个部分，即一个个单独的音频文件（这里我用的Voxceleb数据集），和对应的标签，把所有的数据全部跑一遍，比如这里就要跑153000轮才能跑完，以后有15万的数据。

Step2: 写一个函数去读取TFRecord文件

有了TFRecord基本就已经高枕无忧了，我们需要用一个解码器去对example进行解码。

def parse_function(example_proto):
    features = {
        'audio_raw': tf.FixedLenFeature([], tf.string),
        'label':     tf.FixedLenFeature([], tf.int64)
    }
    features = tf.parse_single_example(example_proto, features)
    audio_file = tf.decode_raw(features['audio_raw'], tf.float32)
    audio_file = tf.reshape(audio_file, [257, 250, 1])
    label      = tf.cast(features['label'], tf.int64)

	return audio_file, label

可以看到解码器的功能就只是对单独的一个example解码，从二进制到俩个东西，即单个音频文件和对应标签。

Step3: 建立一个Tensor去自动跑每一个Batch

有了编码器和解码器，接下来构造一个Tensor自动去跑出来Batch，非常的优雅。

dataset = tf.data.TFRecordDataset(trans_file)
dataset = dataset.map(parse_function)
dataset = dataset.shuffle(buffer_size=10000)
dataset = dataset.batch(BATCH_SIZE)
iterator= dataset.make_initializable_iterator()
next_element = iterator.get_next()

这个trans_file就是TFRecord的文件路径，最后的next_element就是一个Batch的Tensor，我们随时都可以跑一下这个Tensor，都能返回一个Batch的数据。

要注意这个next_element是按照顺序跑的，按照顺序和Batch_Size去跑dataset，那么最后它把dataset跑完的时候会throw一个tf.errors.OutOFRangeError，我们在不停的训练数据时，如果遇到了这个error，说明一个Epoch已经跑完了，可以进行下一个Epoch了！

训练时我们这样写就ok了：

for i in range(epoch_times):
	sess.run(iterator.initializer)   # 重置iterator
	while True:
		try:
			train, train_label = sess.run(next_element)  # 自动获得一个Batch
			# Do something

		except tf.errors.OutOfRangeError:
			print("End epoch %d" % i)
			break

While True是让next_element不停的跑，直到把dataset跑完，会throw 一个error自动结束本轮训练，开始下一轮运算，是不是很优雅。

TFRecord的测试时间如下，可以看到相比多线程，速度更快了一步，读取数据的速度几乎全部为0：

Counter: 0 Step time: 6.16588568687439 Batch time: 2.5156548023223877
Counter: 1 Step time: 0.4680795669555664 Batch time: 0.4195573329925537
Counter: 2 Step time: 0.4180431365966797 Batch time: 0.3949098587036133
Counter: 3 Step time: 0.4179658889770508 Batch time: 0.3945798873901367
Counter: 4 Step time: 0.417874813079834 Batch time: 0.39447832107543945
Counter: 5 Step time: 0.4183065891265869 Batch time: 0.39487552642822266
Counter: 6 Step time: 0.4181385040283203 Batch time: 0.3947765827178955
Counter: 7 Step time: 0.4182932376861572 Batch time: 0.39474034309387207
Counter: 8 Step time: 0.44022130966186523 Batch time: 0.3950035572052002
Counter: 9 Step time: 0.4184234142303467 Batch time: 0.3947596549987793
10 Batch time consumed:  10.002059936523438

精简式ResNet写法

在我的第13篇深度学习入门的文章中，介绍了一种tensorflow的ResNet50的写法，经过这么长时间学习，我也用过了很多ResNet，但这种写法并不容易理解也不容易维护，于是我提供一个精简式方便维护，一眼就能看懂的ResNet50的写法。我上面的进行速度评测，也是使用的这种写法的ResNet50。

https://github.com/Ecohnoch/Test_Speed_Tensorflow/blob/master/thin_resnet.py

重点部件就是：

普通残差块：

def identity_block(input_tensor, kernel_sizes, filters, names, is_training, reuse):
'''
三连conv->bn->relu
最后带上input_tensor做加法
'''

过渡残差块：

def conv_block(input_tensor, kernel_sizes, filters, names, is_training, reuse):
'''
对input_tensor做个conv->bn->relu来进行一波上采样，否则满足不了最后加法的shape
三连conv->bn->relu
最后带上第一步的上采样结果做加法
'''

实现ResNet34（伪代码）:

x = 预处理

# Block1
x = conv_block()
x = identity_block()

x = conv_block()
x = identity_block()
x = identity_block()

x = conv_block()
x = identity_block()
x = identity_block()
x = identity_block()

x = conv_block()
x = identity_block()
x = identity_block()
x = 特征聚合

反正比较方便写也比较方便维护，resnet50, 152也就是多复制几行就可以了，Tensor名字比较关键，要写清楚。

后续还有一系列的阶段性总结，先写这么多吧。

Reference

InsightFace_TF