OCR Attention model backward debug

在ocr_attemtion的decode rnn ([fluid](https://github.com/wanghaoshuang/ocr_attention/blob/master/fluid/attention_model.py#L174) , [v1](https://github.com/wanghaoshuang/ocr_attention/blob/master/v1/trainer_conf.py#L133)) 中，每一个`step`的`output`都通过一个利用`softmax`激活函数的`fc layer`,  该`fc layer`用于把`memory`转为对`num_classes`个单词的预测。
fluid 使用fc layer： https://github.com/wanghaoshuang/ocr_attention/blob/master/fluid/attention_model.py#L191
v1 使用的是mixed layer : https://github.com/wanghaoshuang/ocr_attention/blob/master/v1/trainer_conf.py#L151

在对齐backward过程中，发现上述`fluid fc layer`和 `V1 mixed layer`表现不一致。

## 对比实验

`fluid fc layer`和`v1 mixed layer`都去掉`softmax`激活，加载相同model, 使用一张图片跑一个pass: 

在fluid中，在fc layer前后加上了`fluid.layers.Print(input=h, print_phase="backward")`， 如下连接所示：
https://github.com/wanghaoshuang/ocr_attention/blob/master/fluid/attention_model.py#L190-L195

在V1中，在mixed layer前后加上了`gradient_printer_evaluator(input=gru_step)`, 如下连接所示：
https://github.com/wanghaoshuang/ocr_attention/blob/master/v1/trainer_conf.py#L150-L157

输出日志表明（共7个rnn step）：
- fluid fc layer 和 v1 mixed layer的out_grad都是一致的。
- 在最后一个step， fluid fc llayer和v1 mixed layer计算得到的input_grad一致
- 在1-6个step,  fluid fc llayer和v1 mixed layer计算得到的input_grad不一致


## 手动计算验证

从模型中加载v1 mixed layer的weights, 根据日志中打印出的out_grad, 手动计算input_grad.
手动计算结果与fluid fc layer给出的计算结果一致。


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

OCR Attention model backward debug #1

对比实验

手动计算验证

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

OCR Attention model backward debug #1

Description

对比实验

手动计算验证

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions