就针对您说的问题吧,我认为BN特征是属于深度特征,这一点无可非议。不过deep feature应该除了bottle neck之外还可以包括d-vector等等,这个概念在Google的2014年ICASSP《DEEP NEURAL NETWORKS FOR SMALL FOOTPRINT TEXT-DEPENDENT
SPEAKER VERIFICATION》上有提到。
这些深度特征也都可以适用在语音识别、说话人识别。不过您认为这样BN等同deep feature也算是可以的。而DNN训练确实是pre-training加一个fine-tune,而这个过程可以视为DBN的过程,当在最后一层隐含层后再加一层softmax输出,就会成为DBN-DNN。这个过程在Hinton 的论文里有详细的分析《Deep Neural Networks for Acoustic Modeling in Speech Recognition》。而BN通常都是在倒数第二层提取。
至于发展史,我认为是BP的提出到DBN的训练方法来改善神经网络容易得到局部最优值和梯度衰减的问题。再到DNN和特征的提取,同时您说的bottle neck应该最早源于1994年的《CONNECTIONIST SPEECH RECOGNITION A Hybrid Approach》,里面首先提出到BN层应该要同时比inputoutput结点数都要少的概念,而把多种特征拼接起来Tandem的概念可以在2000的ICASSP《TANDEM CONNECTIONIST FEATURE EXTRACTION FOR CONVENTIONAL HMM SYSTEMS》里找到。