不过我可以确认的是:1,一般意义上的扩散模型,是指一种架构,类似 GPT ,BERT也是一种架构;2,transformer 大多是指一种基于多头自注意力机制的 block,平行的概念有 lstm,gru,cnn3,所以 transformer 可以作为扩散模型的组成部分,并不冲突,类似transformer decoder 是 GPT 的组成部分