JanSchm · June 25, 2020 13:27
diff --git a/transformer_encoder.py b/transformer_encoder.py
 class TransformerEncoder(Layer):
  def __init__(self, d_k, d_v, n_heads, ff_dim, dropout=0.1, **kwargs):
    super(TransformerEncoder, self).__init__()
    self.d_k = d_k
    self.d_v = d_v
    self.n_heads = n_heads
    self.ff_dim = ff_dim
    self.attn_heads = list()
    self.dropout_rate = dropout

  def build(self, input_shape):
    self.attn_multi = MultiAttention(self.d_k, self.d_v, self.n_heads)
    self.attn_dropout = Dropout(self.dropout_rate)
    self.attn_normalize = LayerNormalization(input_shape=input_shape, epsilon=1e-6)

    self.ff_conv1D_1 = Conv1D(filters=self.ff_dim, kernel_size=1, activation='relu')
    self.ff_conv1D_2 = Conv1D(filters=7, kernel_size=1) # input_shape[0]=(batch, seq_len, 7), input_shape[0][-1]=7 
    self.ff_dropout = Dropout(self.dropout_rate)
    self.ff_normalize = LayerNormalization(input_shape=input_shape, epsilon=1e-6)    
  
  def call(self, inputs): # inputs = (in_seq, in_seq, in_seq)
    attn_layer = self.attn_multi(inputs)
    attn_layer = self.attn_dropout(attn_layer)
    attn_layer = self.attn_normalize(inputs[0] + attn_layer)

    ff_layer = self.ff_conv1D_1(attn_layer)
    ff_layer = self.ff_conv1D_2(ff_layer)
    ff_layer = self.ff_dropout(ff_layer)
    ff_layer = self.ff_normalize(inputs[0] + ff_layer)
    return ff_layer
	class TransformerEncoder(Layer):
	def __init__(self, d_k, d_v, n_heads, ff_dim, dropout=0.1, **kwargs):
	super(TransformerEncoder, self).__init__()
	self.d_k = d_k
	self.d_v = d_v
	self.n_heads = n_heads
	self.ff_dim = ff_dim
	self.attn_heads = list()
	self.dropout_rate = dropout

	def build(self, input_shape):
	self.attn_multi = MultiAttention(self.d_k, self.d_v, self.n_heads)
	self.attn_dropout = Dropout(self.dropout_rate)
	self.attn_normalize = LayerNormalization(input_shape=input_shape, epsilon=1e-6)

	self.ff_conv1D_1 = Conv1D(filters=self.ff_dim, kernel_size=1, activation='relu')
	self.ff_conv1D_2 = Conv1D(filters=7, kernel_size=1) # input_shape[0]=(batch, seq_len, 7), input_shape[0][-1]=7
	self.ff_dropout = Dropout(self.dropout_rate)
	self.ff_normalize = LayerNormalization(input_shape=input_shape, epsilon=1e-6)

	def call(self, inputs): # inputs = (in_seq, in_seq, in_seq)
	attn_layer = self.attn_multi(inputs)
	attn_layer = self.attn_dropout(attn_layer)
	attn_layer = self.attn_normalize(inputs[0] + attn_layer)

	ff_layer = self.ff_conv1D_1(attn_layer)
	ff_layer = self.ff_conv1D_2(ff_layer)
	ff_layer = self.ff_dropout(ff_layer)
	ff_layer = self.ff_normalize(inputs[0] + ff_layer)
	return ff_layer