Wir wissen bereits, dass ein Autoencoder nichts anderes ist als ein neuronales Netz, bei dem Eingangs- und Ausgangsschicht die gleiche Anzahl an Neuronen besitzen. Trainingsdaten bestehen in diesem Falle aus einer Liste von Eingangssignalen (d.h. Matrix oder zweidimensionales Datenfeld). In diesem Abschnitt stellen wir eine übliche Zielfunktion der Trainingsphase vor, um das bekannte Ziel zu erreichen:
Die Gewichte und Schwellwerte eines Autoencoders sollen derart bestimmt werden, sodass jedes Ausgangssignal x' möglichst ähnlich dem zugehörigen Eingangssignal x ist.
Genau wie bei neuronalen Netzen soll die Summe der quadratischen Abweichungen minimiert werden. Dazu bezeichnen wir mit die Menge aller Eingangssignale der Trainingsdaten und
sei die Bezeichnung eines Eingangssignal bestehend aus Neuronen. Zudem beschreibt
die Abbildung eines Eingangssignals auf das zugehörige Ausgangssignal (unter Verwendung des Autoencoders), d.h.,
ist das Ausgangssignal eines Eingangssignals , ebenfalls bestehend aus Neuronen. Die Aufgabe der Trainingsphase besteht somit darin, die Gewichte und Schwellwerte derart zu bestimmen, sodass
minimiert wird. Der (in der Regel niemals erreichbare) Optimalfall ist damit folgender:
Falls die Gewichte und Schwellwerte derart bestimmt wurden, sodass
gilt, dann ist jedes Ausgangssignal exakt dem zugehörigen Eingangssignal , sofern eine Element der Trainingsmenge ist.
Um das Ergebnis einer Trainingsphase unabhängig vom Umfang der Trainingsdaten sowie unabhängig von der Größe der Eingangssignale bewerten zu können, wird die Zielfunktion formal häufig durch die Anzahl der Elemente der Trainingsdaten sowie durch die Größe der Eingangssignale geteilt:
Auch wir nutzen diese Skalierung, um die Trainingsphase in den nachfolgenden Abschnitten analysieren zu können.