This is the second to last set of notes of my lecture on integral transforms.

1. Die Fourier-Transformation

Die Laplace-Transformation ist “einseitig” in dem Sinne, dass sie für Funktionen auf der Halbachse {[0,\infty{[}} definiert ist. Analog zur {z}-Transformation ließe sich auch eine zweiseitige Transformation definieren: Für {f:{\mathbb R}\rightarrow{\mathbb C}} sei

\displaystyle  \mathcal{L}_2(f)(s) = \int_{-\infty}^\infty f(t)\exp(-st){\mathrm d}{t}.

Für die einseitige Transformation haben wir im vorherigen Abschnitt den Wachstumsindex {\sigma_0(f)} definiert um die Konvergenzhalbebene der Transformierten zu beschreiben. Untersuchen wir, unter welchen Bedingungen das Integral in der zweiseitigen Transformierten existiert. Dazu spalten wir das Integral (willkürlich) an der Stelle {t=0} auf (die Aufspaltung an einer anderen Stelle würde zum gleichen Ergebnis kommen) und stellen die zweiseitige Transformation mit Hilfe der Heaviside-Funktion {H} als Summe zweier einseitiger dar:

\displaystyle  \begin{array}{rcl}  \int_{-\infty}^\infty f(t)\exp(-st){\mathrm d}{t} &=& \int_{0}^\infty f(t)\exp(-st){\mathrm d}{t} + \int_0^\infty f(-t)\exp(st){\mathrm d}{t}\\ &=& \mathcal{L}(H(t)\cdot f(t))(s) + \mathcal{L}( H(t)\cdot f(-t))(-s) \end{array}

Mit Hilfe der Wachstumsindizes {\sigma_0(H(t)f(t))} uns {\sigma_0(H(t)f(-t))} erkennen wir, dass die zweiseitige erste Transformierte für {\mathrm{Re}(s)>\sigma_0(H(t)f(t))} und die zweite für {\mathrm{Re}(-s) > \sigma_0(H(t)f(-t))} existiert. Also existiert die zweiseitige Transformation auf dem Streifen

\displaystyle  \sigma_0(H(t)f(t)) <\mathrm{Re}(s)<-\sigma_0(H(t)f(-t)).

Schauen wir uns diesen Streifen einmal in ein paar konkreten Beispielen an:

Beispiel 1

  1. Wir betrachten {f(t) = \exp(-|t|)}. In diesem Fall haben wir {\sigma_0(H(t)f(t)) = \sigma_0(H(t)f(-t)) = -1} (das Verhalten von {f(t)} und {f(-t)} ist gleich und sogar exakt exponentiell) und die zweiseitige Laplace Transformation existiert für {-1<\mathrm{Re}(s)<1}. Wir berechnen

    \displaystyle  \begin{array}{rcl}  \mathcal{L}_2(f)(s) &=& \int_{-\infty}^\infty \exp(-|t|)\exp(-ts){\mathrm d}{t}\\ &=& \int_{0}^\infty \exp(-t)\exp(-ts){\mathrm d}{t}\\ &&\qquad+\int_{-\infty}^0\exp(t)\exp(-ts){\mathrm d}{t}\\ &=& \Big[\frac{\exp(-t(s+1)}{s+1}\Big]_{0}^\infty + \Big[\frac{\exp(-t(s-1)}{s-1}\Big]_{-\infty}^0\\ &=& -\frac{1}{s+1} + \frac{1}{s-1} = \frac{2}{s^2-1}. \end{array}

    In der Tat ist {\mathcal{L}_2(f)(s)} eine komplex differenzierbare Funktion mit Polen in {s=\pm 1} welche genau an den Grenzen des Konvergenzbereiches liegen.

  2. Wir betrachten {f(t) = 1/(1+t^2)} in diesem Fall haben wir weder bei {\infty} noch bei {-\infty} exponentielles Abfallverhalten; es gilt

    \displaystyle  \sigma_0(H(t)f(t)) = \sigma_0(H(t)f(-t)) = 0,

    der Konvergenzbereich {0<\mathrm{Re}(s)<0} ist also leer. Im Fall {\mathrm{Re}(s) = 0}, also für {s = \mathrm{i} \omega} mit {\omega\in{\mathbb R}}, gilt allerdings

    \displaystyle  \Big|\int_{-\infty}^\infty \frac{\exp(-\mathrm{i}\omega t)}{1+t^2}{\mathrm d}{t}\Big|\leq \int_{-\infty}^\infty \frac{1}{1+t^2}{\mathrm d}{t} = \pi.

    Das Integral existiert also doch auf der gesamten Linie {\mathrm{Re}(s) = 0}.

Das Phänomen im zweiten Teil des Beispiels ist in der Tat keine besondere Ausnahme: Für beschränkte Funktionen, die nicht exponentiell schnell bei {\infty} und {-\infty} abfallen gilt immer {\sigma_0(H(t)f(t)) = \sigma_0(H(t)f(-t)) = 0}, trotzdem kann das Integral auf der ganzen Linie {\mathrm{Re}(s) = 0} existieren, falls die Funktion {f} absolut integrierbar ist: Wie oben ergibt sich nämlich

\displaystyle  \Big|\int_{\mathbb R} f(x)\exp(-\mathrm{i}\omega x){\mathrm d}{x}\Big| \leq \int_{\mathbb R} |f(x)|{\mathrm d}{x}<\infty.

Genau dies führt uns auf die Fourier-Transformation. Bevor wir diese definieren, führen wir noch schnell die {L^p}-Räume ein, da wir sie in diesen Abschnitt häufiger benötigen:

Definition 2 Für {1\leq p<\infty} und {d=1,2\dots} ist der Raum {L^p({\mathbb R}^d)} von Funktionen {f:{\mathbb R}^d\rightarrow{\mathbb C}} definiert durch

\displaystyle  f\in L^p({\mathbb R}^d)\ \text{ falls } \int_{{\mathbb R}^d} |f(x)|^p{\mathrm d}{x}<\infty.

Für {p=\infty} definiert man

\displaystyle  f\in L^\infty({\mathbb R}^d)\ \text{ falls } \sup_{x\in{\mathbb R}^d} |f(x)|<\infty.

Das stimmt nicht ganz – korrekterweise besteht der Raum {L^p({\mathbb R}^d)} aus Äquivalenzklassen von messbaren Funktionen, die fast überall übereinstimmen und deren Repräsentanten entsprechend integrierbar sind. Im Fall {p=\infty} muss man eigentlich das wesentliche Supremum nehmen. Diese Feinheit spielt für unseren Alltag in der Vorlesung keine große Rolle. Man muss im Wesentlichen nur beachten, dass {L^p}-Funktionen nur fast überall bestimmt sind (und so zum Beispiel keine Punktauswertung erlauben). Die {L^p}-Räume sind Vektorräume und mit den Normen

\displaystyle  \|f\|_p = \Big( \int_{{\mathbb R}^d} |f(x)|^p{\mathrm d}{x}\Big)^{1/p},\quad \|f\|_\infty = \sup |f(x)|

sogar Banach-Räume (hierbei ist die Bildung von Äquivalenzklassen wichtig, da es sich sonst nicht um Normen handelt: für {p<\infty} gibt es zum Beispiel sonst Funktionen außer {f\equiv 0} deren Norm Null ist). Der Raum {L^2({\mathbb R}^d)} ist mit dem Skalarprodukt

\displaystyle  \langle f,g\rangle = \int_{{\mathbb R}^d} f(x)\overline{g(x)}{\mathrm d}{x}

ein Hilbert-Raum.

1.1. Die Fourier-Transformation auf {L^1({\mathbb R}^d)}

Für Funktionen {f:{\mathbb R}\rightarrow{\mathbb C}} haben wir schon oben gesehen, dass für absolut integrierbare Funktion (oder anders ausgedrückt, für {f\in L^1({\mathbb R})}) das Integral {\int_{-\infty}^\infty f(t)\exp(-\mathrm{i}\omega t){\mathrm d}{t}} für alle {\omega\in{\mathbb R}} konvergiert. Diese Formel gibt (bis auf eine Konstante) bereits die Fourier-Transformierte. Anders als bei der Laplace-Transformation lässt sich die Fourier-Transformation ohne Probleme auch für Funktionen {u:{\mathbb R}^d\rightarrow{\mathbb C}} definieren und da dies keinerlei Umstände bereitet machen wir das. Für {x,y\in{\mathbb R}^d} bezeichen wir mit {x\cdot y = \sum_{i=1}^d x_i y_i} das Euklidische Skalarprodukt, mit {|x| = \sqrt{x_1^2+\cdots + x_d^2}} bezeichnen wir den Euklidischen Betrag.

Definition 3 (Fourier-Transformation) Sei {u\in L^1({\mathbb R}^d)} und {\xi \in {\mathbb R}^d}. Dann ist die Fourier-Transformierte von {u} in {\xi} definiert durch

\displaystyle  \mathcal{F}(u)(\xi) = \widehat{u}(\xi) = \frac{1}{(2\pi)^{d/2}}\int_{{\mathbb R}^d}u(x)\mathrm{e}^{-\mathrm{i} x\cdot \xi}{\mathrm d}{x}.

Die Abbildung {\mathcal{F}: u\mapsto \widehat{u}} nennen wir Fourier-Transformation.

Im Unterschied zur Laplace-Transformation enthält die Fourier-Transformation noch einen Normierungsfaktor {(2\pi)^{-d/2}}; seine Bedeutung werden wir später genauer verstehen.

Lemma 4 Die Fourier-Transformation ist als Abbildung von {L^1({\mathbb R}^d)} in den Raum {C({\mathbb R}^d)} der stetigen Funktionen (versehen mit der Supremumsnorm {\|\cdot\|_\infty}), also {\mathcal{F}:L^1({\mathbb R}^d)\rightarrow C({\mathbb R}^d)}, wohldefiniert, linear und stetig.

Beweis: Der Integrand in der Fourier-Transformation ist für fast alle {x} stetig in {\xi} und für fast alle {\xi} durch {|u(x)|} beschränkt. Es folgt nach dem Satz der dominierten Konvergenz für {\xi_n\rightarrow\xi}:

\displaystyle  \lim_{n\rightarrow\infty}\int_{{\mathbb R}^d} u(x) \mathrm{e}^{-\mathrm{i} x\cdot \xi_n}{\mathrm d}{x} = \int_{{\mathbb R}^d} u(x) \mathrm{e}^{-\mathrm{i} x\cdot \xi}{\mathrm d}{x},

also

\displaystyle  \lim_{n\rightarrow\infty}\widehat{u}(\xi_n) = \widehat{u}(\xi)

und damit die Stetigkeit von {\widehat{u}}. Die Linearität von {\mathcal{F}} ist klar und die Stetigkeit folgt aus der Abschätzung

\displaystyle  |\widehat{u}(\xi)| = \frac{1}{(2\pi)^{d/2}}\Big|\int_{{\mathbb R}^d}u(x)\mathrm{e}^{-\mathrm{i} x\cdot \xi}{\mathrm d}{x}\Big| \leq \frac{1}{(2\pi)^{d/2}} \int_{{\mathbb R}^d}|u(x)|{\mathrm d}{x} = \frac{1}{(2\pi)^{d/2}}\|u\|_1.

Es folgt {\|\widehat{u}\|_\infty\leq \frac{1}{(2\pi)^{d/2}}\|u\|_1}. \Box

Insbesondere sind Fouriertransformierte von {L^1}-Funktionen beschränkt.

Bemerkung 5 (Alternative Definitionen der Fourier-Transformation) Es werden andere Definitionen der Fourier-Transformation benutzt die sich in der Normierung unterscheiden. Gebräuchlich sind zum Beispiel folgende Varianten:

\displaystyle  \begin{array}{rcl}  \mathcal{F}(u)(\xi) & = &\frac{1}{(2\pi)^d}\int_{{\mathbb R}^d}u(x)\mathrm{e}^{-\mathrm{i} x\cdot \xi}{\mathrm d}{x}\\ \mathcal{F}(u)(\xi) & = &\int_{{\mathbb R}^d}u(x)\mathrm{e}^{-\mathrm{i} x\cdot \xi}{\mathrm d}{x}\\ \mathcal{F}(u)(\xi) & = &\int_{{\mathbb R}^d}u(x)\mathrm{e}^{-2\pi\mathrm{i} x\cdot \xi}{\mathrm d}{x}. \end{array}

Weiterhin kann auch das Minuszeichen im Exponenten weggelassen sein. So ist beim Gebrauch von Tabellen von Fouriertransformierten Vorsicht geboten, ebenso wie beim Nachschlagen von Rechenregeln.

Die Fourier-Transformation verträgt sich gut mit Verschiebungen {V_y}, mit linearen Koordinatentransformationen {D_A} und mit Modulationen {M_\omega}. Verschiebungen kennen wir schon, lineare Koordinatentransformationen und Modultationen definieren wir nun:

Definition 6 Zu {A\in{\mathbb R}^{d\times d}} definieren wir

\displaystyle  d_A:{\mathbb R}^d\rightarrow{\mathbb R}^d,\qquad d_A(x) = Ax

und damit

\displaystyle  D_A u = u\circ d_A,

d.h. {D_A u(x) = u(Ax)}. Zu {y\in{\mathbb R}^d} definieren wir

\displaystyle  m_y:{\mathbb R}^d\rightarrow {\mathbb C},\qquad m_y(x) = \mathrm{e}^{\mathrm{i} x\cdot y}

und

\displaystyle  M_y u = m_y \cdot u

d.h. {M_y u(x) = \mathrm{e}^{\mathrm{i} x\cdot y}u(x)}.

Die linearen Koordinatentransformationen hatten wir schon im vorherigen Abschnitt als Skalierung kennengelernt: Für die Einheitsmatrix {\mathrm{Id}\in{\mathbb R}^{d\times d}} und {a\in{\mathbb R}} gilt {D_{a\mathrm{Id}}u (x) = u(ax)}. Auch die Spiegelung von {u} lässt sich durch lineare Koordinatentransformation schreiben als {D_{-\mathrm{Id}}u(x) = u(-x)}.

Wir sich Verschiebung, Modulation, Koordinatentransformation und Konjugation mit der Fourier-Transformation vertragen, sammelt das folgende Lemma.

Lemma 7 Es sei {u\in L^1({\mathbb R}^d)}, {y\in{\mathbb R}^d} und {A\in {\mathbb R}^{d\times d}} eine reguläre Matrix. Dann gelten folgende Gleichungen:

\displaystyle  \begin{array}{rcl}  \mathcal{F}(V_y u) & =& M_{-y}\mathcal{F}(u)\\ \mathcal{F}(M_y u) & =& V_y\mathcal{F}(u)\\ \mathcal{F}(D_A u) & =& |\det A|^{-1}D_{A^{-T}}\mathcal{F}(u)\\ \mathcal{F}(\overline{u}) & =& \overline{D_{-\mathrm{Id}}\mathcal{F}(u)}. \end{array}

Beweis: Zuerst überzeuge man sich davon, dass die Operatoren {V_y}, {M_y} und {D_A} sowohl {L^1({\mathbb R}^d)} als auch {C({\mathbb R}^d)} in sich selbst abbilden; es sind also alle auftretenden Ausdrücke wohldefiniert. Nach der Transformationsformel für Integrale gilt

\displaystyle  \begin{array}{rcl}  \mathcal{F}(M_\omega V_y u)(\xi) & =& \frac{1}{(2\pi)^{d/2}}\int_{{\mathbb R}^d} u(x-y)\mathrm{e}^{-\mathrm{i} x\cdot (\xi-\omega)}{\mathrm d}{x}\\ & = &\frac{1}{(2\pi)^{d/2}}\mathrm{e}^{-\mathrm{i} (\xi-\omega)\cdot y}\int_{{\mathbb R}^d}u(z)\mathrm{e}^{-\mathrm{i} z\cdot (\xi-\omega)}{\mathrm d}{z}\\ & = &V_{\omega}M_{-y}\mathcal{F} (u)(\xi). \end{array}

Mit {\omega=0} folgt die Translationsformel, mit {y=0} die Modulationsformel. Die Formel für die lineare Koordinatentransformation folgt ebenso direkt aus der Transformationsformel für Integrale und die Formel für die Konjugation erhält man elementar. \Box

Wie die {z}-Transformation und die Laplace-Transformation erfüllt auch die Fourier-Transformation einen Faltungssatz:

Satz 8 (Faltungssatz) Für {u,v\in L^1({\mathbb R}^d)} gilt

\displaystyle  \mathcal{F}(u* v) = (2\pi)^{d/2}\mathcal{F}(u)\mathcal{F}(v).

Beweis: Wir wenden den Satz von Fubini an:

\displaystyle  \begin{array}{rcl}  \mathcal{F}(u* v)(\xi) & =& \frac{1}{(2\pi)^{d/2}} \int_{{\mathbb R}^d}\int_{{\mathbb R}^d} u(y) v(x-y){\mathrm d}{y}\:\mathrm{e}^{-\mathrm{i} x\cdot\xi}{\mathrm d}{x}\\ & =& \frac{1}{(2\pi)^{d/2}} \int_{{\mathbb R}^d}\int_{{\mathbb R}^d} u(y) \mathrm{e}^{-\mathrm{i} y\cdot\xi}v(x-y)\mathrm{e}^{-\mathrm{i} (x-y)\cdot\xi}{\mathrm d}{x}{\mathrm d}{y}\\ & =& \int_{{\mathbb R}^d}u(y)\mathrm{e}^{-\mathrm{i} y\cdot\xi}{\mathrm d}{y}\ \mathcal{F}(v)(\xi)\\ & =& (2\pi)^{d/2}\mathcal{F}(u)(\xi)\mathcal{F}(v)(\xi). \end{array}

\Box

Ganz analog zum Faltungssatz kann man folgendes Lemma beweisen:

Lemma 9 Für {u,v\in L^1({\mathbb R}^d)} gilt

\displaystyle  \int_{{\mathbb R}^d}\widehat{u}(\xi) v(\xi){\mathrm d}{\xi} = \int_{{\mathbb R}^d}u(\xi)\widehat{v}(\xi){\mathrm d}{\xi}.

An dieser Stelle ist es verlockend, die Aussage des Lemmas als Gleichung von Skalarprodukten zu schreiben. Nach Lemma~7 wäre:

\displaystyle  \begin{array}{rcl}  \langle\widehat{u},v\rangle &=& \int_{{\mathbb R}^d} \widehat{u}(\xi)\overline{v}(\xi){\mathrm d}{\xi} = \int_{{\mathbb R}^d} u(\xi)\widehat{\overline{v}}(\xi){\mathrm d}{\xi}\\ &=&\int_{{\mathbb R}^d} u(\xi)\overline{\widehat{v}(-\xi)}{\mathrm d}{\xi} = \langle u,D_{-\mathrm{Id}}\widehat{v}\rangle. \end{array}

Dies ist allerdings an dieser Stelle nicht erlaubt, da wir die Fourier-Transformation in Definition~3 nur für {L^1}-Funktionen definiert haben. Dies hatte auch seinen guten Grund, denn für {L^2}-Funktionen kann nicht ohne weiteres gesichert werden, dass das definierende Integral existiert. Es erscheint jedoch wünschenswert und wird sich als überaus hilfreich herausstellen, die Fourier-Transformation nicht nur auf dem (nicht einmal reflexiven) Banach-Raum {L^1({\mathbb R}^d)} sondern auf dem Hilbert-Raum {L^2({\mathbb R}^d)} zur Verfügung zu haben.

1.2. Die Fourier-Transformation auf {\mathcal{S}({\mathbb R}^d)} und {L^2({\mathbb R}^d)}

Die Fortsetzung der Fourier-Transformation auf den Raum {L^2({\mathbb R}^d)} erfordert einige Arbeit. Als ersten Schritt untersuchen wir die Fourier-Tranformation auf dem Schwartz-Raum und es wird sich herausstellen, dass dieser ganz besonders gut zur Fourier-Transformation passt. Wir erinnern hier noch einmal an die Definition des Schwartz-Raumes und definieren ihn hier auf {{\mathbb R}^d}. Dazu benutzen wir die praktische Multiindexschreibweise:

Definition 10 Ein Multiindex {\alpha} ist ein Vektor von natürlichen Zahlen. Zu {\alpha = (\alpha_1,\dots,\alpha_d)\in{\mathbb N}^d} und {x = (x_1,\dots,x_d)\in{\mathbb C}^d} schreiben wir

\displaystyle  x^\alpha = x_1^{\alpha_1}\cdots x_d^{\alpha_d}.

Die {k}-te Komponente des Vektors {\alpha} enthält also die Potenz der {k}-ten Koordinate. Für eine Funktion {u:{\mathbb R}^d\rightarrow{\mathbb C}} schreiben wir

\displaystyle  \frac{\partial^\alpha}{\partial x^\alpha} f(x) = \frac{\partial^{\alpha_1}}{\partial x_1^{\alpha_1}}\cdots\frac{\partial^{\alpha_d}}{\partial x_d^{\alpha_d}} f(x).

Die {k}-te Komponente des Vektors {\alpha} sagt also, wie oft in die {k}-te Koordinatenrichtung abgeleitet wird. Die Notation {\partial^\alpha} anstelle von {\frac{\partial^\alpha}{\partial x^\alpha}} ist ebenso gebräuchlich. Die Ordnung eines Multiindexes {\alpha} ist {|\alpha| = \sum_{k=1}^d \alpha_k}. Entsprechend sagt man auch, dass das Polynom {x^\alpha} den Grad {|\alpha|} hat und spricht von {\partial^\alpha f} auch von einer {|\alpha|}-ten Ableitung von {f}.

Mit Multiindizes lässt sich einfach rechnen, und sie verhalten sich im Wesentlichen wie einfache Indizes. So gilt zum Beispiel

\displaystyle  \begin{array}{rcl}  x^\alpha\, x^\beta &=& x_1^{\alpha_1}\cdots x_d^{\alpha_d} x_1^{\beta_1}\cdots x_d^{\beta_d} = x_1^{\alpha_1+\beta_1}\cdots x_d^{\alpha_d+\beta_d}\\ &=& x^{(\alpha+\beta)} \end{array}

und ebenso

\displaystyle  \partial^\alpha\partial^\beta f(x) = \partial^{\alpha+\beta} f(x).

Definiert man noch die Fakultät {\alpha! = \alpha_1!\cdots\alpha_d!} und für {\beta\leq\alpha} (was nichts anderes als {\beta_k\leq\alpha_k}, {k=1,\dots,d} heißen soll) die Binomialkoeffizienten {\binom{\alpha}{\beta}= \frac{\alpha!}{\beta!(\alpha-\beta)!}}, so gelten zum Beispiel der Binomische Lehrsatz

\displaystyle  (x+y)^\alpha = \sum_{\beta\leq\alpha}\binom{\alpha}{\beta}x^\beta y^{\alpha-\beta}

und die Leibniz-Regel

\displaystyle  \partial^\alpha(f\cdot g)(x) = \sum_{\beta\leq\alpha}\binom{\alpha}{\beta}(\partial^\beta f(x))\cdot(\partial^{\alpha-\beta} g(x)).

Definition 11 Zu Multiindizes {\alpha,\beta\in {\mathbb N}^d} definieren wir die Funktionale

\displaystyle  C_{\alpha,\beta}(u) = \sup_{x\in{\mathbb R}^d}|x^\alpha\tfrac{\partial^\beta}{\partial x^\beta} u(x)|.

Der Schwartz-Raum der schnell fallenden Funktionen ist definiert durch

\displaystyle  \mathcal{S}({\mathbb R}^d) = \{u\in C^\infty({\mathbb R}^d)\ :\  \forall \alpha,\beta\in{\mathbb N}^d: C_{\alpha,\beta}(u) <\infty\}.

Funktionen {u\in\mathcal{S}({\mathbb R}^d)} heißen auch Schwartz-Funktionen.

Der Konvergenzbegriff auf dem Schwartz-Raum ist uns ebenfalls schon aus dem vorigen Abschnitt bekannt. Wir formulieren ihn hier noch einmal mit Hilfe der Funktionale {C_{\alpha,\beta}}:

Definition 12 Eine Folge {(u_n)} im Schwartz-Raum konvergiert gegen {u} genau dann, wenn für alle Multiindizes {\alpha,\beta} gilt

\displaystyle  C_{\alpha,\beta}(u_n-u)\rightarrow 0\quad\text{f\"ur}\quad n\rightarrow\infty.

Bemerkung 13 Für unsere Zwecke ist die Beschreibung der Topologie {\mathcal{S}({\mathbb R}^d)} durch Folgenkonvergenz ausreichend. Es sei bemerkt, dass die Funktionale {C_{\alpha,\beta}} sogenannte Halbnormen auf dem Schwartz-Raum bilden und ihn damit zu einem metrisierbaren, lokal-konvexen Raum machen, welcher sogar ein Fréchet-Raum ist.

Lemma 14 Der Schwartz-Raum ist nichtleer und abgeschlossen bezüglich Ableitungen beliebiger Ordnung sowie punktweiser Multiplikation.

Beweis: Ein Beispiel für eine Funktion in {\mathcal{S}({\mathbb R}^d)} ist {u(x) = \exp(-|x|^2)} wie sich elementar zeigen lässt. Ist {u\in\mathcal{S}({\mathbb R}^d)}, so gilt für jeden Multiindex {\gamma}

\displaystyle  C_{\alpha,\beta}(\tfrac{\partial^\gamma}{\partial x^\gamma} u) = C_{\alpha,\beta+\gamma}(u)<\infty

und daher {\tfrac{\partial^\gamma}{\partial x^\gamma} u\in\mathcal{S}({\mathbb R}^d)}. Dass mit {u,v\in\mathcal{S}({\mathbb R}^d)} auch das Produkt {uv} im Schwartz-Raum liegt, zeigt die Leibnizsche Produktregel denn dann gilt

\displaystyle  \partial^\alpha(u v)(x) = \sum_{\beta\leq\alpha}\binom{\alpha}{\beta} \partial^{\alpha-\beta}u(x) \partial^\beta v(x).

Es folgt

\displaystyle  \begin{array}{rcl}  C_{\alpha,\beta}(u v) &=& \sup|x^\alpha\partial^\beta(uv)(x)|\\ &=& \sup|x^\alpha\sum_{\gamma\leq\beta}\binom{\beta}{\gamma} \partial^{\gamma}u(x) \partial^{\beta-\gamma}v(x)|\\ &=& \sum_{\gamma\leq\beta}\binom{\beta}{\gamma} \sup|x^\alpha \partial^{\gamma}u(x) \partial^{\beta-\gamma}v(x)|\\ &=& \sum_{\gamma\leq\beta}\binom{\beta}{\gamma} C_{\alpha,\gamma}(u)C_{0,\beta-\gamma}(v)<\infty. \end{array}

\Box

Der Schwartz-Raum ist in gewisser Weise besonders für die Fourier-Transformation geeignet. Einen ersten Hinweis darauf gibt das folgende Lemma.

Lemma 15 Es sei {u\in\mathcal{S}({\mathbb R}^d)}, {\alpha\in{\mathbb N}^d} ein Multiindex und es bezeichne {p^\alpha(x) = x^\alpha}. Dann gelten die Gleichungen

\displaystyle  \begin{array}{rcl}  \mathcal{F}(\tfrac{\partial^\alpha u}{\partial x^\alpha}) & = &\mathrm{i}^{|\alpha|}p^\alpha\mathcal{F}(u)\\ \mathcal{F}(p^\alpha u) & = &\mathrm{i}^{|\alpha|} \tfrac{\partial^\alpha}{\partial x^\alpha}\mathcal{F}(u). \end{array}

Beweis: Wir beginnen mit folgenden Hilfsrechnungen:

\displaystyle  \frac{\partial^\alpha}{\partial x^\alpha}(\mathrm{e}^{-\mathrm{i} x\cdot\xi}) = (-\mathrm{i})^{|\alpha|}\xi^\alpha\mathrm{e}^{-\mathrm{i} x\cdot \xi} \quad\text{und}\quad x^\alpha\mathrm{e}^{-\mathrm{i} x\cdot\xi} = \mathrm{i}^{|\alpha|}\frac{\partial^\alpha}{\partial \xi^\alpha} (\mathrm{e}^{-\mathrm{i} x\cdot \xi}).

Mit Hilfe partieller Integration erhalten wir

\displaystyle  \begin{array}{rcl}  \mathcal{F}(\tfrac{\partial^\alpha}{\partial x^\alpha} u)(\xi) & =& \frac{1}{(2\pi)^{d/2}}\int_{{\mathbb R}^d} \tfrac{\partial^\alpha}{\partial x^\alpha} u(x) \mathrm{e}^{-\mathrm{i} x\cdot\xi}{\mathrm d}{x}\\ & = &\frac{1}{(2\pi)^{d/2}}\mathrm{i}^{|\alpha|}\xi^\alpha\int_{{\mathbb R}^d} u(x) \mathrm{e}^{-\mathrm{i} x\cdot\xi}{\mathrm d}{x}\\ & = &\mathrm{i}^{|\alpha|}p^\alpha(\xi)\mathcal{F} u (\xi). \end{array}

Durch Vertauschen von Integration und Differentiation ergibt sich

\displaystyle  \begin{array}{rcl}  \mathcal{F}(p^\alpha u)(\xi) & = &\frac{1}{(2\pi)^{d/2}}\int_{{\mathbb R}^d} u(x)x^\alpha \mathrm{e}^{-\mathrm{i} x\cdot\xi}{\mathrm d}{x}\\ & =& \frac{1}{(2\pi)^{d/2}}\mathrm{i}^{|\alpha|}\int_{{\mathbb R}^d} u(x)\tfrac{\partial^\alpha}{\partial\xi^\alpha}\mathrm{e}^{-\mathrm{i} x\cdot\xi}{\mathrm d}{x}\\ & =& \mathrm{i}^{|\alpha|}(\tfrac{\partial^\alpha}{\partial\xi^\alpha}\mathcal{F} u)(\xi). \end{array}

Beide vorangehenden Argumente sind erlaubt, da die Integranden bezüglich {\xi} beliebig oft differenzierbar und bezüglich {x} integrierbar sind. \Box

Wir sehen also, dass die Fourier-Transformation eine Differentiation in eine Multiplikation überführt und andersherum. Dies lässt schon vermuten, dass der Schwartz-Raum {\mathcal{S}({\mathbb R}^d)} durch die Fourier-Transformation in sich selbst überführt wird. Bevor wir dies zeigen, beweisen wir noch zwei Lemmas. Im ersten berechnen wir die Fourier-Transformierte der Gauß-Funktion:

Lemma 16 Für die Gauß-Funktion {G(x)= \mathrm{e}^{-\tfrac{|x|^2}{2}}} gilt

\displaystyle  \widehat{G}(\xi) = G(\xi),

das heißt, die Gauß-Funktion ist eine Eigenfunktion der Fourier-Transformation zum Eigenwert eins.

Beweis: Die Gauß-Funktion lässt sich als Tensorprodukt von eindimensionalen Gauß-Funktionen {g:{\mathbb R}\rightarrow{\mathbb R}}, {g(t) = \exp(-t^2/2)} schreiben: {G(x) = \prod_{k=1}^dg(x_k)}. Mit dem Satz von Fubini erhalten wir

\displaystyle  \widehat{G}(\xi) = \frac{1}{(2\pi)^{d/2}} \int_{{\mathbb R}^d}\prod_{k=1}^dg(x_k)\mathrm{e}^{-\mathrm{i} x_k\xi_k}{\mathrm d}{x} = \prod_{k=1}^d\widehat{g}(\xi_k).

Um die Fourier-Transformierte von {g} zu bestimmen, bemerken wir, dass {g} der Differentialgleichung {g'(t) = -tg(t)} genügt. Wenden wir die Fourier-Transformation auf diese Gleichung an, erhalten wir mit Hilfe von Lemma~15 die Differentialgleichung {-\omega \widehat{g}(\omega) = \widehat{g}'(\omega)}. Weiterhin gilt {\widehat{g}(0) = \tfrac{1}{\sqrt{2\pi}}\int_{\mathbb R} g(t){\mathrm d}{t} = 1 = g(0)}. Die Funktionen {g} und {\widehat{g}} erfüllen also die gleiche Differentialgleichung mit dem gleichen Anfangswert und müssen also nach dem Satz von Picard-Lindelöf gleich sein. Dies zeigt die Behauptung. \Box

Wir wenden uns nun der Tatsache zu, dass die Fourier-Transformation den Schwartz-Raum bijektiv und stetig in sich abbildet.

Satz 17 Die Fourier-Transformation ist eine stetige und bijektive Abbildung des Schwartz-Raumes in sich. Für {u\in\mathcal{S}({\mathbb R}^d)} gilt die Inversionsformel

\displaystyle  (\mathcal{F}^{-1} \mathcal{F} u)(x) = \check{\widehat{u}}(x) = \frac{1}{(2\pi)^{d/2}}\int_{{\mathbb R}^d}\widehat{u}(\xi)\mathrm{e}^{\mathrm{i} x\cdot\xi}{\mathrm d}{\xi} = u(x).

Beweis: Nach Lemma~15 gilt für jedes {\xi}

\displaystyle   C_{\alpha,\beta}(\hat{u}) = |\xi^\alpha\tfrac{\partial^\beta}{\partial\xi^\beta} \widehat{u}(\xi)| = |\mathcal{F}(\tfrac{\partial^\alpha}{\partial x^\alpha}(p^\beta u))(\xi)| \leq \frac{1}{(2\pi)^{d/2}}\|\tfrac{\partial^\alpha}{\partial x^\alpha}(p^\beta u)\|_1. \ \ \ \ \ (1)

Also ist mit {u\in\mathcal{S}({\mathbb R}^d)} auch {\widehat{u}\in\mathcal{S}({\mathbb R}^d)}. Da die Fourier-Transformation linear ist, reicht es, die Stetigkeit in Null zu zeigen. Wir betrachten also eine Nullfolge {(u_n)} im Schwartz-Raum, d.h.~für {n\rightarrow\infty} gilt {C_{\alpha,\beta}(u_n)\rightarrow 0}. Das heißt aber, dass dann {(u_n)} und ebenso {(\partial^\alpha p^\beta u_n)} für alle {\alpha,\beta} gleichmäßig gegen Null gehen. Daraus folgt, dass die rechte Seite in~(1) gegen Null geht. Insbesondere folgt {C_{\alpha,\beta}(\widehat{u_n})\rightarrow 0} und das heißt, dass {(\widehat{u_n})} eine Nullfolge ist. Dies zeigt die Stetigkeit. Um die Inversionsformel zu zeigen kann man leider nicht den direkten Weg einschlagen und einfach das Doppelintegral in {\check{\widehat{u}}} entsprechend umformen. Man bedient sich eines “konvergenzerzeugenden Faktors”. Außerdem betrachten wir {\widehat{\widehat{u}}} an Stelle von {\check{\widehat{u}}}. Für zwei beliebige Funktionen {u,\phi\in\mathcal{S}({\mathbb R}^d)} erhalten wir mit Hilfe von Lemma~9 und den Rechenregeln für Translation und Modulation aus Lemma~7 für die Faltung von {\widehat{\widehat{u}}} und {\phi}:

\displaystyle  \begin{array}{rcl}  (\widehat{\widehat{u}}* \phi)(x) & =& \int_{{\mathbb R}^d}\widehat{\widehat{u}}(y)\phi(x-y){\mathrm d}{y} =\int_{{\mathbb R}^d}\widehat{u}(y)\mathrm{e}^{\mathrm{i} x\cdot y}\widehat{\phi}(-y){\mathrm d}{y}\\ & = &\int_{{\mathbb R}^d} u(y)\widehat{\widehat{\phi}}(-x-y){\mathrm d}{y} = (u* \widehat{\widehat{\phi}})(-x). \end{array}

Wählen wir {\phi} als reskalierte Gauß-Funktion:

\displaystyle  \phi_\varepsilon(x) = \varepsilon^{-d}(D_{\varepsilon^{-1} \mathrm{Id}} G)(x) = \varepsilon^{-d} \mathrm{e}^{-\frac{|x|^2}{2\varepsilon^2}}

mit dem Ziel, die Funktion {u} durch Faltung mit {\phi_\epsilon} zu approximieren. Das dies geht, zeigt das folgende Lemma:

Lemma 18 Zu einer Funktion {\phi:{\mathbb R}^d\rightarrow{\mathbb C}} mit den Eigenschaften

\displaystyle  \phi(x)\geq 0,\ \text{und}\ \int_{{\mathbb R}^d}\phi(x){\mathrm d}{x} = 1

und {\epsilon>0} definieren wir

\displaystyle  \phi_\epsilon(x) = \epsilon^{-d}D_{\epsilon^{-1}\mathrm{Id}}\phi(x) = \epsilon^{-d}\phi(x/\epsilon).

Dann gilt für gleichmäßig stetiges und beschränktes {u:{\mathbb R}^d\rightarrow{\mathbb C}}

\displaystyle  (u*\phi_\epsilon)(x)\rightarrow u(x)\ \text{f\"ur}\ \epsilon\rightarrow 0.

Beweis: Die {\phi_\epsilon} sind so normiert, dass gilt {\int_{{\mathbb R}^d}\phi_\epsilon(x){\mathrm d}{x} = 1}. Außerdem gilt für jedes {\rho>0}, dass

\displaystyle  \begin{array}{rcl}  \int_{|x|>\rho} \phi_\epsilon(x){\mathrm d}{x}= \int_{|y|>\rho/\epsilon} \phi(y){\mathrm d}{y} \rightarrow 0\ \text{f\"ur}\ \epsilon\rightarrow 0. \end{array}

Um die punktweise Konvergenz von {u*\phi_\epsilon} gegen {u} zu zeigen, schätzen wir ab

\displaystyle  \begin{array}{rcl}  |(u*\phi_\epsilon)(x) - u(x)| &\leq & \int_{{\mathbb R}^d}|u(x-y)\phi_\epsilon(y) - u(x)\phi_\epsilon(y)|{\mathrm d}{y}\\ &=& \int_{{\mathbb R}^d}|u(x-y) - u(x)|\,|\phi_\epsilon(y)|{\mathrm d}{y}. \end{array}

Nun spalten wir das Integral auf der rechten Seite in die Teile mit {|y|>\rho} und {|y|<\rho} und schätzen weiter ab: In beiden Fällen ziehen wir das Supremum von {|u(y-x)-u(x)|} aus dem Integral:

\displaystyle   \int_{|y|<\rho}|u(x-y) - u(x)|\,|\phi_\epsilon(y)|{\mathrm d}{y}\leq \int_{|y|<\rho}|\phi_\epsilon(y)|{\mathrm d}{y}\sup_{|y|<\rho}|u(x-y) - u(x)| \ \ \ \ \ (2)

und

\displaystyle   \int_{|y|>\rho}|u(x-y) - u(x)|\,|\phi_\epsilon(y)|{\mathrm d}{y}\leq \int_{|y|>\rho}|\phi_\epsilon(y)|{\mathrm d}{y}\sup_{|y|>\rho}|u(x-y) - u(x)|. \ \ \ \ \ (3)

In Gleichung (2) nutzen wir die gleichmäßige Stetigkeit von {u} und bemerken, dass der Term {\sup_{|y|<\rho}|u(x-y) - u(x)|} für {\rho\rightarrow 0} gegen Null geht während der Integral-Term beschränkt bleibt. In (3) nutzen wir die eingangs gemachte Beobachtung, dass das Integral {\int_{|y|>\rho}|\phi_\epsilon(y)|{\mathrm d}{y}} für {\epsilon\rightarrow 0} gegen Null geht während der {\sup}-Term beschränkt bleibt. Wir notieren also: Für ein {\delta>0} wählen wir {\rho>0} so klein, dass {\sup_{|y|<\rho}|u(x-y) - u(x)|<\delta/2}. Dann wählen wir {\epsilon>0} so klein, dass {\int_{|y|>\rho}|\phi_\epsilon(y)|{\mathrm d}{y}<\delta/(4\|u\|_\infty)}. Insgesamt ergibt sich

\displaystyle  \begin{array}{rcl}  |(u*\phi_\epsilon)(x) - u(x)| &\leq& \int_{|y|<\rho}\phi_\epsilon(y){\mathrm d}{y} \frac{\delta}2 + \frac{\delta}{4\|u\|_\infty}\sup_{|y|>\rho}|u(y-x)-u(x)|\\ &\leq& \delta \end{array}

was die Behauptung zeigt. \Box

Nach der Rechenregel für lineare Koordinatentransformationen aus Lemma~7 folgt {\widehat{\phi_\varepsilon} = D_{\varepsilon \mathrm{Id}}\widehat{G}} und also auch {\widehat{\widehat{\phi_\varepsilon}} = \varepsilon^{-d} D_{\varepsilon^{-1} \mathrm{Id}} \widehat{\widehat{G}}}. Nach Lemma~16 gilt {\widehat G=G} und damit auch {\widehat{\widehat{\phi_\varepsilon}} = \phi_\varepsilon}. Da {u} insbesondere beschränkt und stetig ist und außerdem {G} positiv ist sowie ein auf eins normiertes Integral hat, können wir Lemma~18 anwenden und bekommen für {\varepsilon\rightarrow 0}, dass gilt

\displaystyle  \widehat{\widehat{u}}* \phi_\varepsilon (x) \rightarrow \widehat{\widehat{u}}(x) \quad\text{und}\quad u*\phi_\varepsilon(-x) \rightarrow u(-x).

Es folgt also

\displaystyle  \widehat{\widehat{u}}(x) = u(-x).

Man beachte, dass wir die Umkehrformel für die Fourier-Transformation auch schreiben können als

\displaystyle  \check{u} = \overline{\mathcal{F}{\overline{u}}}.

Nach der Rechenregel für die Konjugation aus Lemma~7 ergibt sich { \check u = D_{-\mathrm{Id}}\widehat{u} } und wenn wir {\widehat{u}} statt {u} einsetzen, folgt insgesamt

\displaystyle  \check{\widehat{u}} = D_{-\mathrm{Id}}\widehat{\widehat{u}} = u.

\Box

Da der Schwartz-Raum eine Teilmenge von {L^2({\mathbb R}^d)} ist, und sogar eine “dichte Teilmenge”, können wir die Fourier-Transformation mit einem Standardvorgehen von {\mathcal{S}({\mathbb R}^d)} auf {L^2({\mathbb R}^d)} fortsetzen. Lemma~9 ist dabei zentral.

Satz 19 Es gibt genau einen stetigen Operator {\mathcal{F}:L^2({\mathbb R}^d)\rightarrow L^2({\mathbb R}^d)}, welcher die Fourier-Transformation {\mathcal{F}} auf {\mathcal{S}({\mathbb R}^d)} fortsetzt und für alle {u\in L^2({\mathbb R}^d)} die Gleichung {\|u\|_2 = \|\mathcal{F} u\|_2} erfüllt. Weiterhin ist dieser Operator {\mathcal{F}} bijektiv und die Umkehrung {\mathcal{F}^{-1}} ist eine stetige Fortsetzung von {\mathcal{F}^{-1}} auf {\mathcal{S}({\mathbb R}^d)}.

Beweis: Für zwei Funktionen {u,v\in\mathcal{S}({\mathbb R}^d)} gilt nach Lemma~9 die Gleichung

\displaystyle  \langle\widehat{u},\widehat{v}\rangle = \langle u,D_{-\mathrm{Id}}\widehat{\widehat{v}}\rangle = \langle u,v\rangle

und insbesondere {\|u\|_2 = \|\mathcal{F} u\|_2}. Die Fourier-Transformation ist also eine auf einer dichten Teilmenge des {L^2({\mathbb R}^d)} definierte Isometrie. Demnach existiert eine eindeutige stetige Fortsetzung auf den ganzen Raum; diese konstruiert man (nach einem Standardvorgehen) wie folgt: Zu {u\in L^2({\mathbb R}^d)} wählt man eine Folge {(u_n)} von Schwartz-Funktionen mit {u_n\rightarrow u} in {L^2({\mathbb R}^d)}. Die Fourier-Transformierte von {u} wird dann als Grenzwert der Folge {\widehat{u_n}} definiert. Dazu ist wichtig:

  • Dieser Grenzwert existiert, da {u_n} nach Definition eine Cauchy-Folge in {L^2({\mathbb R}^d)} ist, und der Operator {\mathcal{F}} eine Isometrie in {L^2({\mathbb R}^d)} ist; also ist auch {\widehat{u_n}} eine Cauchy-Folge).
  • Der Grenzwert ist unabhängig von der approximierenden Folge (was wiederum an der Isometrie-Eigenschaft von {\mathcal{F}} liegt).

Aufgrund der Symmetrie zwischen {\mathcal{F}} und {\mathcal{F}^{-1}} liefert eine analoge Argumentation den Rest der Behauptung. \Box

Der obige Satz ist auch als Satz von Plancherel bekannt. Streng genommen handelt es sich bei der Fortsetzung von {\mathcal{F}} auf {L^2({\mathbb R}^d)} um einen anderen Operator, also den von {\mathcal{S}({\mathbb R}^d)} nach {\mathcal{S}({\mathbb R}^d)}. Manchmal werden diese beiden in der Literatur unterschieden und es wird bei {\mathcal{F}: L^2({\mathbb R}^d)\rightarrow L^2({\mathbb R}^d)} auch von der Fourier-Plancherel-Transformation gesprochen. Wir machen diese Unterscheidung nicht und bezeichnen auch beide Transformationen mit den gleichen Symbolen.

Bemerkung 20 Wie schon eingehend bemerkt, ist die Integralformel

\displaystyle  \mathcal{F}(u)(\xi) = \frac{1}{(2\pi)^{d/2}}\int_{{\mathbb R}^d} u(x)\mathrm{e}^{-\mathrm{i}\xi\cdot x}{\mathrm d}{x}

für eine Funktion {u\in L^2({\mathbb R}^d)} nicht anwendbar, da das Integral nicht existieren muss. Ähnlich wie im obigen Beweis kann man die Fourier-Transformation auch von der Menge {L^1({\mathbb R}^d)\cap L^2({\mathbb R}^d)} auf {L^2({\mathbb R}^d)} fortsetzen. Dabei approximiert man eine {L^2}-Funktion {u} mit einer Folge {(u_n)} von Funktionen {L^1({\mathbb R}^d)\cap L^2({\mathbb R}^d)} (und der Beweis ist analog zu obigem). Für die Approximation gibt es einen naheliegenden Weg: Wir setzen {u} für große Argumente einfach auf Null, d.h. wir nehmen

\displaystyle  u_n = \chi_{\{|x|\leq n\}} u

(d.h. {u_n(x) = u(x)} für {|x|<n} und {=0} sonst). Für eine Funktion aus {L^2({\mathbb R}^d)} ist {u_n} natürlich immer noch in {L^2({\mathbb R}^d)}; außerdem aber auch noch in {L^1({\mathbb R}^d)} (mit der Cauchy-Schwarz-Ungleichung folgt {\int_{{\mathbb R}^d}|u_n(x)|{\mathrm d}{x} = \int_{{\mathbb R}^d}\chi_{\{|x|\leq n\}}(x)|u(x)|{\mathrm d}{x} \leq \|\chi_{|x|\leq n}\|_2\|u\|_2}). Das heißt, dass die Funktion

\displaystyle  \psi_R(\xi) = \frac{1}{(2\pi)^{d/2}}\int_{|x|\leq R} u(x)\mathrm{e}^{-\mathrm{i}\xi\cdot x}{\mathrm d}{x}

für {R\rightarrow\infty} im Sinne der {L^2} Konvergenz gegen {\widehat{u}} konvergiert. Analoges gilt für die Umkehrformel. Wir werden in Zukunft diese Unterscheidung unter den Tisch fallen lassen und auch für {L^2}-Funktionen mit der Integraldarstellung arbeiten. Die Isometrieeigenschaft {\|u\|_2 = \|\mathcal{F} u\|_2} impliziert auch, dass für {u,v\in L^2({\mathbb R}^d)} gilt

\displaystyle   \langle u,v\rangle = \langle \mathcal{F} u,\mathcal{F} v\rangle \ \ \ \ \ (4)

welche unter dem Namen Plancherel-Formel bekannt ist.

Die bekannten Rechenregeln aus Lemma~7, die Symmetrierelationen und der Faltungssatz~8 gelten natürlich ebenso für die Fourier-Transformation auf {L^2({\mathbb R}^d)}. Die Umkehrformel ermöglicht uns folgende Interpretation der Fourier-Transformation:

Beispiel 21 (Frequenzdarstellung einer Funktion) Für {u\in L^2({\mathbb R}^d)} haben wir nach der Umkehrformel

\displaystyle  u(x) = \frac{1}{(2\pi)^{d/2}}\int_{{\mathbb R}^d}\widehat{u}(\xi)\mathrm{e}^{\mathrm{i} x\cdot \xi}{\mathrm d}{\xi}.

Man kann also in gewissem Sinne sagen, dass sich {u} als Überlagerung von komplexen Exponentialfunktionen schreiben lässt und dass weiterhin {\widehat{u}(\xi)} angibt, wie sehr die zugehörige Exponentialfunktion {x\mapsto \mathrm{e}^{\mathrm{i} x\cdot \xi}} zu {u} beiträgt. Aus diesem Grund nennt man {\widehat{u}} auch die Frequenzdarstellung von {u} (in diesem Zusammenhang nennt man {u} selbst auch Raumdarstellung oder für {d=1} auch Zeitdarstellung).

1.3. Die Fourier-Transformation für temperierte Distributionen

Wie auch schon bei der Laplace-Transformation im vorherigen Abschnitt kann die Fourier-Transformation auch auf Distributionen angewendet werden. Und wiederum wie bei der Laplace-Transformation wird das nicht für alle Distributionen gelingen, sondern nur für die temperierten Distributionen. Wir erinnern an die Definition von temperierten Distributionen:

Definition 22 Mit {\mathcal{S}({\mathbb R}^d)'} bezeichnen wir den Dualraum von {\mathcal{S}({\mathbb R}^d)}, d.h. den Raum aller linearen und stetigen Funktionale {T:\mathcal{S}({\mathbb R}^d)\rightarrow{\mathbb C}}. Wir nennen diesen Raum den Raum der temperierten Distributionen.

Für uns ist wichtig, dass jede Schwartz-Funktion {u\in\mathcal{S}{{\mathbb R}^d}} eine reguläre temperierte Distribution {T_u} induziert und zwar auf die bekannte Weise:

\displaystyle  T_u(\phi) = \int_{{\mathbb R}^d}u(x) \phi(x){\mathrm d}{x}.

Unser Ziel ist es, eine Fourier-Transformation für temperierte Distributionen zu definieren und unser Vorgehen dafür ist wie gehabt: Wir untersuchen, wie die induzierter Distribution einer Fourier-Transformierten aussieht. Nach Lemma~9 gilt

\displaystyle  T_{\widehat{u}}(\phi) = \int_{{\mathbb R}^d}\widehat{u}(\xi)\phi(\xi){\mathrm d}{\xi} = \int_{{\mathbb R}^d} u(\xi)\widehat{\phi}(\xi){\mathrm d}{\xi} = T_u(\widehat{\phi}).

Dies nehmen wir zum Anlass für folgende Definition.

Definition 23 Die Fouriertransformierte von {T\in\mathcal{S}({\mathbb R}^d)'} ist definiert durch

\displaystyle  \widehat{T}(\phi) = T(\widehat{\phi}).

Analog ist die inverse Fouriertransformierte von {T} gegeben durch

\displaystyle  \check{T}(\phi) = T(\check{\phi}).

Als erstes Stellen wir fest:

Satz 24 Die Fourier-Transformation {T\mapsto\widehat{T}} als Abbildung des Raumes der temperierten Distributionen in sich ist bijektiv und wird durch {T\mapsto\check{T}} invertiert.

Beweis: Die Abbildung {\widehat{T}} ist wohldefiniert, da mit {\phi\in\mathcal{S}({\mathbb R}^d)} auch {\widehat{\phi}\in S({\mathbb R}^d)} ist. Da mit {\phi_n\rightarrow 0} in {\mathcal{S}({\mathbb R}^d)} auch {\widehat{\phi_n}\rightarrow 0} in {\mathcal{S}({\mathbb R}^d)} gilt, folgt für {\phi_n\rightarrow 0} auch {\widehat{T}(\phi_n) = T(\widehat{\phi_n})\rightarrow 0} und wir sehen, dass {T} temperiert ist. Die Inversionsformel folgt direkt aus der Inversionsformel im Schwartz-Raum:

\displaystyle  \check{\widehat{T}}(\phi) = T(\widehat{\check{\phi}}) = T(\phi).

\Box

Beispiel 25 Die Delta-Distribution {\delta_x} ist

\displaystyle  \delta_x(\phi) = \phi(x).

und ihre Fourier-Transformierte errechnet sich wie folgt

\displaystyle  \widehat{\delta_x}(\phi) = \delta_x(\widehat{\phi}) = \widehat{\phi}(x) = \int_{{\mathbb R}^d}\frac{1}{(2\pi)^{d/2}}\mathrm{e}^{-\mathrm{i} x\cdot y}\phi(y){\mathrm d}{y}.

Wir stellen fest, dass die Fourier-Transformierte von {\delta_x} eine reguläre Distribution ist die durch die Funktion {y\mapsto \frac{1}{(2\pi)^{d/2}}\mathrm{e}^{-\mathrm{i} x\cdot y}} dargestellt wird. Insbesondere ist die Fourier-Transformierte von {\delta_0} die konstante Funktion {1/(2\pi)^{d/2}}.

Das Rechnen mit temperierten Distributionen im Kontext der Fourier-Transformation stellt meist keine große Schwierigkeit dar. Wir illustrieren dies am Beispiel des Faltungssatzes auf { L^2({\mathbb R}^d)}:

Satz 26 Für {u,v\in L^2({\mathbb R}^d)} gilt für fast alle {\xi}, dass

\displaystyle  \widehat{u* v}(\xi) = (2\pi)^{d/2} \widehat{u}(\xi)\widehat{v}(\xi).

Beweis: Wir rechnen “distributionell” und zeigen die Gleichung {\widehat{T_{u* v}} = T_{(2\pi)^{d/2}\widehat{u}\widehat{v}}}:

\displaystyle  \begin{array}{rcl}  \int_{{\mathbb R}^d}(u* v)(\xi)\widehat{\phi}(\xi){\mathrm d}{\xi} & =& \int_{{\mathbb R}^d}\int_{{\mathbb R}^d} u(y)v(\xi-y){\mathrm d}{y}\:\widehat{\phi}(\xi){\mathrm d}{\xi}\\ & = &\int_{{\mathbb R}^d}u(y)\int_{{\mathbb R}^d} v(\xi-y)\widehat{\phi}(\xi){\mathrm d}{\xi}{\mathrm d}{y}\\ & = &\int_{{\mathbb R}^d}u(y)\int_{{\mathbb R}^d} \frac{1}{(2\pi)^{d/2}}\int_{{\mathbb R}^d}v(\xi-y)\phi(\xi)\mathrm{e}^{-\mathrm{i} \xi\cdot x}{\mathrm d}{x}{\mathrm d}{\xi}{\mathrm d}{y}\\ & = &\int_{{\mathbb R}^d}u(y)\int_{{\mathbb R}^d} \widehat{v}(x)\mathrm{e}^{-\mathrm{i} y\cdot x}\phi(x){\mathrm d}{x}{\mathrm d}{y}\\ & = &\int_{{\mathbb R}^d}(2\pi)^{d/2}\widehat{u}(x) \widehat{v}(x)\phi(x){\mathrm d}{x}. \end{array}

\Box

Die Rechenregeln für Fouriertransformierte und Ableitungen aus Lemma~15 gelten analog für Ableitungen im Distributionensinn:

Lemma 27 Es seien {u\in L^2({\mathbb R}^d)} und {\alpha\in{\mathbb N}^d} und wir bezeichnen {p^\alpha(x) = x^\alpha}. Ist die distributionelle Ableitung {\partial^\alpha u} ebenfalls in { L^2({\mathbb R}^d)}, dann gilt

\displaystyle  \widehat{\partial^\alpha u} = \mathrm{i}^{|\alpha|}p^\alpha \widehat{u}.

Ist {p^\alpha u\in L^2({\mathbb R}^d)}, so gilt

\displaystyle  \widehat{p^\alpha u} = \mathrm{i}^{|\alpha|}\partial^\alpha\widehat{u}.

Beweis: Auch hier zeigen wir die Gleichung im Distributionensinn. Wir benutzen partielle Integration, Lemma~15 und die Plancherel-Formel~(4) und erhalten für eine Schwartz-Funktion {\phi}

\displaystyle  \begin{array}{rcl}  \widehat{T_{\partial^\alpha u}}(\phi) & = &T_{\partial^\alpha u}(\widehat{\phi}) = \int_{{\mathbb R}^d} \partial^\alpha u(x)\widehat{\phi}(x){\mathrm d}{x}\\ & =& (-1)^{|\alpha|}\int_{{\mathbb R}^d}u(x)\partial^\alpha\widehat{\phi}(x){\mathrm d}{x}\\ & =&(-1)^{|\alpha|}\int_{{\mathbb R}^d}u(x)(\widehat{-\mathrm{i}^{|\alpha|}p^\alpha\phi})(x){\mathrm d}{x}\\ & =& (-1)^{|\alpha|}\int_{{\mathbb R}^d}\widehat{u}(x)(-\mathrm{i}^{|\alpha|}p^\alpha(x)\phi(x)){\mathrm d}{x} = T_{\mathrm{i}^{|\alpha|}p^\alpha \widehat{u}}(\phi). \end{array}

Die zweite Behauptung folgt analog. \Box

Zur Übung im Umgang mit Distributionen zeigen wir noch die analoge Aussage für temperierte Distributionen:

Lemma 28 Es sei {T\in\mathcal{S}({\mathbb R}^d)'} und {\alpha} ein Multiindex. Dann gilt

\displaystyle  \widehat{\partial^\alpha T} = \mathrm{i}^{|\alpha|}p^\alpha \widehat{T}

und

\displaystyle  \widehat{p^\alpha T} = \mathrm{i}^{|\alpha|}\partial^\alpha\widehat{T}.

Beweis: Wir setzen eine Schwartz-Funktion {\phi} ein und benutzen Lemma~15:

\displaystyle  \begin{array}{rcl}  \widehat{\partial^\alpha T}(\phi) &=& \partial^\alpha T(\hat{\phi})\\ &=& (-1)^{|\alpha|}T(\partial^\alpha\hat\phi)\\ &=& (-1)^{|\alpha|}T((-\mathrm{i})^{|\alpha|}\widehat{p^\alpha \phi})\\ &=& \mathrm{i}^{|\alpha|}T(\widehat{p^\alpha \phi})\\ &=& \mathrm{i}^{|\alpha|}\widehat{T}(p^\alpha \phi)\\ &=& \mathrm{i}^{|\alpha|}p^\alpha \widehat{T}(\phi) \end{array}

Die zweite Behauptung zeigt man analog. \Box

Beispiel 29 Grob gesprochen kann man sagen, dass sich (schwache) Differenzierbarkeit einer Funktion in schnellem Abfall der Fourier-Transformierten bei unendlich widerspiegelt. Man betrachte hierzu zum Beispiel die Fouriertransformierten der {L^2({\mathbb R})}-Funktionen

\displaystyle  \begin{array}{rcl}  u(x) & = &\chi_{[-1,1]}(x),\\ v(x) & = &\exp(-x^2)\\ w(x) & = &(1+x^2)^{-1}. \end{array}

Die Fourier-Transformierte von {u} hat ein asymptotisches Abfallverhalten wie {|\xi|^{-1}} bei unendlich; insbesondere ist die Funktion {\xi \mapsto |\xi|^2\widehat{u}(\xi)} nicht in {L^2({\mathbb R}^)}. Für {v} und {w} hingegen fallen die Fourier-Transformierten exponentiell; insbesondere ist {\xi\mapsto |\xi|^k\widehat{v}(\xi)} für jedes {k\in{\mathbb N}} eine {L^2}-Funktion (ebenso für {w}). Andersherum spiegelt sich das langsame Abfallen von {w} in einer Nicht-Differenzierbarkeit von {\widehat{w}} wider.

1.4. Inversion für Transformierte von {L^1}-Funktionen

Die Inversion der Fourier-Transformation haben wir schon für Transformierte von Schwartz-Funktionen, von {L^2}-Funktionen und von temperierten Distributionen in den Griff bekommen. In alles Fällen war es hilfreich, dass die Fourier-Transformation im gleichen Raum landete, d.h. dass die Rücktransformation mit den gleichen Methoden wie die Hintransformation behandelt werden kann. Weiterhin war nur die Inversion der Transformation von Schwartz-Funktionen durch ein Integral gegeben. In den anderen Fällen haben wir mit Approximationen bzw. Fortsetzungen gearbeitet.

In diesem Abschnitt wollen wir zeigen, dass auch für Transformierte von {L^1}-Funktionen, mit denen wir die Untersuchung der Fourier-Transformation begonnen hatten, eine Inversion möglich ist. Der Einfachheit halber beschränken wir und auf den Fall {d=1}, d.h. wir haben es mit Funktionen in {L^1({\mathbb R})} zu tun.

Wir versuchen, ähnlich wie bei der Transformation von {L^2}-Funktionen vorzugehen: Die Transformierte {\hat f} einer {L^1}-Funktion ist beschränkt, hat aber kein quantifiziertes Abfallverhalten bei {\infty} (bzw. keine weitere Integrierbarkeit). Daher hat das Integral {\int_{\mathbb R} \hat f(\xi)\exp(\mathrm{i} x\xi){\mathrm d}{\xi}} keinen Grund zu existieren. Wir schneiden es daher auf ein beschränktes Intervall zurück und definieren zu {N\in{\mathbb N}}

\displaystyle  s_N(x) = \frac{1}{\sqrt{2\pi}}\int_{-N}^N \hat f(\xi)\mathrm{e}^{\mathrm{i} x\xi}{\mathrm d}{\xi}.

Dies Integral existiert auf jeden Fall (der Integrand ist stetig und beschränkt, das Integrationsintervall in beschränkt). Was wir hier tun ist also, dass wir den Ausdruck für die inverse Transformation annähern. Anders geschrieben: {s_N = \mathcal{F}^{-1}(\chi_{[-N,N]} \hat f)}, und wenn der Faltungssatz gelten würde, hätten wir (mit der Schreibweise {D_N(x) = \check\chi_{[-N,N]}(x) = \frac{1}{\sqrt{2\pi}}\int_{-N}^N \mathrm{e}^{\mathrm{i} x\xi}{\mathrm d}{\xi} = \sqrt{\frac{2}{\pi}}\frac{\sin(Nx)}{Nx}})

\displaystyle  \sqrt{2\pi}\,\chi_{[-N,N]}\,\hat f = \mathcal{F}(D_N* f)

und damit

\displaystyle  s_N(x) = \frac{1}{\sqrt{2\pi}}f* D_N(x).

Hier würden wir gerne den Grenzübergang {N\rightarrow\infty} machen und dann hoffen, dass {f*D_N} gegen {f} konvergiert (in geeignetem Sinne, also z.B. in {L^1}). Leider ist die Funktion {D_N} keine {L^1}-Funktion, so dass die die Faltung {s_N = f*D_N} im Allgemeinen nur in {L^2} liegt und wir also auf diesem Weg keine Konvergenz in {L^1} bekommen können.

Eine Umkehrformel gilt jedoch trotzdem – wir bekommen sie jedoch auf etwas anderem Wege. Der Trick besteht darin, dass wir das Integral nicht nur Abschneiden, sonder auch noch den Integranden ein wenig dämpfen:

Satz 30 (Inversion für Transformierte von {L^1}-Funktionen) Es sei {f\in L^1({\mathbb R})} und {N\in{\mathbb N}}. Dann konvergiert die Funktion

\displaystyle  \sigma_N(x) = \frac1{\sqrt{2\pi}}\int_{-N}^N \hat f(\xi)(1-|\xi|/N)\mathrm{e}^{\mathrm{i} x\xi}{\mathrm d}{\xi}

in {L^1} gegen {f}.

Beweis: Wir definieren die Funktion {F_N} über ihre Fourier-Transformierte:

\displaystyle  \widehat{F_N}(\xi) = \max(1-|\xi|/N,0).

Es ist

\displaystyle  \sigma_N = \mathcal{F}^{-1}(\hat f\,\hat F_N)

und daher gilt (analog zur obigen Überlegung)

\displaystyle  \sigma_N = \frac{1}{\sqrt{2\pi}}f*F_N.

Aus Aufgabe 30 schließen wir, dass die Invers-Transformierte von {h(\xi) = \max(2-2|\xi|,0)} die Funktion {\check{h}(x) = \sqrt{8/\pi}(\sin(x)/x)^2} ist. Durch Skalierung folgt

\displaystyle  F_N(x) = \mathcal{F}^{-1}(\tfrac12 h(2\xi/N))(x) = \tfrac{N}{4} \check{h}(Nx/2) = \sqrt{\frac{8}{\pi}}\frac{\sin(\tfrac{Nx}{2})^2}{Nx^2}.

Um den Grenzübergang {N\rightarrow\infty} durchzuführen benötigen wir ein Lemma, ähnlich zu Lemma~18:

Lemma 31 Es seien {f,\phi\in L^1({\mathbb R})} mit {\int_{\mathbb R}|\phi(x)|{\mathrm d}{x} = 1} und zu {\epsilon>0} definiere {\phi_\epsilon(x) = \phi(x/\epsilon)/\epsilon}. Dann gilt

\displaystyle  \|\phi_\epsilon*f -f\|_1 \rightarrow 0\quad\text{f\"ur}\quad \epsilon\rightarrow 0.

Beweis: Mit dem Satz von Fubini folgt

\displaystyle  \begin{array}{rcl}  \|\phi_\epsilon*f -f\|_1&\leq&\int_{\mathbb R}\int_{\mathbb R} |f(x-y)-f(x)||\phi_\epsilon(y)|{\mathrm d}{y}{\mathrm d}{x}\\ & = & \int_{\mathbb R}\int_{\mathbb R} |f(x-\epsilon z)-f(x)|{\mathrm d}{x}|\phi(z)|{\mathrm d}{z}\\ &=& \int_{\mathbb R} \|f(\cdot-\epsilon z) - f\|_1 |\phi(z)|{\mathrm d}{z}. \end{array}

Nun nutzen wir, dass {L^1}-Funktionen, im “1-ten Mittel stetig sind”, das heißt es gilt {\|f(\cdot-\epsilon z) - f\|_1\rightarrow 0} für {\epsilon\rightarrow 0}. Außerdem gilt {\|f(\cdot-\epsilon z) - f\|_1 \leq 2|f\|_1} und daher gilt nach dem Satz von der dominierten Konvergenz, dass

\displaystyle  \lim_{\epsilon\rightarrow 0}\int_{\mathbb R} \|f(\cdot-\epsilon z) - f\|_1 |\phi(z)|{\mathrm d}{z} = \int_{\mathbb R} \lim_{\epsilon\rightarrow 0}\|f(\cdot-\epsilon z) - f\|_1 |\phi(z)|{\mathrm d}{z} =0

was den Beweis abschließt. \Box

Das Lemma ist nun anwendbar mit {\phi_\epsilon = \tfrac{1}{\sqrt{2\pi}}F_{1/\epsilon}} (und {F(x) = \sqrt{8/\pi}\tfrac{\sin(x/2)^2}{x^2}}), denn es gilt {F_N(x)\geq 0} und daher

\displaystyle  \int_{\mathbb R}\tfrac{1}{\sqrt{2\pi}}|F_N(x)|{\mathrm d}{x} = \widehat{F_N}(0) = 1.

Es folgt also

\displaystyle  \|\sigma_N - f\|_1 \rightarrow 0.

\Box

Kommen wir schließlich noch zur Inversion der Laplace-Transformation (die wir damals zurückgestellt hatten. Hier müssen wir etwas trickreich vorgehen, da wir eine punktweise Aussage für {f} anstreben:

Wir erinnern uns daran, dass die Laplace-Transformierte {F} einer Funktion {f:[0,\infty[\rightarrow{\mathbb C}} (durch {f(t)=0}, {t<0} fortgesetzt) gegeben ist durch

\displaystyle  F(s) = \int_0^\infty f(t)\exp(-st){\mathrm d}{t}.

Wir untersuchen, wann die Formel

\displaystyle  f(t) = \frac{1}{2\pi\mathrm{i}}\int_{a-\mathrm{i}\infty}^{a+\mathrm{i}\infty} F(s)\exp(st){\mathrm d}{s}

gilt und beginnen mit

\displaystyle  \begin{array}{rcl}  && \frac1{2\pi\mathrm{i}}\int_{a-\mathrm{i}\omega}^{a+\mathrm{i}\omega}F(s)\exp(st){\mathrm d}{s} \\ && =\frac{1}{2\pi}\int_{-\omega}^\omega F(a+\mathrm{i} y)\exp(t(a+\mathrm{i} y)){\mathrm d}{y}\\ &&= \frac1{2\pi}\int_{-\omega}^\omega\exp(t(a+\mathrm{i} y)) \int_{-\infty}^\infty f(\tau)\exp(-(a+\mathrm{i} y)\tau){\mathrm d}{\tau}{\mathrm d}{y}\\ &&=\frac1{2\pi}\int_{-\infty}^\infty f(\tau)\exp((t-\tau)a) \int_{-\omega}^\omega \exp(\mathrm{i} y(t-\tau)){\mathrm d}{y}{\mathrm d}{\tau} \quad(t-\tau = -x)\\ &&= \frac1{2\pi}\int_{-\infty}^\infty f(t+x)\exp(-xa)\int_{-\omega}^\omega \exp(-\mathrm{i} yx){\mathrm d}{y}{\mathrm d}{x}\\ &&= \frac1\pi\int_{-\infty}^\infty f(t+x)\exp(-xa)\frac{\sin(\omega x)}{x}{\mathrm d}{x}. \end{array}

Setzen wir {g(x) = f(t+x)\exp(-xa)} und nehmen {a\geq \sigma_1(f)} (d.h., dass {g} eine {L^1}-Funktion ist), so müssen wir zeigen, dass für eine Funktion {g} aus {L^1} gilt

\displaystyle  \lim_{\omega\rightarrow\infty} \int_{-\infty}^\infty g(x) \frac{\sin(\omega x)}{x}{\mathrm d}{x} = \pi g(0)

(falls der Wert {g(0)} definiert werden kann, also z.B. falls {g} in der Nähe der Nullpunktes stetig ist). Wir spalten das Integral in fünf Teile, nämlich für {0<\delta<A} in {\int_{-\infty}^{-A}}, {\int_{-A}^{-\delta}}, {\int_{-\delta}^\delta}, {\int_\delta^A} und {\int_A^\infty}.

  • Für die Teile {\int_{-\infty}^{-A}} und {\int_A^\infty} sind für {A} genügend groß beliebig klein, das {g\in L^1({\mathbb R})} und {|\sin(\omega x)/x|\leq 1} (unabhängig von {\omega}).
  • Die Teile {\int_{-A}^{-\delta}} und {\int_\delta^A} konvergieren für {\omega\rightarrow \infty} gegen Null (das sieht man ähnlich wie in Aufgabe 25; diese Tatsache ist auch als Riemann-Lebesgue-Lemma bekannt).
  • Der mittlere Teil {\int_{-\delta}^\delta} läuft unter dem Namen “Dirichlet-Integral” (aber das tun auch andere). Wir schreiben

    \displaystyle  \begin{array}{rcl}  &&\int_{-\delta}^\delta g(x)\frac{\sin(\omega x)}{x}{\mathrm d}{x}\\ &&= g(0)\int_{-\delta}^\delta \frac{\sin(\omega x)}{x}{\mathrm d}{x} + \int_{-\delta}^\delta\frac{g(x) - g(0)}{x}\sin(\omega x){\mathrm d}{x}. \end{array}

    Das erste Integral ist

    \displaystyle  \int_{-\delta}^\delta \frac{\sin(\omega x)}{x}{\mathrm d}{x} = \int_{-\omega\delta}^{\omega\delta}\frac{\sin(y)}{y}{\mathrm d}{y} \rightarrow \pi\quad \omega\rightarrow\infty.

    Das zweite Integral konvergiert für {\omega\rightarrow\infty} gegen Null (wieder nach dem Riemann-Lebesgue-Lemma), falls {\frac{g(x) - g(0)}{x}} auf dem Intervall {[-\delta,\delta]} eine {L^1}-Funktion ist. Dazu braucht man etwas mehr, als dass {g} stetig ist, es reicht zum Beispiel, wenn {g} von beschränkter Variation ist.

This last post on uncertainty principles will be probably the hardest one for me. As said in my first post, I supervised a Master’s thesis and posed the very vague question

“Why are the uncertainty principles for the windowed Fourier transform and the wavelet transform so different?”

I had different things in mind:

  • The windowed Fourier transform can be generalized to arbitrary dimensions easily. Especially, the underlying Weyl-Heisenberg group can be generalized to arbitrary dimensions. Interestingly, the uncertainty principle carries over almost exactly: For the windowed Fourier transform in {d} dimensions, the uncertainty principle reads as

    \displaystyle  \text{Var}_g\cdot\text{Var}_{\hat g}\geq \tfrac{d^2}{4}

    and again, this inequality is sharp for the multivariate Gaussians. A generalization of the wavelet transform is by no means canonical. The sprit in one dimension was to use translation and scaling. However, in higher dimensions there are a lot more geometric transformations you can apply: rotations, anisotropic scalings and shearing. Here one has to identify a suitable group of actions and try to carry all things over. The most naive way, which uses isotropic scaling and rotation does lead to uncertainty relations but no function will make these inequalities sharp…

  • The lower bound in the Heisenberg uncertainty principle is fixed (for normed {g}). However, the lower bound in the affine uncertainty (equation (1) in my previous post) is not fixed (for normed {f}). Indeed {|\langle f',f\rangle|} can be arbitrarily small. Hence, a function which makes the inequality sharp may not lead to the minimum product of the corresponding operator variances. For other wavelet-like transformations (i.e. they include some kind of scaling) this is the same.
  • The Heisenberg uncertainty principle has a clear and crisp interpretation involving the product of the variances for a function and its Fourier transform. There is no such thing available for the affine uncertainty principle. (In fact, this question was not addressed in the thesis but in the paper “Do uncertainty minimizers attain minimal uncertainty” and the Diploma thesis by Bastian Kanning).

The outcome was the (german) thesis Unschärferelationen für unitäre Gruppendarstellungen (Uncertainty relations for unitary group representations) by Melanie Rehders. As the question is so vague, there could not be one simple answer, but as a result of the thesis, one could say in a nutshell:

“The uncertainty principles are so different because the groups underlying wavelet-like transforms are semidirect products of a matrix group and {\mathbb{R}^d} and hence, the identity can not be an infinitesimal generator and hence, not be a commutator”.

In this post I’ll face the challenge to give some meaning to this sentence.

1. The abstract structure behind

Let me introduce the players in a diagram which I redraw from the thesis:

As you see, we need several algebraic structures (as well as analytical ones).

2. From group representations to integral transforms

First, we need a locally compact group {G}, and naturally, this comes with a left invariant measure {\mu}, which is called Haar measure. With these tool we can intergrate complex valued functions defined of the group: {\int_G f(x)d\mu} and we may also form the spaces {L^p(G)}.

Having the space {L^2(G)}, we can define a special representation of the group (remember that a group representation is a description of the group in terms of linear transformations of a vector space, in other words, a group homomorphism from {G} to the space {GL(V)} of linear mappings on some vector space {V}). The special representation we use the the so called left regular representation on the space of unitary operators on the space {L^2(G)} (denoted by {\mathcal{U}(L^2(G))}. This representation is the mapping {\pi:G\rightarrow \mathcal{U}(L^2(G))} defined by

\displaystyle  \pi(a) f(x) = f(a^{-1}x).

One easily checks, that this is a homomorphism and the unitarity follows from the left invariance of the Haar measure. One could say, that the group {G} acts on the functions {f} in {L^2(G)} in a unitary way. We now may define an integral transform as follows: For {\psi\in L^2(G)} define

\displaystyle   V_\psi f(a) = \langle f,\pi(a)\psi\rangle_{L^2(G)}. \ \ \ \ \ (1)

You may compare with the previous two posts, that this gives precisely the windowed fourier transform (for the Weyl-Heisenberg group) and the wavelet transform (for the affine group).

To have convenient properties for the integral transform one need some more conditions

  1. Irreducibility, i.e. that the only subspaces of {L^2(G)} which are invariant under every {\pi(a)} are {\{0\}} and {L^2(G)}.
  2. Square integrability, i.e. that there exists a non-zero function {\psi\in L^2(G)} such that

    \displaystyle  \int_G |\langle \psi,\pi(a)\psi\rangle|^2 d\mu < \infty;

    these functions {\psi} are called admissible.

We have the following theorem: \href{Grossmann, Morlet, Paul}} Let {\pi} be a unitary, irreducible, and square integrable representation of a locally compact group {G} on {L^2(G)} and let {\psi} be admissible. Then it holds that the mapping {V_\psi} defined in (1) is a multiple of an isometry. Especially, {V_\psi} has a left-inverse which is (up to a constant) given by its adjoint.

This somehow clarifies the arrow from “group representation” to “integral transform”.

3. From group representations to Lie algebra representations

For a closed linear group {G}, i.e. a closed subgroup of {GL(d,\mathbb{R})}, one has the associated Lie-Algebra {\mathfrak{g}} defined with the help of the matrix exponential by

\displaystyle  \mathfrak{g} = \{ X\ |\ \text{for all}\ t:\ \exp(tX)\in G\}.

The corresponding Lie-bracket is the commutator:

\displaystyle  [X,Y] = XY-YX.

If we now have a representation of our group {G} on some Hilbert space {H} (you may think of {H = L^2(G)} but here we may have any Hilbert space), we may ask if there is an associated representation of the Lie-Algebra {\mathfrak{g}}. Indeed there is one which is called the derived representation. To formulate this representation we need the following subspace of {H}:

\displaystyle  H_\pi^\infty = \{f\in H\ |\ a\mapsto \pi(a)f\ \text{is a}\ C^\infty\ \text{mapping}\}.

Theorem 1 Let {\pi} be a representation of a closed linear group {G} in a Hilbert space {H}. The mapping {d\pi} defined by

\displaystyle  d\pi(X)f = \lim_{t\rightarrow 0}\frac{\pi(\exp(tX))f - f}{t}

is a representation of the Lie-Algebra {\mathfrak{g}} on the space {H_\pi^\infty}.

This clarifies the arrow from “group representations” to Lie algebra representations.

4. Lie-algebra representations and uncertainty relations

We are now ready to illustrate the abstract path from Lie-algebra representations to uncertainty relations. This path uses the so called infinitesimal generators:

Definition 2 Let {G} be a closed linear group with Lie algebra {\mathfrak{g}} and let {{X_1,\dots,X_m}} be a basis of {\mathfrak{g}}. Let {\pi} be a representation of {G} on a complex Hilbert space {H} and let the derived representation {d\pi} be injective. Then, the operators {T_j= \mathrm{i} d\pi(X_j)} are called the infinitesimal generators of {G} with respect to the representation {\pi}.

These infinitesimal generators are always self-adjoint. Hence, we may apply Robertson’s uncertainty principle for every two infinitesimal generators for which the commutator does not vanish.

The abstract way, described in the Sections 2, 3 and 4 is precisely how we have derived the Heisenberg uncertainty principle and the affine uncertainty principle in the two previous posts. But now the question remains: Why are they so different?

The so-called commutator tables of the Lie-algebras shed some light on this:

Example 1 (The Heisenberg algebra) The associated Lie algebra to the Weyl-Heisenberg group is the real vector space {{\mathbb R}^2 \times \mathrm{i} {\mathbb R}} with the Lie bracket

\displaystyle  [(\omega,b,i\phi),(\omega',b',\mathrm{i}\phi')] = (0,0,\mathrm{i}(\omega b' - b'\omega)).

A basis of this Lie algebra is {(1,0,0)}, {(0,1,0)}, {(0,0,\mathrm{i})} and the three commutators are

\displaystyle  [(1,0,0),(0,1,0)] = (0,0,2\mathrm{i})

\displaystyle  [(1,0,0),(0,0,\mathrm{i})]=(0,0,0)

\displaystyle  [(0,1,0),(0,0,\mathrm{i})] = (0,0,0).

Two facts are important: There is an element which commutes with every other element. In other words: The center of the algebra is one-dimensional and spanned by one of the basis elements. If we remember the three infinitesimal generators {\mathrm{i} T_\omega}, {\mathrm{i} T_b} and {\mathrm{i} T_\tau} for the windowed Fourier transform, we observe that they obey the same commutator relations (which is not a surprise…).

Example 2 (The “affine Lie algebra”) The Lie algebra of the affine group {({\mathbb R}\setminus\{0\})\times {\mathbb R}} (with composition {(a,b)(a',b') = (aa',ab'+b)}) is {{\mathbb R}\times {\mathbb R}} with Lie bracket

\displaystyle  [(x,y),(x',y')] = (0,xy'-x'y).

A basis of the Lie algebra is {(1,0)}, {(0,1)} and the commutator is

\displaystyle  [(1,0),(0,1)] = (0,1).

Here, there is no element which commutes with everything, i.e. the center of the Lie algebra is trivial. Of course, the commutator relation resembles the one for the infinitesimal generators {\mathrm{i} T_a} and {\mathrm{i} T_b} for the wavelet transform.

5. Higher dimensional wavelets

Wavelets in higher dimensions are a bit tricky. If one thinks of groups acting on {{\mathbb R}^d} which consist of translation and some thing as dilation one observes that one basically deals with semidirect products of a subgroup {D} of {GL(d,{\mathbb R})} and {{\mathbb R}^d}: For {A\in D} and {b\in{\mathbb R}^d} one may transform a function {f:{\mathbb R}^d\rightarrow{\mathbb C}} as

\displaystyle   \pi(A,b)f(x) = |\det(A)|^{-1/2}f(A^{-1}x-b). \ \ \ \ \ (2)

Indeed this the so called quasiregular representation of the semidirect product of {D} and {{\mathbb R}^d}. Two important examples of 2-dimensional wavelet-like transformations are:

Example 3 The “standard” 2-dimensional wavelet transform. One takes the group

\displaystyle  D = \left\{ \begin{bmatrix} a_1 & -a_2\\ a_2 & a_1 \end{bmatrix}\ :\ a_1,a_2\neq 0 \right\}

which is a combination of rotation and isotropic scaling. Another parametrization is:

\displaystyle  \left\{ a \begin{bmatrix} \cos(\phi) &-\sin(\phi)\\ \sin(\phi) & \cos(\phi) \end{bmatrix}\ :\ a> 0,\ \phi\in [0,2\pi{[}\right\}

where {a} is the scaling factor and {\phi} is the rotation angle.

Example 4 The shearlet transform bases of the group

\displaystyle  D = \left\{ \begin{bmatrix} a & \sqrt{a}\,s\\ 0 & \sqrt{a} \end{bmatrix}\ : s\in {\mathbb R},\ a>0 \right\}

which consists of anisotropic scaling by {a} and “shear” by {s}.

Doing some more algebra, one observes that the center of the associated Lie algebra of the semidirect product of the form (2) is always trivial and hence, the identity never appears as a commutator. This neat observation shows, that no wavlet-like transformation which bases on a group structure can ever have any uncertainty relation which behaves like

\displaystyle  c\|f\|\leq \text{some product of variances of operators}

as in the Heiseberg case.

Although this may not be a groundbreaking discovery, this observation and the whole underlying algebra somehow cleared my view on this issue.

1. The affine group behind the wavelet transform

Continuing my previous post on the uncertainty principle for the windowed Fourier transform, we now come to another integral transform: The wavelet transform.

In contrast to the windowed Fourier transform (which analyzes a function with respect to position and frequency) the wavelet transform analyzes a function with respect to position and scale. For a given analyzing function {\psi} and a signal {f}, the wavelet transform is (for {a\neq 0}, {b\in{\mathbb R}}):

\displaystyle  W_\psi f(a,b) = \int_{\mathbb R} f(x) \tfrac{1}{\sqrt{|a|}}\psi(\tfrac{x-b}{a})dx.

In the same way, the windowed Fourier transform could be written as inner products of {f} with a translated and modulated window function, the wavelet transform can be written as inner products of {f} with translated and scaled functions {\psi}. And again, these modifications which happen to the analyzing function come from a group.

Definition 1 The affine group {G_{\text{aff}}} is the set {({\mathbb R}\setminus\{0\})\times {\mathbb R}} endowed with the operation

\displaystyle  (a,b)(a',b') = (a\,a',a\,b' + b).

Indeed this is group (with identity {(1,0)} and inverse {(a,b)^{-1} = (a^{-1},a^{-1}b)}). The name affine group stems from the fact that the group operation behaves like the composition of one dimensional affine linear functions: For {f(x) = ax+b} and {g(x) = a'\,x+b'} we have {f(g(x)) = (a\,a')\, x + a\,b' + b}.

The affine group admits a representation on the space of unitary operators on {L^2({\mathbb R})}:

\displaystyle  \Pi(a,b)f(x) = \tfrac{1}{\sqrt{|a|}}\psi(\tfrac{x-b}{a})

(note the normalizing factor {1/\sqrt{|a|}}).

2. The affine uncertainty principle

I am not sure who has to credited for the group theoretical background behind wavelets however, the two-part paper “Transforms associated to square integrable group representations” by Grossmann, Morlet and Paul has been influential (and can be found, e.g. in the compilation “Fundamental papers in wavelet theory” by Heil and Walnut.

As done by Stephan Dahlke and Peter Maass in “The Affine Uncertainty Principle in One and Two Dimensions” and can proceed in analogy to the windowed Fourier transform and the corresponding Weyl-Heisenberg group and compute the infinitesimal operators: Take the derivative of the representation with the respect to the group parameters and evaluate at the identity:

\displaystyle  T_a f(x) := \frac{d}{da}[\Pi(a,b)f(x)|_{(a,b) = (1,0)} = -\tfrac{1}{2}f(x) - xf'(x)

and

\displaystyle  T_b f(x) := \frac{d}{db}[\Pi(a,b)f(x)|_{(a,b) = (1,0)} = -f'(x).

Again, these operators are skew adjoint and hence, multiplying by {\mathrm{i}} gives self-adjoint operators.

These operators {\mathrm{i} T_b} and {\mathrm{i} T_a} do not commute and hence, applying Robertson’s uncertainty principle gives an inequality. The commutator of {\mathrm{i} T_a} and {\mathrm{i} T_b} is

\displaystyle  [\mathrm{i} T_a,\mathrm{i} T_b] f(x) = f'(x).

Robertson’s uncertainty principle reads as

\displaystyle  \tfrac{1}{2}|\langle f',f\rangle| \leq \|(\mathrm{i} T_a - \mu_1 I)f\|\,\| (\mathrm{i} T_b - \mu_2 I)f\| \ \ \ \ \ (1)

and with some manipulation this turn to (for {\|f\|=1})

\displaystyle  \tfrac{1}{4}|\langle f',f\rangle|\leq (\|f'\|^2 - \mu_2^2)(\|xf'\|^2 -\tfrac{1}{4} - \mu_1^2). \ \ \ \ \ (2)

Again, one can derive the functions for which equality in attained and these are the functions of the form

\displaystyle  f(x) = c(x-\mathrm{i} \lambda) ^{-1/2 + \mathrm{i}\lambda\mu_2+\mathrm{i}\mu_1}

for real {\lambda}. (By the way, these functions are indeed wavelets and sometimes called Cauchy-wavelets because of their analogy with the Cauchy kernel from complex analysis.)

By the way: These functions are necessarily complex valued. If one restricts oneself to real valued functions there is a simpler inequality, which one may call “real valued affine uncertainty”. First, observe that {\langle f',f\rangle = 0} for real valued {f}, and hence, the left hand side in (1) is zero (which make the inequality a bit pointless). Using that for real valued {f} we have {\langle T_a f,f\rangle = 0}, and that {\|T_a f\|^2 = \|xf'\| - \tfrac{1}{4}\|f\|^2} together with {\|(\mathrm{i} T_b -\mu_2)f\|^2\neq 0} for {f\neq 0} we obtain (with {\mu_1=0}) from (1)

\displaystyle  \tfrac{1}{2} \|f\| \leq \|xf'\|.

Since we know that equality is only attained for the Cauchy wavelets (which are not real valued we can state:

Corollary 2 (Real valued affine uncertainty) For any real valued function which is in the domain of {[T_a,T_b]} it holds that

\displaystyle  \tfrac{1}{2} \|f\| < \|xf'\|.

As some strange curiosity, one can derive this “real valued affine uncertainty principle” by formal integration by parts and Cauchy-Schwarz inequality totally similar to the Heisenberg uncertainty principle (as I’ve done in my previous post):

\displaystyle  \begin{array}{rcl}  \|g\|_2^2 & =& \int_{\mathbb R} 1\cdot|g(x)|^2dx\\ & = &-\int_{\mathbb R} x\tfrac{d}{dx}|g(x)|^2dx\\ & = &-2\int_{\mathbb R} xg(x)g'(x)dx\\ & \leq &2\int_{\mathbb R} |xg'(x)|\,|g(x)|dx\\ & \leq &2\Big(\int_{\mathbb R} |xg'(x)|^2dx\Big)^{1/2}\Big(\int_{\mathbb R} |g(x)|^2dx\Big)^{1/2}. \end{array}

Dividing by {2\|g\|} gives the “real valued affine uncertainty” (but only in the non-strict way).

Some years ago I became fascinated by uncertainty principles. I got to know them via signal processing and not via physics, although, from a mathematical point of view they are the same.

I recently supervised a Master’s thesis on this topic and the results clarified a few things for me which I used to find obscure and I’d like to illustrate this here on my blog. However, it takes some space to introduce notation and to explain what it’s all about and hence, I decided to write a short series of posts, I try to explain, what new insights I got from the thesis. Here comes the first post:

1. The Fourier transform and the windowed Fourier transform

Let’s start with an important tool from signal processing you all know: The Fourier transform. For {f:{\mathbb R}\rightarrow{\mathbb C}} the Fourier transform is

\displaystyle  \hat f(\omega) = (2\pi)^{-1/2}\int_{\mathbb R} f(x) \mathrm{e}^{-\mathrm{i} x\omega} dx.

(I was tempted to say “whenever the integral is defined”. However, the details here are a little bit more involved, but I will not go into detail here; {hat f} is defined for {L^2}-functions, for {L^1} functions and even for tempered distributions…) Roughly speaking, the Fourier transform decomposes a signal into its frequency components, which can be seen from the Fourier inversion formula:

\displaystyle  f(x) = (2\pi)^{-1/2}\int_{\mathbb R} \hat f(\omega) \mathrm{e}^{\mathrm{i} x\omega} d\omega,

i.e. the (complex) number {f(\omega)} says “how much the frequency {\omega} (i.e. the function {x\mapsto \mathrm{e}^{\mathrm{i} x\omega}}) contributes to {f}”. In the context of signal processing one often speaks of the “time representation” {f} and the “frequency representation” {\hat f}.

One drawback of the Fourier transform, when used to analyze signals, is its “global” nature in that the value {\hat f(\omega)} depends on every value of {f}, i.e. a change of {f} in a small interval results a change of all of {\hat f}. A natural idea (which is usually attributed to Gabor) is, to introduce a window function {g} which is supposed to be a bump function, centered at zero, then translate this function and “localize” {f} by multiplying it with {g(\cdot-t)}. The resulting transform

\displaystyle  G_gf(\omega,t) = (2\pi)^{-1/2}\int_{\mathbb R} f(x)g(x-t)\mathrm{e}^{-ix\omega}dx

is called windowed Fourier transform, short-time Fourier transform or (in the case of {g(x) = \mathrm{e}^{-x^2/2}}) Gabor transform.

Of course we can write the windowed Fourier transform in term of the usual Fourier transform as

\displaystyle   G_gf(\omega,t) = \widehat{(f\,g(\cdot-t))}(\omega). \ \ \ \ \ (1)

In other words: The localization in time is precisely determined by the “locality” of {g}, that is, how well {g} is concentrated around zero. The better {g} is concentrated around {0}, the more “localized around {t}” is the information of {f}, the windowed Fourier transform {G_gf(\omega,t)} uses.

For the localization in frequency one obtains (by Plancherel’s formula and integral substitution) that

\displaystyle  G_gf(\omega,t) = \mathrm{e}^{-\mathrm{i} x\omega}\widehat{(\hat f\,\hat g(\cdot-\omega)}(-x).

In other words: The localization in frequency is precisely determined by the “locality” of {\hat g}, that is, how well {\hat g} is concentrated around zero. The better {\hat g} is concentrated around {0}, the more “localized around {\omega}” is the information of {\hat f}, the windowed Fourier transform {G_gf(\omega,t)} uses.

Hence, it seems clear that a function {g} is well suited as a window function, if it both well localized in time and frequency. If one measures the localization of a function around zero by its variance

\displaystyle  \text{Var}_g = \int_{\mathbb R} x^2|g(x)|^2 dx ,

then there is the fundamental lower bound on the product of the variance of a function and the variance of its Fourier transform, know under the name “Heisenberg uncertainty principle” (or, as I learned from Wikipedia, “Gabor limit”): For {\|g\|_{L^2}=1} it holds that

\displaystyle  \text{Var}_g\cdot\text{Var}_{\hat g}\geq \tfrac14.

Proof: A simple (not totally rigorous) proof goes like this: We use partial integration, the Cauchy-Schwarz inequality and the Plancherel formula:

\displaystyle  \begin{array}{rcl}  \|g\|_2^2 & =& \int_{\mathbb R} 1\cdot|g(x)|^2dx\\ & = &-\int_{\mathbb R} x\tfrac{d}{dx}|g(x)|^2dx\\ & = &-2\int_{\mathbb R} xg(x)g'(x)dx\\ & \leq &2\int_{\mathbb R} |xg(x)|\,|g'(x)|dx\\ & \leq &2\Big(\int_{\mathbb R} |xg(x)|^2dx\Big)^{1/2}\Big(\int_{\mathbb R} |g'(x)|^2dx\Big)^{1/2}\\ & = &2\Big(\int_{\mathbb R} |xg(x)|^2dx\Big)^{1/2}\Big(\int_{\mathbb R} |\omega \hat g(\omega)|^2d\omega\Big)^{1/2}\\ & = &2(\text{Var}_g)^{1/2}(\text{Var}_{\hat g})^{1/2}. \end{array}

\Box

Moreover, the inequality is sharp for the functions {g(x) = C\mathrm{e}^{-\lambda x^2}} for {\lambda>0}. In this sense, these Gaussians are best suited for the windowed Fourier transform.

While this presentation was geared towards usability, there is a quite different approach to uncertainty principles related to integral transforms which uses the underlying group structure.

2. The group behind the windowed Fourier transform

The windowed Fourier transform (1) can also be seen as taking inner products of {f} with the family of functions {g(\cdot-t)\mathrm{e}^{-\mathrm{i} x\omega}}. This family is obtained from the single function {g} by letting the so-called Weyl-Heisenberg group act on it:

Definition 1 The Weyl-Heisenberg group {G_{WH}} is the set {{\mathbb R}\times{\mathbb R}\times S^1} endowed with the operation

\displaystyle  (\omega,b,\tau)(\omega',b'\tau') = (\omega+\omega',b+b',\tau\tau'\mathrm{e}^{\mathrm{i} (\omega b'-\omega' b)/2)}).

The Weyl-Heisenberg group admits a representation of the space of unitary operators on {L^2({\mathbb R})}, that is a map {\Pi:G_{WH}\rightarrow U(L^2({\mathbb R}))}

\displaystyle  \Pi(\omega,b,\tau)f(x) = \tau\mathrm{e}^{-\mathrm{i} \omega b/2}\mathrm{e}^{\mathrm{i}\omega x}f(x-b).

It indeed the operators {\Pi(\omega,b,\tau)} are unitary and it holds that

\displaystyle  \Pi(\omega,b,\tau)\Pi(\omega',b',\tau')f(x) = \Pi((\omega,b,\tau)(\omega',b',\tau'))f(x).

Moreover, the mapping {(\omega,b,\tau)\mapsto \Pi(\omega,b,\tau)f} is continuous for all {f}, a property of the representation which is called strong continuity.

In this light, the windowed Fourier transform can be written as

\displaystyle  G_g f(\omega,t) = (2\pi)^{-1/2} \langle f,\Pi(\omega,b,\mathrm{e}^{\mathrm{i}\omega b/2})g\rangle.

Now there is a motivation for the uncertainty principle as follows: Associated to the Weyl-Heisenberg group there is the Weyl-Heisenberg algebra, a basis of which is given by the so called infinitesimal generators. These are, roughly speaking, the derivatives of the representation with respect to the group parameters, evaluated at the identity. In the Weyl-Heisenberg case:

\displaystyle  T_\omega f(x) := \frac{d}{d\omega}[\Pi(\omega,b,\tau)f(x)|_{(\omega,b,\tau) = (0,0,1)} = \mathrm{i} xf(x)

and

\displaystyle  T_b f(x) := \frac{d}{db}[\Pi(\omega,b,\tau)f(x)|_{(\omega,b,\tau) = (0,0,1)} = -f'(x)

and

\displaystyle  T_\tau f(x) := \frac{d}{d\tau}[\Pi(\omega,b,\tau)f(x)|_{(\omega,b,\tau) = (0,0,1)} = \mathrm{i} f(x).

(In the last case, my notation was not too good: Note that {\tau = \mathrm{e}^{\mathrm{i} t}} with {t\in[0,2\pi[} and the derivative has to be taken with respect to {t}.)

All these operators are skew adjoint on {L^2({\mathbb R})} and hence the operators

\displaystyle  \mathrm{i} T_\omega f(x) = -xf(x),\quad \mathrm{i} T_b f(x) = -\mathrm{i} f'(x),\quad \mathrm{i} T_\tau f(x) = -f(x)

are self adjoint.

For any two (possibly unbounded) operators on a Hilbert space there is a kind of abstract uncertainty principle (apparently sometimes known as Robertson’s uncertainty principle. It uses the commutator {[A,B] = AB-BA} of two operators:

Theorem 2 For any two self adjoint operators {A} and {B} on a Hilbert space it holds that for any {f} in the domain of definition of {[A,B]} and any real numbers {\mu_1} and {\mu_2} it holds that

\displaystyle  \tfrac12|\langle [A,B] f,f\rangle|\leq \|(A-\mu_1 I)f\|\,\|(B-\mu_2)f\|.

Proof: The proof simply consists of noting that

\displaystyle  \begin{array}{rcl}  |\langle [A,B] f,f\rangle| &=& |\langle B f,Af\rangle -\langle Af,BS f\rangle|\\ & =& |\langle (B-\mu_2 I) f,(A-\mu_1 I)f\rangle -\langle (A-\mu_1 I)f,(B-\mu_2 I)S f\rangle|\\ & =& |2\text{Im} \langle (B-\mu_2 I) f,(A-\mu_1 I)f\rangle|\\ & \leq &2|\langle (B-\mu_2 I) f,(A-\mu_1 I)f\rangle|. \end{array}

Now use Cauchy-Schwarz to obtain the result. \Box

Looking closer at the inequalities in the proof, one infers in which cases Robertson’s uncertainty principle is sharp: Precisely if there is a real {\lambda} such that

\displaystyle   (A-\mu_1 I)f = -\mathrm{i}\lambda (B-\mu_2 I)f. \ \ \ \ \ (2)

Now the three self-adjoint operators {\mathrm{i} T_\omega}, {\mathrm{i} T_b} and {\mathrm{i} T_\tau} have three commutators but since {\mathrm{i} T_\tau} is a multiple of the identity and hence commutes with the others. I.e. there is only one commutator relation:

\displaystyle  [\mathrm{i} T_b,\mathrm{i} T_\omega] f = \mathrm{i} f.

Hence, using {A=\mathrm{i} T_b}, {B = \mathrm{i} T_\omega} and {\mu_1=\mu_2=0} in Robertson’s uncertainty principle gives (in sloppy notation)

\displaystyle  \tfrac12 \|f\|^2\leq \|f'\|_2\|xf\|_2

which is exactly the Heisenberg uncertainty principle.

Moreover, by (2), equality happens if {f} fulfills the differential equation

\displaystyle  -\mathrm{i} f'(x) = \mathrm{i}\lambda x f(x)

the solution of which are exactly the functions {f(x) = C\mathrm{e}^{-\lambda x^2/2}}.

Since the Heisenberg uncertainty principle is such an impressing thing with a broad range of implications (a colleague said that its interpretation, consequences and motivation somehow form a kind of “holy grail” in some communities), one may try to find other cool uncertainty principles be generalizing the approach of the previous sections to other transformations.

In the next post I am going to write about other group related integral transforms and its “uncertainty principles”.