|
Adressen + Mitarbeiter ![]() |
Die Diskussion zur Emphaseforschung mit besonderer Berücksichtigung des DruckakzentphänomensOliver Niebuhr, 29. April 2006
Die jüngsten Diskussionen unserer Prosodiegruppe haben sich mit der Emphase beschäftigt, angeregt durch den Beitrag von Kohler zur Speech Prosody 2006 in Dresden ("What is emphasis and how is it coded?"). Kohler verknüpft in diesem Beitrag phonetische Merkmale und funktionale Eigenschaften zu einem Netz, innerhalb dessen verschiedene Subtypen des breit gefächerten Phänomenkomplexes der Emphase unterschieden werden. Vor diesem Hintergrund entstand das Anliegen, die angenommenen Subtypen innerhalb des Emphasenetzwerks, ausgehend von den ihnen zugeschriebenen Funktionen, systematisch untersuchen zu können und zwar sowohl im Rahmen akustischer Analysen als auch mit Hilfe von Perzeptionsexperimenten. Die Forschung sollte ferner auch auf andere Sprachen ausgedehnt werden können. Im Hinblick auf den Forschungspfeiler der akustischen Analyse stellte sich nun die Frage, wie die hierfür erforderlichen Produktionsdaten gewonnen werden können. Felicitas hat hierzu einen umfangreichen und detaillierten Überblick über verfügbare und bereits angewendete Methoden der Sprachdatenerhebung gegeben, die vom bloßen Ablesen einzelner Sätze oder Textpassagen, über mehr oder weniger stark kontrollierte (d.h. z.B. über Wortlisten oder Szenarien vorgegebene) unverschriftete Sprache bis hin zu völlig freier, schlichtweg mitgeschnittener Sprache reichen, wobei jeweils Monologe oder Dialoge zugrundeliegen können.
Auf Basis dieses methodischen Überblicks hat sich in der Gruppe ein Paradigma herauskristallisiert, das Kohler im Rahmen seines mündlichen Vortrags bei der SP 2006 als "simulated dialogues" bezeichnet. Es stellt einen Kompromiss dar zwischen der laboratorisch-künstlichen und unkommunikativen Situation des bloßen Lesens von Wort- oder Satzlisten und der realen sprachlichen Kommunikation des Alltags. Die Gruppe war sich einig darüber, dass das Ablesen von Wort- oder Satzlisten unter bestimmten Forschungsgesichtspunkten zwar durchaus seine Berechtigung hat, dass eine solche Vorgehensweise aber für die Untersuchung prosodischer Phänomene und insbesondere emotional-expressiv behafteter Phänomenkomplexe wie dem Emphasekomplex ungeeignet ist. Andererseits kann auf eine gewisse Kontrolle des erhobenen Sprachmaterials, z.B. bezüglich morphologischer, syntaktischer und/oder rhythmischer Strukturen, nicht verzichtet werden. Dies gilt insbesondere deswegen, da über die schriftliche Vorgabe ein funktionaler Rahmen geschaffen werden soll, der die jeweiligen Emphasetypen evozieren kann.
So kam eine Methode zustande, die zwar zum einen auf schriftlich vorgegebener Sprache basiert, die jedoch zum anderen verschiedene kommunikative Elemente hereinbringt. Hierzu zählt z.B. die Verwendung eines Dialoges anstelle eines Monologes. Der Dialog wird auch tatsächlich von zwei Sprechern produziert, die sich gut kennen sollten, um eine ungehemmtere Atmosphäre zu schaffen. Die beiden Sprecher erhalten zudem die Dialoge bereits vor der Aufnahme ausgehändigt, und sie werden instruiert, die Dialoge solange untereinander durchzusprechen, bis sie der Ansicht sind, eine adäquate lautsprachliche Interpretation des schriftlichen Materials (d.h. eine aus ihrer Sicht "natürlich" anmutende Variante) gefunden zu haben. Diese wird dann, einfach oder mehrfach, aufgenommen. Bei einer mehrfachen Aufnahme könnten die Sprecher ferner die Rollen wechseln. Es ist davon auszugehen, dass die Sprecher sich durch die Übung des gegebenen Dialoges von der Handlung des Ablesens und den damit einhergehenden Effekten distanzieren. Insgesamt gesehen, ist sich die Gruppe darüber einig, dass die gezielte und auf die jeweilige Forschungs-frage zugeschnittene Erhebung von Sprachdaten dem Akkumulieren gewaltiger Mengen Sprache mit dem Ziel einer universell einsetzbaren Datenbank vorzuziehen ist.
Für die funktional basierte Erhebung von Produktionsdaten und auch für die gezielte Manipulation von Stimuli in Perzeptionsexperimenten ist es zwingend erforderlich, sich zuvor bereits sehr intensiv mit der phonetischen und funktionalen Ausprägung der einzelnen Emphasetypen zu beschäftigen. Das heißt z.B., dass die von Kohler in seinem Beitrag zur SP 2006 aufgestellten Verknüpfungen weiter ausgebaut und verfestigt werden müssen. Hierbei ist es zunächst naheliegend, mit der neu hinzugekommenen Kategorie des Druckakzentes zu beginnen, die bereits in gewissem Maße in PROLAB etabliert, aber noch lange nicht so gefestigt ist wie z.B. die Gipfel- und Talkategorien bzw. die drei Akzentstufen. In diesem Zusammenhang hat Olli einige aus dem Fernsehen aufgenommene Gerichtssendungen, insgesamt 8 Stunden Sprachmaterial, auf potentielle Realisierungen des Druckakzentes und etwaige Probleme für die vorliegende phonetische und funktionale Definition des Druckakzentes in PROLAB hin überprüft. Die Ergebnisse werden nachfolgend zusammenfassend dargestellt.
In der bisherigen Forschung zum Druckakzent wird diese Emphasekategorie seitens ihrer Funktion von Kohler in den Bereich der negativen Intensivierung der Wort- bzw. Äußerungssemantik eingeordnet. Was ihre phonetische Ausprägung anlangt, so wird der Druckakzent durch ein Bündel phonetischer Merkmale konstituiert. Hierzu zählen: Erste Perzeptionsexperimente haben bereits gezeigt, dass diese phonetischen Ausprägungen nicht als Häsitationen wahrgenommen werden. Die von Olli präsentierten Fallbeispiele unterstützen nun das vorliegende Druckakzentkonzept und legen darüber hinaus nahe, dass alle aufgeführten Eigenschaften zusammen für einen Druckakzent vorliegen müssen. Diese Erkenntnis ergab sich aus der Diskussion von Beispielen, in denen jeweils nur einzelne der phonetischen Charakteristika des Druckakzentes vorkamen. Diese Beispiele wurden von der Gruppe jedoch funktional anders eingeordnet. Im Nachfolgenden werden zunächst zwei interessante Beispiele für den Druckakzent aufgeführt.
Beispiel 1: "Schwachsinn", jeweils einmal mit und ohne Druckakzent
Abbildung 1(a): Äußerungsausschnitt "Schwachsinn", produziert mit Druckakzent auf "Schwach-". Dargestellt ist das Oszillogramm (oben) und Sonagramm (unten). Im Sonagramm sind der F0-Verlauf (blau) und der Intensitätsverlauf (gelb) eingezeichnet.
Abbildung 1(b): Äußerungsausschnitt "Schwachsinn", produziert ohne Druckakzent auf "Schwach-". Dargestellt ist das Oszillogramm (oben) und Sonagramm (unten). Im Sonagramm sind der F0-Verlauf (blau) und der Intensitätsverlauf (gelb) eingezeichnet.
Die beiden Analyseabbildungen 1(a) und (b) zeigen jeweils den Äußerungsausschnitt des Wortes "Schwachsinn", der von der gleichen Sprecherin in beiden Fällen phrasenfinal produziert wurde. Im Falle von Abbildung 1(a) liegt eine Druckakzentproduktion (auf "Schwach-") vor und im Falle von Abbildung 1(b) nicht. Beiden Realisierungen des Wortes "Schwachsinn" liegen deutlich unterschiedliche Sprechgeschwindigkeiten zugrunde, sodass die absoluten Segmentdauern nicht betrachtet werden sollten. Im Vergleich jedoch ergibt sich für den Konsonantencluster in Abbildung 1(a) im Onset der Akzentsilbe eine Gesamtdauer von 312ms gegenüber einer Dauer des Akzentvokals von 80ms. Im Falle des Produktion ohne Druckakzent aus Abbildung 1(b) beträgt die Dauer des initialen Clusters 165ms und die Dauer des Akzentvokals 60ms. Ferner ist in diesem Zusammenhang zu erkennen, dass der (stimmhafte) labiodentale Frikativ im Falle der Druckakzentproduktion sehr viel deutlicher ausgeprägt ist als im Falle der Produktion ohne Druckakzent. Darüber hinaus zeigen Abbildung 1(a) und (b), dass F0 im Falle des Druckakzentbeispiels 1(a) bereits annähernd auf dem phrasenfinalen F0-Niveau der letzten Silbe "-sinn" liegt und damit sehr viel tiefer und ebener verläuft als in 1(b), wo sich ein F0-Gipfel ausbildet, der sich zudem deutlich über dem phrasenfinalen F0-Niveau befindet. Es kann davon ausgegangen werden, dass im Falle des Druckakzentbeispiels aus Abbildung 1(a) keine Gipfelkategorie vorliegt, sondern allenfalls eine insgesamt zum Äußerungsende hin abfallende Minuskontur. Im Beispiel 1(b) hingegen liegt ein klarer mittlerer Gipfel vor (in diesem Zusammenhang ergibt sich die Frage, ob Minuskonturen überhaupt eine funktionale Aussnutzung des F0-Verlaufs darstellen und entsprechend mit z.B. Gipfelkonturen phonologisch äquivalent sein müssen. Wenn nicht, unterstützt dies meine Vermutung, dass Druckakzente, in denen F0 bestimmbar ist, auch weiterhin "reine" Druckakzente sein können, d.h. Akzente ohne zusätzliche tonale Kategorie.). Ferner hat auch eine Analyse der Intensität Unterschiede zwischen den beiden Produktionen innerhalb der Akzentsilbe ergeben. Während das Intensitätsniveau (gemessen anhand des Intensitätsmaximums) innerhalb des Konsonantenclusters im Falle der Druckakzentproduktion mit etwa 80dB nur 2dB unterhalb des Intensitätsmaximums des Akzentvokals liegt, beträgt die Differenz im Falle der Produktion ohne Druckakzent 4dB und fällt folglich doppelt so groß aus. Letztlich ist darauf hinzuweisen, dass die Stimmqualität (vor allem im Silbennukleus) im Falle der Druckakzentproduktion eine andere ist als im Falle der Produktion ohne Druckakzent. Im letzteren Fall ist die Stimme eher behaucht, während sie sich im Rahmen des Druckakzentes härter anhört, ohne dabei jedoch klar aperiodisch zu werden. Beispiel 2: "mieser" Das Beispiel 2, "mieser", wiedergegeben in Abbildung 2, demonstriert eine Realisierung des Druckakzentes in einer Akzentsilbe "mie-" mit einem Nasal im Silbenonset. Deutlich zu erkennen ist das Verlassen der modalen Stimmhaftigkeit innerhalb des Nasals und Teilen des Vokals. Zudem ist der silbeninitiale Nasal von größerer Dauer als der nachfolgende Vokal (184ms vs. 165ms) und auf einem Intensitätsniveau, das in weiten Teilen dem des Vokals entspricht. Über den F0-Verlauf kann hier aufgrund von Analyseartefakten keine klare Aussage getroffen werden.
Abbildung 2: Äußerungsausschnitt "mieser", produziert mit Druckakzent auf "mie-". Dargestellt ist das Oszillogramm (oben) und Sonagramm (unten). Im Sonagramm sind der F0-Verlauf (blau) und der Intensitätsverlauf (gelb) eingezeichnet.
Die nachfolgenden Beispiele zeigen Produktionen, die jeweils nur einzelne Merkmale aus dem Merkmalsbündel des Druckakzentes aufweisen. Begonnen wird mit Beispielen einer Verschiebung in der CV(C) Dauerstruktur der Akzentsilbe zugunsten der Konsonanten, insbesondere der initialen. Beispiel 3: "ob Sie"
Abbildung 3: Äußerungsausschnitt "ob Sie", produziert ohne Druckakzent, aber mit emphatischem Akzent auf "Sie". Dargestellt ist das Oszillogramm (oben) und Sonagramm (unten). Im Sonagramm sind der F0-Verlauf (blau) und der Intensitätsverlauf (gelb) eingezeichnet.
Das dritte Beispiel ist die Akzentsilbe "Sie". In Abbildung 3 ist der dazugehörige Äußerungsausschnitt "ob Sie" in Form von Oszillogramm, Sonagramm, F0- und Intensitätsverlauf dargestellt. Auffällig ist die besonders große Dauer des silbeninitialen Frikativs. Dieses phonetische Merkmal ist auch für den Druckakzent kennzeichnend. Gleichzeitig ist jedoch zu erkennen, dass der anschließende Vokal ebenfalls sehr lang ausfällt. Er ist trotz der recht großen Dauer des Frikativs immer noch länger als letzterer. Der silbeninitiale Frikativ ist zudem durchgängig modal stimmhaft. Die Stimmhaftigkeit beginnt bereits im finalen bilabialen Plosiv von "ob". Letztlich ist die ausgeprägte F0-Bewegung innerhalb des Vokals der Akzentsilbe zu beachten. Diese phonetischen Ausprägungen entsprechen nicht dem Druckakzentkonzept. Auch seitens der kommunikativen Funktion unterscheidet sich diese Akzentuierung vom Druckakzent. Die Gruppe gelangte auf Anregung von Ernst zu der Meinung, dass es sich um eine nachdrückliche Akzentuierung handelt, ohne negative Intensivierung der Wort- oder Äußerungssemantik. Des weiteren ist diese Form des Nachdrucks auch nicht in den Emphasetyp der positiven Intensivierung einzuordnen, weder phonetisch oder funktional. Was die Phonetik anlangt, fehlt beispielsweise die Dehnung des Silbennukleus, die für den Emphasetyp der positiven Intensivierung charakteristisch ist. Es liegt nahe, dass es sich bei diesem Nachdruck-Akzent um einen gänzlich anderen Emphasetypus handelt. Gegebenenfalls muss das von Kohler entworfene Netz um diesen Typus erweitert werden. Weitere Beispiele zu diesem Typus finden sich in den nachfolgenden zwei Beispielen 4-5, "ganze Latte" und "noch lange". Sie zeichnen sich phonetisch ebenfalls dadurch aus, dass der silbeninitiale Konsonant deutlich gelängt ist, wobei jedoch der Akzentvokal nicht gleichzeitig gekürzt ist. Außerdem findet sich über der Akzentsilbe eine umfangreiche F0-Bewegung. Im Falle von stimmlosen Segmenten im Silbenonset erscheint die Differenzierung dieses Emphasetyps von einer Kombination aus Druck- und Tonakzent problematisch. Dies wird weiter unten detaillierter ausgeführt. Beispiel 4: "ganze Latte"
Abbildung 4: Äußerungsausschnitt "ganze Latte", produziert ohne Druckakzent, aber mit emphatischem Akzent auf "La-". Dargestellt ist das Oszillogramm (oben) und Sonagramm (unten). Im Sonagramm sind der F0-Verlauf (blau) und der Intensitätsverlauf (gelb) eingezeichnet.
Beispiel 5: "noch lange"
Abbildung 5: Äußerungsausschnitt "noch lange", produziert ohne Druckakzent, aber mit emphatischem Akzent auf "la-". Dargestellt ist das Oszillogramm (oben) und Sonagramm (unten). Im Sonagramm sind der F0-Verlauf (blau) und der Intensitätsverlauf (gelb) eingezeichnet.
Beispiele 6-7: "Rabenmutter" und "hunderttausend"
Abbildung 6: Äußerungsausschnitt "Rabenmutter", produziert ohne Druckakzent, aber mit emphatischem Akzent auf "Ra-". Dargestellt ist das Oszillogramm (oben) und Sonagramm (unten). Im Sonagramm sind der F0-Verlauf (blau) und der Intensitätsverlauf (gelb) eingezeichnet.
Abbildung 7: Äußerungsausschnitt "hunderttausend", produziert ohne Druckakzent, aber mit zwei emphatischen Akzenten auf "hun-" und "tau-". Dargestellt ist das Oszillogramm (oben) und Sonagramm (unten). Im Sonagramm sind der F0-Verlauf (blau) und der Intensitätsverlauf (gelb) eingezeichnet.
Die "Rabenmutter" ist ebenso wie die Beispiele 3-5 zuvor keine Druckakzentproduktion, weist allerdings typische phonetische Merkmale des Druckakzentes auf. Dies bezieht sich vor allem auf den in Abbildung 6 gekennzeichneten initialen Frikativ, dessen Friktionscharakter - bei durchgehender Stimmhaftigkeit - im Sonagramm sehr deutlich hervortritt. Auch perzeptorisch ist diese Friktion sehr prominent. Die Friktion scheint perzeptorisch zudem eine pharyngale Komponente zu haben, was allerdings auch durch Koartikulation mit dem nachfolgenden offenen Vokal bedingt sein kann. Zudem weist der initiale Frikativ mit 187ms eine Dauer auf, die deutlich über der Dauer des Akzentvokals mit 80ms liegt. Daneben findet sich im Falle der "Rabenmutter" aber auch ein gut erkennbarer F0-Gipfel (der späten Kategorie) mit einer sehr umfangreichen Gipfelhöhe. Die letztgenannten Merkmale gehören nicht zum phonetischen Merkmalsbündel des Druckakzentes. Auch funktional geht mit dieser Akzentuierung keine negative Verstärkung einher. Es könnte sich eher um einen Nachdruck-Akzent handeln wie er in den Beispielen zuvor erläutert wurde, nur das in diesem Fall ein Frikativ den Onset der Akzentsilbe bildet. Gleiches könnte für das Beispiel "hunderttausend" gelten, zu dem ebenfalls eine Analyseabbildung gegeben wurde. In diesem Beispiel liegt eine Doppelakzentuierung auf "hun-" und "tau-" vor. In Abbildung 7 ist der glottale Frikativ der ersten Akzentsilbe sehr deutlich ausgeprägt, sodass die artikulatorischen Bewegungen im Ansatzrohr in Form der Formanttransitionen (insbesondere des ersten Formanten) deutlich sichtbar werden. Dies wäre auch für einen Druckakzent zu erwarten. Allerdings findet danach eine deutlich F0-Gipfelbildung in Verbindung mit modaler (quasi-periodischer) Stimmhaftigkeit statt. Zudem ist der Frikativ zwar von größerer Dauer als der Akzentvokal (180ms vs. 135ms), der Dauerunterschied ist allerdings nicht besonders groß, insbesondere im Vergleich zu den Beispielen zuvor. Anders verhält es sich im Falle des zweiten Akzents auf der Silbe "tau-". Sehr deutlich ist in Abbildung 7 die große Verschlussdauer zu erkennen, die zusammen mit der Lösung und Aspiration des Plosivs 250ms einnimmt. Der anschließende Diphthong misst demgegenüber gerade einmal knappe 160ms. Allerdings ist hier wie zuvor auch das phonetische Merkmalsbündel des Druckakzentes nicht vollständig (vgl. den Intensitätsunterschied zwischen der Aspiration und dem nachfolgenden Vokal, den deutlich ausgeprägten F0-Gipfel, etc.). Die Funktion dieser Akzentuierung geht entsprechend nicht in Richtung einer negativen Verstärkung, sondern folgt eher der des Nachdruck-Akzentes. Phonetisch und funktional parallel zu den Beispielen 6-7 sind auch die nachfolgenden Beispiele zu bewerten, die nicht dementsprechend nicht mehr mit der gleichen Ausführlichkeit behandelt werden sollen.
Zusammenfassung und AusblickZusammengefasst zeigt die vorangegangene Diskussion, dass für den Druckakzent alle aufgeführten Merkmale anwesend sein müssen. Die für den Druckakzent typischen Merkmale können auch einzeln und in anderer Kombination vorkommen und andere Emphasetypen konstituieren bzw. andere Funktionen ausfüllen. Hierin liegt ein Problem für die Druckakzentklassifikation, wie sie bislang in PROLAB festgelegt ist. Neben reinen Druckakzenten sind hierin Kombinationen aus tonalen Akzenten und dem Druckakzent vorgesehen. Phonetisch gleichen diese kombinatorischen Akzente denjenigen, die in den Beispielen 3-7 vorgestellt wurden. Entsprechend ist anzunehmen, dass es sich bei diesen Kombinationen eigentlich um einen anderen Typus emphatischer Akzente handelt, der zuvor - vorläufig - mit Blick auf die Funktion als Nachdruck-Akzent bezeichnet wurde. Möglicherweise sollte diese Etikettierung kombinatorischer Akzente mit Blick auf die funktionale, aber auch die phonetische Homogenität des Druckakzentes noch einmal überdacht werden. Was die Emphaseakzente betrifft, die funktional auf eine Intensivierung ausgerichtet sind, zeichnen sich drei unterschiedliche Typen ab. Einer dieser Typen ist der Druckakzent, der eine negative Intensivierung der Wort- bzw. Äußerungssemantik transportiert. Daneben existiert ein Emphaseakzent, mit dem eine positive Intensivierung der Wort- bzw. Äußerungssemantik zum Ausdruck gebracht wird. Von beiden funktionalen Extrema kann der beschriebene Nachdruck-Akzent differenziert werden. Hierbei handelt es sich weder um eine negative, noch um eine positive Intensivierung. Die Intensivierung richtet sich - dem Nachdruck-Konzept entsprechend - nicht auf die zu übermittelnde Information selbst, sondern vielmehr an den Dialogpartner. Das heißt, es handelt sich um eine Intensivierung der Beziehung zwischen Sprecher und Hörer, die vom Sprecher ausgeht und darauf abzielt, dass der Hörer die übermittelte Information als bedeutsam anerkennt. Alle drei Akzenttypen stellen Variationen des zuvor genannten phonetischen Merkmalsbündels dar. Das heißt, sie betreffen die Dauerstruktur der Akzentsilbe, insbesondere den initialen Konsonanten und den vokalischen Silbennukleus, den F0-Verlauf, die Stimmqualität, die Intensitätsstruktur, etc. Vor diesem Hintergrund erscheint es sehr interessant, Perzeptionsexperimente durchzuführen, die alle diese Faktoren systematisch manipulieren. Sie so gewonnenen Stimuli werden dann von den Versuchspersonen funktional eingeordnet. Hierbei könnte man die Versuchspersonen nach Ironie fragen. Das heißt, die jeweilige Äußerung wird so zusammengestellt, dass ihre Bedeutung genau diametral entgegengesetzt zu der steht, die für den untersuchten Emphaseakzent angenommen wird. Treffen die Bedeutung der Äußerung mit der Bedeutung des Emphaseakzentes zusammen, entsteht Ironie. Eine Beurteilung der Äußerung als ironisch entspricht somit einer indirekten Identifikation des jeweiligen Emphaseakzentes. Insofern handelt es sich um eine modofizierte Variante des bekannten und bewährten Identifikationstests. Derartige Perzeptionsexperimente sind für das aufgestellte Emphasenetz essentiell, denn eine zentrale Frage ist völlig offen. Wie stark müssen sich die jeweiligen Merkmale in Richtung der jeweiligen Emphasekategorie bewegen, damit diese wahrgenommen wird? Ab welchem Dauerverhältnis beispielsweise wird aus einer default Akzentuierung eine emphatische Akzentuierung mit negativer oder positiver Intensivierung? Wieviel Prozent des Vokals bzw. der Akzentsilbe müssen eine Veränderung der Stimmqualität aufweisen, damit ein Druckakzent perzipiert wird? Und in welcher Form und in welchem Umfang muss der F0-Verlauf hierfür eingeebnet und abgesenkt werden? Gibt es trading relations zwischen den einzelnen phonetischen Merkmalen? Nach einer qualitativen Beschreibung der einzelnen Akzenttypen und einer groben Vorstellung der funktionalen Unterschiede zwischen ihnen, muss diese quantitative Erforschung, mit der die Grenzen zwischen den einzelnen Akzenten gezogen werden, folgen. Letzte Aktualisierung / last updated: 06.04.2007 © O. Niebuhr, 2006 on@ipds.uni-kiel.de, Phone: 0431-667-49-29 |