Fremdsprachenvermittlung zwischen Anspruch und Wirklichkeit

Das Corpus de référence du français contemporain (CRFC): Aufbau, Nutzung und erste Ergebnisse

Dirk Siepmann (Osnabrück) & Christoph Bürgel (Paderborn)

Abstract (English)

The Corpus de référence du français contemporain (CRFC) is a large genre-diverse corpus designed to investigate present-day French. Its current version comprises 310 million words, a considerable proportion of which are spontaneous spoken data (approximately 30 million words) and pseudo-spoken data (approximately 125 million words). The present article starts by discussing the design and composition of the corpus and then goes on to present results from a number of studies based on it.

Keywords: Corpus linguistics, present-day French, lexico-grammar

Abstract (Deutsch)

Das Corpus de référence du français contemporain (CRFC) ist ein umfangreiches genrediversifiziertes Korpus zur Untersuchung des Gegenwartsfranzösischen. Es umfasst in seiner aktuellen Version 310 Millionen Wörter und berücksichtigt in erheblichem Maße spontane Sprechsprache (ca. 30 Millionen Wörter) und pseudo-sprechsprachliche Daten (ca. 125 Mill. Wörter). Der vorliegende Beitrag stellt zunächst Aufbau und Struktur des Korpus vor. Der Schwerpunkt liegt dann auf der Präsentation von ersten Ergebnissen zur wissenschaftlichen Erforschung des tatsächlichen Gebrauchs des Französischen.

Stichwörter: Korpuslinguistik, Gegenwartsfranzösisch, Lexiko-Grammatik

1 Das CRFC: Konzeption und Aufbau

Das Corpus de référence du français contemporain (fortan: CRFC; Siepmann, Bürgel & Diwersy 2015) ist das erste Korpus des Französischen, das eine große Breite an verschiedenen Diskursgenres bzw. Textsorten enthält und somit zentrale Verwendungsweisen des Gegenwartsfranzösischen abbildet. Damit soll es den Ansprüchen von Lernern, Lehrkräften und Forschern der französischen Gegenwartssprache gerecht werden.

Das Korpus unterscheidet sich in verschiedener Hinsicht von bisherigen Korpora des Französischen:

es handelt sich um das größte Korpus des Französischen, das nicht ausschließlich auf Daten aus dem Internet beruht;
das Korpus umfasst heterogene Textsammlungen;
es ist das erste Korpus des Französischen, das eine große Menge von spontan-sprechsprachlichen Daten (ca. 30 Mill. Wörter) und „pseudo-sprechsprachlichen“ Daten (Diskussionsforen, Theater, SMS, ca. 125 Mill. Wörter) umfasst;
ein Teil des Korpus ist als Monitorkorpus konzipiert, das regelmäßig aktualisiert werden soll, sofern eine entsprechende Finanzierung vorliegt.

Hinsichtlich Planung und Struktur des Korpus dienten die beiden großen Referenzkorpora des Englischen als Orientierung (British National Corpus und Corpus of Contemporary American English), wobei das CRFC eine größere Textsortenbreite aufweist. Dabei wurde ein möglichst hoher Grad an Repräsentativität und Ausgewogenheit angestrebt, auch wenn es sich dabei um ein statistisches Ideal handelt, das nicht auf die natürliche Sprache anwendbar ist (vgl. z. B. Atkins u.a. 1992 und Evert 2006).

Ein weiteres Alleinstellungsmerkmal des CRFC besteht darin, dass es zu gleichen Anteilen rein sprechsprachliche und pseudo-sprechsprachliche Quellen einerseits sowie schriftliche Quellen andererseits umfasst und somit „un équilibre appréciable entre contrôle et naturel“ (Corbin 2005: 131) herstellt. Das Korpus kann daher als Grundlage und Datenquelle für die Entwicklung von korpusinduzierten Wörterbüchern, Grammatiken und Lehr- und Lernmaterialien dienen. Es ermöglicht die Beantwortung von Fragen, die mit bisherigen Korpora oder introspektiven Vorgehensweisen nicht zufriedenstellend gelöst werden konnten.

Das Korpus richtet sich an folgende Benutzerkreise:

in erster Linie natürlich an Linguisten, die die französische Gegenwartssprache in ihren verschiedenen Ausprägungen erforschen wollen;
an Fremdsprachendidaktiker, die das Korpus zur Neuentwicklung von korpusbasierten bzw. -induzierten Grammatiken, Lernwortschätzen und Lehrbüchern verwenden können;
an Französischlehrer, die das Korpus für die Unterrichtsplanung und als Korrekturhilfe einsetzen können;
an Übersetzer und technische Redakteure, die gezielte Anfragen zu Formulierungsproblemen stellen können;
an Studierende, die für sprachliche Regelmäßigkeiten sensibilisiert werden sollen.

Es soll nicht verschwiegen werden, dass aus Kosten- und Zeitgründen ein pragmatischer Mittelweg zwischen philologischer Genauigkeit und Machbarkeit eingeschlagen werden musste. Der bisherige Verzicht auf eine aufwändige Annotierung des sprechsprachlichen Korpusteils nach Datum, Turn oder auch semantischen und prosodischen Merkmalen soll evtl. später nachgeholt werden.

Die folgende Übersicht zeigt die Zusammensetzung des Korpus:

Medium	Subkorpus	Größe
Rein sprechsprachlich	Informell Formell	30 Mill. 30 Mill.
	Informell Formell	30 Mill. 30 Mill.
Pseudo-sprechsprachlich	Theaterstücke und Filmdrehbücher Film- und Nachrichtenuntertitel SMS / Chat Diskussionsforen	30 Mill. 2,5 Mill. 2,5 Mill. 60 Mill. 155 Mill.




Schriftlich	Wissenschaftliche Texte und Fach texte Andere nicht-literarische Texte Romane, Novellen, Erzählungen Zeitungen Zeitschriften Tagebücher und Blogs Briefe und E-Mails Verschiedene Texte	30 Mill.
		30 Mill.
		30 Mill.
		45 Mill.
		10 Mill.
		5 Mill.
		1 Mill.
		4 Mill
		155 Mill.

Tab. 1: Zusammensetzung des CRFC

Eine Besonderheit des Korpus ist der beträchtliche Umfang des rein sprechsprachlichen Korpusteils. Bislang musste die Forschung zur Sprechsprache auf kleinere, oft aus Interviewdaten bestehenden Korpora zurückgreifen, deren Nachteil darin besteht, dass sie die Varianz von Kommunikationssituationen nur unzureichend darstellen (vgl. Debaisieux 2010, Gadet et al. 2012). Aus Platzgründen soll im Folgenden nur das sprechsprachliche Teilkorpus kurz vorgestellt werden.

Der sprechsprachlich-informelle Teil besteht zu ca. 75 % aus Transkriptionen von spontanen Monologen oder Dialogen aus über 200 verschiedenen Arten von Fernsehsendungen der Sender France 2, France 3 und France 5 aus den Jahren 2013 und 2014. Damit stehen zurzeit mehr als 6000 Sendungen bzw. 3000 Stunden spontaner Sprechsprache zur Verfügung. Um eine Überrepräsentation bestimmter Wochentage oder Jahreszeiten zu vermeiden, wurden bewusst die Sendungen eines ganzen Jahres einbezogen (vgl. Kennedy 1998: 75). Das Korpus umfasst beispielsweise Kochshows wie Dans la peau d’un chef, Chatshows des Typs Toute une histoire, Kultursendungen des Typs Entrée libre, politische Magazine wie C’est à dire, verschiedene Sport- und Wissenschaftssendungen sowie Dokumentationen über verschiedene Themen.

Diese Zusammenstellung wirft die Frage nach der Vergleichbarkeit solcher Daten mit der Sprechsprache außerhalb der Medien auf. Wie Meißner (2006: 248–249) als Antwort auf die Frage ‘Quel français enseigner?’ feststellt, setzt das Fernsehen „[...] längst die statistische Norm, indem es zahlreiche Idiolekte und Varietäten an Ohren und Augen vieler transportiert, allerdings so, dass diese innerhalb des Sprach- und Senderaums breit verstanden werden.“ Folgt man dieser Einsicht, dann können die im Fernsehen verwendeten Varietäten der gesprochenen Sprache als Leitlinie für die Konzeption des mündlichen Korpusteils und die Entwicklung von Lehr- und Lernmaterialien fungieren. Ein weiteres Argument für diese Vorgehensweise liefert Davies: Eine von ihm (http://corpus. byu.edu/coca) durchgeführte Gegenüberstellung zeigt, dass eine recht enge Passung zwischen den Transkripten der von ihm verwendeten Talkshows (u.ä.) und der Sprechsprache außerhalb des Mediums Fernsehen besteht. Darüber hinaus zeigen Korrelationsanalysen auf der Grundlage von n - grams aus Untertitelkorpora, dass die in Filmen und Fernsehuntertiteln verwendete Sprache eine starke Ähnlichkeit zur informellen Unterhaltung aufweist (Levshina, erscheint). Ähnliche Beobachtungen liegen zur Sprache von Seifenopern vor (Quaglio 2009). In jedem Fall ist die Authentizität des der informellen Sprechsprache gewidmeten Subkorpus des CRFC höher anzusetzen als im COCA, da es einen großen Anteil an Sendungen umfasst, die reale Interaktionen zwischen Sprechern zeigen, einschließlich authentischer privater Unterhaltung. Kritikern der Verwendung solcher Daten wäre schließlich zu entgegnen, dass diese alternativlos ist, wenn das Ziel der Forschung darin besteht, ein umfassendes Bild der Lexikogrammatik einer Sprache zu liefern. Die Zusammenstellung einer vergleichbaren Menge an Daten aus anderen Quellen wäre einfach zu kostenintensiv und zeitaufwändig. Jedoch muss auch auf einige Unterschiede zwiischen Fernsehdaten und anderen sprechsprachlichen Daten hingewiesen werden, die sich beispielsweise auf Häsitationssphänomene oder die Sprachflüssigkeit beziehen.

Im Folgenden sind einige Daten zur Illustration angeführt:

Ça a commencé comment? O. Pruvost: Au milieu des années 90, bêtement, j'ai l’impression. Ça a commencé en faisant du cheval. J'ai l'impression d'avoir tapé sur la selle, continuellement, pendant cette promenade de cheval qui a duré 2 heures. Ça a provoqué un tassement des disques. Ça a été le point de départ de ces douleurs. Marina: Vous étiez déjà sportif? O. Pruvost: Oui. Michel: C'était quelle douleur? O. Pruvost: Ça ne s'est jamais vraiment déclaré au niveau des sciatiques. Par contre, en crise, c'était épouvantable. Je me laissais glisser contre un mur sur le sol pour apaiser la douleur. Michel: C'était dans le bas du dos, les lombaires? O. Pruvost: Oui. Marina: C'était déclenché par quoi? De mauvaises positions? (Gesundheitsjournal)

-Appuie ! Voilà ! Allez ! -Il faut le pencher dans l'autre sens, le bidon ! Il faut anticiper ! Avec la bascule, il faut mettre le goulot vers l'avant. -Réfléchis, Nath ! -Penche-le au maximum vers l'avant ! Penche le bidon vers l'avant ! -OUAIS ! -C'est beau ! -Allez ! Vas-y, championne ! -T'es à mi-parcours ! -Tranquille. Voilà. -C'est bon ! C'est bon ! -C'est bien, Nath ! (Spielshow)

-Là, je suis en train de faire le pain. Pain bio au levain maison. Vu que les ravitaillements ici, c'est tous les mois, ben le pain, on arrive difficilement à le garder pendant un mois, donc à l'héliportage, on monte du pain et après, on le fait ici. Quand il y a du monde, c'est tous les jours. Sinon, avec moins de monde, tous les 2 jours. Avant tout, il faut aimer la montagne. Sinon, passer 5 mois ici dans l'année, on ne tient pas longtemps. (Dokumentation)

Die restlichen 25 % des sprechsprachlich-informellen Teils umfassen verschiedene frei verfügbare sprechsprachliche Korpora (TALN, CoLaJE und Teile des ESLO 1 und 2, die Daten von den späten 1960er Jahren bis heute umfassen). Zudem wurde ein Korpus von Geschäftsverhandlungen und -telefongesprächen aufgenommen, das freundlicherweise von Gérard Mercelot (Fachhochschule Emden / Leer) zur Verfügung gestellt wurde.

Der sprechsprachlich-formelle Teil besteht aus politischen und anderen Reden, Transkriptionen universitärer Vorlesungen (von denen eine freundlicherweise von Karl-Heinz Eggensperger, Universität Potsdam, zur Verfügung gestellt wurde) sowie aus Debatten der französischen Nationalversammlung und des Senats.

Das Korpus soll nach aktuellem Planungsstand nach einer Karenzzeit von drei Jahren im Jahr 2018 auf der Primestat-Plattform von Sascha Diwersy (Universität Montpellier) für die Öffentlichkeit freigegeben werden. Zurzeit ist das Korpus auf der Plattform Sketchengine (privates Konto) installiert (für weitergehende Ausführungen vgl. Siepmann, Bürgel & Diwersy 2015).

2 Anwendungen und erste Ergebnisse

Im Folgenden soll anhand einiger Beispiele veranschaulicht werden, dass und wie das CRFC zur Erforschung der französischen Gegenwartssprache und zur Weiterentwicklung der Sprachdidaktik beitragen kann.

2.1 Didaktische Grammatik

Während sich im angelsächsischen Raum das Konzept einer korpusbasierten lexikogrammatischen Lernergrammatik bereits seit geraumer Zeit bewährt hat, liegen für das Französische bisher keine einschlägigen didaktischen Grammatiken vor. Dieser Umstand ist vor allem auf das Fehlen von größeren elektronischen Korpora des Französischen sowie den besonderen Stellenwert der theoretischen Grammatik in Frankreich zurückzuführen. Mit dem Entstehen des CRFC verbindet sich daher die Chance, eine wissenschaftliche korpusinduzierte Referenzgrammatik des Französischen sowie didaktische Grammatiken für Französischlerner zu entwickeln. Die bisher ermittelten korpusinduzierten Ergebnisse zur Lexiko-Grammatik des Französischen sollen im Folgenden am Beispiel der Verwendung des Subjonctif und des Präpositionengebrauchs zusammenfassend vorgestellt werden.

2.1.1 Präpositionengebrauch

Die unvoreingenommene Untersuchung des Präpositionengebrauchs auf der Grundlage eines korpusinduzierten Ansatzes hebt zahlreiche alltägliche Verwendungsweisen von Präpositionen ins Bewusstsein des Sprachforschers, die trotz oder gerade wegen ihrer Banalität für den Muttersprachler in gebräuchlichen Grammatiken und teilweise sogar in sprachwissenschaftlichen Untersuchungen keine Berücksichtigung finden. Exemplarisch sollen hier der Gebrauch der lokalen Präpositionen à, dans und en vor Nomina, die Geschäfte oder Unternehmen bezeichnen, sowie verschiedene Kategorien von Nomina, die mit der Präposition dans stehen, diskutiert werden (Siepmann & Bürgel, 2016).

In ersterem Fall fällt auf, dass bisherige Schul- oder universitäre Grammatiken den Gebrauch von en übersehen. Hier gilt, dass à sich auch auf konkrete Orte als Arbeitsplatz oder Verkaufsgeschäft bezieht und bei Erweiterung der Nominalphrase mit dans alterniert. En steht dagegen bei einer abstrakten Sichtweise und impliziert häufig einen Vergleich mit anderen Alternativen (vgl. en bibliothèque vs. sur Internet, la muscu en salle vs. la muscu en chambre):

J’en achète à la boulangerie / à ma boulangerie / à la boulangerie du coin. (seltener : J’en achète dans ma boulangerie / dans la boulangerie du coin.)

… j'ai fait manger les enfants ; après j'ai été au magasin avec ma fille jusqu'à une heure et demie. … (= in unserem Ladengeschäft)

Quand je pense qu’ils en vendent au magasin bio. (= in dem Bioladen, in dem ich einkaufe)

On le trouve en pharmacie et dans les boutiques spécialisées. (= dans les pharmacies)

Je voulais l'acheter ce matin, en librairie, et il n'y en avait plus. (= dans une librairie et non pas dans un supermarché)

J’ai travaillé en salon sur Paris.

Hier hat sich also eine Dreigliederung des Spektrums etabliert, die in bisherigen Standardgrammatiken keine Berücksichtigung findet:

Konkreter / Situativ Abstrakter / Kategorisierend
Pendant que certains étaient dans la rue quand j'étais plus jeune, moi j'étais dans la salle de sport.	Je me tuais d’abdos à la salle de sport.	Tu déconseilles la muscu en salle ? (≠ la muscu en chambre)

Tab. 2: Dreigliederung des Präpositionalspektrums

Ebenso wenig Aufmerksamkeit erfährt die Opposition von sur und à mit Ortsnamen, die jedem Lerner jedoch bei Kontakten mit Muttersprachlern sofort auffallen wird:

C'est toi qui m'avait [sic !] parlé du cirque du soleil ? Car ils jouent sur Paris en ce moment et je me tâte pour aller les voir. (SMS)

On a eu une histoire en venant sur Paris, hier. On arrive sur la capitale …

J'ai eu une réunion sur Paris, près de la gare de Lyon.

- Vos enfants vous aident ? - Ils ne sont pas sur Boulogne, non.

Diese Verwendungsweise, die bisher der spontanen Sprechsprache vorbehalten ist, hat ihren Ursprung vermutlich in Militärmetaphern oder der Wirtschaftssprache (vgl. marcher sur Rome – nous distribuons nos produits sur Paris) (Hernandez 2008). Der Gebrauch von sur hebt dabei die Impermanenz des Zustandes hervor, vergleichbar mit dem Effekt des Verlaufsaspektes im Englischen (je suis sur Boulogne – I’m living / working in Boulogne vs. je vis à Boulogne – I live in Boulogne).

Mit unserem zweiten Beispiel, den nicht-lokalen und nicht-temporalen Verwendungsweisen von dans, stoßen wir gleichsam in grammatisches Neuland vor, das in den bekannten Grammatiken, von vereinzelten Bemerkungen abgesehen, brach gelassen wurde. Hier sollen nur drei zentrale Bedeutungsgruppen angesprochen werden.

2.1.1.1 dans + institution / secteur / métier

police, poste, télécoms, immobilier, industrie, banque, restauration, médias, sciences, littérature, art, éducation, sport, football, production, commerce, bâtiment, économie, marché, armée, fonction publique, (les) services, etc.

In diesem Fall erweist sich aus der Lernerperspektive die innersprachliche Systematik als hilfreich, da sich im Sprachvergleich durchaus sehr verschiedene Äquivalenzen ergeben:

Il y a des pourris dans la police comme partout ailleurs. (= bei der Polizei)

[…] avancer dans la compréhension des mutations en cours dans le marché de l'emploi. (= auf dem Arbeitsmarkt)

Vous avez toujours été photographe ? – Non, j'étais éducatrice spécialisée pendant douze ans. – Et alors, comment on bascule dans la photo ? (= wie kommt man dann zur Photographie ?)

Hier ergeben sich natürlich wiederum vielfältige innersprachliche Kontraste, die hier nicht erschöpfend behandelt werden können (z. B. chez la police [auf dem Polizeirevier „zu Besuch“ vs. dans la police, sur le marché vs. dans le marché usw.).

2.1.1.2 dans + processus

vie, quotidien, carrière, lutte, processus, pratique, développement, gestion, guerre, campagne, course, traitement, formation, choix, évolution, analyse, création, conception, calcul, élaboration, fonctionnement, prise de conscience, prise en charge, prise de décision, connaissance, répartition, détermination, etc.

Hier zeigt sich der häufig beschriebene hohe Abstraktionsgrad und die Vorliebe des Französischen für substantivische Ausdrucksweisen besonders deutlich. Wieder gilt, dass nur das Verständnis der innersprachlichen Systematik zum richtigen Gebrauch führen kann, zumal die hier aufgeführten Prozessnomina sich in verschiedene Unterkategorien aufteilen lassen, z. B. nach der Salienz zeitlicher Bedeutungskomponenten (z. B. vie, carrière, campagne vs. choix, connaissance).

Les progrès qui ont été réalisés dans la connaissance du cerveau … (= im / beim Verständnis)

On ne peut s'élever dans la connaissance qu'en développant l'attention contrôlée.(= an Erkenntnis gewinnen)

[…] de toute façon, les études ne jouent pas à 100% dans la carrière, bien heureusement! (= für die berufliche Laufbahn)

Il met fin à la république de Venise en 1797, lors de sa victoire dans la campagne d'Italie. (= im Italienfeldzug)

Brown et al. (1982) ont identifié trois facteurs qui jouent dans le choix d’une stratégie par un apprenant. (= bei der Auswahl)

Seuls les pays disposant d'un marché intérieur dynamique […] peuvent aspirer à se trouver du côté des gagnants dans la course à la mondialisation. (= im Wettlauf)

2.1.1.3 dans + groupe

groupe, foule, société, population, syndicat, entreprise, équipe, mouvement, communauté, couple, cercle, giron, rang(s)

Wie anhand von Beispielen wie manif(estation) oder rassemblement deutlich wird, lassen sich viele Nomina, die nicht zum Kern dieser Bedeutungsgruppe gehören, ebenfalls mit dans gebrauchen, wenn ein entsprechender Kontext vorliegt (Phänomen der Kontextvarianz). Für den Lerner wird ein solcher Gebrauch verständlicher und handhabbarer, wenn er ihn vor dem Hintergrund einer Standardkategorie sehen kann:

Dans la manif, il y avait pas mal de militants écologistes.

Ähnlich lässt sich der Gebrauch von dans ses amis / ses clients auf die hier untersuchte Standardkategorie zurückführen:

Perso, j'ai mon homme sur Facebook, on est démonstratif, mais je ne fais pas attention à qui il a dans ses amis, à qui il parle, et je ne regarde pas ce qu'il y fait.

Il s'agit pour la plupart de personnes âgées isolées et peu mobiles, mais j'ai aussi dans mes clients des personnes qui n'ont pas le temps de se faire à manger.

Weitere wichtige Bedeutungskategorien, die mit dans stehen, sind Personen- / Autornamen; Nomina, die einen Kontext bezeichnen; Relationsnomina; Zustandsnomina; Nomina, die eine Konformität zum Ausdruck bringen; Nomina, die Systeme bezeichnen; Nomina, die Stoffe bezeichnen; Nomina, die Stile bezeichnen; deskriptive Nomina, die Geräusche bezeichnen; usw. Dabei kontrastiert der Präpositionsgebrauch, wie oben bereits gesehen, häufig mit dem Deutschen und ist dem Fremdsprachenlerner nur über eine systematische Erfassung lexiko-grammatischer Klassen innersprachlich begreiflich zu machen. Dazu noch einige Beispiele:

Dans le silence du législateur, la notion reste difficile à cerner.

Dans son ensemble, l'activité radiologique française reste dans la moyenne des pays industrialisés.

Elle se jeta sur mon père dans un long hurlement, tandis que M. Campbell me sortit de la grange.

Tu es dans la confusion la plus parfaite, tu parles de relation !!!

2.1.2 Subjonctif

Zentrales Ergebnis unserer Untersuchungen zum Subjonctif-Gebrauch ist die Notwendigkeit einer Differenzierung der in den traditionellen Grammatiken vorherrschenden Darstellung dieses Gebiets (Siepmann & Bürgel 2015).

2.1.2.1 Subjonctif-Auslöser

Kennzeichnend für die aktuellen Schul- und Universitätsgrammatiken ist, dass sie die Subjonctif-Auslöser nach semantischen Kategorien gliedern (Wille, Gefühl, Wahrscheinlichkeit usw.) und sich dabei in der Regel auf Verben und Adjektive beschränken, die in teilweise überlangen Listen aufgeführt werden. Diese Darstellung des Subjonctif birgt mindestens zwei gravierende Probleme in sich:

Erstens erwecken die Listen den falschen Eindruck, dass die in Rede stehenden lexikalischen Elemente mit gleicher Häufigkeit im mündlichen und schriftlichen Sprachgebrauch vorkommen. So haben unsere Untersuchungen zu Verben in der Sprechsprache gezeigt, dass falloir que gefolgt von vouloir que der häufigste Subjonctif-Auslöser ist, während détester que, approuver que, désirer que, s'opposer à ce que mit erheblich geringerer Frequenz vorkommen und die Verben consentir à ce que, défendre que, désapprouver que et tolérer que im mündlichen Korpusteil nicht oder in kaum nennenswertem Umfang auftreten. Weiterhin ist zu berücksichtigen, dass der Subjonctif teilweise mit nur einer bestimmten Form oder zumindest wenigen Formen eines Verbs auftritt, wie z. B. im Fall von comprendre que oder aimer que, bei denen der Subjonctif vorzugsweise mit der ersten Person Singular einhergeht: je comprends que / j'aimerais que, mit entsprechenden Implikationen für die Übungspraxis.

Zweitens werden Nomina und komplexe Konstruktionen, die den Subjonctif nach sich ziehen, außer Acht gelassen:

Nomina: c’est une coïncidence que / il y a le risque que / l'idéal serait que

Konstruktionen: je n'en (j'en) reviens pas que / il manquerait plus que / ça te dérange que / je n'en ai rien à faire que

2.1.2.2 Subjonctif in der gesprochenen Sprache

Aus unseren Untersuchungen zur Frequenz des Subjonctif in der gesprochenen Sprache geht hervor, dass dieser keinesfalls 'tot' ist. So tritt er in der Sprechsprache mit einer durchschnittlichen Frequenz von 2000 Vorkommen auf 1 Million Wörter auf. Umgerechnet bedeutet dies, dass der Subjonctif in der Sprechsprache ca. alle 8 Minuten verwendet wird. Die zehn häufigsten Subjonctif-Auslöser der informellen Sprechsprache sind: falloir, vouloir, pour que, le fait que, faire (en sorte) que, s'attendre à ce que / attendre que, pas sûr que, quoi que, avant que, comprendre que. Betrachtet man die Verteilung der verschiedenen Subjonctif-Verwendungen nach Typen lexikalischer Auslöser, so überrascht, dass mehr als ein Drittel der Kategorie 'Meinung' und 'Notwendigkeit' angehört und nur ein geringer Prozentsatz dem Bereich des Gefühls entstammt, dem jedoch die Schulgrammatiken häufig breiten Raum widmen. Ein weiteres Manko didaktischer Grammatiken besteht darin, dass diese den seltenen Subjonctif-Verwendungen zu viel Aufmerksamkeit schenken, spezifisch sprechsprachlichen Subjonctif-Gebräuchen dagegen zu wenig. Dazu gehören z. B.: c‘est + ADJ (anstelle von il est); je m‘en fous; sympa; marrant; bien; pas mal; ça me fait chier; ça + me + étonner / inquiéter / faire plaisir / …; je trouve ça ADJ; il y a des chances / peu de chances / …; fais / faites gaffe / attention; pour pas / plus que (= pour que … ne … pas / plus).

Dass auch das in Deutschland am weitesten verbreitete Lehrwerk des Französischen (Découvertes) die häufigsten Verwendungen des Subjonctif in der gesprochenen Sprache nicht angemessen darstellt, hat ein Abgleich der 20 frequentesten Subjonctif-Auslöser gezeigt, von denen nur sechs berücksichtigt werden. Zudem werden weite Bereiche der Verwendung des Subjonctif im Mündlichen nicht berücksichtigt: Konjunktionen (pour que, avant que, sans que), der Ausdruck der Möglichkeit (possible), des Zweifels (pas sûr), der Gebrauch von Nomina (fait) und Relativa (seul).

Diese Ergebnisse machen deutlich, dass eine adäquatere Darstellung des Subjonctif in Schul- und Universitätsgrammatiken folgenden Kriterien genügen sollte:

frequenzbasierte Darstellung (Ordnung der Verben und Verbformen, Adjektive, Nomina und Konstruktionen nach ihrer Vorkommenshäufigkeit)

genrespezifische Darstellung (spezifisch sprech- und schriftsprachliche Verwendungen)
Berücksichtigung von Nomina und vor allem von typischen Konstruktionen (die den Lernern zum einen idiomatische Minikontexte darbieten und zum anderen das Lernen überlanger Listen vermeiden)

Eine solche Darstellung erlaubt es den Lernern, den Subjonctif gemäß seiner Relevanz in der mündlichen oder schriftlichen Kommunikation zu lernen.

2.2 Lexikologie und Lernerlexikographie

Die Lexikographie und dabei insbesondere die französische Lexikographie berufen sich traditionell auf den bon usage, wie er in sorgfältig verfassten, redaktionell bearbeiteten und der Öffentlichkeit zugänglichen Texten auftritt. Unsere Arbeit mit dem CRFC zeigt jedoch, dass der alltägliche Sprachgebrauch sich auch lexikalisch erheblich von der schriftsprachlichen Verwendung unterscheidet und in Wörterbüchern dementsprechend unzureichend dokumentiert ist. Gerade dieser alltägliche Sprachgebrauch ist jedoch für Sprachenlerner von primärer Bedeutung.

2.2.1 Sprechsprachliche Lexik

In einer einschlägigen Studie auf Grundlage des CRFC zeigte sich insbesondere, dass in gängigen ein- und zweisprachigen Großwörterbüchern praktisch keine Informationen zum Kollokationsradius umgangssprachlicher Lexik geliefert werden. Dabei entnehmen die zweisprachigen Wörterbücher im Allgemeinen die wenigen vorhandenen kollokationellen Informationen dem Petit Robert oder dem TLF. Ein Beispiel liefert das Substantiv mec, dessen verbale Kollokate in praktisch keinem Wörterbuch Erwähnung finden; darüber hinaus sind positive adjektivische Kollokate von mec unterrepräsentiert, die im modernen Sprachgebrauch jedoch dominieren. Ein kollokationell angemessener Artikel für mec könnte dagegen folgendermaßen aussehen:

I. (= homme, par opposition à femme) Ça, c’est les mecs. Tous pareils. ; Les mecs aiment le foot. ; Je me sens un peu seul, le seul mec !

II. (= individu masculin quelconque): Le mec parle super bien l’anglais. ; T’as vu les trois mecs là-bas ? ; Salut, les mecs. ; Mec, t’as pas une clope ? Collocations + ADJ: beau mec, jeune mec, mec bien / cool / formidable / génial / super / sympa ; pauvre mec, petit mec ; mec louche ; mec bourré + DET: ce mec, le mec en question

III. (= petit ami, compagnon, y compris dans les couples gay) Je suis amoureuse de ce mec. … la liste de tous les mecs avec qui elle est sortie … Les filles quittent un mec pour un autre. Collocations + ADJ un autre mec (= un rival), le premier mec, nouveau mec, mec parfait ; mec chiant, mec jaloux + V : trouver / rencontrer / avoir / sortir avec / coucher avec / se taper / rester avec / draguer un mec + DET : mon / ton / son mec

IV. (= homme viril, partenaire sexuel) Les seuls mecs qui m’ont plu sont des mecs beaucoup plus mecs que moi. Collocations + ADJ beau mec, vrai mec, mec mignon, *mec bien membré, mec viril, mec musclé, mec mature + V: **sucer un mec, **chevaucher un mec

Die mangelhafte Erfassung umgangssprachlicher Kollokationen hat fast automatisch zur Folge, dass verschiedene Lesarten nicht klar genug differenziert werden. Dies lässt sich z. B. an den meisten Wörterbuchartikeln für das höchst polyseme Verb lâcher und die komplexe Präposition autour de nachweisen. Generell lässt sich sagen, dass komplexe Mehrwortitems in ihrer diskursiven Funktion stiefmütterlich behandelt werden (vgl. dazu auch den folgenden Abschnitt); besonders schwer wiegt, dass keinerlei Angaben zur typischen dialogischen Einbettung von Items wie n’importe quoi (z. B. - N’importe quoi. – Ah si!) gemacht werden.

Wörterbuchbeispielen zur gesprochenen Sprache haftet häufig ein Hauch des Künstlichen an, wenn sie aus der Introspektion des Redakteurs statt aus natürlichsprachlichen Kontexten gewonnen wurden. So etwa folgendes Beispiel aus dem Lernerwörterbuch Dictionnaire du français:

Il est dans un état de surexcitation, il va péter les plombs ! (DDF, s.v. péter)

Hier besteht ein deutlicher Widerspruch zwischen dem umgangssprachlichen péter les plombs und dem fast fachsprachlichen dans un état de surexcitation. Im CRFC lassen sich dagegen relativ leicht natürliche Beispiele wie das folgende finden:

En fait, on peut dire que j'ai pété les plombs mais je n'ai pas insulté l'arbitre, loin de là.

An diesen wenigen Beispielen lässt sich erkennen, dass ein mittelgroßes Korpus wie das CRFC Auskunft geben kann über alltägliche lexikalische Kookkurrenzen, die selbst in riesigen schriftsprachlichen Korpora in dieser Form nicht ermittelbar sind. Man ist geneigt, von einer zweiten Korpusrevolution zu sprechen, die Sinclairs berühmtes Diktum „the language looks rather different if you look at a lot of it at once“ auf die Sprechsprache anwenden wird.

2.2.2 Phraseme

Die Phraseologieforschung hat in jüngerer Zeit zahlreiche Belege dafür geliefert, dass phraseologische Einheiten für die Funktionsweise von Sprache zentral sind. Es muss deshalb überraschen, dass diese Erkenntnis in der Sprachdidaktik des Französischen bisher keine Berücksichtigung gefunden hat. Dieses Defizit war Anlass für eine Frequenzstudie zu häufigen Phrasemen des Gegenwartsfranzösischen, die sich methodisch an die Pionierarbeiten von Martinez / Schmitt (2012) für das Englische anlehnt (Siepmann & Bürgel, erscheint). Auf der Grundlage des CRFC wurden drei Frequenzlisten erstellt:

Listentyp	Korpusteile	Anzahl der Phraseme
Gesamtliste	Gesamtes Korpus	1000
Liste des Mündlichen	Sprechsprachliche und pseudosprechsprachliche Korpusteile	500
Liste des Schriftlichen	Schriftliche Korpusteile	500

Tab. 3: Phraseme – Frequenzlisten

Diese Listen sollen die Grundlage für eine systematische Behandlung von Phrasemen legen und Lehrkräften die Möglichkeit bieten, Phraseme gemäß ihrer Häufigkeit in der gesprochenen oder geschriebenen Sprache auszuwählen und zu vermitteln. Dazu wurden im Rahmen des forschenden Lernens in der Fremdsprachenlehrerausbildung verschiedene Studien von Studierenden durchgeführt, die von den Autoren des vorliegenden Artikels initiiert und betreut wurden.

2.2.2.1 Kategorisierung von Phrasemen nach kommunikativer Funktion

Um die Phraseme für das Fremdsprachenlernen zu strukturieren und sie Lernern zugänglich zu machen, wurden die von Burger (1998) vorgeschlagenen Kategorien aufgegriffen und wie folgt ausdifferenziert:

Referentielle Phraseme beziehen sich auf außersprachliche Gegenstände und Sachverhalte (Vorgänge, Zustände, Verhaltensweisen) und sind selbstbedeutend (Autosemantika).
Strukturelle Phraseme setzen die sprachlichen Elemente zueinander in Verbindung, stellen Relationen her und drücken Zusammenhänge aus (Adverbien, Konjunktionen).
Kommunikative Phraseme dienen dem Herstellen, Definieren, Vollziehen und Beenden einer kommunikativen Handlung (Routineformeln, Diskursmarker).

Eine Untersuchung der 1000 häufigsten Phraseme hat folgende Verteilung nach Kategorien gezeigt (Haarmann 2015):

Abb: 1: Verteilung der Phraseme nach Kategorien

Da zwei Drittel der Phraseme struktureller Natur sind, sollte dem Erlernen dieser Kategorie im Anfangsunterricht das größte Gewicht zukommen. Dass eine Reihe von Phrasemen polyfunktional ist (3 %), d.h. mehreren Kategorien angehören kann, zeigt das Beispiel bien sûr. So dient es zum einen als Diskursmarker in kommunikativer Funktion dazu, eine vom Gesprächspartner vorgebrachte Äußerung zu bestätigen oder ihr zuzustimmen: A: [...] est-ce qu'on pourrait vous poser des questions? B: Bien sûr, avec plaisir! (informelle Sprechsprache). Zum anderen übernimmt es als Adverb in struktureller Funktion die Aufgabe der Evidentialisierung eines Sachverhalts und der argumentativen 'Mitnahme' des Rezipienten, indem der Sprecher unterstellt, dass der Hörer oder Leser den Sachverhalt für evident hält (Bürgel 2008, 169): La voix seule est bien sûr parfois irremplaçable entre amoureux ou lorsque l'urgence l'exige (Korpusteil „Verschiedenes“).

2.2.2.2 Phraseme in Lehrwerken

Mithilfe der Frequenzlisten kann zudem die Frage beantwortet werden, ob schulische Lehrwerke die sprachliche Wirklichkeit angemessen abbilden. Dazu wurden die neuen Ausgaben der deutschen Französischlehrwerke Découvertes (Série jaune, Klett) und À Plus! (Cornelsen) jeweils Band 1-4 untersucht und folgende Ergebnisse ermittelt (Haarmann 2015): Von den 100 frequentesten Phrasemen des Französischen werden in Découvertes nur 29 und in À Plus! 32 Phraseme berücksichtigt. Aus der Gesamtliste der 1000 häufigsten Phraseme kommen in Découvertes 69 und in À Plus! 79 Phraseme vor. Von den 30 frequentesten Phrasemen fehlen in beiden Lehrwerken: en effet, nombre de, (à) plus tard, de même, sans doute, moins de, face à, lors de, au sein de. Eine Zusammenschau des Verhältnisses von Listenphrasemen zum Gesamtwortschatz der Lehrwerke macht deutlich, dass Phraseme völlig unzureichend berücksichtigt werden und die Lehrwerke damit weit davon entfernt sind, der sprachlichen Wirklichkeit gerecht zu werden:

Abb: 2: Phraseme in Lehrwerken

2.2.2.3 Phraseme in Wörterlisten und Wörterbüchern

In der Fremdsprachendidaktik ist schon vor geraumer Zeit die Relevanz von frequenzbasierten Wortlisten für das Fremdsprachenlehren und -lernen erkannt worden. Eines der prominentesten Beispiele ist das français fondamental (Ministère de l’Éducation nationale 1954, Gougenheim et al. 1964), das auf der Grundlage mündlicher Daten die am häufigsten verwendeten und somit für den Fremdsprachenlerner nützlichsten Wörter des Französischen ermittelte. Das Bestreben, den für die Lerner relevanten Wortschatz zusammenzustellen, liegt auch dem Gemeinsamen europäischen Referenzrahmen und vor allem den référentiels zugrunde, die den Wortschatz auflisten, dessen Beherrschung den verschiedenen Niveaustufen des GeR entspricht (z. B. Beacco et al. 2004). Eine Untersuchung der von Beacco u.a. (2004) erstellten Wortschatzliste für das Niveau B2 hat gezeigt, dass neben Einzelwörtern immerhin 2500 Mehrworteinheiten berücksichtigt werden, von denen ca. 850 Phraseme, der größere Teil jedoch Komposita sind (Clüver 2015: 28). Problematisch ist jedoch, dass die Phraseme nach der Intuition von Didaktikern und Lehrwerkautoren zusammengestellt worden sind, wie die Autoren des référentiel selber einräumen (Beacco et al. 2004: 11-12). Dass die Intuition häufig trügerisch ist und zu Fehleinschätzungen führt, zeigt sich daran, dass nur 23 % der 500 häufigsten sprechsprachlichen Phraseme (CRFC) durch den référentiel berücksichtigt worden sind. Als ein kleines Beispiel mögen die Phraseme dienen, die Beacco u.a. (2004: 84) in der Kategorie « exprimer la tristesse, l’abattement de manière informelle » zusammengestellt haben: J'ai le moral à zéro, J'ai le cafard, Je suis au bout du rouleau, J'en ai marre, J'en ai ras le bol. Ein Vergleich mit dem CRFC zeigt, dass J'ai le moral à zéro mit 0,2 Vorkommen pro eine Million Wörter vergleichsweise wenig frequent ist und deshalb durch je n'ai / j'ai pas (trop) le moral (1,1 pro Million) ersetzt werden sollte. Ebenfalls wenig gebräuchlich ist j'ai le cafard, während sich für ça me fout, ça me donne le cafard zahlreiche Belege finden. Darüber hinaus sollten in Wortlisten nicht nur gängige Ausdrücke, sondern auch deren Valenzmuster berücksichtigt werden. So ist zwar lobenswert, dass der référentiel den Ausdruck j’en ai marre (Beacco et al. 2004: 84) aufnimmt, jedoch fehlen folgende Angaben zu Satzbauplänen: [en] avoir marre de qqc / de faire qqc / que + Subj. (j'en ai marre de cette télé qui te bouffe la tête / de vivre au Soudan / qu'on me prenne pour un fanatique). Doch nicht nur Lehr- und Lernmaterialien weisen bei der Berücksichtigung von Phrasemen erstaunliche Defizite auf. Ein Vergleich der Frequenzlisten mit einschlägigen Wörterbüchern des Französischen wie dem Trésor de la Langue française und dem Petit Robert zeigt, dass eine Reihe von gängigen Phrasemen aufgrund noch laufender Grammatikalisierungs- bzw. Lexikalisierungsprozesse lexikographisch bislang nicht erfasst sind, z. B. sachant que, dans ma / sa tête, plus encore.

2.2.2.4 Phraseme vs. 'multifunktionale Einheiten'

Eine genauere Analyse ausgewählter Phraseme hat gezeigt, dass zwei Kategorien von Mehrworteinheiten zu unterscheiden sind: a) Phraseme im eigentlichen Sinne (plus encore, tout au plus, pour le coup, après que, au moins) und b) multifunktionale Einheiten, die in komplexeren Kollokationssequenzen oder in diskontinuierlichen kollokativen Sequenzen auftreten (« collocational frameworks », Renouf et Sinclair 1991): sur le dos, ‘V / N + en commun’, ‘avoir pour + GN + de’, dans + pronom possessif + tête. So tritt beispielsweise das schriftsprachlich häufigste Phrasem de plus in längeren Phrasemkompositionen wie de plus en plus, une fois de plus, rien de plus simple auf, wodurch sich u.a. dessen hohe Frequenz erklärt. Ein weiteres Beispiel für eine multifunktionale Einheit ist dans ma tête, das je nach lexiko-syntaktischer Umgebung über zwei Grundbedeutungen verfügt:

mentaler Zustand: Adjectif / verbe / nom [état cognitif positif / négatif] + dans ma tête: clair/tranquille / chambouler / paniquer / le bordel/le brouillon + dans ma tête.
Vorstellung: Nom + verbe de [mouvement] + dans ma tête: idée / pensée/image + tourner / circuler / défiler / trotter + dans ma tête.
Neben diesen lexiko-syntaktischen Konstruktionen gibt es feste Ausdrücke mit dans ma tête, die sich auf das intellektuelle Verstehen beziehen: faire tilt / déclic / clash dans la tête de qn (Je ne sais pas, quelque chose a fait tilt dans ma tête (Theaterstücke).

Die hier vorgestellten Untersuchungen zu Phrasemen sollen exemplarisch veranschaulichen, dass das CRFC die Weiterentwicklung der Wortschatzdidaktik in mehrerlei Hinsicht fördern kann; dies betrifft:

Die Erstellung von themen- und genrespezifischen Phrasemlisten;
Die Ermittlung prototypischer lexiko-syntaktischer und pragmatischer Umgebungen, in denen die multifunktionalen Einheiten auftreten;
Die Kontextualisierung und Illustration von Phrasemen durch authentische Beispiele aus dem Korpus;
Die Auffüllung von phraseologischen Lücken in Wörterbüchern und die lexiko-syntaktische Ausdifferenzierung der Darstellung bereits berücksichtigter Phraseme.

3 Schlussbemerkung

Die Darstellung der bisherigen Forschungsergebnisse sollte deutlich gemacht haben, dass ein ausgewogenes Referenzkorpus wie das CRFC eine solide Grundlage für die Erforschung des Gegenwartsfranzösischen bietet. Mithilfe des Korpus besteht die Möglichkeit neue Forschungsgebiete zu erschließen und offene Forschungsfragen zu bearbeiten, deren Beantwortung bisher nicht möglich war. So können im Bereich der Lexikologie und (Lerner-)Lexikographie z. B. spezifische Phänomene des gesprochenen Französisch systematisch beschrieben und analysiert, Wörterbücher ergänzt und ausdifferenziert sowie frequenzbasierte Lernwortschätze entwickelt werden.

Auf dem Gebiet der (Lerner-)Grammatik können mithilfe des korpuslinguistischen Zugriffs auf die tatsächliche Sprachverwendung zahlreiche neue Erkenntnisse gewonnen werden, die der reinen Intuition von Grammatikern oder Lehrwerkautoren nicht zugänglich sind. Dabei ist es insbesondere die lexikogrammatische Methodik, die eine andere Sicht auf grammatische Phänomene eröffnet und zugleich die Konzeption gänzlich neuer Typen von (Lerner) Grammatiken sinnvoll und notwendig erscheinen lässt. So sind die hier exemplarisch präsentierten Ergebnisse Bestandteil der in der Entwicklung befindlichen mehrbändigen wissenschaftlichen Grammaire du français parlé et écrit, auf der wiederum zwei Lernergrammatiken (Revisions- und Studiengrammatik) fußen sollen. Auf diese Weise soll sowohl in wissenschaftlicher Hinsicht als auch für didaktische Zwecke ein umfassendes und zuverlässiges Bild des Gegenwartsfranzösischen entstehen.

Bibliographie

Beacco, Jean-Claude, Simon Bouquet & Rémy Porquier (2004). Niveau B2 pour le Français (utilisateur, apprenant indépendant) – un référentiel. Paris: Didier.

Bürgel, Christoph (2006). Verallgemeinerungen in Sprache und Texten. Generalisierung, Globalisierung, Konzeptualisierung im Französischen. Frankfurt / M. [u.a].: Lang.

Burger, Harald (1998). Phraseologie: eine Einführung am Beispiel des Deutschen. Berlin: Schmidt.

Clüver, Tomma (2015). Phraseme im Gemeinsamen europäischen Referenzrahmen auf dem Prüfstand. Bachelorarbeit Universität Osnabrück: unveröffentlicht.

Corbin, Pierre (2005). Des occurrences discursives aux contextualisations dictionnairiques. Eléments d'une recherche en cours sur l'expression en français d’expériences du football. In: Heinz, Michaela (Hrsg.) (2005). L’exemple lexicographique dans les dictionnaires français contemporains. Tübingen: Niemeyer, 343-356.

Debaisieux, Jeanne-Marie (2010). Corpus Oraux – Problèmes méthodologiques de recueil et d’analyse de données. Nancy: Presses Universitaires de Nancy.

Deulofeu, Henri-José & Jeanne-Marie Debaisieux (2012). Une tâche à accomplir pour la linguistique française du XXIe siècle élaborer une grammaire des usages du français. In: Langue française 176 (2012) 4, 27-46.

Haarmann, Sophia Marie (2015). Zur Repräsentation von Phrasemen in deutschen Lehrwerken des Französischen. Bachelorarbeit Universität Osnabrück: unveröffentlicht.

Hernandez, Patricia (2008). La décoloration de la préposition sur: Une explication en termes d’intégration conceptuelle. In: Linguistique, Formes symboliques, n°2008. (http://formes-symboliques.org/spip.php?article261; letzter Zugriff am 13.10.2016)

Gadet, Françoise et al. (2012). CIEL_F: choix épistémologiques et réalisations empiriques d’un grand corpus de français parlé. In: Revue Française de Linguistique Appliquée, 17 (2012) 1, 39-54.

Gougenheim, Georges, René Michéa, Paul Rivenc & Aurélien Sauvageot (1956). L’Elaboration du Français élementaire. Paris: Didier.

Kennedy, Graeme (1998). An Introduction to Corpus Linguistics. Harlow: Longman.

Levshina, Natalia. (à paraître) Subtitles as a Corpus: An n-gram approach. À paraître dans Corpora. (http://www.natalialevshina.com/articles/LevshinaSubtitlesAsCorpus .pdf.; letzter Zugriff am 13.10.2016)

Martinez, Ron & Norbert Schmitt (2012). A Phrasal Expression List. In: Applied Linguistics 33 (2012) 3, Oxford University Press, 299-320.

Meißner, Franz-Joseph (2006). Linguistische und didaktische Überlegungen zur Entwicklung von Kompetenzaufgaben im Lernbereich Mündlichkeit (Schwerpunkt Hörverstehen). In: französisch heute 37 (2006) 3, 240-282.

Quaglio, Paulo (2009). Television dialogue: the sitcom Friends vs. natural conversation. Amsterdam: Benjamins.

Renouf, Antoinette & John McHardy Sinclair (1991). Collocational Frameworks in English. In: Ajimer, Karin & Bengt Altenberg (Hrsg.) (2014). English Corpus Linguistics. Cambridge: Cambridge University Press, 128-143.

Siepmann, Dirk & Christoph Bürgel (2015). L’élaboration d’une grammaire pédagogique à partir de corpus: l’exemple du subjonctif. In: Tinnefeld, Thomas (Hrsg.). Grammatikographie und Didaktische Grammatik – gestern, heute, morgen. Saarbrücker Schriften zur Linguistik und Fremdsprachendidaktik (SSLF). Saarbrücken: htw saar.

Siepmann, Dirk & Christoph Bürgel (erscheint). Les unités phraséologiques fondamentales du français contemporain. In: Kauffer, Maurice & Yves Keromnes (Hrsg.). Approches théoriques et empiriques en phraséologie. Stauffenberg: Tübingen.

Siepmann, Dirk & Christoph Bürgel (2016). Das Corpus de référence du français contemporain und sein Einsatz in der Grammatikographie am Beispiel des Präpositionsgebrauchs. In: Bürgel, Christoph & Dirk Siepmann (Hrsg.). Sprachwissenschaft und Fremdsprachendidaktik: Zum Verhältnis von sprachlichen Mitteln und Kompetenzentwicklung. Baltmannsweiler: Schneider.

Siepmann, Dirk, Christoph Bürgel & Sascha Diwersy (2015). The Corpus de référence du français contemporain (CRFC) as the first genre-diverse mega-corpus of French. In: International Journal of Lexicography,1-22 (doi: 10. 1093/ijl/ecv043).