séquence 209_2

5. Langages et opérations

Langage
- version 1 -

Un langage L sur un alphabet A est un ensemble de chaînes (ou ensemble de mots) sur A. L est donc un sous-ensemble de A*, autrement dit L ⊆ A^*.

Par conséquent, l'ensemble des langages L sur A est l'ensemble P(A^*) des parties de A^*, autrement dit : L ∈ P(A^*).

Par exemple, si l'on considère l'alphabet A = {0, 1} alors L₁ = {0, 00, 1, 01, 11, 10 } est un langage sur A. De même, pour tout entier naturel n, Aⁿ est un langage sur A, où, rappelons le, Aⁿ est l'ensemble des mots de longueur n sur A. Si de plus, pour toute lettre a, aⁿ désigne le mot formé de n symboles a consécutifs, alors L₂ = { 0ⁿ1ⁿ | n ≥ 0}, L₃ = {0ⁿ10^m | n ≥ 0, m ≥ 1}, L₄ = {1ⁿ | n ≥ 2} et L₅ = {0ⁱ | i ≥ 0} = {0}^* sont d'autres exemples de langages sur A.

Parmi tous les langages sur un alphabet A donné, on en distingue quelques uns particuliers, dont par exemple les suivants.

Langage prefixe
ou suffixe

Étant donné un alphabet A, parmi tous les langages L de P(A^*) :

Le langage neutre est celui dont le seul mot est la chaîne vide : L = {ε}.
Le langage vide est celui qui ne contient aucun mot, soit L= ∅.
Un langage fini est un langage qui contient un nombre fini de mots.
Un langage infini est un langage non vide et non fini.
Un langage L est dit posséder la propriété préfixe (resp. suffixe) si aucune chaîne de L n'est préfixe propre (resp. suffixe propre) d'une autre chaîne de L.

Par exemple, L = {aⁱb | i ≥ 0 } = {b, ab, aab, aaab...} est dit préfixe mais n'est pas suffixe. L = {aⁿ | n ∈ N} n'est ni l'un ni l'autre.

Notons par ailleurs que ∅ ≠ {ε}.

Comme les langages sont des ensembles, on peut leur appliquer les opérations ensemblistes classiques : union, intersection, complémentation, etc. De plus, par extension de la concaténation des mots aux langages, on peut définir quelques autres opérateurs.

Union,
Intersection,
Différence,
Complémentaire

Soit A un alphabet. On définit sur les langages de P(A^*) les opérateurs suivants : soient L et M deux langages sur A,

Opérateurs ensemblistes classiques :

union : L ∪ M = {x | x ∈ L ou x ∈ M} ;
intersection : L ∩ M = {x | x ∈ L et x ∈ M};
différence (ou exclusion) : L\M = L-M = {x | x ∈ L et x ∉ M};
complémentaire sur A* : Comp(L)= A*\L = {x | x ∈ A* et x ∉ L};

Opérateurs induits par la concaténation des mots :

produit des langages : LM = L×M = {xy | x ∈ L et y ∈ M};
fermeture de Kleene : L* = ∪_i=0..∞ Lⁱ où L⁰ = {ε} et Lⁿ = LL^n-1 = L^n-1L ;
fermeture positive : L⁺= ∪_i=1..∞ Lⁱ.

Par extension, le produit est parfois appelé "concaténation de deux langages". Cette concaténation est notée × (et le symbole × est souvent omis), mais il s'agit bien de deux concaténations différentes : l'une entre mots et l'autre entre ensembles de mots. Intuitivement, la concaténation de deux langages est l'ensemble des mots obtenus en concaténant un mot du premier langage avec un mot du second. Par exemple, si L₁={a,bc} et L₂={de,f} alors L₁ × L₂={ade, af, bcde, bcf}.

Sur ces opérateurs entre langages, on a, entre autres, les quelques propriétés suivantes :

Le langage vide est absorbant pour la concaténation des langages : ∅L = ∅ = ∅L
<P(A*), ×, {ε}> est un monoïde libre :
- Le langage neutre est élément neutre pour la concaténation des langages : {ε}L = L = L{ε}

La concaténation des langages est associative : (L₁L₂)L₃ = L₁(L₂L₃)

L⁺ = LL* = L*L et L* = {ε} ∪ L⁺
∅* = {ε} et {ε}* = {ε}

Jusqu'ici, un langage sur un alphabet A pouvait être n'importe quelle partie dans P(A*) , ce qui est très vaste. En particulier, au moment de vérifier si un mot appartient à un langage, il est utile d'avoir une caractérisation précise de ce langage, ce qui n'est pas toujours évident si l'on considère une partie infinie quelconque dans P(A*) . On va donc, d'un point de vue pragmatique, s'intéresser à des classes de langages particuliers pour lesquels on a des descriptions finies, utilisables pour décider si oui ou non, un mot est dans un langage. Parmi ces types de langages, on s'intéresse en premier lieu aux langages rationnels.

Exercices et tests :

Exercice 5.1. Montrer que le produit de deux langages préfixes est un langage préfixe.

jeudi, 11/12/03 10:45