Apprendre à lire aux ordinateurs


Si dans un téléphone, on écoute les sons qu’émettent un Minitel, un fax ou un micro-ordinateur pour échanger des données, ils se présentent à nous comme un sifflement suraigu bourré de parasites : le message semble parfaitement inintelligible. A l’inverse, alors que notre propre langage nous paraît simple et clair, la machine, elle, n’y détecte rien de cohérent.

L’utilisation de la parole comme mode de communication entre un homme et une machine a été largement étudiée au cours des dernières années. C’est depuis, en fait, 1945 que les chercheurs commencèrent à s’intéresser à la  » conversation entre un homme et une machine « . Mais comment une machine pourrait-elle se munir d’une  » oreille  » ? Par quel dispositif peut-on réaliser cette communication homme-machine ? Comment la machine traite-elle les informations qu’elle reçoit ? En quoi cela peut-t-il servir ?

Pour répondre à cela, nous allons tout d’abord faire un historique du sujet, faire l’analyse du signal de parole, puis traiter les différentes méthodes employées pour réaliser un système de reconnaissance vocale, et enfin donner quelques applications si petites seront-elles.

HISTOIRE RACONTE

La reconnaissance de la parole est une discipline récente. Vers 1950 apparut le premier système de reconnaissance de chiffres, appareil entièrement câblé et très imparfait. Vers 1960, l’introduction des méthodes numériques et l’utilisation des ordinateurs changent la dimension des recherches. Néanmoins, les résultats demeurent modestes car la difficulté du problème avait été largement sous-estimée, en particulier en ce qui concerne la parole continue. Vers 1970, la nécessité de faire appel à des contraintes linguistiques dans le décodage automatique de la parole avait été jusque-là considérée comme un problème d’ingénierie. La fin de la décennie 70 voit se terminer la première génération des systèmes commercialisés de reconnaissance de mots. Les générations suivantes, mettant à profit les possibilités sans cesse croissantes de la micro-informatique, posséderont des performances supérieures (systèmes multilocuteurs , parole continue).

On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole (cf Techniques de l’ingénieur, vol.H1 940, p.3) :

– 1952 : reconnaissance 10 chiffres, pour un monolocuteur , par un dispositif électronique câblé
– 1960 : utilisation des méthodes numériques
– 1965 : reconnaissance de phonèmes en parole continue
– 1968 : reconnaissance mots isolés par systèmes implantés sur gros ordinateurs (à 500 mots)
– 1969 : utilisation d’informations linguistiques
– 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables
– 1972 : premier appareil commercialisé de reconnaissance de mots
– 1976 : fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et II et HWIM
– 1978 : commercialisation d’un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés
– 1981 : utilisation de circuits intégrés VLSI (Very Large Scale Integration) spécifiques du traitement de la parole
– 1981 : système de reconnaissance de mots sur un circuit VLSI
– 1983 : première mondiale de commande vocale à bord d’un avion de chasse en France
– 1985 : commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots
– 1986 : lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel
– 1988 : apparition des premières machines à dicter par mots isolés
– 1989 : recrudescence des modèles connexionnistes neuromimétiques
– 1990 : premières véritables applications de dialogue oral homme-machine
– 1994 : IBM lance son premier système de reconnaissance vocale sur PC
– 1997 : lancement de la dictée vocale en continu par IBM

1971, année charnière pour la recherche comme le feu dans le silex

La plupart des informations suivantes sont tirées de  » Synthèse, reconnaissance de la parole  » (Marc Ferretti et François Cinare).

En 1951, S.P. Smith présente un détecteur de phonèmes ; une année après, K.H. Davis, R Biddulph et S.Baleshek annoncent la première machine à aborder la reconnaissance de manière globale : les dix chiffres « zero » à « nine » sont reconnus analogiquement avec un bon taux de réussite pour une seule voix. En 1960, P.B. Denes et M.V. Matthews, pour reconnaître les dix premiers chiffres, comparent globalement les représentations temps fréquence, numérisées et normalisées en durée totale : le taux d’erreur est nul pour un seul locuteur et s’élève à 6% pour cinq locuteurs ayant participé à un apprentissage.

H.F. Olson et H.Belar envisagent, en 1961, la reconnaissance d’unités phonétiques autres que les phonèmes : leurs unités sont des « syllabes phonétiques » que le locuteur doit articuler séparément ou, du moins, avec une chute importante du niveau sonore en guise de séparation ; il s’agit donc presque d’une reconnaissance par mots, étant entendu que ces « mots » sont courts et que leur répertoire est limité : 2000 syllabes suffisent à couvrir 98% des besoins de la langue anglaise.

J.Dreyfus-Graf met au point en 1961 son « phonétographe », appareillage analogique composé de vingt filtres passe-bande et de circuits identificateurs de phonèmes. Le phonétographe utilise des « compresseurs sélectifs » qui augmentent l’émergence de certains phonèmes ; obtenu en temps réel, le résultat est spectaculaire ; cependant, l’appareil ne fonctionne qu’avec un seul locuteur qui doit adapter sa diction à la machine : hauteur, intensité, rythme très faibles.

Après avoir constaté que l’identification des phonèmes dans le signal de parole est un problème beaucoup plus compliqué qu’ils ne l’imaginaient, les chercheurs se tournent, entre 1965 et 1970, d’une part vers la reconnaissance par mots isolés en vue d’applications pratiques comme la commande vocale, d’autre part vers l’utilisation d’informations de niveau linguistique supérieur avec lexique et syntaxe , pour compléter le message vocal reconnu au niveau phonétique. Cette seconde approche prend le nom, quelque peu abusif, de « compréhension automatique de la parole ».

1971 est une année charnière à double titre. D’abord, elle voit la première réalisation commerciale en reconnaissance vocale : « le Voice Command system » de J.J.W. Glenn et M.H. Hitchcok, appareil autonome qui reconnaît de manière fiable 24 mots isolés après cinq cycles d’apprentissage par le même locuteur. L’analyse du message est effectuée par un banc de seize filtres ; chaque mot est représenté par huit événements prélevés aux instants de plus grande variation interne du message. Cette normalisation temporelle, ainsi que les traitements d’apprentissage et de reconnaissance, sont confiés à un mini calculateur incorporé.

Aux Etats-Unis, l’importance des recherches sur la parole a beaucoup varié au cours des dernières années. A l’effort de recherche particulièrement intensif correspondant au projet SUR (Speech Understanding Research) de l’Arpa (Advanced Research Projects Agency), succède maintenant un effort plus mesuré. Les systèmes mis alors au point font aujourd’hui l’objet de recherches limitées (BBN), sont développés en vue d’applications industrielles (Harpy), ont été commercialisés (VIP 100) ou ont été abandonnés (Dragon).

En ex-URSS, les recherches dans ce domaine ont commencé très tôt et restent à l’heure actuelle très actives. Mais à la différence des équipes américaines qui ont développé rapidement d’énormes systèmes de compréhension de la parole, les équipes soviétiques n’ont que très récemment abordé l’étude des niveaux syntaxique et sémantique ; elles sont à l’origine de l’utilisation de la technique de « programmation dynamique » dont l’emploi s’est maintenant partout généralisé.

En France, les recherches ont démarré vers 1970, et plusieurs laboratoires de recherches ont pu mettre au point différents systèmes de reconnaissance vocale avec plus ou moins de succès, ces laboratoires mettant l’accent sur le support de reconnaissance : mots isolés, syllabes, grands vocabulaires.

D’aucuns peuvent dire qu’importe peu de savoir comment cela fonctionne mais, comme toute littérature, à défaut de mourir ignorant, il est bon de s’informer et s’informer, c’est sortir d’un illettrisme du domaine du sujet alors :

Analyse du signal de parole et décodage

Une fois que le son a été émis par le locuteur, il est capté par un microphone. Le signal vocal est ensuite numérisé à l’aide d’un convertisseur analogique-numérique. Comme la voix humaine est constituée d’une multitude de sons, souvent répétitifs, le signal peut être compressé pour réduire le temps de traitement et l’encombrement en mémoire. L’analyse peut alors commencer.

La Paramétrisation

La première étape consiste à paramétrer le signal vocal du locuteur. Cela permet d’obtenir une  »  empreinte   » caractéristique du son, sur laquelle on pourra ensuite travailler pour la reconnaissance. Pour cela, il existe plusieurs méthodes (cf les Techniques de l’ingénieur vol. H1 940 p. 4 et 5 ; MacGraw-Hill encyclopedia cote 603 / ANG McG (XVII) p. 233, 234 ;  » Reconnaissance automatique de la parole  » (J.-P.Haton, J.-M.Pierrel, G.Perennou, J.Caelen, J.-L.Gauvain) p.26 à 32 ; Science et Vie Micro n°128 p.222).

Un premier groupe de méthodes est constitué par les méthodes spectrales . Elles sont fondées sur la décomposition fréquentielle du signal sans connaissance a priori de sa structure fine. La plus utilisée est celle utilisant la transformée de Fourier, appelée Fast Fourier Transform ( FFT ). Tout son est la superposition de plusieurs ondes sinusoïdales. Grâce à la FFT , on peut isoler les différentes fréquences qui les composent. On obtient ainsi une répartition spectrale du signal.

spectreft1

Spectre obtenu par transformée rapide de Fourier (FFT)
(doc INSA, Techniques de l’ingénieur, traité pratique informatique, vol. H1 940)

En appliquant la FFT à un son complexe et en la répétant de nombreuses fois, on dresse un graphique donnant l’évolution de l’amplitude et de la fréquence en fonction du temps. On obtient ainsi une empreinte caractéristique du son.

Un deuxième groupe de méthodes est constitué par les méthodes d’identification. Elles sont fondées sur une connaissance des mécanismes de production (ex : le conduit vocal). La plus utilisée est celle basée sur le codage prédictif linéaire (appelée LPC ). L’hypothèse de base est que le canal buccal est constitué d’un tube cylindrique de section variable. L’ajustement des paramètres de ce modèle permet de déterminer à tout instant sa fonction de transfert. Cette dernière fournit une approximation de l’enveloppe du spectre du signal à l’instant d’analyse.

spectreft2

Spectre lissé obtenu par prédiction linéaire (LPC)
(doc INSA, Techniques de l’ingénieur, traité pratique informatique, volume H1 940, p.5)

On repère alors aisément les fréquences formantiques , c’est-à-dire les fréquences de résonance du conduit vocal. En effet, elles correspondent au maximum d’énergie dans le spectre. En répétant cette méthode plusieurs fois, on obtient l’empreinte du signal, comme le montre la figure ci-après.

spectreft3

Empreinte obtenue par prédiction linéaire (LPC).
(doc INSA, MacGraw-Hill encyclopedia, cote 603 / ANG McG (XVII), p.233)

D’autres méthodes existent, mais elles sont moins employées et nous ne les détaillerons pas ici (cf  » Reconnaissance automatique de la parole  » cote Part-Dieu 006.454 REC p.27, 28, 33). Les tendances actuelles visent à améliorer l’analyse fine des sons : codage impulsionnel, analyse fractal. Le codage vectoriel permet de diminuer la quantité d’informations nécessaires pour coder un mot (et donc l’espace mémoire), en s’appuyant sur un dictionnaire de spectres instantanés (cf les Techniques de l’ingénieur vol. H1 940 p.5).

D’autre part, l’information prosodique est dominée par la variation de la fréquence du fondamental Fo . Il est donc important de la déterminer (cf  » Reconnaissance automatique de la parole  » cote Part-Dieu 006.454 REC p.34 à 36). Pour cela, il existe des méthodes temporelles et fréquentielles utilisant des filtres et le spectre du signal. Certains problèmes se posent : l’excitation glottale n’est pas rigoureusement périodique ; la source peut être atténuée dans certains types de transmissions (téléphone), etc.. Il est par conséquent difficile d’effectuer des mesures précises.

Une fois que l’on a obtenu l’empreinte caractéristique du signal, on peut passer à l’étape suivante, qui est le décodage acoustico-phonétique :

Décodage acoustico-phonétique

Il consiste à décrire le signal acoustique de parole en termes d’unités linguistiques discrètes (cf  » Reconnaissance automatique de la parole  » cote Part-Dieu 006.454 REC p.11, 12, 40 à 55) ; Techniques de l’ingénieur vol. H1 940 p.8). Les unités les plus utilisées sont les phonèmes , les syllabes, les mots. Un phonème est un élément sonore d’un langage donné, déterminé par les rapports qu’il entretient avec les autres sons de ce langage. Par exemple, le mot  » cou  » est formé des phonèmes  » keu  » et  » ou « . Il en existe une trentaine en français.

Cette notion est assez importante en reconnaissance vocale.

Le décodage a pour but de segmenter le signal en segments élémentaires et d’étiqueter ces segments. Le principal problème est de choisir les unités sur lesquelles portera le décodage. Si des unités longues telles que les syllabes ou les mots sont choisies, la reconnaissance en elle-même sera facilitée mais leur identification est difficile. Si des unités courtes sont choisies, comme les phones (sons élémentaires), la localisation sera plus facile mais leur exploitation nécessitera de les assembler en unités plus larges. Les phonèmes constituent un bon compromis, leur nombre est limité : ils sont donc souvent utilisés. Mais le choix dépend également du type de reconnaissance effectuée : mots isolés ou parole continue.

Une fois la segmentation effectuée, l’identification des différents segments se fait en fonction de contraintes phonétiques, linguistiques. Il faut que le système ait intégré un certain nombre de connaissances : données articulatoires, sons du français, données phonétiques, prosodiques , syntaxiques , sémantiques !

Deux sortes d’outils sont utilisées : les outils de reconnaissance de formes structurelle (RFS, ex : grammaires déterministes) et les outils provenant de systèmes experts. Ils sont souvent associés pour de meilleures performances. Un système expert effectue les interprétations et déductions nécessaires grâce à la modélisation préalable du raisonnement de l’expert (domaine de l’intelligence artificielle).

Une fois que tout cela a été effectué, la reconnaissance en elle-même peut commencer, que ce soit pour des mots isolés ou pour de la parole continue.

Reconnaissance de mots isolés

L’absence dans le signal vocal d’indicateurs sur les frontières de phonèmes et de mots constitue une difficulté majeure de la reconnaissance de la parole. De ce fait, la reconnaissance de mots prononcés artificiellement de façon isolée (c’est à dire que tous les mots prononcés sont séparés par des silences de durées supérieures à quelques dixièmes de seconde) représente une simplification notable du problème.

Deux systèmes ont cours actuellement :

Le système monolocuteur (utilisable par un seul locuteur) est caractérisé par la technique d’apprentissage, où une seule et même personne doit dicter un ensemble de mots, ce qui permet d’optimiser le taux de reconnaissance et d’étendre le vocabulaire utilisable. Inconvénient, seule la personne ayant fourni son empreinte vocale (lors de la phase d’apprentissage) peut travailler.

Le système multilocuteur (utilisable par plusieurs locuteurs) qui utilise une base de données contenant des empreintes moyennes autorisant la reconnaissance de plusieurs voix. Inconvénient, le système n’est pas doté de capacités d’apprentissage et le nombre de mots est plus limité.

Toutes ces informations sont tirées de : Techniques de l’ingénieur vol. H1 940 ;  » Reconnaissance automatique de la parole  » cote Part-Dieu 006.454 REC ; Science et Vie Micro n°128.

* Les techniques de reconnaissance vocale

Deux approches, l’une plus globale, l’autre plus analytique permettent d’appréhender la reconnaissance des mots. Dans l’approche globale , l’unité de base sera le plus souvent le mot considéré comme une entité globale, c’est à dire non décomposée. L’idée de cette méthode est de donner au système une image acoustique de chacun des mots qu’il devra identifier par la suite. Cette opération est faite lors de la phase d’apprentissage, où chacun des mots est prononcé une ou plusieurs fois. Cette méthode a pour avantage d’éviter les effets de coarticulation, c’est à dire l’influence réciproque des sons à l’intérieur des mots. Elle est cependant limitée aux petits vocabulaires prononcés par un nombre restreint de locuteurs.

L’approche analytique , qui tire parti de la structure linguistique des mots, tente de détecter et d’identifier les composantes élémentaires ( phonèmes , syllabes, …). Celles-ci sont les unités de base à reconnaître. Cette approche a un caractère plus général que la précédente : pour reconnaître de grands vocabulaires, il suffit d’enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base.

Pour la reconnaissance de mots isolés à grand vocabulaire, la méthode globale ne convient plus car la machine nécessiterait une mémoire et une puissance considérable pour respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu à l’ensemble des mots du dictionnaire. Il est de plus impensable de faire dicter à l’utilisateur l’ensemble des mots que l’ordinateur a en mémoire. C’est donc la méthode analytique qui est utilisée : les mots ne sont pas mémorisés dans leur intégralité, mais traités en tant que suite de phonèmes.

* Principe général de la méthode globale pour un système monolocuteur

Le principe est le même que ce soit pour l’approche analytique ou l’approche global, ce qui différencie ces deux méthodes est l’entité à reconnaître : pour la première il s’agit du phonème, pour l’autre du mot.

Dans la structure d’un système de reconnaissance de mots isolés, pour l’utilisation d’un tel système, on peut distinguer deux phases :

– La phase d’apprentissage : un locuteur prononce l’ensemble du vocabulaire, souvent plusieurs fois, de façon à créer en machine le dictionnaire de références acoustiques. Pour l’approche analytique, l’ordinateur demande à l’utilisateur d’énoncer des phrases souvent dépourvues de toute signification, mais qui présentent l’intérêt de comporter des successions de phonèmes bien particuliers. Pour un système multilocuteur, cette phase n’existe pas, c’est la principale différence.

– La phase de reconnaissance : un locuteur (le même que précédemment car nous sommes dans le cas d’un système monolocuteur ) prononce un mot du vocabulaire. Ensuite la reconnaissance du mot est un problème typique de reconnaissance de formes. Tout système de reconnaissance des formes comporte toujours les trois parties suivantes :

o Un capteur permettant d’appréhender le phénomène physique considéré (dans notre cas un microphone),
o Un étage de paramétrisation des formes (par exemple un analyseur spectral),
o Un étage de décision chargé de classer une forme inconnue dans l’une des catégories possibles.

On retrouve ces trois étages dans un système de reconnaissance vocale, comme le montre la figure ci-après :
spectreft4

Description des différentes phases de reconnaissance :

1) Le capteur : un signal électrique est issu du microphone lorsque le locuteur parle (cf. détail précédemment).

2) Paramétrisation du signal : cet étage, dont le rôle est d’analyser et de paramétrer le signal vocal du locuteur, consiste en un traitement mathématique du signal. Cette étape vient d’être développée dans la partie précédente. Le signal suite à ce traitement est sous une forme :
– Temps               – Fréquence           – Intensité

Difficulté rencontrée : comme nous sommes dans le cas de mots isolés, les frontières des mots (début et fin de mot) sont généralement déterminées en repérant les intersections de la courbe d’énergie du signal avec un ou plusieurs seuils évalués expérimentalement. Si la prise de son est effectuée dans un local bruité, le bruit de fond additionné au signal vocal peut dégrader les performances du système de reconnaissance, notamment, en perturbant le fonctionnement de l’algorithme chargé de positionner les frontières des mots.

Dans ce cas, comment séparer le bruit du signal reçu par le microphone afin d’en extraire le signal vocal émis par le locuteur ?

Solution : Une approche couramment utilisée est d’estimer le signal dû au locuteur en soustrayant la densité spectrale du bruit de fond de la densité spectrale du signal mesuré au microphone. Le spectre du bruit de fond étant approximative par la moyenne des spectres de bruit mesurés durant les silences séparant les énoncés. Cette méthode suppose que le bruit de fond est localement stationnaire, c’est à dire que sa densité spectrale mesurée immédiatement avant l’énoncé d’un mot reste identique durant l’énoncé de ce mot.

3) Prise de décision du choix du mot :

Principe : Le signal vocal émis par l’utilisateur, une fois paramétré, va pouvoir être comparé aux mots du dictionnaire de référence (cf. phase d’apprentissage) en terme d’images acoustiques. L’algorithme de reconnaissance permet de choisir le mot le plus ressemblant, par calcul d’un taux de similitude – au sens d’une distance à définir – entre le mot prononcé et les diverses références. Pour simplifier le problème et si l’on prend l’exemple la comparaison de formes par programmation dynamique, le programme va comparer le mot prononcé par le locuteur avec ceux qui sont en mémoire depuis la phase d’apprentissage : dans ce cas la comparaison consiste à soustraire les nuances de gris des pixels du mot prononcé à ceux des mots en mémoire et de répéter cette opération pour chaque ligne et colonne. Ainsi selon le résultat de cette comparaison, on pourra mathématiquement dire quel signal est le plus ressemblant.

Difficulté rencontrée : Ce calcul n’est pas simple, même pour un locuteur unique, car les mots, donc les formes, à comparer ont des durées et des rythmes différents . En effet, un locuteur même entraîné ne peut prononcer plusieurs fois une même séquence vocale avec exactement le même rythme et la même durée. Les échelles temporelles de deux occurrences d’un même mot ne coïncident donc pas, et les formes acoustiques issues de l’étage de paramétrisation ne peuvent être simplement comparé point à point.

Solutions : il existe différentes solutions pour résoudre le problème de l’alignement temporel entre un mot inconnu et une référence :

– Une solution très efficace consiste en un algorithme de comparaison dynamique qui va mettre en correspondance optimale les échelles temporelles des deux mots. On démontre que cette méthode fournit la solution optimale du problème. Elle nécessite, en revanche, beaucoup de calculs. C’est pourquoi pour fonctionner en temps réel, il faut soit réaliser des composants spécialisés de programmation dynamique (plusieurs firmes proposent des systèmes de reconnaissance intégrant un tel processeur), soit simplifier l’algorithme initial.

Les méthodes de comparaison par programmation dynamique ont été largement utilisées pour la reconnaissance de mots isolés. De plus, elles ont été étendues à la reconnaissance de séquences de mots enchaînés sans pause entre eux.

– Il existe cependant d’autres solutions à ce problème de recalage temporel :

o La modélisation stochastique, en particulier sous forme de modèles markoviens  Dans cette approche, chaque mot du vocabulaire est représenté par une source de Markov capable d’émettre le signal vocal correspondant au mot. Les paramètres de cette source sous-jacente au processus d’émission d’un mot sont ajustés au cours d’une phase préalable d’apprentissage sur de très gros corpus de parole. La reconnaissance d’un mot inconnu consiste à déterminer la source ayant la probabilité la plus forte d’avoir émis ce mot. (Cf. p68-70 du livre « reconnaissance automatique de la parole » aux éditions DUNOD informatique pour une explication plus détaillée de cette méthode).
o Les modèles neuro-mimétiques qui sont constitués par l’interconnexion d’un très grand nombre de processeurs élémentaires inspirés du fonctionnement du neurone. (Cf. livre  » reconnaissance automatique de la parole « )

Avec la méthode analytique, l’ordinateur procède de la même manière que précédemment pour décoder le message parlé (paramétrisation du signal, programmation dynamique, …) sauf que cette fois-ci il s’agit de repérer une suite de phonèmes afin d’associer le mot au mot qui s’y rapporte dans le dictionnaire.

D’autre part, pour identifier un phonème, la machine procède par analyse statistique : elle sélectionne, à partir du dernier phonème identifié, le groupe de phonèmes qui ont la plus forte probabilité de lui succéder immédiatement. Ce premier tri réalisé, l’écart entre le phonème prononcé et chacun des phonèmes retenus est estimé. C’est celui présentant le moins d’écart qui est conservé. Cette analyse statistique est aussi utilisée pour la méthode globale, où elle intervient dans le choix d’un mot en fonction de ce qu’il y a avant (par exemple, on ne peut pas trouver deux verbes conjugués successivement.).

Pour que le taux d’erreur soit aussi faible que possible, les logiciels actuels utilisent également des dictionnaires au vocabulaire spécialisé, choisis selon le type d’activités.

Bilan

En bref, on peut donc dire que le choix de la technique de reconnaissance vocale dépend de l’utilisation :
spectreft5

Dans le cas de la reconnaissance de mots isolés (avec un vocabulaire limité), c’est la méthode de reconnaissance globale qui s’applique le mieux . En effet, les images acoustiques des mots peuvent être facilement isolées les unes des autres car tous les mots prononcés sont supposés être séparés par des silences.

Dans cette partie ont été décrit les principes et techniques de base largement utilisés dans les systèmes de reconnaissance par mot. Bien qu’il s’agisse en fait de méthodes très générales qui peuvent être appliquées à la reconnaissance de type phonétique utilisant des unités de décision plus petites que le mot telles que le phonème , cette approche globale est particulièrement adaptée à la reconnaissance de mots isolés (avec un vocabulaire qui ne dépasse pas une centaine de mots) en évitant presque totalement les problèmes de segmentation et de co-articulation. Cependant cette méthode de mots isolés trouve les solutions d’un grand nombre de problèmes comme celui du bruit, ou encore celui de la vitesse d’élocution.

1° Le premier niveau de stratégie : lire ou prédire ?

On distingue deux approches différentes. La première consiste à reconstituer la phrase à partir du signal. Il s’agit là d’une approche ascendante. On  » lit  » tout simplement le signal. On ne cherche pas à comprendre le résultat obtenu, on se contente de le décrypter. L’inconvénient majeur est qu’il nécessite de tester à chaque portion de phrase l’ensemble des mots contenus dans le vocabulaire. On comprend aisément que dans la parole, le vocabulaire peut très rapidement devenir gigantesque, et cela prend beaucoup de temps machine.

La deuxième approche consiste à prédire le mot à reconnaître. On a ici en opposition une approche descendante. En implantant dans le système une certaine intelligence, la machine pourra prévoir ce qui va être dit. Par exemple, dans un système d’interrogation d’une base de données par téléphone, le premier mot à tester est le mot  » allô  » ou  » bonjour « . Un autre exemple, si la machine reconnaît le mot  » monsieur « , le vocabulaire à tester ensuite est celui des noms de personnes contenus dans sa mémoire. Ainsi, cette approche permet de ne pas avoir à tester tout le dictionnaire de la machine, et ainsi à gagner du temps.

On remarquera cependant qu’aucun système ne fonctionne en approche uniquement descendante, et rares sont ceux qui fonctionnent en approche uniquement ascendante. Seuls les systèmes à vocabulaire très restreint peuvent se permettre une approche uniquement ascendante.

2° Le deuxième niveau de stratégie : traitement de gauche à droite ou du milieu vers les cotés ?

A un moment ou à un autre, il faut bien commencer à analyser le signal lui-même. C’est là qu’on doit déterminer la stratégie latérale. Le plus naturel est de procéder par ordre chronologique. C’est ce qu’on appelle le traitement gauche – droite. Il peut cependant s’avérer intéressant d’appliquer le traitement du milieu vers les cotés. Dans cette méthode, on balaye le signal sans une analyse très poussée, on recherche des mots – clés. On accentue la recherche de quelques mots du vocabulaire. Ainsi, après l’application de cette méthode, il est possible d’appliquer une stratégie descendante pour combler les  » trous « .

3° Le troisième niveau de stratégie : la recherche d’une solution optimale

On appelle stratégie de recherche l’ensemble des règles qui permettent d’atteindre la solution optimale. On distingue deux grand types de stratégies.

On considère tout d’abord les stratégies totales. Elles consistent en l’examen de toutes les solutions possibles. La machine teste tout son vocabulaire et attribue pour l’ensemble des phrases possibles un score de reconnaissance sous forme de probabilité. Cela est applicable par exemple dans un système de commande par la parole, où le vocabulaire est très limité. Dans un vocabulaire étendu, ceci est évidemment inapplicable.

Les stratégies employées alors sont les stratégies heuristiques. Parmi les stratégies les plus employées, on peut noter celle-ci :

Stratégie du meilleur d’abord : A chaque analyse, le système ne retient que la solution offrant le meilleur score de probabilité. Cette stratégie est très simple à mettre en oeuvre, car elle n’effectue qu’une seule analyse à la fois. On gagne en temps de traitement, mais on perd en performance. Entre cette stratégie et une stratégie totale, il existe cependant un juste milieu.

Recherche en faisceau : On peut la décrire comme étant une stratégie des  » quelques meilleurs d’abord « . Elle conserve simultanément les hypothèses les plus plausibles, et poursuit la recherche en parallèle dans les différentes branches. Elle compare enfin les solutions partielles qui vont au même niveau de profondeur dans l’arbre de recherche. Cela est coûteux en temps machine, mais on se rapproche plus d’une solution optimale, car l’espace des solutions explorées est bien plus vaste.

Recherche par îlots de confiance : Dans les stratégies précédentes, une phrase est supposée être analysée de la gauche vers la droite, en partant du début. Ici, on ne recherche que des mots – clés, dont la reconnaissance est quasi – certaine. On obtient donc une phrase à trous, avec ce qu’on appelle des îlots de confiance, dont on est sûr de la reconnaissance. On applique enfin une des stratégies précédentes pour découvrir ce qu’il y a entre.

Les stratégies nécessitent la création d’une mesure de la réussite. Comme dans le cas de la reconnaissance des mots isolés, on retrouve des concepts tels que la probabilité, la similitude, le coût. Ici, il est nécessaire de définir des mesures de la réussite non seulement pour les mots isolés, mais aussi pour les morceaux de phrase reconstitués. C’est ainsi que des systèmes alliant la reconnaissance vocale, mais aussi la compréhension du texte reconstitué offrent la possibilité de définir des scores de réussite très performants. Les meilleurs systèmes actuels utilisent pour définir l’indice de réussite des capacités de compréhension des phrases reconstituées. Ainsi la maîtrise de la syntaxe , de la prosodie ou de la sémantique vont permettre d’accroître les scores de reconnaissance. On touche ici au domaine de l’intelligence artificielle, et la compréhension des phrases reconnues sort du sujet du dossier.

Reconnaissance de la parole continue

Tout d’abord, qu’est ce que la parole continue ? C’est un discours, des phrases où les mots s’enchaînent sans moyen de séparer, contrairement aux mots isolés. Le but de cette partie n’est pas de rentrer dans les détails de la programmation d’un logiciel de reconnaissance de la parole continue, cela serait trop long et fastidieux. On va donc présenter les  » ficelles  » de la reconnaissance de la parole continue de manière très générale.

Les objectifs de cette partie étant donc éclaircis, on peut entamer la réflexion autour de la reconnaissance de la parole continue. Pourquoi, après tout, s’évertuer à attribuer à une machine de telles capacités ? Est-ce par pure fantaisie que les auteurs de science-fiction inventent des dialogues entre un héros et sa machine ? Non, ceci relève d’un besoin qui pourrait se résumer à une chose : la recherche d’un confort et d’amélioration de l’interaction de l’homme avec la machine. Les avantages d’un tel progrès sont simples à imaginer.

Cette partie du dossier va donc s’attacher à comprendre les mécanismes mis en jeu dans la reconnaissance de la parole continue, et plus précisément, les stratégies à mettre en oeuvre pour aboutir à un bon résultat. Nous avons pu voir dans la partie précédente, intitulée  » reconnaissance de mots isolés « , les méthodes pour reconnaître un mot. Dans une phrase, les mots s’enchaînent sans aucun moyen apparent de les dissocier. C’est là qu’intervient la notion de stratégie. La problématique à résoudre est comment découper un signal afin de reconnaître les différents mots ou phonèmes qui le compose.

Dans cette partie, on ne se propose pas de faire une liste exhaustive des applications, mais d’en citer quelques-unes qui nous ont parus intéressantes dans chaque  » domaine « , puis de montrer les évolutions du marché pour permettre de se rendre compte de l’importance de la reconnaissance vocale aujourd’hui.

Quelques applications

De façon générale, le choix d’une application doit faire l’objet d’une étude attentive, fondée sur un ensemble de critères objectifs. En particulier, il est important d’examiner si la voix apporte véritablement un accroissement des performances ou un meilleur confort d’utilisation. Par ailleurs, il ne faut pas trop attendre de la commande vocale mais la considérer, en tout état de cause, comme un moyen complémentaire parmi d’autres moyens d’interaction homme-machine plus traditionnels.

Bien entendu, à chaque type d’application correspondent des critères de performance différents. Ainsi, pour des applications en reconnaissance de la parole, on jugera la qualité d’une application sur les quatre critères principaux suivants :

– le débit du flux de parole correctement reconnu. Si le locuteur prononce les mots séparément avec de petites pauses (environ 200 ms) entre chaque mot, on parlera de reconnaissance par mots isolés, sinon ce sera de la reconnaissance de parole continue.

– la taille du vocabulaire correctement reconnu. Ce vocabulaire variera de quelques mots (la cabine téléphonique à entrée vocale) à plusieurs milliers de mots (la machine à écrire à entrée vocale).

– les contraintes imposées par le système sur l’environnement de fonctionnement : acceptation de bruits de fond et parasites divers. Des critères de qualité positifs dans certaines applications peuvent être négatifs dans d’autres : l’indifférence au locuteur est recherchée pour une cabine téléphonique à numérotation vocale alors qu’au contraire c’est la capacité de discrimination entre locuteurs qui déterminera la qualité d’une serrure à commande vocale.

– les contraintes imposées par le système sur l’utilisateur : est-il unique ou multiple, doit-il s’astreindre à une phase d’apprentissage préalable ?

Reconnaissance de petits vocabulaires de mots isolés

La reconnaissance de mots isolés, le plus souvent monolocuteur , pour des vocabulaires de quelques dizaines jusqu’à quelques centaines de mots est un problème assez bien résolu. Les premiers systèmes commerciaux de cette catégorie sont apparus il y a un peu plus de vingt ans. D’importants progrès ont été réalisés sur la reconnaissance de petits vocabulaires de mots isolés, multilocuteur , dans des conditions difficiles (par exemple la reconnaissance de chiffres à travers le réseau téléphonique ).

L’avionique et l’automobile

L’avionique est un domaine d’application important des commandes vocales. Des systèmes de reconnaissance par mots ont été utilisés avec succès dans des avions de chasse pour permettre au pilote déjà suroccupé de commander diverses fonctions ( radio, radar,…), notamment aux Etats-Unis, en France (Sextant Avionique), et en Grande Bretagne. La voix a également servi au contrôle d’un bras articulé lors de la mission de la navette spatiale américaine.

En effet, à bord d’avion comme à bord d’automobile, les tâches étant complexes et le tableau de bord réduit, la parole permet au pilote ou au conducteur d’avoir à sa disposition un moyen supplémentaire d’interaction avec la machine, sans cependant gêner l’accomplissement des tâches courantes qui requièrent de sa part toute son attention visuelle. En voiture, les infrastructures nouvelles de communication par satellite (projets IRIDIUM et GlobalStar) pour la transmission à haut débit d’images et de sons, la norme européenne de téléphone mobile GSM, et le système GPS (Global Positioning Satellite System) qui permet de connaître le positionnement du véhicule, offrent au conducteur une connaissance dynamique de l’évolution de la circulation et de la météorologie, et lui permet non seulement d’établir la planification de son itinéraire et d’être guidé par des messages vocaux, mais encore d’accéder à tout moment à des bases de données touristiques et à des services variés.

Dans le domaine de l’avionique les études menées dans ce domaine par Sextant Avionique en France (système TOP-VOICE) [Pastor,1993], par Marconi et Smith Industries en Angleterre, en Allemagne (système CASSY, [Gerlach, 1993]) visent à rendre les systèmes de reconnaissance plus robustes aux bruits (moteur d’avion, masque à oxygène, etc.).

En ce qui concerne l’aide à la navigation à bord de voiture, ces systèmes s’appuient sur la mise en place de réseaux de radiodiffusion RDS-TMC (Radio Data System Traffic Message Channel) et font l’objet de plusieurs projets nationaux et européens. Le produit CARIN [Cardeilhac, 1995], développé par Philips et Lernout & Hauspie devrait s’adresser à terme aussi bien à des professionnels (routiers) qu’au grand public. La synthèse de haute qualité multilingue [Van Coile, 1997] (français, anglais, allemand et hollandais) permet de dispenser à bord du véhicule des informations dans la langue du conducteur, quel que soit le pays traversé. Un service régulier de diffusion TMC pour la langue allemande en Allemagne a été mis en place en 1997 et devrait être étendu à d’autres pays et d’autres langues bientôt. Le système utilise de la synthèse à partir du texte pour la diffusion des messages, afin de garantir un encombrement mémoire réduit et une certaine flexibilité pour toute modification ultérieure.

On peut citer plusieurs autres projets : le projet CARMINAT avec comme partenaires Renault, Peugeot, Philips, TDF et Sagem ; en Italie, le système Route Planner de Tecmobility Magneti Marelli [Pallme, 1995] ; en Angleterre le système d’interrogation des informations diffusées par le satellite Inmersat-C, étudié par Marconi [Abbott, 1993]… Dans la plupart des cas, il est prévu d’adjoindre au système une interrogation vocale (système AudioNav de reconnaissance de courtes phrases et mots-clés développé par Lernout & Hauspie en Belgique intégré dans le projet VODIS auquel participent Renault et PSA.

Télécommunications

L’apparition récente de systèmes multilocuteurs présentant de bonnes performances à travers le réseau téléphonique commuté ( jusqu’à 99% de reconnaissance pour de petits vocabulaires ) ouvre de nouveaux champs d’applications : serveurs d’informations, réservations, autorisations bancaires. De tels systèmes sont par exemple commercialisés par Voice Processing, Scott Instruments,… Des tests en vraie grandeur ont été menés avec succès avec le grand public, en particulier en France et au Canada. Dans le secteur de la téléphonie, les grandes sociétés de télécommunication ont engagé une course à l’innovation. Ainsi, il suffit de dire le nom du correspondant désiré dans le récepteur, à condition de l’avoir préalablement encodé, pour obtenir la communication souhaitée. Ceci peut-être très utile pour téléphoner depuis une voiture.

L’information au public est aussi un domaine concerné par la numérisation de la parole. Dans les gares ou les aéroports, par exemple, on pourra bientôt voir des bornes interactives qui remplaceront les agents préposés aux renseignements. Pour connaître l’horaire d’un train, il suffira de demander de vive voix à la machine où on veut aller et quand, et elle répondra dans la langue de notre choix, avant de nous souhaiter un agréable voyage.

Plus précisément, aujourd’hui, deux gammes de services dominent le marché des services de Télécommunication à commande vocale : ce sont les services à opérateurs partiellement automatisés et les services de répertoires vocaux, évoluant progressivement vers des services plus complets d’assistants téléphoniques.

L’automatisation des services à opérateurs (assistance aux opérateurs)

Ces services représentaient en 1997 environ 25% du marché, mais leur part devrait décroître dans les prochaines années, du fait de leur saturation et de l’augmentation beaucoup plus forte des autres gammes. L’intérêt de ces services est d’ordre économique. Quand un utilisateur appelle un service à opérateur, toute seconde de conversation avec l’opérateur qui peut être gagnée par un dialogue automatisé avec un serveur vocal se traduit par des gains d’exploitation très importants. Parmi les nombreux enseignements apportés par ces premiers services grand public de grande ampleur (plusieurs millions d’appels par jour), le besoin de systèmes très robustes a été mis clairement en évidence (Nortel utilise 200 modèles différents pour reconnaître les mots  » oui  » et  » non  » et leurs synonymes en deux langues), ainsi que la nécessité d’éducation et de communication autour de la commande vocale auprès du grand public, et la nécessité d’enrichir progressivement les modèles utilisés par des données d’exploitation réelle.

Les répertoires vocaux

Cette gamme de services représente aujourd’hui, au niveau mondial, environ 50% du marché des services à commande vocale. Ici, la reconnaissance vocale sert à associer un numéro de téléphone au nom du correspondant désigné, offrant ainsi un naturel et une rapidité de numérotation accrus par rapport au clavier. Cette gamme de services est principalement justifiée dans l’environnement mobile (mains occupés, yeux occupés) où la numérotation par clavier est peu commode, voire dangereuse. Le service est souvent couplé, pour les mobiles, à un service de numérotation vocale (de plus en plus souvent en parole continue), permettant d’établir tout appel sans intervention manuelle.

Katalavox

Le système de reconnaissance vocale Katalavox (cf bibliographie pour plus de renseignements) est utilisé dans plusieurs pays à travers le monde et a les caractéristiques suivantes :

– C’est un système monolocuteur.
– Il reconnaît des mots isolés (ou expressions jusqu’à 1,5 secondes).
– Il fonctionne dans des environnements bruyants.

Il est utilisé en micro-chirurgie, pour contrôler les mouvements du microscope opératoire par des ordres à la voix au lieu d’utiliser des pédales. La première opération l’utilisant a été faite en 1984 par le Prof. Dr. Aron-Rosa à l’hôpital de la fondation Rothschild à Paris. Toutes les fonctions de son microscope : le focus, le zoom et les mouvements en X-Y étaient contrôlés à la voix.

Aujourd’hui, le Katalavox est utilisé par des chirurgiens dans plusieurs pays. Il peut également contrôler des opérations auxiliaires telles que le contrôle d’un magnétoscope, d’un appareil photo, de l’éclairage de la salle d’opération,…

Le Katalavox est aussi utilisé par des personnes tétraplégiques, pour contrôler à la voix le fauteuil roulant électrique. Un micro laryngophone capte les vibrations des cordes vocales quand l’utilisateur prononce un mot de commande. Ceci l’isole du bruit bruyant. Dans certains cas, un autre type de microphone peut également être utilisé. Le premier fauteuil à commandes vocales fût utilisé par un norvégien en 1984. Le système de reconnaissance vocale s’adapte à n’importe quel langue. Même si quelqu’un a des difficultés de prononciation, le système est capable de reconnaître des sons distincts. Il suffit de cinq sons pour contrôler un fauteuil. Les mots de commande sont combinés pour permettre d’émuler les mouvements d’un joystick. Le Katalavox peut aussi être utilisé par des personnes tétraplégiques pour contrôler leur environnement. Il leur permet d’allumer et éteindre des lampes et autres appareils dans leur maison, de contrôler la télévision et des appareils à télécommande infra-rouge, et de répondre au téléphone et composer des numéros de téléphone. Le système de contrôle d’environnement peut également être inclus dans la commande d’un fauteuil roulant à commandes vocales. Ce créneau d’application devrait se développer à l’avenir avec la diminution du coût des systèmes.

Cette commande vocale est utilisée dans l’automobile depuis 1984 pour les conducteurs phocoméliques ou n’ayant pas l’usage des bras. Une direction au pied gauche remplace le volant, l’accélérateur et le frein sont actionnés par le pied droit. Les fonctions secondaires, telles que les clignotants, l’essuie-glace, le lave-glace, l’avertisseur, l’éclairage,… sont contrôlées à la voix. En janvier 1984 le premier permis de conduire portant la mention :  » fonctions secondaires contrôlées par commande vocale  » a été remis à une personne handicapée dont le véhicule était équipé d’un Katalavox.

Reconnaissance de grands vocabulaires

Microsoft, en passant par Apple et IBM, de nombreux industriels travaillent sur des projets de reconnaissance vocale, généralement en complément d’une activité de recherche sur la synthèse de la parole, le tout s’insérant dans des projets plus généraux d’interface homme-machine.

Il faudra attendre encore plus longtemps avant que la machine remplace purement et simplement la secrétaire dactylo pour la saisie de textes sur ordinateur. Les systèmes de reconnaissance vocale actuels sont encore bien trop grossiers pour comprendre toutes les finesses qui peuvent se glisser dans la syntaxe et dans les intonations de la langue parlée en continu et non plus sous la forme de mots clés ou de petites phrases sommaires.

Dictée personnelle d’IBM.

Un des produits les plus avancés est le système de dictée personnelle d’IBM. La cadence est de 70 à 100 mots par minute et le taux de reconnaissance approche 97%. Des dictionnaires volumineux et spécialisés facilitent le processus de reconnaissance et limitent les interventions de l’utilisateur pour préciser l’orthographe d’un mot. Ceci est le résultat de vingt ans de recherche acharnée, conjugués aux efforts de centaines d’ingénieurs mobilisés pour un budget qui n’a pas été dévoilé.

Pour utiliser le logiciel, il faut une heure et demie d’apprentissage consacrée à lire quelque cent soixante phrases pour que le système reconnaisse la voix. Il faut aussi un peu de self-control car il faut faire l’effort d’une diction  » saucisson  » et omettre de faire les liaisons entre les mots. Cela permet au logiciel d’analyser le spectre de la voix, tout comme les défauts de prononciation et d’élocution : cheveu sur la langue, élision de certains phonèmes , accents régionaux… C’est pourquoi le système est monolocuteur, c’est-à-dire qu’il ne reconnaît qu’un seul orateur à la fois.

Le français, riche en homophones ( sang et sans ), est l’une des langues en gras.

– On peut automatiser l’écriture de phrases que l’on utilise fréquemment, une formule de politesse par exemple, en déclenchant leur rédaction par la simple énonciation d’un mot clé.

– Pour indiquer la prononciation, il suffit de la dicter par des ordres naturels comme  » point à la ligne « .

– On peut dicter directement avec son propre traitement de texte, sa messagerie Internet, son logiciel de gestion.

– Il est possible d’enregistrer plusieurs utilisateurs sur un même poste de travail.

– Pour pouvoir utiliser ce logiciel, il faut un ordinateur multimédia, Windows 95/98 ou NT 4, un processeur Pentium 133, une mémoire vive de 32 Mo sous Windows 95/98, 48 Mo sous Windows NT, il faut ajouter 16 Mo pour l’intégration dans Word 97 et la synthèse vocale.

L’occupation sur le disque est de 87 Mo.

Pour avoir un ordre d’idée, le Dragon Naturally Speaking standard coûte 790 Francs TTC, le Dragon Naturally Speaking Professional coûte 4990 Francs TTC.

Les systèmes présentés par IBM, Kuzweil et Dragon Systems sont le plus souvent fondés sur une modélisation stochastique de la parole, méthode actuellement la plus performante (1992).

L’avenir est aux systèmes continus et à l’indépendance vis à vis du locuteur, sans phase d’apprentissage. Ces caractéristiques demeurent difficiles à mettre en œuvre sur ordinateur, que ce soit en raison de l’absence d’algorithmes linguistiques sophistiqués ou, plus logiquement, parce que les processeurs sont encore trop peu puissants. Les recherches sur le traitement du langage naturel et sur le traitement du signal (notamment NSP-Native Signal Processing chez Intel et Microsoft ) aboutiront très certainement à des solutions complètement logicielles, qui s’intègreront aux systèmes d’exploitation. On sait déjà que les prochaines versions de Windows proposeront des fonctions de synthèse et de reconnaissance de la parole. (1996)

Les données sur ces systèmes évoluant très rapidement, nous avons joint en annexe 1 et 2 les données récentes trouvées sur Internet, comme notamment leur prix actuels.

En conclusion, les technologies vocales ont de fait déjà pénétré des domaines d’activité de la vie courante (serveurs interactifs vocaux, aide à la navigation à bord de voiture et aide à la formation).

Outre ces domaines en expansion, la dictée automatique de documents écrits, notamment de rapports médicaux, semble constituer un domaine particulièrement prometteur du fait de systèmes pouvant traiter un nombre croissant de langues. L’expansion de ces nouveaux modes de communication ne deviendra cependant effective que si les performances des systèmes atteignent un niveau acceptable pour le grand public, en termes de fiabilité mais aussi de facilité d’utilisation. L’effort entrepris par la communauté scientifique pour se doter d’outils linguistiques adaptés à une meilleure évaluation des systèmes constitue une première étape. Des études socio-économiques pour identifier les besoins réels des utilisateurs doivent conduire à une plus large concertation pour convenablement intégrer les technologies vocales dans des applications réalistes.

Le marché

Les données que nous allons présenter sur le marché datent de 1991 et sont tirées de  » Langage humain et machine « .

Bien que depuis 1985 les études traitant des applications dans le domaine des industries de la langue soient relativement nombreuses, peu d’entre elles fournissent des éléments financiers sur les marchés potentiels, les marchés réels ou les marchés futurs. Les difficultés d’évaluation sont en effet considérables et tiennent à plusieurs raisons. En effet, à quelques exceptions près, aucun des principaux fournisseurs dans le domaine n’a pour unique activité le traitement automatique des langues naturelles, et les applications développées sont souvent très spécifiques, ce qui rend difficile la collecte des informations et les évaluations des coûts. Dans certains cas, les détenteurs des informations ne souhaitent d’ailleurs pas les voir publier. Ainsi, les entreprises de service en traduction qui utilisent des systèmes de traduction assistée par ordinateur ( TAO ) pour réaliser une partie de leur chiffre d’affaire ne donnent généralement pas d’éléments qui permettraient des évaluations précises. En effet, celles qui réussissent à obtenir des améliorations sensibles de productivité, alors qu’elles facturent au prix de la traduction humaine, ne veulent pas voir leurs clients demander des rabais. Une autre difficulté résulte de ce que certains secteurs du marché des industries de la langue sont fortement influencés par des acteurs qui fonctionnent avec des logiques non commerciales.

Ainsi le secteur de la traduction assistée par ordinateur est largement dépendant de décisions politiques ou stratégiques. Ainsi, par exemple, le nombre réel de pages transitant par le système de TAO utilisé en interne par la Commission des communautés européennes ( de l’ordre de 5000 pages pour toute l’année 1990 ) est rarement affiché sur la place publique tant il est faible par rapport aux sommes dépensées en recherche et développement par cet organisme depuis une quinzaine d’années. Entre 1975 et fin 1990, ces investissements ont été d’environ 126,5 millions de francs. Si l’on prend le montant des subventions publiques directes ou indirectes versées aux entreprises, le chiffre d’affaire de la TAO dans le monde paraît relativement important. Si, par contre, on évalue le chiffre d’affaire d’après le nombre de pages effectivement traduites, le résultat est bien différent. Le domaine de la TAO présente depuis sa création le paradoxe des secteurs où la technologie n’est pas maîtrisée : le chiffre d’affaire potentiel est énorme et les clients potentiels relèvent essentiellement du secteur privé, cependant le marché réel est faible et les payeurs réels principaux sont des services publics.

Les grandes fonctions linguistiques ( traduire, parler, écouter, corriger, lire,…) ne peuvent être totalement automatisées et donc, l’introduction des machines ne se fait que dans des environnements locaux favorables.

Les difficultés rencontrées dans la mesure des marchés réels et potentiels, comme dans la mise au point des projections se traduisent par des évolutions continuelles dans les prévisions. Evidemment, celles-ci s’affinent au fur et à mesure que le domaine est mieux cerné, qu’il se développe et que sont installés des indicateurs plus fiables.

A titre d’exemple, on a présenté ci-après, pour la reconnaissance de la parole, une série de quatre courbes (figure 14) qui met en évidence l’évolution dans le temps des perspectives de marchés. Dans les prévisions successives, on voit clairement apparaître un phénomène de surestimation initiale de la croissance du marché, qui s’estompe progressivement. Ce phénomène n’est pas particulier au traitement de la parole. Il s’est également produit en traduction assistée par ordinateur, domaine où, malgré tout, on note de meilleures concordances des prévisions formulées en 1983, puis en 1986 avec la réalité aujourd’hui constatée.

Il y a d’une part des activités Bureautique en quête d’améliorations de productivité, d’autre part des industries de l’information en expansion rapide, et enfin, des industries électroniques et informatiques qui profitent largement des deux phénomènes précédents, puisqu’elles fournissent les équipements. Les développements en matière de traitement automatique des langues naturelles s’inscrivent donc dans des logiques puissantes, qui expliquent le taux de croissance particulièrement rapide du domaine.

Si imprécises soient-elles, pour les raisons que nous avons évoquées plus haut, les précisions d’évolution des marchés sur le domaine des industries de la langue donnent cependant des ordres de grandeur intéressants. En voici quelques-unes, parues entre 1985 et 1990 dans la presse spécialisée :

– Presse, édition, bureautique intelligente (traitement de textes, assistance à la saisie et à la correction de textes, aides à la rédaction) : de 4,5 millions de dollars (M$) en 1985 à 50 M$ en 1990 (en France).

– Indexation et gestion de fonds documentaires : de 125 M$ en 1985 à 400 M$ en 1990 (en Europe).

– Traduction assistée (notices techniques de produits industriels) : de 4,5 M$ en 1985 à 10 M$ en 1990 (en Europe).

– Interfaces homme-machine (reconnaissance et synthèse vocale, accès à l’information en langage quasi-naturel.).

o Communication parlée : de 30,5 M$ en 1985 à 250 M$ en 1990 (monde).
o Interfaces clavier-écran : de 18,7 M$ en 1985 à 54 M$ en 1990 (aux États-Unis).

En 1990, on estime généralement que le marché total des industries de la langue en France se place dans une fourchette de 300 à 350 millions de francs (source : ministère de la Recherche et de la Technologie) dont 80 à 100 millions de francs pour le traitement de la parole. Ce marché est encore très étroit : 350 millions de francs, soit à peu près le chiffre d’affaire d’une société de service en informatique de 350 salariés, ou encore celui d’une entreprise moyenne de distribution de micro-ordinateurs et de logiciels de bureautique. Cette étroitesse se confirme lorsque l’on évalue des sous-domaines. Ainsi, le marché total de la traduction humaine (vente par des entreprises spécialisées, traducteurs individuels et traductions internes) en France est estimé à environ 1,2 milliard de francs (source Bossard Consultants). Dans l’hypothèse optimiste où 1% de ce marché serait partiellement ou totalement automatisé, on obtient un chiffre d’activité pour le service en TAO d’environ 12 millions de francs. Ainsi donc, bien qu’on en parle beaucoup, la traduction assistée par ordinateur ne représente qu’une part infime de l’activité du domaine. De fait, il semble qu’exprimé en chiffre d’affaire, le principal domaine d’application des industries de la langue soit actuellement l’interrogation de bases de données et de systèmes documentaires.

Le taux de croissance du chiffre d’affaire des entreprises qui travaillent sur l’écrit, observé sur les trois dernières années, varie de 20% à 50% avec une moyenne à 35% (source : ministère de la Recherche et de la Technologie). Ce taux est comparable à celui qui est observé dans le domaine du traitement de la parole. Pour 1990, en Europe, le marché du traitement de la parole serait de l’ordre de 700 millions de francs, avec une actuelle domination du Royaume-Uni (44%) progressivement remplacée par une domination allemande (33% en 1994 pour un marché total de 4 milliards de francs) (source : Frost et Sullivan).

Voici quelques données plus récentes tirées de  » La parole, des modèles cognitifs aux machines communicantes « (1998). Le marché de la commande vocale s’élève en 1997 à 400M$, à 80 M$ pour la synthèse à partir du texte et 10 M$ pour l’authentification vocale, avec des taux de progression annuels respectifs, mesurés en 1997, de 100%, 300% et 30% (source : W.S. Meisel, 1998 :  » The telephony voice user interface, applications of speech recognition, text-to-speech, and speaker verification over the telephone « ,TMA Associates, Tarzana, CA, USA). Ces chiffres sont à comparer au marché des services téléphoniques (qui exploitent donc la seule compression de parole) qui s’élève à plusieurs dizaines de milliards de francs, pour la France.

Conclusion ? NON !

Tant qu’un Inventeur existera ; tant que l’activité de l’œuvre et de l’esprit continuera à hanter Madame et Monsieur tout le monde, on est loin de conclure.

La reconnaissance vocale est un procédé assez récent puisqu’il est apparu dans les années 50 et qui nécessite encore des améliorations. En multilocuteur, les performances actuelles, qui dépendent fortement du locuteur, se situent autour de 70 % de reconnaissance et on estime qu’il faut au moins 85 % pour comprendre ensuite ce qui a été dit. Cependant, les chercheurs prennent désormais en compte les données linguistiques en plus de données acoustiques, ce qui devrait permettre de progresser fortement.

Quant aux applications, il y a fort à parier que nous les retrouverons partout dans la vie de tous les jours d’ici quelques années. Elles apparaissent déjà dans des domaines aussi variés que l’automobile, les portables ou les avions. De plus, la reconnaissance vocale associée à la synthèse vocale pourrait par exemple permettre de réaliser un système capable de comprendre ce que dit une personne dans une langue puis de le traduire oralement dans une autre, ce qui rendrait possible une discussion entre deux personnes ne parlant pas la même langue. Tout cela risque de révolutionner la manière dont on interagit avec notre environnement.

Cependant, même dans le futur, la reconnaissance vocale risque d’atteindre rapidement des limites. En effet, nous avons parfois du mal à comprendre ce que dit une personne en raison par exemple de mots homophones. On peut donc se demander comment une machine, dont le principe de reconnaissance est fondé sur celui de l’homme, serait capable de faire mieux.

Actuellement, on obtient des systèmes qui fonctionnent très bien. Mais autant aux balbutiements de la reconnaissance vocale, on n’utilisait qu’une stratégie principale, que maintenant, ce sont des combinaisons de toutes qui offrent les meilleurs résultats.

On peut noter cependant qu’aucun système n’a su obtenir un fonctionnement optimal. On est capable de construire une machine monolocuteur en temps réel, qui fonctionnerait avec des stratégies descendantes et heuristiques . On est aussi capable de construire des machines multilocuteurs, qui se tournent plus vers des stratégie totales, mais auxquelles il faut laisser la nuit pour réfléchir.

A CŒUR VAILLANT RIEN D’IMPOSSIBLE

Il est permis de dire que même le Superordinateur le plus puissant n’a pas la capacité de raisonnement démontrée par un enfant absorbé par un livre de Caillou. Les ordinateurs ne peuvent lire comme nous le faisons. Ils ne peuvent en fait ni lire ou apprendre comme nous. Et quand bien-même on ajoutera à un ordinateur des capteurs et lecteurs optiques de manière à le robotiser en input-output ; réduire l’écart cognitif existant entre l’homme et la machine, c’est créer quasiment un ordinateur qui peut lire et apprendre à un niveau sophistiqué.

C’est un objectif d’importance pour les chercheurs en intelligence artificielle.

La Defense Advanced Research Project Agency du Pentagone, ou DARPA, a accordé un contrat d’une valeur d’au moins 400 000$ US l’automne dernier à deux professeurs de l’Institut polytechnique Renfaîter qui tentent de concevoir une machine qui pourra apprendre par le biais de la lecture.

Les chercheurs espèrent créer une machine qui peut lire des sections d’ouvrages et répondre ensuite à des questions portant sur le matériel parcouru. Le professeur Selmer Bringsjord est d’avis que de telles machines à l’intelligence artificielle pourraient lire des plans ou des manuels militaires et prendre des décisions spontanées dans le feu de l’action.

«Le domaine militaire est si complexe de nos jours, la technologie si évoluée que nous avons besoin du secours de l’intelligence artificielle,» affirme Bringsjord, directeur du laboratoire d’intelligence et de raisonnement artificiels de RPI. «Nous avons atteint un point de non-retour.»

Cela peut sembler sortir tout droit de la science-fiction, mais c’est à peine exagéré. Les machines sont déjà cognitives, selon votre définition du mot.

Austin, Texas, Cycorp Inc. travaille à l’élaboration d’une base de connaissances appelée «Cyc», avec l’objectif d’en faire un dépôt d’archives de connaissances humaines qui peuvent mener à des prises de décisions intelligentes.

Les machines pouvant comprendre la parole, reconnaître des visages et faire des inférences basées sur l’expérience existent déjà, dit Tom Mitchell, professeur de sciences informatiques à l’université Carnegie Mellon. Mitchell, qui a déjà été président de l’Association américaine de l’intelligence artificielle, sert un avertissement : même si les chercheurs ont fait d’immenses progrès dans différents domaines de la cognition, un nuage de mystère subsiste toujours sur la façon d’assembler toutes les pièces du casse-tête.

Inventeurs à vos marques ! il le faut c’est une nécessité pour sortir de l’isola..

Auteur : Mathias WOU

Le « Mac » orphelin de Jef Raskin


Le père du célèbre Macintosh est mort samedi à l’âge de 61 ans des suites d’un cancer du pancréas. Il avait créé le premier ordinateur personnel.

Jef Raskin, qui avait conçu le Macintosh, ordinateur révolutionnaire d’Apple, est mort samedi 26 février à son domicile de Pacifica (Californie) à l’âge de 61 ans, a annoncé sa famille dans un communiqué.

En 1978, Jef Raskin avait rejoint Apple, jeune entreprise, et devenait le 31e employé de la future multinationale. Dès l’année suivante, il a eu une idée révolutionnaire pour le monde informatique, alors hermétique pour le grand public : son objectif était de créer un ordinateur à un prix abordable, ciblé vers les consommateurs et très facile à utiliser.

Jef_Raskin

Jef Raskin

A l’époque, l’usage d’un ordinateur était encore un vrai casse-tête, chaque utilisateur devant se souvenir de séries de commandes mystérieuses pour la moindre tâche.

A la tête d’une petite équipe, il a conçu l’ordinateur universellement connu comme le « Mac », choisissant le nom d’après sa variété de pomme préférée. Après s’être brouillé en 1981 avec Steve Jobs, cofondateur d’Apple, Jef Raskin avait quitté Apple, avant que le Macintosh soit commercialisé en 1984.

Idée simple

Comme beaucoup de produits révolutionnaires, le Macintosh développe une idée très simple: l’interface se présente sous la forme d’un bureau avec des classeurs et des fichiers qu’on déplace facilement d’un endroit à un autre.

« Il a été pour le Macintosh l’initiateur du projet, il n’existerait pas s’il n’avait pas été là », a réagi Andy Hertzfeld, un des premiers membres de l’équipe consacré au projet.

Malgré des ventes décevantes pour le « Mac » pendant les premiers mois, les idées à la base de l’interface de l’ordinateur ont rapidement inspiré ses concurrents dont Windows, le produit phare de Microsoft.

Après son départ d’Apple, Raskin avait fondé une autre entreprise informatique et conçu un nouvel ordinateur intégrant ses idées. Un film retraçant son film est actuellement en préparation. En décembre dernier, il avait confié à des amis qu’on lui avait diagnostiqué un cancer du pancréas.

Source : AP

La protection du matériel biologique par le droit d’auteur / De la bio-informatique retour au droit d’auteur pour la biotechnologie ?


La protection de la biotechnologie est un domaine relativement nouveau de recherche juridique, inscrit dans le cadre de la propriété intellectuelle. Le débat porte, jusqu’à présent, sur la possibilité de protection par le brevet, visant principalement à établir un équilibre entre la protection par le brevet et l’accès libre aux ressources génétiques, avec toutes les questions éthiques que cela implique. Cependant, le débat juridique n’arrive pas toujours à suivre les développements rapides de ce domaine. Les séquences génétiques peuvent être protégées par le brevet si elles ont été manipulées de manière à ce que les conditions de brevetabilité soient remplies, et ainsi une convergence peut-être remarquée dans le domaine de la bioinformatique : dans ce cas la recherche est effectuée afin d’utiliser du matériel biologique pour remplacer le code numérique conventionnel, et ainsi créer un logiciel pour la biologie.

La protection juridique de ces œuvres soulève une série de questions importantes pour les avocats spécialisés en matière de propriété intellectuelle. La question principale est si c’est le droit d’auteur ou le droit des brevets qui est le plus adéquat pour protéger de telles œuvres. Le choix entre les deux implique des conséquences significatives. Un brevet doit impliquer une activité inventive, être susceptible d’application industrielle et bien évidemment passer par une procédure d’examen. La protection par le droit d’auteur existe automatiquement, mais contrairement au brevet elle n’octroie pas à l’auteur un droit général d’usage mais un ensemble prédéfinit de droits exclusifs. Ces droits peuvent cependant empêcher l’utilisation de l’œuvre, surtout dans les cas où l’information est présentée en format numérique (c’est-à-dire lorsque l’information biologique est transformée en information numérique).

La protection du matériel biologique par la propriété intellectuelle présente une série de problèmes complexes, qui faisaient initialement partie du débat relatif aux brevets. Un aspect principal du problème est la question de l’accès aux ressources génétiques. La directive relative à la protection juridique des inventions biotechnologiques a répondu à ces inquiétudes, en disposant de certains droits d’accès relatifs au matériel biologique breveté (voir article 13). Néanmoins, même si la protection par le droit d’auteur est reconnue, l’étendue des droits d’accès serait certainement plus restreinte. Or, l’argument principal en faveur de la protection par le droit d’auteur est toujours valable: si les œuvres utilitaires telles que les logiciels ou les bases de données peuvent faire l’objet de protection par le droit d’auteur, il serait discriminatoire de refuser cette protection à l’auteur d’œuvres relevant du domaine biotechnologique.

L’existence ou non d’un droit d’auteur dépend des conditions d’originalité du droit applicable. Le droit britannique protège traditionnellement l’investissement, tandis que les systèmes juridiques continentaux contiennent des exigences plus strictes concernant la création intellectuelle de l’auteur de l’œuvre.

Le droit d’auteur peut ainsi exister dans le cas où une séquence génétique a été manipulée de manière à refléter un tel standard -c’est-à-dire en créant une disposition d’éléments d’une séquence génétique qui est individuelle et qui reflète les choix personnels de son auteur- et dans ce sens les efforts et la créativité son plutôt similaires à la création d’un programme d’ordinateur. Les deux types d’œuvre sont de nature fonctionnelle, dans le sens où une séquence d’instructions permettant d’obtenir un certain résultat doit être trouvée. De plus, les propositions récentes pour protéger les logiciels par le brevet prévoient la brevetabilité générale des inventions mises en œuvre par ordinateur, c’est-à-dire une série d’instructions qui donnent un résultat technique.

De plus, il se peut qu’une collection de matériel biologique -surtout une collection de séquences génétiques, manipulées ou non- soit considérée comme une base de données. La directive européenne concernant la protection juridique des bases des données fournit aux créateurs des bases des données un droit solide, reconnaissant le droit d’auteur dans la sélection originale ou l’arrangement des éléments de la base des données et reconnaissant en plus un droit sui generis de propriété intellectuelle de l’auteur -c’est-à-dire de la personne qui a fait un investissement substantiel dans l’obtention, la vérification ou la présentation du contenu d’une base de données- sur la base duquel l’auteur peut empêcher l’extraction et/ou la réutilisation du contenu d’une partie substantielle de la base de données. Étant donné que la directive ne fait pas de distinction concernant la nature des informations contenues dans la base des données, il est possible de l’appliquer à des informations de nature biologique.

Ceci peut avoir des conséquences pour les collaborations dans le domaine de la recherche, lorsqu’un partenaire réclame la protection par le droit d’auteur pour des résultats qui autrement seraient brevetables. Tandis qu’un partenaire peut demander une protection par le brevet pour l’application biotechnologique, soumise aux droits d’accès à des fins de recherche tels que définis par l’article 13 de la directive relative à la protection juridique des inventions biotechnologiques, l’éventuelle assimilation avec les droits sur le logiciel et les bases des données peut produire une situation dans laquelle l’exploitation d’un brevet est soumise à l’obtention d’une autorisation.

Le point problématique crucial est peut-être le fait que le droit d’auteur s’est de plus en plus éloigné de la réglementation des industries culturelles traditionnelles et a eu des effets de réaction en chaîne pour ce qui concerne la protection de l’information: tandis que le droit sur les brevets requiert au moins un certain caractère technique de l’information, l' »industrie de la société de l’information » utilise de plus en plus la protection par le droit d’auteur, indépendamment de la nature des données et des informations concernées. De cette manière, des informations de caractère technique rentrent inévitablement dans le domaine du droit d’auteur. L’exemple d’une séquence d’information génétique numérisée -c’est-à-dire des efforts du domaine de la bioinformatique qui peuvent facilement être classifiés en tant que logiciels- reflète un procédé éventuellement précoce, car dans ce cas les disparités entre le droit d’auteur et le droit sur les brevets ne sont pas très claires.

Dr Guido Westkamp, LL.M.
Senior Lecturer in Intellectual Property, Queen Mary Intellectual Property Research Institute, University of London

Source : www.ipr-helpdesk.org

Les logiciels


L’UE consulte les rivaux de Microsoft

Logiciel

Les organismes de régulation antitrust de l’Union européenne sont en pourparlers avec certains des rivaux de Microsoft Corp. Pour déterminer si le géant du logiciel respecte effectivement les termes du jugement historique que l’UE a rendu contre elle l’année dernière, rapportaient les autorités vendredi.

La Commission exécutive de l’Union européenne entend cette semaine les témoignages de divers fabricants de programmes informatiques et décidera par la suite si des sanctions supplémentaires sont nécessaires. Les amendes pourraient totaliser jusqu’à 5% du roulement quotidien.

Les organismes de régulation antitrust de l’Union européenne ont mis Microsoft à l’amende pour une somme record de 497 millions d’euros (654M$US) dans leur jugement du mois de mars 2004. La cour avait trouvé Microsoft coupable d’avoir établit un monopole abusif avec son système d’exploitation Windows et d’avoir évincé du marché toute concurrence.

Microsoft a qualifié le geste de l’UE de démarche parfaitement logique pour tester le marché. La société insiste pour dire qu’elle travaille à respecter les termes du jugement de L’UE.

Le jugement de l’UE force Microsoft à offrir une version alternative de Windows sans son Media Player, le programme de lecture de musique et de vidéo intégrée. Microsoft a également été forcée de révéler certains renseignements techniques pour permettre aux compagnies rivales d’améliorer l’interopérabilité de leurs produits avec le serveur Windows.

MARCHE FERME OU OUVERT !

Il faut se rendre à l’évidence que l’Empire Bill Gate, bien qu’ayant permis à Monsieur et Madame tout le monde d’avoir « Accès facile » et standardisé des programmes (Logiciels) dans l’univers du Personal Computer, ces Madame et Monsieur, consommateurs potentiels, ignorant des autres enjeux, en propriété intellectuelle par exemple, et enfin prisonnier Microsoft Tools, nous avons, en enrichissant davantage Bill, Appauvrit les autres Monsieur et Madame Inventeurs indépendants ou Inventeurs tout court. Du monopole dans ce marché informatique, toute autre nouveauté avait longtemps apparu comme concurrence déloyale sur Microsoft Corp.

Le commun des consommateurs oublie qu’avant que cet Empire Bill se construise sur du virtuel, plusieurs inventeurs indépendants ont dû laisser des plûmes de vie de savoir et de connaissance dans ce vaste domaine qu’est l’informatique. Face à la boucle US, l’Union européenne veut assurément garder des portes ouvertes aux petites Entreprise, aux innovations européennes en matière de programmes informatiques car, savoir rendre des logiciels compatibles dans l’univers Microsoft n’est plus désormais de la concurrence déloyale comme cela se percevait quelles années avant.

Histoire raconte

« Je pense qu’il y a un marché pour peut-être 5 ordinateurs dans le monde. »
disait Thomas Watson, président d’IBM, 1943

« Les ordinateurs du futur ne devraient pas peser plus de 1.5 tonnes. »
– Popular Mechanics, commentaires sur l’avancée des sciences, 1949

« J’ai traversé ce pays de long en large et parlé aux personnes les plus érudites sur ce sujet, et je peux vous assurer que le traitement informatique des données n’est qu’une toquade qui ne passera pas l’année. »

– L’éditeur en charge des publications techniques pour Prentice Hall, 1957

« Mais…à quoi cela peut-il bien servir ? »

– Un ingénieur de la division « Systèmes de Calcul Avancé » d’IBM, 1968, en commentant l’invention de la puce électronique.

« Il n’y a aucune raison valable pour que quiconque ait envie d’avoir un ordinateur chez lui. »

– Ken Olsen, président et fondateur de Digital Equipment Corp.,1977

« Ce « téléphone » a beaucoup trop de défauts pour qu’il puisse un jour être considéré comme un outil de communication. Cet équipement n’a donc aucune valeur à nos yeux. »

– Mémo interne de la Western Union, 1876.

« La « boîte à musique sans fil » n’a aucune valeur commerciale imaginable: Qui donc accepterait de payer pour recevoir un message qui n’est envoyé à personne en particulier ? »

– Les associés de David Sarnoff, en réponse à ses demandes urgentes d’investir dans la Radio dans les années 20.

« Le concept est intéressant et bien formulé, mais pour espérer avoir une note meilleure qu’un « C », encore faudrait-il que l’idée soit réalisable ! »

– Un professeur de management de l’université de Yale en réponse à la proposition de Fred Smith de créer un service fiable de livraison de nuit (Smith fonda ensuite Federal Express Corp.)

« Mais qui diable voudrait entendre les acteurs parler ? »

– H.M. – Warner, Warner Brothers, 1927.

« Des machines volantes plus lourdes que l’air sont IMPOSSIBLES ».

– Lord Kelvin, Président, Royal Society, 1895.

On est allé chez Atari, et on leur a dit : « Hé, on a amené ce truc amusant, en grande partie fabriquée avec vos composants : Qu’est-ce que vous diriez de nous sponsoriser ? Ou alors, on vous donne l’idée. C’est exactement ce qu’on désire : donnez-nous un salaire et on viendra travailler pour vous. » Et ils ont dit : Non. Alors, on est allé chez Hewlett-Packard, et ils ont dit : « Hé, on n’a pas besoin de vous, vous n’avez même pas été au collège ! »

– Steve Jobs, co-fondateur d’Apple Computer Inc. a propos de ses démarches auprès d’Atari et de HP afin de promouvoir l’ordinateur personnel qu’il avait fabriqué avec Steve Wozniak.

« Tout ce qui peut avoir été inventé, a été inventé. »

– Charles H. Duell, Commissaire du Bureau Américain des Brevets, 1899.

« 640K, ce devrait être assez pour tout le monde. »

– Bill Gates, 1981.

PRÉHISTOIRE…

L’histoire du réseau Internet est une succession de croisements entre plusieurs domaines d’activité : les mathématiques, les télécommunications, le codage, la cryptographie, l’électronique, la recherche militaire et universitaire…

Mais avant d’arriver aux technologies qui ont permis la création d’Internet, sa « préhistoire » débute en 1792, date de l’invention par les frères Chappe d’un télégraphe optique en France. Il permet d’envoyer des messages rapidement sur une longue distance en utilisant un réseau de tours surmontées d’un bras articulé pour transmettre à vue des signaux codés.

Il faudra attendre 1832 et l’invention du code morse puis du télégraphe par le peintre américain Samuel Morse pour que les évènements s’emballent. Le 24 Mai 1844, Morse effectue la première démonstration publique du télégraphe en envoyant le message « What hath God wrought ? » sur une distance de 60 km entre Philadelphie et Washington. Les réseaux télégraphiques vont très rapidement se développer dans le monde (37000 km de lignes installées en 10 ans).

1866 : pose d’un câble transatlantique entre les Etats-Unis et l’Europe pour interconnecter les systèmes de communication américains et européens (une première tentative avait échoué en 1858). Ils resteront en exploitation pendant une centaine d’années.

En 1867, l’américain Graham Bell invente le téléphone et fonde la Bell Telephone Company. La même année, les Américains Sholes et Gliden inventent et commercialisent la première machine à écrire sous la marque Remington.

1924 : la firme créée par Herman Hollerith en 1896, la Tabulating Machine Corporation devient l’International Business Machine (IBM).

Entre 1936 et 1938, l’allemand Konrad Zuse conçoit le Z1, premier ordinateur programmable mécanique.

En 1938, Claude Shannon, alors étudiant au MIT (Massachusetts Institute of Technology) à Cambridge, publie sa thèse de doctorat « A Symbolic Analysis of Relays and Switching Circuits » (Analyse symbolique des relais et commutateurs). À partir des règles de l’algèbre de Boole, dans laquelle tout problème peut être résolu en utilisant un formalisme binaire ( »vrai » ou  »faux »), Shannon met au point des circuits à relais électriques ou le relais ouvert est représenté par 1 et le relais fermé par 0 : Il invente le terme « binary digit », ou « bit », qui est devenu l’unité d’information.

En 1940, George Stibitz de Bell Labs communique par téléscripteur à partir du Dartmouth College (New Hampshire) et fait fonctionner à distance, une machine à calculer à relais située à New York. Pour décrypter les messages de l’armée Allemande, les Anglais mettent au point sur le site de Bletchley Park les calculateurs Robinson et Colossus sous la direction du mathématicien Alan Turing.

En 1945, Vannevar Bush, conseiller scientifique du président Roosevelt propose le Memex : une machine conceptuelle dont la description contient les germes des systèmes hypertextuels. Son système, décrit en les termes techniques limités de l’époque, devait pouvoir enregistrer une grande quantité d’informations, et serait pour l’homme une mémoire augmentée travaillant par associations d’idées. Il permettrait à l’utilisateur de créer des rails ou des pistes de navigation, des liens d’association entre des textes, des illustrations, des mécanismes d’annotation…

Dès 1946, l’ENIAC est opérationnel, il est considéré comme le premier ordinateur électronique programmable.

1948 : Claude Shannon publie son ouvrage « Théorie mathématique de la communication », coécrit avec Warren Weaver. Considéré comme le père de la transmission numérique des informations, il a également schématisé tout type de communication.

1955 : American Airlines est la première entreprise commerciale au monde à se doter d’un système de réservation de billets d’avion par ordinateur. C’est le premier grand réseau commercial d’ordinateurs, le SABRE (Semi Automated Business Related Environment), installé par IBM, qui relie 1 200 téléscripteurs à travers les Etats-Unis. Le RAMAC 305, premier disque dur, est commercialisé pour mener à bien ce projet.

1957 : Suite au lancement du premier Spoutnik par les Soviétiques, le président Dwight D. Eisenhower crée l’ARPA (Advanced Research Project Agency) au sein du DoD (Department of Defense) pour piloter un certain nombre de projets dans le but d’assurer aux USA la supériorité scientifique et technique sur les russes. Quelques années plus tard, l’ARPA s’intéressera aux réseaux d’ordinateurs et aux technologies de la communication, avec le réseau ARPANET, qui engendrera l’Internet.

1958 : La BELL crée le premier Modem permettant de transmettre des données binaires sur une simple ligne téléphonique.

La même année, installation du premier véritable réseau d’ordinateurs, dans le cadre du système de surveillance aérienne SAGE (Semi-Automatic Ground Environment). Des dizaines de radars postés aux frontières stratégiques se partageaient le soin de constituer en temps réel, une carte complète du ciel qui était centralisée grâce à quarante ordinateurs géants reliés par des lignes téléphoniques.

Chaque unité était capable de gérer 400 avions simultanément.

Ces petites machines ont énormément contribué à mettre tous les programmes de développement de l’internet. Apple. Macintosh. C’est quoi en fait ?

L’aventure Apple

Stephen Wozniak est né en 1950, dans la Silicon Valley. Son père, ingénieur en électronique, l’intéresse très tôt aux techniques électroniques. Wozniak devient vite très doué : à 13 ans, il gagne le premier prix d’un concours de création de machines à additionner et soustraire. Son professeur d’électronique à l’High School de Homestead découvre son talent et lui offre un job dans une entreprise locale, où il peut utiliser un ordinateur (un DEC PDP-8). Il découvre alors les possibilités de la machine, étudie son fonctionnement, et rêve de pouvoir un jour créer son propre ordinateur. En attendant de réaliser son rêve, il se penche sur les téléphones, et découvre qu’il est possible de téléphoner gratuitement en émettant certaines tonalités, pour bluffer les compagnies de téléphone.

D’ailleurs, ses amis se souviennent que son premier coup de téléphone fut pour le Pape, afin de se confesser…>>>

Pour sortir d’une autre forme d’esclavagisme, il sera permis mais, tous les coups ne seront pas permis ; simplement qu’il faudra être sérieusement Innovant à l’avenir ! Invention et Innovation avec qualité prix c’est le rendez-vous du donner et recevoir pour les Inventeurs.

Auteur : Mathias WOU

La justice suisse fait de « Ben Laden » une marque commerciale


La justice suisse a autorisé le résident genevois Yeslam Ben Laden, demi-frère du chef d’al Qaïda, à utiliser son nom de famille comme marque commerciale.

Une cour d’appel vient de publier une décision rendue en juin dernier, qui estime que la marque « Ben Laden » ne perturbe pas l’ordre public. En première instance, l’Institut fédéral de la propriété intellectuelle avait jugé que cette marque pouvait « blesser moralement » la Suisse.

« Je n’ai pas l’intention d’exploiter commercialement le nom de Ben Laden pour l’instant, mais déposer la marque évitera que d’autres n’en fassent un mauvais usage », a précisé Yeslam Ben Laden, cité par la Tribune de Genève.

L’homme d’affaires suisso-saoudien, qui a condamné à plusieurs reprises les attentats du 11 septembre, prévoit de lancer avant fin 2005 un parfum baptisé « Yeslam », arborant le logo « YB ».

Source : Reuters

Record de candidatures pour le Nobel de la paix 2005


Le chiffre définitif de candidatures au prix Nobel de la paix a atteint cette année un nouveau record, avec 199 personnes et organisations en lice, a annoncé l’Institut Nobel jeudi.

Traditionnellement tenue secrète, la liste de postulants compte 163 personnalités et 36 organisations, a déclaré à l’AFP Geir Lundestad, l’influent directeur de l’Institut Nobel.

Parmi les candidatures pressenties figurent des dirigeants incarnant le renouveau démocratique de l’Europe de l’est, tels les présidents ukrainien Viktor Iouchtchenko et géorgien Mikhaïl Saakachvili ou l’ancien président tchèque Vaclav Havel.

Les ONG, fortement mobilisées pour porter secours aux rescapés du tsunami sont aussi dans la course, estiment les observateurs, qui citent les noms d’Oxfam ou de Save the Children.

Soixante ans après le largage de la première bombe atomique et alors que la question du nucléaire en Iran et en Corée du nord domine l’actualité, la lutte contre la prolifération pourrait également être à l’honneur.

Figureraient ainsi parmi les candidatures l’Agence internationale de l’énergie atomique (AIEA), le technicien nucléaire israélien Mordechai Vanunu et l’association japonaise Hidankyo qui regroupe des survivants des bombardements atomiques d’Hiroshima et de Nagasaki.

Le comité Nobel arrête en général son choix en septembre, le nom du ou des vainqueurs –trois au maximum– étant annoncé vers la mi-octobre. Puis le prix est traditionnellement remis à Oslo le 10 décembre, date-anniversaire de la mort de son fondateur, l’inventeur suédois de la dynamite Alfred Nobel.

L’an dernier, le prix Nobel –un diplôme, une médaille en or et un chèque de 10 millions de couronnes suédoises (environ 1,1 million d’euros)– était revenu à la Kenyane Wangari Maathai, première femme africaine et première militante écologiste à recevoir la prestigieuse récompense.

Source : AFP

Quand la technologie nous rendra immortel


A 56 ans, le célébrissime inventeur Ray Kurzweil prend un soin maniaque de son corps. C’est qu’il lui faut tenir encore : dans 20 ans, selon son dernier ouvrage « Le voyage fantastique » (Fantastic Voyage: Live Long Enough to Live Forever), nous aurons atteint l’immortalité.

Comment ? Grâce à des millions de nanorobots, de la taille d’un globule sanguin, qui s’affaireront jour et nuit auprès de nos organes pour les protéger et les réparer ; à un codage génétique entièrement logiciel, que nous pourrons mettre à jour via l’Internet ; à des médicaments qui agissent au niveau de la cellule ou qui recréent des tissus à partir de l’information fournie par nos cellules saines. En attendant de remplacer entièrement la circulation sanguine par un système plus efficace…

Nanorobot.jpg

Tout cela pourrait paraître fantaisiste, mais Kurzweil, ancien étudiant du MIT, est l’un des inventeurs-informaticiens les plus primés des États-Unis, un homme que plusieurs experts tiennent pour un génie. En 1974, il inventait un appareil capable de lire à voix haute n’importe quel texte imprimé, avant de créer des synthétiseurs musicaux pour l’un de ses clients, Stevie Wonder. Depuis, il a fait accomplir à l’intelligence artificielle des progrès décisifs, notamment dans la reconnaissance des formes.

Ce dernier opus de Ray Kurzweil se situe en fait dans la suite de ses précédents ouvrages, dans lesquels il prédit que le progrès des technologies informatiques fera perdre à l’homme le monopole de l’intelligence comme de la conscience. Et lorsque les machines deviendront intelligentes, elles le seront rapidement beaucoup plus que nous. L’avenir de l’humanité se situerait alors dans une forme de symbiose avec la machine. Comme le montre Automates Intelligents, la thèse est forte et étayée, mais elle suscite également (voire heureusement) des oppositions et des interrogations.

Source : internetactu.net