Recherche
Plan du site
Nous contacter
Newsletter

Parole d'experts > R�veille-moi � 7h30

R�veille-moi � 7h30 (1)
Des ordinateurs�compatibles � la voix (2�me partie) : introduction � la technologie de reconnaissance de la parole.

Par Denis Susac

Suite de l'article

La reconnaissance de la parole ou reconnaissance vocale est la capacit� d�un ordinateur � comprendre et � interpr�ter des mots �nonc�s. Gr�ce aux r�cents progr�s en mati�re de logiciels et de mat�riel informatique, elle pr�sente une alternative efficace et abordable aux p�riph�riques d�entr�e traditionnels. Les chercheurs s�int�ressent �galement aux techniques de traitement du langage naturel en tant qu�extension de la reconnaissance vocale, fournissant ainsi une interface plus naturelle et plus intuitive. Les logiciels de reconnaissance vocale ont certes atteint plus de 90 % de taux de pr�cision, mais attendez un peu avant de jeter votre clavier. Avec une moyenne de 10 erreurs sur 100 mots, c�est loin d��tre parfait�! Cet article donnera un bref aper�u de cette technologie et de ses applications pratiques. Nous commencerons, comme d�habitude par un peu de th�orie et nous poursuivrons par des exemples concrets.

Les premi�res tentatives de cr�ation d�une machine capable de comprendre le discours humain datent de la fin des ann�es 40, au sein du Minist�re de la D�fense am�ricain. Le but affich� �tait la traduction et l�interpr�tation des messages russes intercept�s. Ces premi�res exp�riences s�appuyaient de mani�re sp�cifique sur une approche descendante, fournissant une recherche mot � mot. Cependant, essayez d�imaginer combien de temps et de ressources informatiques ont �t� n�cessaires pour enregistrer et emmagasiner la repr�sentation de chaque mot dans chaque langue. M�me alors, la repr�sentation de symboles en discours n�est pas unilat�rale, d�autant que diff�rents symboles peuvent r�sulter de sons similaires. Il s�est av�r� que la reconnaissance vocale se situe � un niveau inf�rieur, au niveau du phon�me. Le phon�me est la plus petite unit� du discours qui distingue un �nonc� d�un autre. Le probl�me majeur r�side dans le fait que les phon�mes, pris individuellement, se� ��comportent mal���: les sons individuels peuvent varier en fonction des sons qui suivent et pr�c�dent les phon�mes en question. Dans un syst�me de reconnaissance vocale moderne, l�amplitude num�rique d�un signal vocal, captur�e par une carte son, est dans un premier temps transform� en composants de fr�quence dominante. Chacun de ces composants est li� � un phon�me sp�cifique, le syst�me peut donc interpr�ter les mots d�un dictionnaire � partir des s�quences de phon�me qui les constituent. Le processus cl� montrant la probabilit� d�une combinaison de phon�me successive s�appuie sur la technique du mod�le de Markov cach� (HMM). La plupart des algorithmes de reconnaissance vocale s�appuient actuellement sur le HMM, avec quelques nuances pour les calculs de probabilit�, sch�mas de d�tection de endpoints�(points d�arriv�e) pour les dict�es continues, etc. Le kit mod�le de Markov (HTK) cach� de Cambridge est un kit portable permettant de concevoir et de manipuler des mod�les de Markov cach�s. Si vous �tes int�ress�s par une approche plus directe, un manuel HTK vous propose un tutoriel approfondi pour construire ce type de syst�mes. Le dernier chapitre d�crit la construction d�un d�tecteur de voix d�applications (14 �tapes complexes, d�crites en 23 pages). Vous constaterez rapidement que cr�er un d�tecteur de voix, � partir de scratch est tr�s difficile et n�cessite beaucoup de temps- sans compter que le r�sultat est d�pendant de la langue. Donc, apr�s avoir cr�� un d�tecteur pour la langue anglaise, qu�en est-il des centaines d�autres langues�?

Suite de l'article


Recommander Agentland  -  Partenariat  -  Confidentialit�  -  Cr�dits -  Goodies
Recherche  -  Plan du site  -  Nous contacter  -  Newsletter  -  Presse
agent-land.fr / AgentLand.com


NEWSLETTER
Chaque semaine, recevez les derni�res actualit�s des agents  

TOP 10 AGENTS