Reconhecimento de fala em sistemas veiculares

Autores

  • Tatiane M. Vital
  • Carlos A. Ynoguti

DOI:

https://doi.org/10.21727/teccen.v8i2.494

Palavras-chave:

Reconhecimento Automático de Fala, Máximo a Posteriori

Resumo

Os sistemas de reconhecimento automático de fala funcionam bem em ambientes pouco ruidosos, mas seu desempenho cai drasticamente na presença de ruído. Neste contexto, propõe-se o emprego da técnica de adaptação baseada no critério de Máximo a Posteriori combinado ao treinamento multi-estilo com o intuito de minimizar os efeitos e as variabilidades indesejadas causadas pelo ruído de fundo.

Downloads

Não há dados estatísticos.

Referências

Alcaim, A., Solewicz, J. A., & Moraes, J. A. (1992). “Frequência de ocorrência

dos fones e listas de frases foneticamente balanceadas no português falado

no Rio de Janeiro”, Revista da Sociedade Brasileira de Telecomunicações,

(1), 23-41.

Ali, S., A., Haider, N., G., & Pathan, M., K. (2012). “A taxonomy-oriented

overview of noise compensation techniques for speech recognition”, In

ARPN (Asia Research Publishing Network), ARPN Journal of Engineering

and Applied Sciences, 7(7), 825-833.

Bippus, R., Fischer, A., & Stahl, V. (1999). “Domain adaptation for robust

automatic speech recognition in car environments”. In: EUROSPEECH, 6th

European Conference on Speech Communication and Technology, Budapest,

Hungria, 1943-1946.

Buera, L., Lleida, E., Miguel, A., & Ortega, A. (2004). “Multi-environment

models based linear normalization for speech recognition in car conditions”;

In ICASSP, International Conference on Acoustics, Speech, and Signal

Processing. Montreal, Canadá, 1, 1013-1016.

Buera, L., Lleida, E., Miguel, A., Ortega, A., & Saz, O. (2007). “Cepstral

Vector Normalization Based on Stereo Data for Robust Speech Recognition”,

IEEE Transactions on Audio, Speech, and Language Processing, 15, 1098-1113.

Faubel, F., Georges, M., Kumatani, K., Bruhn, A., & Klakow, D. (2011).

“Improving hands-free speech recognition in a car trough audio-visual

voice activity detection”, In: IEEE (Institute of Electrical and Electronic

Engineering), Joint Workshop on Hands-free Speech Communication and

Microphone Arrays (HCMSA), 2, 70-75.

Furui, S. (2007). “50 years of progress in speech recognition technology:

Where we are, and where we should go? From a poor dog to a super cat”.

Keynote Presentation, ICASSP.

Gelin, P., & Junqua, J. (1999). “Techniques for robust speech recognition

in the car environment”, In EUROSPEECH, 6th European Conference on

Speech Communication and Technology, Budapest, Hungria, 2483-2486.

Li, J., Seltzer, M. L., & Gong, Y. (2012). “Improvements to VTS feature

enhancement”, In ICASSP, International Conference on Acoustics, Speech,

and Signal Processing. Kyoto, Japão, 4677-4680.

Lippmann, R., Martin, E., & Paul, D. (1987). “Multi-style training for

robust isolated-word speech recognition”, Proceedings of the International

Conference on Acoustics, Speech, and Signal Processing, 12, 705-708.

Pearce, D., & Hirsch, H. (2000). “The Aurora experimental framework

for the performance evaluation of speech recognition systems under noisy

conditions”, In ISCA (International Speech Conference Association), 6th

International Conference on Spoken Language Processing. Beijing, China.

Reynolds, D. A., Quatieri, T. F. & Dunn, R. B. (2000). “Speaker verification

using adapted Gaussian mixture models”, Digital Signal Processing, 10, 19-41.

Saitoh, D., Kaminuma, A., Sruwatari, H., Nishikawa, T., & Lee, A. (2005).

“Speech extraction in car interior using frequency-domain ICA with rapid

filter adaptations”, In INTERSPEECH, Lisboa, Portugal.

Saruwatari, H., Sawai, K., Lee, A., Shikano, K., Kaminima, A., & Sakata,

M.,(2003). “Speech enhancement and recognition in car environment using

blind source separation and subband elimination processing”, In ICA, 4th

International Symposium on Independent Component Analysis and Blind

Signal Separation. Nara, Japão, 367-372.

Schless, V., & Class, F. (1997). “Adaptive model combination for robust

speech recognition in car environments”, In EUROSPEECH, 5th European

Conference on Speech Communication and Technology, 3, 1091-1094,

Rhodes, Grécia.

Valério, T. A. F. (2009). “Treinamento multi-estilo e adaptação de modelos

via MAP para reconhecimento de fala em ambientes ruidosos”. Dissertação

de Mestrado. Inatel.

Ynoguti, C. A. (1999). “Reconhecimento de fala contínua usando modelos

ocultos de Markov”. Ph. D. Universidade Estadual de Campinas.

Ynoguti, C. A., & Violaro, F. (2000). “Um sistema de reconhecimento

de fala contínua baseado em modelos de Markov contínuos”, In SBrT

(Sociedade Brasileira de Telecomunicações), XVIII Simpósio Brasileiro de

Telecomunicações.Gramado, Brasil.

Ynoguti, C. A., Violaro, F., (2001). “Desenvolvimento de um conjunto

de ferramentas para pesquisa em reconhecimento de fala”, Revista

Telecomunicações, 4(2), 36-43

Downloads

Publicado

2016-11-17