Reconhecimento de fala em sistemas veiculares
DOI:
https://doi.org/10.21727/teccen.v8i2.494Palavras-chave:
Reconhecimento Automático de Fala, Máximo a PosterioriResumo
Os sistemas de reconhecimento automático de fala funcionam bem em ambientes pouco ruidosos, mas seu desempenho cai drasticamente na presença de ruído. Neste contexto, propõe-se o emprego da técnica de adaptação baseada no critério de Máximo a Posteriori combinado ao treinamento multi-estilo com o intuito de minimizar os efeitos e as variabilidades indesejadas causadas pelo ruído de fundo.Downloads
Referências
Alcaim, A., Solewicz, J. A., & Moraes, J. A. (1992). “Frequência de ocorrência
dos fones e listas de frases foneticamente balanceadas no português falado
no Rio de Janeiro”, Revista da Sociedade Brasileira de Telecomunicações,
(1), 23-41.
Ali, S., A., Haider, N., G., & Pathan, M., K. (2012). “A taxonomy-oriented
overview of noise compensation techniques for speech recognition”, In
ARPN (Asia Research Publishing Network), ARPN Journal of Engineering
and Applied Sciences, 7(7), 825-833.
Bippus, R., Fischer, A., & Stahl, V. (1999). “Domain adaptation for robust
automatic speech recognition in car environments”. In: EUROSPEECH, 6th
European Conference on Speech Communication and Technology, Budapest,
Hungria, 1943-1946.
Buera, L., Lleida, E., Miguel, A., & Ortega, A. (2004). “Multi-environment
models based linear normalization for speech recognition in car conditions”;
In ICASSP, International Conference on Acoustics, Speech, and Signal
Processing. Montreal, Canadá, 1, 1013-1016.
Buera, L., Lleida, E., Miguel, A., Ortega, A., & Saz, O. (2007). “Cepstral
Vector Normalization Based on Stereo Data for Robust Speech Recognition”,
IEEE Transactions on Audio, Speech, and Language Processing, 15, 1098-1113.
Faubel, F., Georges, M., Kumatani, K., Bruhn, A., & Klakow, D. (2011).
“Improving hands-free speech recognition in a car trough audio-visual
voice activity detection”, In: IEEE (Institute of Electrical and Electronic
Engineering), Joint Workshop on Hands-free Speech Communication and
Microphone Arrays (HCMSA), 2, 70-75.
Furui, S. (2007). “50 years of progress in speech recognition technology:
Where we are, and where we should go? From a poor dog to a super cat”.
Keynote Presentation, ICASSP.
Gelin, P., & Junqua, J. (1999). “Techniques for robust speech recognition
in the car environment”, In EUROSPEECH, 6th European Conference on
Speech Communication and Technology, Budapest, Hungria, 2483-2486.
Li, J., Seltzer, M. L., & Gong, Y. (2012). “Improvements to VTS feature
enhancement”, In ICASSP, International Conference on Acoustics, Speech,
and Signal Processing. Kyoto, Japão, 4677-4680.
Lippmann, R., Martin, E., & Paul, D. (1987). “Multi-style training for
robust isolated-word speech recognition”, Proceedings of the International
Conference on Acoustics, Speech, and Signal Processing, 12, 705-708.
Pearce, D., & Hirsch, H. (2000). “The Aurora experimental framework
for the performance evaluation of speech recognition systems under noisy
conditions”, In ISCA (International Speech Conference Association), 6th
International Conference on Spoken Language Processing. Beijing, China.
Reynolds, D. A., Quatieri, T. F. & Dunn, R. B. (2000). “Speaker verification
using adapted Gaussian mixture models”, Digital Signal Processing, 10, 19-41.
Saitoh, D., Kaminuma, A., Sruwatari, H., Nishikawa, T., & Lee, A. (2005).
“Speech extraction in car interior using frequency-domain ICA with rapid
filter adaptations”, In INTERSPEECH, Lisboa, Portugal.
Saruwatari, H., Sawai, K., Lee, A., Shikano, K., Kaminima, A., & Sakata,
M.,(2003). “Speech enhancement and recognition in car environment using
blind source separation and subband elimination processing”, In ICA, 4th
International Symposium on Independent Component Analysis and Blind
Signal Separation. Nara, Japão, 367-372.
Schless, V., & Class, F. (1997). “Adaptive model combination for robust
speech recognition in car environments”, In EUROSPEECH, 5th European
Conference on Speech Communication and Technology, 3, 1091-1094,
Rhodes, Grécia.
Valério, T. A. F. (2009). “Treinamento multi-estilo e adaptação de modelos
via MAP para reconhecimento de fala em ambientes ruidosos”. Dissertação
de Mestrado. Inatel.
Ynoguti, C. A. (1999). “Reconhecimento de fala contínua usando modelos
ocultos de Markov”. Ph. D. Universidade Estadual de Campinas.
Ynoguti, C. A., & Violaro, F. (2000). “Um sistema de reconhecimento
de fala contínua baseado em modelos de Markov contínuos”, In SBrT
(Sociedade Brasileira de Telecomunicações), XVIII Simpósio Brasileiro de
Telecomunicações.Gramado, Brasil.
Ynoguti, C. A., Violaro, F., (2001). “Desenvolvimento de um conjunto
de ferramentas para pesquisa em reconhecimento de fala”, Revista
Telecomunicações, 4(2), 36-43
Downloads
Publicado
Edição
Seção
Licença
Autores que publicam nesta revista concordam com os seguintes termos:
Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o artigo simultaneamente licenciado sob a Licença Creative Commons Creative Commons CC BY que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista. Esta licença permite que outros distribuam, remixem, adaptem e criem a partir do seu trabalho, mesmo para fins comerciais, desde que lhe atribuam o devido crédito pela criação original. É a licença mais flexível de todas as licenças disponíveis. É recomendada para maximizar a disseminação e uso dos materiais licenciados.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
Ver o texto legal da licença em: https://creativecommons.org/licenses/by/4.0/