Autor: Felipe Schwartzmann
Todos nós conhecemos as dificuldades da tecnologia de reconhecimento de voz – basta ligar para uma empresa, ser atendido por uma URA, enunciar dados como nome e CPF para saber que, segundos depois, será necessário repetir essas mesmas informações, agora para um agente humano. Isso é um sinal da dicotomia entre o que é dito e o que é reconhecido pelo sistema. Embora algumas dessas más experiências estejam relacionadas a problemas no projeto dos sistemas, muitas outras são consequências de limitações inerentes à tecnologia de reconhecimento automático de voz.
A compreensão dessas restrições é fundamental para que os gestores de contact center estabeleçam expectativas de desempenho realistas. Essa visão pragmática da tecnologia de reconhecimento de voz serve, também, para apontar os caminhos de otimização desses recursos, de modo a garantir a conquista dos objetivos por trás da implementação dessas soluções.
Há, a princípio, duas conhecidas limitações de sistemas. A primeira se refere aos arquivos gramaticais – o reconhecimento de um aplicativo de voz se apoia em um arquivo gramatical para cada conjunto de fonemas. Embora haja uma série de ajustes adicionais relacionadas aos níveis de sincronização e de confiança na compreensão do sistema, em geral um arquivo gramatical é o grande motor do reconhecimento da voz. Geralmente, os problemas surgem quando dois interlocutores na chamada dizem algo que o arquivo gramatical – que também lê fonemas – não possui em seus sistemas. Pode ser, por exemplo, uma falha causada pela ausência de uma referência que deveria ter sido armazenada no sistema. Quando isso acontece, a aplicação não consegue construir uma relação de correspondência entre o que foi falado e o conteúdo gramatical gravado originalmente no arquivo.
A segunda limitação está relacionada ao que o sistema escuta efetivamente. Muitas vezes isso é bem diferente do que foi dito. Durante uma conversa entre seres humanos, as pessoas às vezes não escutam ou então ignoram de propósito o que foi dito. Nos sistemas de reconhecimento de voz, ao contrário, tudo é escutado, tudo passa pelo crivo do sistema.
Imagine o efeito disso sobre, por exemplo, uma tosse ou uma risada. A pessoa que escuta esse som sabe que ele não deve ser decodificado em palavras. O sistema, por outro lado, tentará decodificar esse som, e falhará.
Falhas também surgem quando outro tipo de interação muito humana acontece: pessoas participando simultaneamente de múltiplas conversações. É comum que o aplicativo de reconhecimento de voz não dê conta de processar duas conversas. Esse tipo de comportamento é muito difícil de decifrar.
A compreensão das limitações dessas ferramentas ajuda as empresas a se centrarem nos fatores que podem ser alterados para melhorar o desempenho, evitando o desperdício de recursos.
Embora existam limitações inerentes, vários fatores podem maximizar o desempenho dessas ferramentas. Eis aqui duas boas práticas que podem melhorar significativamente os resultados:
1) Implementação dos testes de usabilidade – Quando você sente que seu aplicativo foi testado e está pronto para ser utilizado é necessário trabalhar com os membros da equipe não pertencentes ao projeto para testá-lo e obter feedback. Se possível, é melhor envolver um grupo escolhido dentre os seus clientes. Esses testes proporcionam cenários e dados de teste. Solicite o feedback dessas pessoas em áreas ou aspectos como simplicidade, ritmo, clareza da autodireção, reconhecimento (que pode estar respondendo algo que não corresponde), etc. Os dados obtidos a partir dos testes de usabilidade são extremamente valiosos e servem para aprender acerca dos desafios que podem se apresentar aos clientes quando o aplicativo estiver em uso.
2) Ajuste do sistema atual – Frequentemente, os aplicativos de voz, os sistemas de discagem por tom ou Multifrequência de Duplo Tom (DTMF) e os aplicativos de URA são, projetados, desenvolvidos e implementados uma única vez. Tratam-se, em geral, de agentes eletrônicos que necessitavam de pouca ou nenhuma formação para atuar. Esse não é o caso dos sistemas de reconhecimento de voz.
Lembre-se, também, de que esses aplicativos necessitam de ajustes periódicos. Os alinhamentos podem melhorar o desempenho de maneira constante. O recomendável é que, durante o primeiro ano, sejam realizados entre dois a três ajustes. Para aplicativos mais maduros e estáveis, um ou dois ajustes por ano serão suficientes.
À medida que as limitações inerentes à tecnologia de reconhecimento de voz sejam compreendidas e as práticas sejam aperfeiçoadas, os sistemas serão cada vez mais proveitosos para as empresas de contact center.
Felipe Schwartzmann é territory manager da Interactive Intelligence para a América Latina.