O canal para quem respira cliente.

Pesquisar
Close this search box.

Por que adotar a biometria de voz?

Autor: Marcus Loureiro
Faz mais de cinco anos que decidimos nos dedicar, de forma estruturada e definitiva, a introduzir em nossa oferta a solução de biometria de voz. No México, onde órgãos reguladores exigiram que mecanismos adicionais de segurança fossem adotados em transações bancárias, a biometria de voz foi o método adotado pelas principais instituições de grande porte do país. Um dos objetivos desse artigo, além de tentar entregar uma visão um pouco mais detalhada sobre o uso desta tecnologia, é entendermos as principais razões para esta escolha.
Antes de mais nada, é importante definirmos alguns conceitos básicos que nos ajudarão a compreender melhor os desafios, vantagens e desvantagens deste tipo de solução. Sistemas biométricos desempenham um importante papel em atividades que requerem a autenticação prévia do usuário, ou seja, a confirmação de que determinada pessoa é realmente quem ela diz ser antes que alguma ação seja realizada. Para isto, sistemas biométricos fazem uso de características físicas e comportamentais dos indivíduos, as quais são únicas, intrínsecas de cada pessoa, e entregam uma resposta que indicará com um alto nível de precisão a autenticidade da identidade daquela pessoa. Percebe-se, imediatamente, que sistemas biométricos apresentam níveis de segurança mais elevados quando comparados com métodos tradicionais, tais como o uso de senhas, PIN´s, Tokens, etc., uma vez que parâmetros biométricos não podem ser esquecidos, roubados e possuem um nível de dificuldade maior para serem copiados com perfeição. Desta forma, a autenticação dos usuários deixa de ser baseada em elementos e/ou informações que a pessoa saiba ou tenha e passa a ser baseada no que a pessoa é. Neste ponto vale a pena ratificar que sistemas biométricos também não são 100% precisos.
Como mencionado mais acima, sistemas biométricos entregam respostas que indicam com um alto nível de precisão (menor que 100%) a autenticidade da identidade de cada pessoa. Cabe a cada instituição que faz uso de sistemas deste tipo definir suas regras de negócio e decidir qual será o nível de precisão exigido durante a autenticação do usuário para autorizar ou bloquear cada transação a ser realizada.
Existem vários tipos de tecnologias baseadas na coleta e análise de dados biométricos. Dentre os dados biométricos mais conhecidos e utilizados estão:
– Análise da Impressão Digital
– Análise da Face
– Análise da Iris
– Análise da Retina
– Análise das Veias da palma da mão, das costas da mão, do pulso, do dedo, etc.
– Análise da Voz
Todas as soluções biométricas, tanto as citadas acima como outras não mencionadas, tem seus prós e contras. Entretanto, levando-se em consideração aspectos como a facilidade de uso, a mobilidade (possibilidade de se autenticar remotamente), o fato de ser mais ou menos intrusiva, os custos de implementação e manutenção, a necessidade de uso de equipamentos específicos e a precisão obtida nos resultados, a utilização de soluções baseadas na Biometria da Voz tem demonstrado uma excelente relação custo-benefício. Primeiro porque falar é uma das ações mais naturais para o ser humano e, em geral, não requer nenhum esforço. Segundo porque ao utilizar a voz como mecanismo de autenticação, obtém-se um nível de conforto e naturalidade muito grande, permitindo que as pessoas se autentiquem a qualquer momento e de qualquer lugar. Terceiro, porque para a coleta da voz, seja para o processo de cadastro inicial da mesma ou para o uso rotineiro antes de qualquer transação, não é necessária a utilização de nenhum equipamento específico que já não faça parte do cotidiano das pessoas hoje em dia, como telefones ou microfones (no caso do Reconhecimento Facial, do Reconhecimento da Iris e do Reconhecimento das Veias das Mãos, por exemplo, é necessária a utilização de equipamentos específicos e caros). Em quarto lugar, porque diferentemente da coleta de outros dados biométricos, como os dados da Face e da Iris, os quais requerem a aproximação da face ou dos olhos de um equipamento que faz a análise dos dados coletados, a coleta da voz não é intrusiva. Qualquer coleta de dados biométricos que seja intrusiva tende a se tornar desagradável para o ser humano e pode criar resistência ao seu uso.
Outro aspecto que tem impulsionado o uso da Biometria da Voz atualmente é a precisão dos resultados, a qual aumentou consideravelmente nos últimos anos. Não há dúvidas de que o uso da voz sofre a influência de alguns fatores que contribuem para reduzir um pouco a sua precisão quando comparada com outros dados biométricos, como o Reconhecimento da Face e da Iris. Dentre estes fatores estão os ruídos externos e a mudança da voz com o tempo. Entretanto, com o enorme avanço da tecnologia disponível hoje em dia, as principais soluções do mercado são capazes de “se adaptar com o tempo” (retroalimentação) e autenticar uma pessoa pelo padrão da sua voz com níveis de precisão acima dos 95% (sendo conservador).
Como dito anteriormente, cabe a cada instituição definir suas regras de negócio e decidir qual será o nível de precisão exigido durante a autenticação do usuário para autorizar ou bloquear determinada transição. Cabe, neste ponto, introduzir os conceitos das Taxas de Falsa Aceitação (FAR – “False Acceptance Rate”) e Falsa Rejeição (FRR – “False Rejection Rate”), ambas fundamentais no processo de autenticação dos usuários. A Taxa de Falsa Aceitação (FAR) indica a probabilidade de que a solução de Biometria permita a autenticação de um usuário não autorizado (impostor, fraudador, etc.). A Taxa de Falsa Rejeição (FRR) indica a probabilidade de que a solução de Biometria de Voz rejeite um usuário autorizado (autêntico), que realmente é quem diz ser. Obviamente, se requer que ambas as taxas (FAR e FRR) sejam as mais baixas possíveis, de forma a evitar a autenticação de impostores, reduzindo-se as fraudes, assim como evitar a rejeição de usuários autênticos, reduzindo-se possíveis más percepções sobre o sistema e consequentes resistências ao seu uso. Entretanto, estas taxas são dependentes entre si, ou seja, quanto menor for a FAR, maior será a taxa FRR, e vice-versa. Portanto, o processo de calibração de FAR e FRR é uma etapa fundamental para o sucesso do projeto. Vale ressaltar que quando a solução de Biometria é utilizada para controle de acesso lógico ou físico, o objetivo principal da mesma é evitar o acesso de indivíduos não autorizados (impostores). Conclui-se, portanto, que para estes casos a definição de uma FAR muito baixa deve ser priorizada, mesmo que isso signifique pagar o preço de uma FRR mais alta. Também vale citar que a FRR é fortemente dependente do comportamento do usuário e pode apresentar níveis elevados devidos ao uso incorreto e devidos às condições do ambiente. Em grande parte dos casos a FRR diminui à medida que os usuários adquirem mais experiência sobre o uso da solução de biometria.
Em sua grande maioria e pensando em fins de utilização massiva, as soluções de Biometria de Voz podem ser de dois tipos:
Dependentes do Texto: neste caso a instituição que implanta a solução solicita     aos seus usuários que cadastrem uma frase pré-definida e, ao serem solicitados, repitam essa mesma frase a cada transação que realizarem. Esta “frase padrão” (ou “senha vocal”) é a mesma para todos os usuários. Por exemplo: “Na minha empresa, minha voz é minha senha”. O tempo requerido para realizar a autenticação do usuário é curto, em torno de 10s.
Independentes do Texto: neste caso a instituição informa aos seus usuários que determinada conversação telefônica será gravada e começa a armazenar estas conversações livres para criar a impressão vocal de cada usuário, não havendo a necessidade de cadastrar e repetir uma frase padrão. Apesar de ser mais natural, a cada nova transação, será necessária uma conversação de, no mínimo, 30s para que seja possível autenticar um usuário com base na sua impressão vocal.
Percebe-se aqui outra vantagem da utilização da Biometria de Voz pelas instituições: a diminuição nos tempos de atendimento em seus Call Centers. Como se sabe, hoje em dia os primeiros segundos e até mesmo o primeiro minuto da maioria das chamadas aos Call Centers se destinam a identificar e autenticar o usuário. Portanto, ao deixarem de utilizar o conhecido mecanismo de identificação feito com o uso de tokens, pins e as tradicionais perguntas e respostas para passarem a utilizar a autenticação do usuário pelo seu padrão de voz, as instituições podem reduzir o tempo de atendimento consideravelmente (em alguns casos a redução ultrapassa os 30s). E ao reduzirem o tempo de atendimento, estarão reduzindo consideravelmente os custos de suas operações, sendo mais eficientes. Pesquisas comprovam que as pessoas não gostam dos tradicionais sistemas de perguntas e respostas. Elas se sentem pressionadas, temerosas de entregarem respostas erradas por não se lembrarem das mesmas, ficam impacientes e irritadas. Como vimos anteriormente e voltamos a mencionar, a análise da voz por sistemas biométricos traz benefícios que vão além da segurança, entregando uma percepção de qualidade e conforto aos usuários.
Outros desafios ao se implementar um projeto de Biometria por Voz bem-sucedido residem na geração do modelo acústico e no processo de cadastro das impressões vocais dos usuários. O modelo acústico é necessário para “treinar” a solução antes que a mesma entre em produção comercial, ou seja, é a preparação da solução através do ajuste de diversos parâmetros para que a solução possa analisar corretamente os padrões de vozes com os quais ela irá lidar no dia-a-dia. O mesmo deve ser feito de forma controlada e com a maior representatividade possível dos vários tipos de padrões de vozes presentes na base de clientes da instituição. Já o cadastro das vozes dos usuários, que vem logo após a criação e os ajustes do modelo acústico, é um processo que deve ser feito de forma gradativa e deve considerar uma forte estratégia de comunicação da instituição, alertando e informando os usuários sobre a forma de fazê-lo e sobre os benefícios do novo processo de autenticação. Recomenda-se investir fortemente nestas duas etapas, as quais, assim como a correta calibração de FAR e FRR, também são cruciais para o sucesso do projeto.
 Para gerar o que chamamos de impressão vocal (termo análogo à impressão digital), dezenas de parâmetros presentes no padrão de voz de uma pessoa são analisados através de algoritmos matemáticos. O timbre, o tom, a frequência, a entonação, o volume, a velocidade, a pronúncia de determinadas letras, sílabas, etc., são apenas alguns destes parâmetros que contribuem para a geração da impressão vocal, que é a representacão binária do padrão de voz de cada indivíduo e é única para cada um. E dada a grande quantidade de parâmetros que são analisados, mesmo em situações anormais, como gripes, resfriados, rouquidão, etc., ainda assim é possível autenticar uma pessoa pelo seu padrão de voz, com a diferença que, nestes casos, a precisão poderá ser um pouco menor.
Vale ressaltar que as soluções mais avançadas do mercado são capazes de diferenciar as vozes de gêmeos e imitadores, além de possuírem mecanismos capazes de identificar o uso de gravações. Além disso, nos casos de soluções Texto Dependentes, mecanismos que mesclam o uso de frases padrão pré-definidas com números, palavras ou mesmo outras frases aleatórias, solicitadas a cada transação, podem ser utilizados para aumentar ainda mais a segurança.
Conclui-se que o uso de soluções biométricas baseadas na análise da voz podem ter um papel cada vez mais relevante no mercado, uma vez que são fáceis e cômodas de se utilizar, permitem que os usuários se autentiquem remotamente (mobilidade), possuem custos adequados tanto de implementação como de manutenção, proporcionam a redução de custos por diminuírem o tempo de atendimento e proporcionam níveis de segurança suficientes para reduzir consideravelmente as fraudes por roubo de identidade.
Marcus Loureiro é general manager da Sixbell Brasil.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima