Imagine que você tenha que digitar um contrato impresso para que ele possa ficar armazenado no seu computador e com um Ctrl + L você consiga localizar informações contratuais rapidamente. Já pensou o trabalho que seria? Felizmente, hoje em dia isso não é mais necessário, pois graças ao avanço da tecnologia, é possível converter as imagens (sejam elas impressas ou em PDF, por exemplo) para o formato de texto.
A esse processo – que precisa de um scanner ou câmera digital – damos o nome de OCR.
O que é OCR?
OCR é acrônimo para Optical Character Recognition ou, em português, Reconhecimento Ótico de Caracteres. Basicamente, trata-se de uma tecnologia que reconhece as letras e palavras em uma imagem, as armazena e as converte em um texto, facilitando assim a análise e manipulação desses dados.
Quais são os benefícios do OCR?
Imagine que você possua um documento digitalizado e precise manipular alguns dados deste arquivo. Nesse caso, apenas uma simples imagem não será suficiente para tornar esses dados manipuláveis em um software de Gestão de Documentos, por exemplo.
A tecnologia OCR é uma ferramenta muito útil, pois graças a ela, todo documento digitalizado é tratado como um documento de texto. Isso permite que o texto do arquivo seja acessado com todas as funções dentro da ferramenta, possibilitando pesquisar pelo conteúdo utilizando palavras-chaves ou trechos através do mecanismo de busca no sistema. Caso possua um editor de texto, é ainda possível formatar e editar esse arquivo, achar rapidamente as partes desejadas para coletar os dados necessários (desse modo agilizando a busca e entrada de dados).
Observe, então, que se você tiver uma imagem que não seja convertida pelo OCR, será necessário percorrer o arquivo inteiro sem ter uma maneira de buscar rapidamente o dado desejado. Isso porque o documento será apenas uma imagem e não um texto.
Práticas que devem ser adotadas para a realização de um bom OCR
Um bom OCR deve se preocupar com:
• Alinhamento do texto na horizontal;
• Texto nítido;
• Coloração da imagem digitalizada de preferência em Tons de cinza (Grayscale), conhecido também como acinzentado;
• Ajuste de Brilho, Contraste e Ruídos (se necessário);
• Fundo (Background) do texto limpo;
• Resolução em 300 DPI;
A seguir detalhamos melhor:
Alinhamento
O texto deve estar o máximo possível alinhado na posição horizontal, pois nem todas as ferramentas OCR possuem um detector e corretor de ângulo (conhecido como deskew). Sem esse corretor a informação pode não ser reconhecida por conta do ângulo;
Texto
A coloração recomendada para a digitalização é em tons de cinza, pois muitos documentos possuem algumas tonalidades que prejudicam a precisão da leitura por causa do pouco contraste. Arquivos digitalizados em preto e branco puro ou verdadeiro acabam saindo conforme ilustra a imagem abaixo:
Importante: caso haja um sombreamento ou brilho no texto, o mesmo ficará ilegível no processo de conversão.
Ajustes
Alguns scanners possuem a opção para ajustar brilho e contraste, além de remover os ruídos (borrados, marca d’água, palavras da página inversa etc) manualmente. Isso ajuda em deixar a imagem mais nítida e com um fundo limpo, conforme ilustrado abaixo:
DPI
A sigla DPI (dots per inch ou pontos por polegadas) é a medida utilizada pelos fabricantes de impressora para determinar a resolução da imagem impressa, ou seja, o número de pontos existentes em uma polegada (2.54 cm). Sendo assim, quanto maior o DPI mais detalhada será a imagem.
O tamanho ideal para arquivos contendo textos é de 300 DPI. Como mostra a tabela abaixo, o maior ponto de precisão é de 88% e o menor tempo com essa qualidade é de 16,5s. Isso acontece pois nessa resolução é obtido o mínimo de detalhamento necessário e após isso não há uma melhora na precisão para a leitura dos caracteres. Todavia, o tempo para essa leitura aumenta pois existem mais pontos por polegadas a serem lidos.
O Futuro?
Para melhor atender aos problemas reais dos usuários, estamos cada vez mais entrando no campo da Inteligência Artificial, que em um futuro não muito distante atuará em todos os sistemas. Imagine tirar a foto de um documento e enviá-lo para um sistema que automaticamente colete as informações necessárias e realize todas as ações necessárias, tais como: preencher um formulário com esses dados, iniciar um processo e notificar os interessados em tempo real? É isso que podemos esperar da evolução do OCR.
Sua empresa ainda perde tempo pesquisando por dados não estruturados? Conheça o Fusion Platform, a solução voltada a gestão de processos, documentos e indicadores que conta com a tecnologia OCR (Optical Character Recognition) para o reconhecimento de textos em documentos digitalizados. Experimente gratuitamente por 15 dias!
Referências:
Mazira, AuthorCafe, Github