Como classificar documentos com OCR e machine learning

What is a Brand Discovery ?

Neste blog, revelaremos como o pode fazer com a ajuda do Reconhecimento Óptico de Caracteres (OCR) e de machine learning.

Há uns tempos atrás, as empresas tinham grandes salas de correio para processar os documentos recebidos. Com a quantidade excessiva de documentos que eram enviados tornava o trabalho dos colaboradores extremamente exigente e exaustivo.

Felizmente, nas últimas décadas, as empresas começaram a digitalizar os seus sistemas e atualmente, as empresas recebem a maioria dos documentos através de um email.

Na nossa opinião esse é só o primeiro passo na transformação digital. Se realmente quiser melhorar a eficiência operacional da sua empresa, então deve levá-la agora ao próximo nível! Classificar e ordenar o conteúdo dos documentos, e certificar-se de que estão disponíveis em texto pesquisável, são os passos seguintes a ter na sua empresa.

Neste blog, revelaremos como o pode fazer com a ajuda do Reconhecimento Óptico de Caracteres (OCR) e de machine learning.

O segredo: algoritmos

As empresas de digitalização de documentos usam algoritmos de machine learning, que são treinados num grande conjunto de documentos. Os algoritmos permitem extrair muitos dados de documentos, tais como tipo de documento, formato, e tamanho de ficheiro.

Mas isso não é tudo! O software também extrai o conteúdo de documentos com a ajuda de OCR e efetua análises de texto e estatísticas usando PNL para determinar os grupos de tópicos. Ao identificar padrões dentro de conjuntos de tipos de documentos, é possível fazer corresponder documentos desconhecidos a um determinado conjunto.

Isto funciona da seguinte forma:

  • Um documento desconhecido é apresentado ao software.
  • As características e o conteúdo são extraídos e alimentados com algoritmos.
  • Resulta numa pontuação de similaridade.
  • A pontuação de similaridade é então comparada com as categorias de documentos no conjunto de dados com que o modelo foi treinado.
  • A melhor correspondência entre a pontuação de similaridade e a pontuação da categoria é o candidato mais provável à classificação.

Com um fluxo de trabalho automatizado, é possível alcançar uma taxa de precisão superior a 99%, enquanto que uma tarefa de classificação demora cerca de 0,1 segundo. A classificação manual é, evidentemente, muito mais lenta, uma vez que um humano demora pelo menos alguns segundos a criar um documento. Além disso, os seres humanos geralmente não atingem uma taxa de precisão superior a 95% (dependendo da complexidade da tarefa).

Vamos supor que é necessário classificar 100.000 documentos, o percurso manual levará cerca de 20 vezes mais tempo e resultará em 5% mais erros. Não é preciso ser um matemático para saber que isto custará facilmente milhares de euros extra por mês, enquanto que um algoritmo custa apenas uma fração desse preço.

 A funcionalidade do software de classificação de documentos

Pense num dos documentos da sua empresa, quantas características consegue se lembrar? Tipo de ficheiro, tipo de documento, língua, país de origem? Basicamente, qualquer característica pode ser utilizada para classificar documentos através do uso de um software de classificação de documentos.

O único requisito é obter uma quantidade suficiente de dados para treinar o algoritmo de machine learning de forma a que este possa compreender as diferenças entre certas características. Por outras palavras, estes algoritmos não são muito diferentes de nós, humanos: Os algoritmos aprendem sobre as diferenças entre documentos através da experiência.

Abaixo apresentamos uma lista do que o software de classificação de documentos pode fazer por si:

  • Classificação dos tipos de ficheiros
  • Classificação dos tipos de documentos
  • Classificação dos países de origem
  • Classificação dos comerciantes
  • Classificação dos artigos de linha
  • Classificação de dados sensíveis em matéria de privacidade

Classificação dos tipos de ficheiros

O primeiro passo na maioria das situações é identificar cada ficheiro armazenado no seu arquivo ou base de dados. Com o software de classificação de documentos pode classificar, rotular documentos em formato PDF e Word, folhas de Excel, e-mails, imagens, entre outros.

Classificação dos tipos de documentos

Poderá querer saber se um documento é uma fatura ou um recibo, um contrato ou uma carta de serviço ao cliente, um extracto bancário ou um documento de identidade, etc. O software de classificação de documentos digitaliza automaticamente os dados no documento e dá-lhe uma resposta dentro de poucos segundos.

Classificação dos países de origem

Também o país de origem de um documento pode ser classificado. Documentos como etiquetas de expedição ou passaportes contêm informações sobre o país de origem, e podem ser rotulados para efeitos de classificação.

Classificação de comerciantes

Os nomes dos comerciantes podem dar-lhe mais informação sobre o tipo de loja em que foi feita a compra. Isto é especialmente útil para a classificação de recibos e faturas.

Classificação dos artigos de linha

Quer saber exatamente quais são os produtos que constam de um recibo ou de uma fatura? Algumas soluções de classificação de documentos podem ler os itens de linha dos documentos e classificá-los em categorias como “Alimentos & Bebidas”, “Transporte” ou “Electrónica”. Imagine como poderia ser útil para determinar a elegibilidade da declaração de impostos ou para análises do comportamento do cliente.

Classificação de dados sensíveis em matéria de privacidade

Perder dados confidenciais ou abri-los acidentalmente ao público não só levará a má publicidade e/ou multas, como também pode levar ao fim do seu negócio.

É por isso que é crucial identificar e classificar documentos que contenham informação sensível à privacidade, tais como passaportes, cartões de identificação ou cartões de crédito. O software de classificação de documentos pode detectar e etiquetar automaticamente estes documentos para si e melhor ainda, pode torná-los anónimos.

Como começar a classificação automatizada de documentos

Se este artigo despertou o seu interesse na classificação automatizada de documentos, poderá agora perguntar-se: mas por onde devo começar? Bem, há dois passos que terá de seguir:

  • Reunir o seu conjunto de dados
  • Treinar o seu algoritmo

Reunir o seu conjunto de dados

Se quiser treinar o seu próprio algoritmo de machine learning, precisará de recolher dados suficientes. O conjunto de dados precisa consistir em documentos suficientes para cada categoria, para que o algoritmo possa aprender sobre as diferenças entre os mesmos.

Além disso, a qualidade do conjunto de dados é crucial. Se os exemplos com que treina o seu algoritmo forem incorrectamente anotados, o modelo aprenderá com estes erros e cometerá os mesmos erros ao calcular as suas estimativas.

Treinar o seu algoritmo

Pode tornar-se um pouco técnico a partir daqui, mas depois de ter recolhido o seu conjunto de dados, pode começar a treinar o seu algoritmo de classificação. Há muitos algoritmos complexos que podem ser utilizados, tais como Naive Bayes e Support Vector Machines.

Pode usar ferramentas de código aberto como o scikit-learn ou TensorFlow para treinar estes algoritmos, mas precisará de saber codificar e ter alguns conhecimentos básicos em machine learning.

Felizmente, existem soluções para implementação direta do software!

Classificação automatizada de documentos com a Klippa

Poupe-se do trabalho de investigação, desenvolvimento e teste de meses ou mesmo anos, e comece hoje mesmo a utilizar OCR e machine learning  para classificação automatizada de documentos. Existem muitos softwares de classificação disponíveis no mercado que tornam o arranque super fácil!

O OCR API da Klippa, por exemplo, fornece uma solução de OCR plug-and-play que pode ser iniciada de forma imediata. Pode integrá-la com o seu software para classificar eficientemente os seus documentos numa questão de segundos.