Tesseract.js traz tradução de OCR de imagem para navegadores

A tradução de OCR ainda não é perfeita, mas melhorou drasticamente nos últimos anos. Liderando o caminho é o Tesseract mecanismo de tradução atualmente aberto originado em C++.

Embora esta seja uma biblioteca incrível, é restrita ao software. Felizmente alguém fez um port de Tesseract em JavaScript que é chamado Tesseract.js. isto suporta até 60 idiomas e embora certamente não seja perfeito, faz bem o trabalho.

Instalação e configuração é uma brisa onde você pode segmentar qualquer elemento de imagem na página e execute o Tesseract.recognize () função. Isso pode levar qualquer tipo de imagem e automaticamente comprimir e traduzir bem no navegador.

Você pode ficar muito mais complicado, mas a beleza é como você pode executar o OCR com uma única linha de código.

Confira a página de destino do Tesseract.js se você quiser ver uma demonstração ao vivo. Isso funciona no navegador onde você pode arraste e solte qualquer imagem digitalizada do texto para obter uma tradução automática de OCR.

Você também pode baixar este exemplo localmente através da página do GitHub ou pode criar seu próprio aplicativo incluindo o script Tesseract.js diretamente de um CDN.

O exemplo de código mais simples se parece com o seguinte, onde minha imagem é uma referência direta a um elemento de imagem HTML:

 Tesseract.recognize (myImage). Then (função (resultado) console.log (resultado));

De qualquer forma, esta biblioteca é tão útil para se mover com o OCR na web. Está longe de ser perfeito, mas é também o melhor recurso para desenvolvedores da Web que desejam a funcionalidade dinâmica de OCR in-page.

Para saber mais, visite a página Tesseract.js do GitHub, onde você pode conferir uma demonstração ao vivo e navegar pela documentação on-line..