5 serviços de OCR on-line gratuitos testados e revisados
Tem um documento PDF ou uma imagem que você gostaria de converter em texto? Recentemente, alguém me enviou um documento no correio que eu precisava editar e enviar de volta com correções. A pessoa não conseguiu localizar uma cópia digital, então fui encarregado de colocar todo o texto em formato digital.
Não tinha como eu passar horas digitando tudo de volta, então acabei pegando uma boa foto de alta qualidade do documento e depois gravei um monte de serviços on-line de OCR para ver qual deles me daria o melhor. resultados.
Neste artigo, vou passar por alguns dos meus sites favoritos para o OCR que são gratuitos. Vale a pena notar que a maioria desses sites fornece um serviço gratuito básico e, em seguida, tem opções pagas se você quiser recursos extras, como imagens maiores, documentos PDF de várias páginas, diferentes idiomas de entrada, etc..
Também é bom saber de antemão que a maioria desses serviços não conseguirá corresponder à formatação do documento original. Estes são principalmente para extrair texto e é isso. Se você precisa que tudo esteja em um layout ou formato específico, você terá que fazer isso manualmente assim que receber todo o texto do OCR..
Além disso, os melhores resultados para obter o texto virão de documentos com uma resolução de 200 a 400 DPI. Se você tiver uma imagem com baixa DPI, os resultados não serão tão bons.
Por fim, muitos sites que testei não funcionaram. Se você usa o OCR on-line gratuito do Google, verá vários sites, mas vários dos sites nos 10 primeiros resultados nem sequer concluíram a conversão. Alguns iriam perder tempo, outros dariam erros e alguns apenas ficavam presos na página de “conversão”, então nem me incomodei em mencionar esses sites.
Para cada site, testei dois documentos para ver como seria o resultado. Para os meus testes, eu simplesmente usei meu iPhone 5S para tirar uma foto de ambos os documentos e depois os enviei diretamente para os sites para conversão.
Caso você queira ver como eram as imagens que usei no meu teste, anexei-as aqui: Test1 e Test2. Observe que essas não são versões com resolução total das imagens tiradas do telefone. Eu usei a imagem de resolução completa ao fazer o upload para os sites.
OnlineOCR
O OnlineOCR.net é um site limpo e simples que forneceu resultados muito bons no meu teste. A principal coisa que eu gosto sobre isso é que ele não tem toneladas de anúncios em todo o lugar, o que geralmente é o caso com esses tipos de sites de serviços de nicho.
Para começar, selecione seu arquivo e aguarde até que ele finalize o upload. O tamanho máximo de upload para este site é de 100 MB. Se você se inscrever para uma conta gratuita, receberá alguns recursos extras, como o tamanho de upload maior, os PDFs de várias páginas, os idiomas de entrada diferentes, mais conversões por hora, etc..
Em seguida, escolha seu idioma de entrada e escolha o formato de saída. Você pode escolher entre Word, Excel ou Texto Simples. Clique no Converter botão e você verá o texto exibido na parte inferior em uma caixa junto com um link de download.
Se tudo o que você quer é o texto, basta copiá-lo e colá-lo na caixa. No entanto, sugiro que você baixe o documento do Word porque ele faz um trabalho surpreendentemente bom em manter o layout do documento original..
Por exemplo, quando abri o documento do Word para o segundo teste, fiquei surpreso ao descobrir que o documento incluía uma tabela com três colunas, assim como na imagem.
Fora de todos os sites, este foi o melhor de longe. Vale a pena registrar se você precisa fazer muitas conversões.
Para completar, também vou vincular aos arquivos de saída criados por cada serviço para que você possa ver os resultados por si mesmo. Aqui estão os resultados do OnlineOCR: Test1 Doc e Test2 Doc.
Observe que ao abrir esses documentos do Word em seu computador, você receberá uma mensagem no Word informando que é da Internet e que a edição foi desativada. Isso é perfeitamente OK porque o Word não confia em documentos da Internet e você realmente não precisa habilitar a edição se você quiser apenas visualizar o documento.
i2OCR
Outro site que deu bons resultados foi o i2OCR. O processo é muito semelhante: escolha seu idioma, arquivo e pressione Extrair Texto.
Você terá que esperar um minuto ou dois aqui porque este site demora um pouco mais. Além disso, na Etapa 2, certifique-se de que sua imagem esteja sendo exibida com o lado direito para cima na visualização, caso contrário, você obterá um monte de rabiscos como saída. Por algum motivo, as imagens do meu iPhone foram exibidas no modo retrato no meu computador, mas paisagem quando fiz o upload para este site.
Tive que abrir manualmente a imagem em um aplicativo de edição de fotos, girá-la 90 graus, depois girá-la de volta ao retrato e depois salvá-la novamente. Depois de concluído, role para baixo e ele mostrará uma prévia do texto junto com um botão de download.
Este site se saiu muito bem com a saída do primeiro teste, mas não o fez tão bem com o segundo teste que tinha o layout da coluna. Aqui estão os resultados do i2OCR: Test1 Doc e Test2 Doc.
FreeOCR
O Free-OCR.com pegará suas imagens e as converterá em texto simples. Não tem uma opção para exportar para o formato do Word. Escolha o seu arquivo, selecione um idioma e clique em Começar.
O site é rápido e você obterá a saída rapidamente. Basta clicar no link para baixar o arquivo de texto para o seu computador.
Como com NewOCR mencionado abaixo, este site capitaliza todos os T's no documento. Eu não tenho ideia de por que isso faria isso, mas por alguma razão estranha este site e o NewOCR fizeram isso. Não é um grande problema para mudar isso, mas é um processo tedioso que você realmente não deveria ter que fazer.
Aqui estão os resultados do FreeOCR: Test1 Doc e Test2 Doc.
ABBYY FineReader Online
Para usar o FineReader Online, você precisa se registrar para uma conta, que oferece uma avaliação gratuita de 15 dias para o OCR de até 10 páginas gratuitamente. Se você só precisa fazer um OCR único por algumas páginas, pode usar esse serviço. Certifique-se de clicar no link verificar no e-mail de confirmação depois de se registrar.
Clique em Reconhecer no topo e depois clique Envio para selecionar seu arquivo. Escolha o seu idioma, formato de saída e clique em Reconhecer no fundo. Este site tem uma interface limpa e nenhum anúncio também.
Nos meus testes, este site conseguiu pegar o texto do primeiro documento de teste, mas foi absolutamente enorme quando eu abri o documento do Word, então acabei fazendo de novo e escolhendo Plain Text como o formato de saída..
Para o segundo teste com as colunas, o documento do Word estava vazio e nem consegui encontrar o texto. Não tenho certeza do que aconteceu lá, mas não parece ser capaz de lidar com nada além de parágrafos simples. Aqui estão os resultados do FineReader: Test1 Doc e Test2 Doc.
NewOCR
O próximo site, NewOCR.com, estava OK, mas não tão bom quanto o primeiro site. Em primeiro lugar, tem anúncios, mas felizmente não uma tonelada. Você primeiro seleciona seu arquivo e depois clica no Visualizar botão.
Você pode girar a imagem e ajustar a área onde deseja digitalizar o texto. É muito parecido com o modo como o processo de digitalização funciona em um computador com um scanner conectado.
Se o documento tiver várias colunas, você poderá verificar Análise de layout de página botão e ele tentará dividir o texto em colunas. Clique no botão OCR, aguarde alguns segundos até que ele seja concluído e role até a parte inferior quando a página for atualizada.
No primeiro teste, ele obteve todo o texto corretamente, mas, por algum motivo, capitalizou todos os T no documento! Não sei por que isso faria isso, mas aconteceu. No segundo teste com a análise de página ativada, ele ficou com a maior parte do texto, mas o layout estava completamente fora.
Aqui estão os resultados do NewOCR: Test1 Doc e Test2 Doc.
Conclusão
Como você pode ver, o free não te dá muito bons resultados na maioria das vezes, infelizmente. O primeiro site mencionado é de longe o melhor, porque não só fez um grande trabalho de reconhecer todo o texto, como também conseguiu manter o formato do documento original..
Se você só precisa de texto, a maioria dos sites acima deve ser capaz de fazer isso por você. Se você tiver alguma dúvida, fique à vontade para comentar. Apreciar!