Pagina inicial » Downloads de Software Gratuito » Extrair texto de PDF e arquivos de imagem

    Extrair texto de PDF e arquivos de imagem

    Tem um documento em PDF do qual você gostaria de extrair todo o texto? E quanto aos arquivos de imagem de um documento digitalizado que você deseja converter em texto editável? Estes são alguns dos problemas mais comuns que eu vi no local de trabalho ao trabalhar com arquivos.

    Neste artigo, falarei sobre várias maneiras diferentes de tentar extrair texto de um PDF ou de uma imagem. Seus resultados de extração irão variar dependendo do tipo e da qualidade do texto no PDF ou imagem. Além disso, os resultados variam de acordo com a ferramenta usada. Portanto, é melhor experimentar o máximo possível das opções abaixo para obter os melhores resultados.

    Extrair texto da imagem ou PDF

    A maneira mais simples e rápida de começar é experimentar um serviço on-line de extração de texto em PDF. Estes são normalmente gratuitos e podem dar-lhe exatamente o que você está procurando sem ter que instalar nada no seu computador. Aqui estão dois que eu usei com muito bons a excelentes resultados:

    ExtractPDF

    ExtractPDF é uma ferramenta gratuita para capturar imagens, texto e fontes de um arquivo PDF. A única limitação é que o tamanho máximo do arquivo PDF é de 10 MB. Isso é um pouco pequeno; então, se você tiver um arquivo maior, tente alguns dos outros métodos abaixo. Escolha o seu arquivo e clique no Enviar arquivo botão. Os resultados são normalmente muito rápidos e você deve ver uma prévia do texto ao clicar na guia Texto.

    Também é um benefício adicional que extrai imagens do arquivo PDF também, caso você precise delas! No geral, a ferramenta on-line funciona muito bem, mas encontrei alguns documentos em PDF que me dão uma saída engraçada. O texto é extraído muito bem, mas por algum motivo ele terá uma quebra de linha após cada palavra! Não é um problema enorme para um arquivo PDF curto, mas certamente um problema para arquivos com muito texto. Se isso acontecer com você, tente a próxima ferramenta.

    OCR Online

    OCR on-line geralmente costumava funcionar para os documentos que não foram convertidos corretamente com o ExtractPDF, por isso é uma boa ideia experimentar os dois serviços para ver quais deles oferecem uma saída melhor. O OCR on-line também possui recursos mais agradáveis ​​que podem ser úteis para qualquer pessoa com um arquivo PDF grande que precise converter apenas o texto em algumas páginas, em vez de todo o documento..

    A primeira coisa que você quer fazer é ir em frente e criar uma conta gratuita. É um pouco chato, mas se você não criar a conta gratuita, ela só converterá parcialmente o PDF em vez do documento inteiro. Além disso, em vez de poder carregar apenas um documento de 5 MB, você pode carregar até 100 MB por arquivo com uma conta.

    Primeiro, escolha um idioma e escolha o tipo de formatos de saída que você deseja para o arquivo convertido. Você tem algumas opções e pode escolher mais de uma se quiser. Debaixo Documento de várias páginas, você pode selecionar Números de página e escolha apenas as páginas que você deseja converter. Então você seleciona o arquivo e clica Converter!

    Após a conversão, você será levado à seção Documentos (se estiver logado), onde poderá ver quantas páginas livres disponíveis você tem e links para baixar seus arquivos convertidos. Parece que você tem apenas 25 páginas gratuitas por dia, então se precisar de mais do que isso, terá que esperar um pouco ou comprar mais páginas.

    O OCR on-line fez um excelente trabalho ao converter meus PDFs porque conseguiu manter o layout real do texto. No meu teste, peguei um documento do Word que usava marcadores, tamanhos de fontes diferentes, etc. e os converti para um PDF. Em seguida, usei o Online OCR para convertê-lo de volta no formato do Word e ele era aproximadamente 95% igual ao original. Isso é muito impressionante para mim.

    Além disso, se você estiver procurando converter uma imagem em texto, o OCR on-line pode fazer isso tão facilmente quanto extrair texto de arquivos PDF.

    OCR on-line gratuito

    Já que estamos falando de imagem para texto OCR, deixe-me mencionar outro bom site que funciona muito bem em imagens. OCR on-line gratuito foi muito bom e muito preciso ao extrair texto das minhas imagens de teste. Eu tirei algumas fotos do meu iPhone de páginas de livros, panfletos, etc e fiquei surpreso com o quão bem ele foi capaz de converter o texto.

    Escolha o seu arquivo e clique no botão Upload. Na tela seguinte, há algumas opções e uma prévia da imagem. Você pode cortá-lo se não quiser fazer o OCR. Em seguida, basta clicar no botão OCR e o texto convertido aparecerá abaixo da visualização da imagem. Também não tem limitações, o que é muito legal.

    Além dos serviços on-line, há dois conversores de PDF freeware que desejo mencionar caso você precise de um software em execução no seu computador para realizar as conversões. Com os serviços on-line, você sempre precisará de uma conexão com a Internet e isso pode não ser possível para todos. No entanto, notei que a qualidade das conversões dos programas freeware era significativamente pior do que a dos sites.

    Extrator de Texto A-PDF

    O A-PDF Text Extractor é um freeware que faz um bom trabalho ao extrair texto de arquivos PDF. Depois de baixá-lo e instalá-lo, clique no botão Abrir para escolher seu arquivo PDF. Em seguida, clique em Extrair texto para iniciar o processo.

    Ele perguntará a você um local para armazenar o arquivo de saída de texto e, em seguida, começará a extrair. Você também pode clicar no Opção botão, que permite escolher apenas algumas páginas para extrair e o tipo de extração. A segunda opção é interessante porque extrai o texto em diferentes layouts e vale a pena tentar todos os três para ver qual deles oferece a melhor saída.

    Piloto PDF2Text

    PDF2Text Pilot faz um bom trabalho de extrair texto. Não tem nenhuma opção; você acabou de adicionar arquivos ou pastas, converter e esperar pelo melhor. Funcionou bem em alguns PDFs, mas para a maioria deles, havia vários problemas.

    Basta clicar em Adicionar arquivos e, em seguida, clique em Converter. Quando a conversão estiver concluída, clique em Browse para abrir o arquivo. Sua milhagem irá variar usando este programa, então não espere muito.

    Além disso, vale a pena mencionar que, se você estiver em um ambiente corporativo ou puder obter uma cópia do Adobe Acrobat do trabalho, poderá realmente obter resultados muito melhores. O Acrobat obviamente não é gratuito, mas tem opções para converter PDF para Word, Excel e HTML. Também faz o melhor trabalho de manter a estrutura do documento original e converter texto complicado.