Como posso copiar texto de um PDF enquanto preservo a formatação?

O PDF, o formato de documento onipresente, é ótimo para compartilhar documentos, preservando fontes, imagens e o layout geral em várias plataformas. Existe uma maneira fácil, no entanto, para preservar essa formatação muito quando copiar e colar texto fora do documento?

A sessão de perguntas e respostas de hoje nos é oferecida por cortesia do SuperUser - uma subdivisão do Stack Exchange, um agrupamento de sites de perguntas e respostas conduzido pela comunidade..

A questão

Leitor SuperUser Colen está procurando uma maneira de extrair texto de PDFs preservando a formatação:

Quando copio um texto de um arquivo PDF e o transforma em um editor de texto, ele fica mutilado de várias formas. Formatação como negrito e itálico são perdidos; quebras de linha suaves dentro de um parágrafo do texto são convertidas em quebras de linha rígidas; traços para quebrar uma palavra sobre duas linhas são preservados mesmo quando não deveriam; e aspas simples e duplas são substituídas por? sinais.

Idealmente, gostaria de poder copiar texto de um PDF e ter a formatação convertida em códigos HTML, "aspas inteligentes" convertidas em "e" e quebras de linha feitas corretamente. Há alguma maneira de fazer isso?

Existe uma maneira rápida e fácil para Colen (e o resto de nós) pegar texto sem sacrificar a formatação?

A resposta

Contribuidor do SuperUser A Frabjous oferece uma solução combinada com uma forte dose de cautela:

Em primeiro lugar, você tem que entender o que é um PDF. Os PDFs são projetados para imitar uma página impressa e são projetados apenas como um formato de saída, não um formato de entrada. um PDF é basicamente um mapa contendo a localização exata dos caracteres (letras individuais ou pontuação, etc.) ou imagens. Na maioria dos casos, um PDF nem armazena informações sobre onde uma palavra termina e outra começa, muito menos coisas como quebras suaves versus quebras duras para fins de parágrafo..

(Alguns PDFs recentes armazenam algumas informações sobre esse material, mas essa é uma nova tecnologia, e você teria sorte de encontrar PDFs como esse. Mesmo que você o fizesse, o visualizador de PDF talvez não o conhecesse.)

De qualquer forma, cabe ao seu software implementar algum tipo de “inteligência artificial” para extrair meramente das localizações de caracteres individuais o que é uma palavra, o que é um parágrafo e assim por diante. Diferentes softwares farão isso melhor que outros, e também dependerá de como o PDF foi feito. Em qualquer caso, você nunca deve esperar resultados perfeitos. Ter o PDF de saída não é o mesmo que ter o documento de origem. Muito melhor tentar obter isso se puder.

A solução padrão para o seu tipo de problema é usar o Adobe Acrobat Professional (o mais caro, não o leitor gratuito) para converter o PDF em HTML. Mesmo isso não vai conseguir resultados perfeitos.

Há software livre que pode ser usado para extrair texto de PDFs com alguma formatação intacta, mas, novamente, não espere resultados perfeitos. Ver, por exemplo, calibre (que pode converter em formato RTF), pdftohtml / pdfreflow, ou o processador de texto AbiWord (com todos os plugins de importação / exportação habilitados). Há também um plugin de importação de PDF para o OpenOffice.

Mas, por favor, não espere perfeição com nenhum desses resultados. Você está indo contra a corrente aqui. PDF não é apenas um formato de entrada editável.

Se você está tendo problemas para decidir qual ferramenta para começar, Calibre é um verdadeiro documento canivete suíço. Você também pode usá-lo para converter arquivos PDF para uso em seu leitor de ebook e organizar seu ebook / biblioteca de documentos.

Tem algo a acrescentar à explicação? Soe fora nos comentários. Quer ler mais respostas de outros usuários do Stack Exchange com experiência em tecnologia? Confira o tópico de discussão completo aqui.