Pagina inicial » como » Como extrair imagens, texto e arquivos incorporados de documentos do Word, Excel e PowerPoint

    Como extrair imagens, texto e arquivos incorporados de documentos do Word, Excel e PowerPoint

    Digamos que alguém tenha enviado um documento do Word com muitas imagens e você queira salvar essas imagens no disco rígido. Você pode extrair imagens de um documento do Microsoft Office com um truque simples.

    Se você tiver um arquivo do Word (.docx), do Excel (.xlsx) ou do PowerPoint (.pptx) com imagens ou outros arquivos incorporados, é possível extraí-los (assim como o texto do documento), sem precisar salvá-los separadamente . E o melhor de tudo, você não precisa de nenhum software extra. Os formatos de arquivo baseados em XML do Office - docx, xlsx e pptx - são na verdade arquivos compactados que você pode abrir como qualquer arquivo .zip normal com o Windows. A partir daí, você pode extrair imagens, texto e outros arquivos incorporados. Você pode usar o suporte a zip interno do Windows ou um aplicativo como o 7-Zip, se preferir.

    Se você precisar extrair arquivos de um documento de escritório antigo, como um arquivo .doc, .xls ou .ppt, poderá fazê-lo com um pequeno software livre. Vamos detalhar esse processo no final deste guia.

    Como extrair o conteúdo de um arquivo do Office mais recente (.docx, .xlsx ou .pptx)

    Para acessar o conteúdo interno de um documento do Office baseado em XML, abra o Gerenciador de arquivos (ou o Windows Explorer no Windows 7), navegue até o arquivo do qual você deseja extrair o conteúdo e selecione o arquivo.

    Pressione “F2” para renomear o arquivo e mude a extensão (.docx, .xlsx ou .pptx) para “.zip”. Deixe a parte principal do nome do arquivo sozinha. Pressione "Enter" quando estiver pronto.

    A caixa de diálogo a seguir exibe um aviso sobre como alterar a extensão do nome do arquivo. Clique em "Sim".

    O Windows reconhece automaticamente o arquivo como um arquivo compactado. Para extrair o conteúdo do arquivo, clique com o botão direito do mouse no arquivo e selecione "Extrair tudo" no menu pop-up.

    Na caixa de diálogo “Selecionar um destino e extrair arquivos”, o caminho em que o conteúdo do arquivo .zip será extraído será exibido na caixa de edição “Arquivos serão extraídos para esta pasta”. Por padrão, uma pasta com o mesmo nome do nome do arquivo (sem a extensão do arquivo) é criada na mesma pasta que o arquivo .zip. Para extrair os arquivos para uma pasta diferente, clique em "Browse".

    Navegue até onde você deseja extrair o conteúdo do arquivo .zip, clicando em “Nova pasta” para criar uma nova pasta, se necessário. Clique em “Select Folder”.

    Para abrir uma janela do Explorador de Arquivos (ou Windows Explorer) com a pasta contendo os arquivos extraídos exibidos assim que forem extraídos, marque a caixa de seleção "Mostrar arquivos extraídos quando completos" para que haja uma marca de seleção na caixa. Clique em "Extrair".

    Como acessar as imagens extraídas

    Incluído no conteúdo extraído é uma pasta chamada "palavra", se o arquivo original for um documento do Word (ou "xl" para um documento do Excel ou "ppt" para um documento do PowerPoint). Clique duas vezes na pasta "word" para abri-la.

    Clique duas vezes na pasta "media".

    Todas as imagens do arquivo original estão na pasta “media”. Os arquivos extraídos são as imagens originais usadas pelo documento. Dentro do documento, pode haver redimensionamento ou outras propriedades definidas, mas os arquivos extraídos são as imagens brutas sem que essas propriedades sejam aplicadas.

    Como acessar o texto extraído

    Se você não tiver o Office instalado no seu PC e precisar extrair texto de um arquivo do Word (ou Excel ou PowerPoint), poderá acessar o texto extraído no arquivo “document.xml” na pasta “word”..

    Você pode abrir esse arquivo em um editor de texto, como o Bloco de Notas ou o WordPad, mas é mais fácil de ler em um editor XML especial, como o programa gratuito, XML Notepad. Todo o texto do arquivo está disponível em blocos de texto simples, independentemente do estilo e / ou formatação aplicados no próprio documento. É claro, se você estiver baixando software livre para ver este texto, você pode baixar o LibreOffice, que pode ler documentos do Microsoft Office..

    Como extrair objetos OLE incorporados ou arquivos anexados

    Para acessar arquivos incorporados em um documento do Word quando você não tem acesso ao Word, primeiro abra o arquivo do Word no WordPad (que vem incorporado no Windows). Você pode notar que alguns dos ícones de arquivos incorporados não são exibidos, mas ainda estão lá. Alguns dos arquivos incorporados podem ter nomes parciais de arquivos. O WordPad não suporta todos os recursos do Word, portanto, alguns conteúdos podem ser exibidos incorretamente. Mas você deve ser capaz de acessar os arquivos.

    Se clicarmos com o botão direito do mouse em um dos arquivos incorporados em nosso arquivo de exemplo do Word, uma das opções é “Abrir Objeto PDF”. Isso abre o arquivo PDF no programa leitor de PDF padrão no seu PC. De lá, você pode salvar o arquivo PDF no seu disco rígido.

    Se o WordPad não tiver uma opção para abrir seu arquivo, anote seu tipo de arquivo aqui. Por exemplo, nosso segundo arquivo neste documento é um arquivo .mp3.

    Então, volte para a sua pasta “Arquivos de [Documento]” e dê um duplo clique na pasta “embeddings” dentro da pasta “word”.

    Infelizmente, os tipos de arquivo não são preservados nos nomes de arquivos. Todos eles têm uma extensão de arquivo ".bin". Se você souber quais tipos de arquivos estão incorporados no arquivo, provavelmente poderá deduzir qual arquivo é qual o tamanho do arquivo. Em nosso exemplo, tivemos um arquivo PDF e um arquivo MP3 incorporado em nosso documento. Como o arquivo MP3 é provavelmente maior do que o arquivo PDF, podemos descobrir qual arquivo é qual, observando os tamanhos dos arquivos e, em seguida, renomeá-los usando as extensões corretas. Abaixo, estamos renomeando o arquivo MP3.

    Observe que nem todos os arquivos necessariamente serão abertos usando esse processo - por exemplo, nosso arquivo PDF abriu corretamente a partir do WordPad, mas não conseguimos abri-lo renomeando seu arquivo .bin.

    Depois de extrair o conteúdo do arquivo compactado, você poderá reverter a extensão do arquivo original de volta para .docx, .xlsx ou .pptx. O arquivo permanecerá intacto e pode ser aberto normalmente no programa correspondente.

    Como extrair imagens de documentos mais antigos do Office (.doc, .xls ou .ppt)

    Se você precisar extrair imagens de um documento do Office 2003 (ou anterior), há uma ferramenta gratuita chamada Office Image Extraction Wizard que facilita essa tarefa. Este programa também permite extrair imagens de vários documentos (do mesmo tipo ou de tipos diferentes) de uma só vez. Baixe o programa e instale-o (também há uma versão portátil disponível se você preferir não instalá-lo).

    Execute o programa e a tela de boas-vindas é exibida. Clique em "Next".

    Primeiro, precisamos selecionar o arquivo do qual você deseja extrair as imagens. Na tela Input & Output, clique no botão “Browse” (ícone da pasta) à direita da caixa de edição do documento..

    Navegue até a pasta que contém o documento desejado, selecione-o e clique em "Abrir".

    A pasta que contém o arquivo selecionado automaticamente se torna a pasta de saída. Para criar uma subpasta dentro dessa pasta com o mesmo nome do arquivo selecionado, clique na caixa de seleção "Criar uma pasta aqui" para que haja uma marca de verificação na caixa. Então, clique em "Next".

    Na tela Pronto para iniciar, clique em "Iniciar" para começar a extrair as imagens.

    A tela a seguir é exibida enquanto os processos de extração.

    Na tela Concluído, clique em “Clique aqui para abrir a pasta de destino” para visualizar os arquivos de imagem resultantes.

    Como optamos por criar uma subpasta, obtemos uma pasta contendo os arquivos de imagem extraídos do arquivo.

    Você verá todas as imagens como arquivos numerados.

    Você também pode extrair imagens de vários arquivos de uma só vez. Para fazer isso, na tela Entrada e saída, clique na caixa de seleção "Modo em lote" para que haja uma marca de seleção na caixa.

    A tela Entrada e saída de lote é exibida. Clique em "Add Files".

    Na caixa de diálogo Abrir, navegue até a pasta que contém qualquer um dos arquivos dos quais você deseja extrair imagens, selecione os arquivos usando a tecla "Shift" ou "Ctrl" para selecionar vários arquivos e clique em "Abrir"..

    Você pode adicionar arquivos de outra pasta clicando em “Adicionar arquivos” novamente, navegando até a pasta na caixa de diálogo Abrir, selecionando os arquivos desejados e clicando em “Abrir”.

    Depois de adicionar todos os arquivos dos quais deseja extrair imagens, você pode optar por criar uma pasta separada para cada documento dentro da mesma pasta de cada documento, na qual os arquivos de imagem serão salvos clicando em “Criar uma pasta para cada documento ”, por isso, existe uma marca de verificação na caixa.

    Você também pode especificar a pasta de saída para ser o "Mesmo que a pasta de entrada de cada arquivo" ou digite ou selecione uma pasta personalizada usando a caixa de edição e "Browse" botão abaixo dessa opção. Clique em "Avançar" depois de selecionar as opções desejadas.

    Clique em "Iniciar" na tela Pronto para iniciar.

    A tela a seguir é exibida mostrando o progresso da extração.

    O número de imagens extraídas é exibido na tela Concluído. Clique em "Fechar" para fechar o Assistente de Extração de Imagens do Office..

    Se você escolher criar uma pasta separada para cada documento, verá pastas com os mesmos nomes dos arquivos que contêm as imagens, qualquer pasta de saída especificada.

    Mais uma vez, obtemos todas as imagens como arquivos numerados para cada documento.

    Agora você pode renomear as imagens, movê-las e usá-las em seus próprios documentos. Apenas certifique-se de ter os direitos para usá-los legalmente.