Como escanear livros com qualidade

Disponível somente no TrabalhosFeitos
  • Páginas : 17 (4030 palavras )
  • Download(s) : 0
  • Publicado : 22 de outubro de 2012
Ler documento completo
Amostra do texto
Como escanear livros com qualidade
e produzir textos por OCR
Prof. José Antonio Meira da Rocha
Edição do Autor

Como escanear livros com qualidade e produzir textos com OCR
MEIRA, José Antonio. Como escanear livros com qualidade. Frederico Westphalen: Edição do Autor, 2012. Editorado com LibreOffice 3.5.1. Fontes tipográficas Liberation Serif e Liberation Sans. Tamanho A5 para ser impressoem libreto, frente e verso. Ilustrações capturadas e tratadas com IrfanView. Foto de capa: divulgação HP. 2ª edição. Frederico Westphalen, Outono de 2012. http://meiradarocha.jor.br joseantoniorocha@gmail.com

Esta obra foi licenciada com uma Licença Creative Commons - Atribuição - Uso Não-Comercial - Partilha nos Mesmos Termos 3.0 Não Adaptada.

Como escanear livros com qualidade

3Sumário
1 Introdução...............................................................................5 2 Obtenha as imagens..............................................................7 2.1 Escolha a interface do scanner.......................................7 2.2 Inicie o escaneamento em batch....................................8 2.3 Ajuste a numeração dasimagens...................................9 3 Limpe as imagens................................................................15 4 Aplique o OCR......................................................................27 5 Gere, por OCR, texto editável .............................................37 6 Revise o texto.......................................................................41 7 Calcule o tempo deprodução..............................................43 8 OCR com software livre.......................................................45 8.1 Instale os programas ....................................................45 8.2 Use o gImageReader....................................................47 9 Faça OCR com Google Docs...............................................51 10 Faça OCR em obras do GoogleBooks..............................53

Como escanear livros com qualidade

5

1 Introdução
Este manual ensina a escanear livros com qualidade e com reconhecimento óptico de caracteres (OCR), gerando arquivos nos formatos Comic Book, PDF com texto pesquisável e copiável, RTF e TXT. O formato de imagem que recomendo para se produzir livros escaneados é PNG preto e branco (profundidade de cor de um bit), 300 pontos porpolegada (dpi). Esta escolha deve-se às seguintes características: • PNG é uma formato de imagens aberto e versátil, com boa compressão sem perdas. Poderia ser usado o JPG, mas aí haveria perdas e o aparecimento de artifacts que prejudicariam o OCR. A resolução de 300 dpi é mais adequada para o OCR e pode ser impressa em qualidade razoável (era a resolução das primeiras impressoras laser). Imagens empreto & branco (profundidade de cor de um bit) geram arquivos menores, têm melhor contraste para leitura e tornam mais fácil a limpeza de sombras nas margens das páginas.





Se a página a ser escaneada tiver imagens em tons de cinza, como fotografias, o espaço de cor deve ser Imagem em escala de cinza, (profundidade de cor de 256 tons de cinza). Se a página tiver imagens coloridas, oformato deve ser Imagem colorida (profundidade de cor de 24 bits ou milhões de cores).

Como escanear livros com qualidade

7

2 Obtenha as imagens
Use o programa gratuito IrfanView (http://www.irfanview.com/), o visualizador de arquivos mais usado no mundo para ambiente Windows.

2.1 Escolha a interface do scanner
Vá a “File > Select Twain source” e escolha “WIA...”. Clique emSelecionar.

8

Como escanear livros com qualidade

2.2 Inicie o escaneamento em batch
Vá ao menu “File > Acquire/batch scanning”, ou tecle CTRL+SHIFT+A

Como escanear livros com qualidade

9

2.3 Ajuste a numeração das imagens
No diálogo seguinte, é importante numerar corretamente as imagens obtidas para que elas correspondam aos números das páginas dos livros. Isto evita erros de pular...
tracking img