Saturday, December 3, 2016

arquivos especiais - pdf e csv

Arquivos especiais - PDF e CSV

Arquivos no formato PDF são usados universalmente para artigos científicos e outros mais.

Uma razão para tanto é que o formato PDF (Portable Document Format) permite apresentar o documento com a mesma aparência não importando o computador, sistema operacional ou impressora usados.

Infelizmente isto tem um preço: o formato PDF é bastante complicado e é difícil  implementar software para manipulá-lo.

Nesta lição vamos ver módulos Python para extrair texto de arquivos PDF. 

O notebook Jupyter desta lição pode ser baixado aqui 

Na segunda parte da lição veremos como manipular arquivos do tipo CSV (Comma Separated Values), um formato muito simplificado de dados para planilha.

Arquivos CSV são arquivos simples de tipo texto. Assim mesmo há varias razões para usar o módulo csv do Python para manipulá-los.


Para os exercícios você precisa baixar alguns arquivos extras e colocá-los no mesmo diretório onde ficar o notebook Jupyter desta lição:
 


Como sempre uma versão HTML da lição está na barra de Recursos.

No comments:

Post a Comment