CamposPythonCode
a little Python codes - pequenos programas em Python
1 # -*- coding: iso-8859-1 -*-
2 from string import *
3 from types import *
4 import urllib2, urllib
5 from commands import *
6 def rec_pagina(data_edicao, pagina, nome_arquivo='dohoje'):
7 url_alvo='http://www.in.gov.br/materias/pdf/do/secao2/%s/do2-%s.pdf' % (data_edicao, pagina)
8 req=urllib2.Request(url_alvo)
9 url_aberta=urllib2.urlopen(req)
10 conteudo_pdf=url_aberta.read()
11 arq_temp=file(nome_arquivo+'.pdf','wb')
12 arq_temp.write(conteudo_pdf)
13 arq_temp.close()
14 return
15 data_edicao=raw_input('Data da Edição(dd/mm/aaaa): ')
16 rec_pagina(replace(data_edicao,'/','_'), 1)
17 chave="Ministério da Fazenda"
18 nome_arq=strip(chave[find(chave,' ',find(chave,' ')+1):])
19 pag1c=getoutput('pdftotext dohoje.pdf -')
20 ini=find(pag1c,'PÁGINA')
21 ini+=5
22 pag_lim= [0,0]
23 novo_ini = 0
24 for i in range(2):
25 for j in range(-1,-4,-1):
26 try :
27 pag_lim[i]=int(pag1c[find(pag1c,chave,ini):find(pag1c,'. ',find(pag1c,chave,ini))+4][j:])
28 except:
29 continue
30 novoini=find(pag1c,chave,ini)
31 ini=novoini+1
32 chave="Ministério"
33 for i in range(pag_lim[0],pag_lim[1]+1,1) :
34 rec_pagina(replace(data_edicao,'/','_'), i, nome_arquivo=nome_arq+'_'+replace(data_edicao,'/','_')+'pag'+str(i))
CamposPythonCode (last edited 2008-08-06 16:24:03 by localhost)