Usando list, set e str na análise de um texto



Usando list, set e str para análise de um texto

Nesta lição vamos exercitar uso de listas, conjuntos e strings com uma análise de texto simples. Temos um texto baixado da internet e gostariamos de fazer algumas análises tais como listar as palavras significativas (talvez para montar um índice) ou fazer estatísticas de ocorrências delas.
Vamos ler o texto, que está no arquivo 'cienciapolitica.txt'.

In [1]:
import os
os.getcwd()
Out[1]:
'C:\\Users\\ps\\Desktop\\Blog'
In [2]:
with open('cienciapolitica.txt', 'r') as f:
    texto = f.read() 
In [3]:
texto
Out[3]:
'A Ciência Política surgiu como disciplina e instituição em meados do século XIX, período em que avançou como "Ciência do Estado" principalmente na Alemanha, Itália e França. De maneira mais ampla, a Ciência Política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática, sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais. Nesse sentido, a palavra "ciência" é usada como ideia oposta à noção de "opinião", de forma que, como Noberto Bobbio* esclarece em seu Dicionário de Política, "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo, não formular juízos com base em dados imprecisos, mas apoiar-se nas provas dos fatos."\n\nTrata-se, portanto, de uma disciplina das Ciências Sociais que lida com o estudo de sistemas de governo, análises de comportamento político e de atividades políticas em geral. Ela cuida, principalmente, dos atos e dos atores que participam de atividades políticas, considerando suas ações e o cenário em que essas ações são tomadas. Dedica-se, também, ao estudo dos processos de disputa política, isto é, os processos de embate em nome da distribuição de poderes.\n\nEm seus estudos, a Ciência Política recorre a diversas outras áreas do conhecimento humano. Os campos de estudo da economia, do direito, da sociologia, da história, da antropologia, da administração pública, das relações internacionais, da psicologia e da filosofia política fazem parte do arcabouço teórico sobre o qual os esforços da ciência política estão apoiados.\n\nTendo surgido no mesmo momento histórico em que o progresso científico começava a deslanchar no mundo europeu e acompanhando o nascimento das demais disciplinas das ciências sociais, a ciência política construiu-se sobre as bases do empirismo científico. Apesar de serem metodologicamente diversos, de maneira geral, suas análises estão baseadas nos mesmos métodos utilizados pelas demais áreas que se dedicam à pesquisa social: baseando-se em documentos históricos, em registros oficiais, na produção de pesquisa por questionário, análises estatísticas, estudos de caso e na construção de modelos.\n\nMesmo sendo uma disciplina "recente", a ciência política possui raízes profundas na história do conhecimento humano. Alguns dos primeiros pensadores que se dedicaram ao estudo da política remontam à Grécia antiga, com Platão e Aristóteles, ou ainda à Índia, com Chanakya, há mais ou menos 2.500 anos. Apesar de seus trabalhos pertencerem ao campo da filosofia política, as análises dos contextos políticos de suas realidades serviram como base de construção da disciplina que temos hoje. Em tempos mais recentes, entre os séculos XIV e XVIII, diversos outros pensadores contribuíram para o campo do conhecimento político. Entre os mais importantes, estão: Thomas Hobbes, John Locke, Jean-Jacques Rousseau, Immanuel Kant e Friedrich Hegel.\n'
Observe que o texto lido contem palavras sem relevância para montar um índice, tais como "a", "e", "em" e similares. Para eliminar tais palavras usaremos listas de stopwords.
Procurando na internet baixamos três arquivos de stopwords para Português. São arquivos texto contendo listas de palavras julgadas irrelevantes em conteúdo (conectivos, proposições, etc):
  1. stopwords.txt
  2. stopwords1.txt
  3. stopwords2.txt
As listas tem tamanhos diferentes. A primeira tarefa é fazer uma união das listas para obter uma única lista com todas palavras sem repetições.
Começaremos lendo o conteúdo dos arquivos texto com as listas:
In [4]:
with open('stopwords.txt','r') as f:
    s0 = f.read()
Vejamos o que foi lido. Repare que s0 é um string, logo podemos examinar só os primeiros caracteres lidos:
In [5]:
s0[:50]
Out[5]:
'de\na\no\nque\ne\ndo\nda\nem\num\npara\ncom\nnão\numa\nos\nno\nse'
Certo. Está cheio de caracteres nova-linha (\n). Vamos eliminar estes caracteres usando o método split() de strings.
In [7]:
s = s0.split('\n')
s[0:20]
Out[7]:
['de',
 'a',
 'o',
 'que',
 'e',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as']
Repare que s é uma lista, não um string como s0. É como funciona o comando split()
In [8]:
len(s)
Out[8]:
203
Repetimos o procedimento para os outros dois arquivos texto:
In [9]:
with open('stopwords1.txt','r') as f:
    s0 = f.read()
s1 = s0.split('\n')

len(s1)
Out[9]:
300
In [10]:
s1[0:20]
Out[10]:
['a',
 'à',
 'acordo',
 'afirma',
 'afirmou',
 'agora',
 'ainda',
 'além',
 'alguns',
 'ano',
 'anos',
 'antes',
 'ao',
 'aos',
 'apenas',
 'após',
 'aqui',
 'área',
 'as',
 'às']
In [11]:
with open('stopwords2.txt','r') as f:
    s0 = f.read()
s2 = s0.split('\n')

len(s2)
Out[11]:
145
In [12]:
s2[0:20]
Out[12]:
['último',
 'é',
 'acerca',
 'agora',
 'algmas',
 'alguns',
 'ali',
 'ambos',
 'antes',
 'apontar',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aqui',
 'atrás',
 'bem',
 'bom',
 'cada',
 'caminho']
Em s2 aparecem algumas tabulações (\t) espúrias. Podemos eliminar elas usando o comando replace().
In [13]:
s0 = s0.replace('\t','\n')
s2 = s0.split('\n')
s2[0:20]
Out[13]:
['último',
 'é',
 'acerca',
 'agora',
 'algmas',
 'alguns',
 'ali',
 'ambos',
 'antes',
 'apontar',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aqui',
 'atrás',
 'bem',
 'bom',
 'cada',
 'caminho']
In [14]:
len(s2)
Out[14]:
147
Observe que a soma dos números de palavras das listas dá:
In [ ]:
147 + 300 + 203
Examinando as listas vê-se que diversas palavras repetem-se nelas. Precisamos fazer uma uniâo de listas como conjuntos de palavras, eliminando repetições. Isto é exatamente o que sets (conjuntos) fazem, por definição.
Vamos portanto transformar as três listas s, s1, s2 em três conjuntos, S, S1, S2, após o que faremos a sua uniâo:
In [15]:
S = set(s)
S
Out[15]:
{'a',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'estamos',
 'estas',
 'estava',
 'estavam',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéramos',
 'estivéssemos',
 'estou',
 'está',
 'estávamos',
 'estão',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fui',
 'fôramos',
 'fôssemos',
 'haja',
 'hajam',
 'hajamos',
 'havemos',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houveram',
 'houverei',
 'houverem',
 'houveremos',
 'houveria',
 'houveriam',
 'houvermos',
 'houverá',
 'houverão',
 'houveríamos',
 'houvesse',
 'houvessem',
 'houvéramos',
 'houvéssemos',
 'há',
 'hão',
 'isso',
 'isto',
 'já',
 'lhe',
 'lhes',
 'mais',
 'mas',
 'me',
 'mesmo',
 'meu',
 'meus',
 'minha',
 'minhas',
 'muito',
 'na',
 'nas',
 'nem',
 'no',
 'nos',
 'nossa',
 'nossas',
 'nosso',
 'nossos',
 'num',
 'numa',
 'não',
 'nós',
 'o',
 'os',
 'ou',
 'para',
 'pela',
 'pelas',
 'pelo',
 'pelos',
 'por',
 'qual',
 'quando',
 'que',
 'quem',
 'se',
 'seja',
 'sejam',
 'sejamos',
 'sem',
 'serei',
 'seremos',
 'seria',
 'seriam',
 'será',
 'serão',
 'seríamos',
 'seu',
 'seus',
 'somos',
 'sou',
 'sua',
 'suas',
 'são',
 'só',
 'também',
 'te',
 'tem',
 'temos',
 'tenha',
 'tenham',
 'tenhamos',
 'tenho',
 'terei',
 'teremos',
 'teria',
 'teriam',
 'terá',
 'terão',
 'teríamos',
 'teu',
 'teus',
 'teve',
 'tinha',
 'tinham',
 'tive',
 'tivemos',
 'tiver',
 'tivera',
 'tiveram',
 'tiverem',
 'tivermos',
 'tivesse',
 'tivessem',
 'tivéramos',
 'tivéssemos',
 'tu',
 'tua',
 'tuas',
 'tém',
 'tínhamos',
 'um',
 'uma',
 'você',
 'vocês',
 'vos',
 'à',
 'às',
 'éramos'}
In [16]:
len(S)
Out[16]:
203
In [17]:
S1 = set(s1)
len(S1)
Out[17]:
300
In [18]:
S2 = set(s2)
len(s2)
Out[18]:
147
OK, temos os três conjuntos de palavras e cada um deles por definição não tem palavras repetidas. Agora é só fazer a sua união:
In [19]:
X = S.union(S1)
len(X)
Out[19]:
420
In [20]:
X
Out[20]:
{'a',
 'acordo',
 'afirma',
 'afirmou',
 'agora',
 'ainda',
 'alguns',
 'além',
 'ano',
 'anos',
 'antes',
 'ao',
 'aos',
 'apenas',
 'após',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aqui',
 'aquilo',
 'as',
 'assim',
 'até',
 'aumento',
 'banco',
 'bem',
 'bilhões',
 'bom',
 'brasil',
 'brasileira',
 'brasileiro',
 'brasília',
 'cada',
 'campanha',
 'candidato',
 'carlos',
 'casa',
 'caso',
 'central',
 'centro',
 'cerca',
 'cidade',
 'cinco',
 'cinema',
 'coisa',
 'com',
 'como',
 'congresso',
 'conta',
 'contra',
 'câmara',
 'da',
 'dar',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'deputado',
 'desde',
 'deve',
 'dia',
 'dias',
 'dinheiro',
 'direito',
 'diretor',
 'disse',
 'diz',
 'do',
 'dois',
 'dos',
 'duas',
 'durante',
 'e',
 'economia',
 'econômica',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'empresa',
 'empresas',
 'enquanto',
 'entre',
 'então',
 'equipe',
 'era',
 'eram',
 'especial',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'estado',
 'estados',
 'estamos',
 'estas',
 'estava',
 'estavam',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéramos',
 'estivéssemos',
 'estou',
 'está',
 'estávamos',
 'estão',
 'eu',
 'eua',
 'exemplo',
 'falta',
 'fato',
 'faz',
 'fazer',
 'federal',
 'fernando',
 'fez',
 'fhc',
 'ficou',
 'filho',
 'filme',
 'fim',
 'final',
 'foi',
 'folha',
 'fomos',
 'for',
 'fora',
 'foram',
 'forem',
 'forma',
 'formos',
 'fosse',
 'fossem',
 'fui',
 'fôramos',
 'fôssemos',
 'governo',
 'grande',
 'grupo',
 'haja',
 'hajam',
 'hajamos',
 'havemos',
 'havia',
 'hei',
 'henrique',
 'história',
 'hoje',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houveram',
 'houverei',
 'houverem',
 'houveremos',
 'houveria',
 'houveriam',
 'houvermos',
 'houverá',
 'houverão',
 'houveríamos',
 'houvesse',
 'houvessem',
 'houvéramos',
 'houvéssemos',
 'há',
 'hão',
 'inflação',
 'início',
 'isso',
 'isto',
 'janeiro',
 'jogo',
 'josé',
 'juros',
 'justiça',
 'já',
 'lado',
 'lei',
 'lhe',
 'lhes',
 'livro',
 'local',
 'lugar',
 'maior',
 'mais',
 'mas',
 'me',
 'meio',
 'melhor',
 'menos',
 'mercado',
 'meses',
 'mesma',
 'mesmo',
 'meu',
 'meus',
 'mil',
 'milhões',
 'minha',
 'minhas',
 'ministro',
 'ministério',
 'momento',
 'muito',
 'mulher',
 'mundo',
 'média',
 'mês',
 'na',
 'nacional',
 'nada',
 'nas',
 'nem',
 'neste',
 'no',
 'noite',
 'nome',
 'nos',
 'nossa',
 'nossas',
 'nosso',
 'nossos',
 'nova',
 'novo',
 'num',
 'numa',
 'não',
 'nós',
 'número',
 'o',
 'onde',
 'ontem',
 'os',
 'ou',
 'outra',
 'outras',
 'outro',
 'outros',
 'para',
 'parte',
 'partido',
 'partir',
 'passado',
 'paulo',
 'país',
 'países',
 'pela',
 'pelas',
 'pelo',
 'pelos',
 'período',
 'pesquisa',
 'pessoas',
 'plano',
 'pode',
 'podem',
 'poder',
 'polícia',
 'política',
 'pontos',
 'por',
 'porque',
 'pouco',
 'prazo',
 'presidente',
 'preço',
 'preços',
 'primeira',
 'primeiro',
 'problema',
 'problemas',
 'processo',
 'produtos',
 'produção',
 'programa',
 'projeto',
 'próprio',
 'pt',
 'público',
 'qual',
 'qualquer',
 'quando',
 'quanto',
 'quase',
 'quatro',
 'que',
 'quem',
 'quer',
 'r',
 'real',
 'recursos',
 'região',
 'relação',
 'reportagem',
 'rio',
 'saúde',
 'se',
 'segundo',
 'seja',
 'sejam',
 'sejamos',
 'sem',
 'semana',
 'sempre',
 'sendo',
 'ser',
 'serei',
 'seremos',
 'seria',
 'seriam',
 'será',
 'serão',
 'seríamos',
 'setor',
 'seu',
 'seus',
 'sido',
 'silva',
 'sistema',
 'sobre',
 'social',
 'sociedade',
 'somos',
 'sou',
 'sp',
 'sua',
 'suas',
 'sucursal',
 'sul',
 'são',
 'só',
 'também',
 'te',
 'tel',
 'tem',
 'temos',
 'tempo',
 'tenha',
 'tenham',
 'tenhamos',
 'tenho',
 'ter',
 'terei',
 'teremos',
 'teria',
 'teriam',
 'terá',
 'terão',
 'teríamos',
 'teu',
 'teus',
 'teve',
 'tinha',
 'tinham',
 'tive',
 'tivemos',
 'tiver',
 'tivera',
 'tiveram',
 'tiverem',
 'tivermos',
 'tivesse',
 'tivessem',
 'tivéramos',
 'tivéssemos',
 'toda',
 'todas',
 'todo',
 'todos',
 'trabalho',
 'três',
 'tu',
 'tua',
 'tuas',
 'tudo',
 'tão',
 'tém',
 'têm',
 'tínhamos',
 'um',
 'uma',
 'us',
 'vai',
 'valor',
 'vem',
 'vez',
 'vezes',
 'vida',
 'você',
 'vocês',
 'vos',
 'vão',
 'zona',
 'à',
 'às',
 'área',
 'é',
 'éramos',
 'último'}
In [21]:
SW = X.union(S2)
len(SW)
Out[21]:
477
Repare que o número de palavras deste conjunto final é 477, bem menos que a soma dos três conjuntos originais, 650.
Vamos salvar o conjunto final de stopwords em arquivo texto:
In [22]:
with open('stopwd.txt','w') as f:
    f.write('\n'.join(SW))
O comando write(string) de objetos file escreve no arquivo dado um string fornecido como argumento.
No caso criamos o string da seguinte forma: iniciando com uma simples nova-linha (\n) e usando o comando join() de objetos string para unir o conjunto SW ao string inicial '\n'.
O join() itera os elementos de SW e concatena num string adequado.
Muito bem, temos o texto lido e obtivemos uma lista de stopwords. Vamos usar esta lista para extrair do texto todas as palavras que ocorrem em SW.
Primeiro limpamos um pouco o texto substituindo caracteres especiais como nova-linhas \n por espaços:
In [23]:
text = texto.replace('\n',' ')
text
Out[23]:
'A Ciência Política surgiu como disciplina e instituição em meados do século XIX, período em que avançou como "Ciência do Estado" principalmente na Alemanha, Itália e França. De maneira mais ampla, a Ciência Política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática, sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais. Nesse sentido, a palavra "ciência" é usada como ideia oposta à noção de "opinião", de forma que, como Noberto Bobbio* esclarece em seu Dicionário de Política, "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo, não formular juízos com base em dados imprecisos, mas apoiar-se nas provas dos fatos."  Trata-se, portanto, de uma disciplina das Ciências Sociais que lida com o estudo de sistemas de governo, análises de comportamento político e de atividades políticas em geral. Ela cuida, principalmente, dos atos e dos atores que participam de atividades políticas, considerando suas ações e o cenário em que essas ações são tomadas. Dedica-se, também, ao estudo dos processos de disputa política, isto é, os processos de embate em nome da distribuição de poderes.  Em seus estudos, a Ciência Política recorre a diversas outras áreas do conhecimento humano. Os campos de estudo da economia, do direito, da sociologia, da história, da antropologia, da administração pública, das relações internacionais, da psicologia e da filosofia política fazem parte do arcabouço teórico sobre o qual os esforços da ciência política estão apoiados.  Tendo surgido no mesmo momento histórico em que o progresso científico começava a deslanchar no mundo europeu e acompanhando o nascimento das demais disciplinas das ciências sociais, a ciência política construiu-se sobre as bases do empirismo científico. Apesar de serem metodologicamente diversos, de maneira geral, suas análises estão baseadas nos mesmos métodos utilizados pelas demais áreas que se dedicam à pesquisa social: baseando-se em documentos históricos, em registros oficiais, na produção de pesquisa por questionário, análises estatísticas, estudos de caso e na construção de modelos.  Mesmo sendo uma disciplina "recente", a ciência política possui raízes profundas na história do conhecimento humano. Alguns dos primeiros pensadores que se dedicaram ao estudo da política remontam à Grécia antiga, com Platão e Aristóteles, ou ainda à Índia, com Chanakya, há mais ou menos 2.500 anos. Apesar de seus trabalhos pertencerem ao campo da filosofia política, as análises dos contextos políticos de suas realidades serviram como base de construção da disciplina que temos hoje. Em tempos mais recentes, entre os séculos XIV e XVIII, diversos outros pensadores contribuíram para o campo do conhecimento político. Entre os mais importantes, estão: Thomas Hobbes, John Locke, Jean-Jacques Rousseau, Immanuel Kant e Friedrich Hegel. '
Vamos trocar letras maiúsculas por minúsculas (num índice real não fariamos isto!). É fácil:
In [25]:
ltext = text.lower()
ltext
Out[25]:
'a ciência política surgiu como disciplina e instituição em meados do século xix, período em que avançou como "ciência do estado" principalmente na alemanha, itália e frança. de maneira mais ampla, a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática, sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais. nesse sentido, a palavra "ciência" é usada como ideia oposta à noção de "opinião", de forma que, como noberto bobbio* esclarece em seu dicionário de política, "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo, não formular juízos com base em dados imprecisos, mas apoiar-se nas provas dos fatos."  trata-se, portanto, de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo, análises de comportamento político e de atividades políticas em geral. ela cuida, principalmente, dos atos e dos atores que participam de atividades políticas, considerando suas ações e o cenário em que essas ações são tomadas. dedica-se, também, ao estudo dos processos de disputa política, isto é, os processos de embate em nome da distribuição de poderes.  em seus estudos, a ciência política recorre a diversas outras áreas do conhecimento humano. os campos de estudo da economia, do direito, da sociologia, da história, da antropologia, da administração pública, das relações internacionais, da psicologia e da filosofia política fazem parte do arcabouço teórico sobre o qual os esforços da ciência política estão apoiados.  tendo surgido no mesmo momento histórico em que o progresso científico começava a deslanchar no mundo europeu e acompanhando o nascimento das demais disciplinas das ciências sociais, a ciência política construiu-se sobre as bases do empirismo científico. apesar de serem metodologicamente diversos, de maneira geral, suas análises estão baseadas nos mesmos métodos utilizados pelas demais áreas que se dedicam à pesquisa social: baseando-se em documentos históricos, em registros oficiais, na produção de pesquisa por questionário, análises estatísticas, estudos de caso e na construção de modelos.  mesmo sendo uma disciplina "recente", a ciência política possui raízes profundas na história do conhecimento humano. alguns dos primeiros pensadores que se dedicaram ao estudo da política remontam à grécia antiga, com platão e aristóteles, ou ainda à índia, com chanakya, há mais ou menos 2.500 anos. apesar de seus trabalhos pertencerem ao campo da filosofia política, as análises dos contextos políticos de suas realidades serviram como base de construção da disciplina que temos hoje. em tempos mais recentes, entre os séculos xiv e xviii, diversos outros pensadores contribuíram para o campo do conhecimento político. entre os mais importantes, estão: thomas hobbes, john locke, jean-jacques rousseau, immanuel kant e friedrich hegel. '
É necessário eliminar pontuação. Isto é feito muito facilmente usando Expressões Regulares mas como não vimos este tópico ainda faremos a eliminação por força bruta:
In [26]:
text1 = ltext.replace(',','')
text1
Out[26]:
'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como "ciência do estado" principalmente na alemanha itália e frança. de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais. nesse sentido a palavra "ciência" é usada como ideia oposta à noção de "opinião" de forma que como noberto bobbio* esclarece em seu dicionário de política "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos."  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral. ela cuida principalmente dos atos e dos atores que participam de atividades políticas considerando suas ações e o cenário em que essas ações são tomadas. dedica-se também ao estudo dos processos de disputa política isto é os processos de embate em nome da distribuição de poderes.  em seus estudos a ciência política recorre a diversas outras áreas do conhecimento humano. os campos de estudo da economia do direito da sociologia da história da antropologia da administração pública das relações internacionais da psicologia e da filosofia política fazem parte do arcabouço teórico sobre o qual os esforços da ciência política estão apoiados.  tendo surgido no mesmo momento histórico em que o progresso científico começava a deslanchar no mundo europeu e acompanhando o nascimento das demais disciplinas das ciências sociais a ciência política construiu-se sobre as bases do empirismo científico. apesar de serem metodologicamente diversos de maneira geral suas análises estão baseadas nos mesmos métodos utilizados pelas demais áreas que se dedicam à pesquisa social: baseando-se em documentos históricos em registros oficiais na produção de pesquisa por questionário análises estatísticas estudos de caso e na construção de modelos.  mesmo sendo uma disciplina "recente" a ciência política possui raízes profundas na história do conhecimento humano. alguns dos primeiros pensadores que se dedicaram ao estudo da política remontam à grécia antiga com platão e aristóteles ou ainda à índia com chanakya há mais ou menos 2.500 anos. apesar de seus trabalhos pertencerem ao campo da filosofia política as análises dos contextos políticos de suas realidades serviram como base de construção da disciplina que temos hoje. em tempos mais recentes entre os séculos xiv e xviii diversos outros pensadores contribuíram para o campo do conhecimento político. entre os mais importantes estão: thomas hobbes john locke jean-jacques rousseau immanuel kant e friedrich hegel. '
In [28]:
text2 = text1.replace('.','')
text2
Out[28]:
'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como "ciência do estado" principalmente na alemanha itália e frança de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais nesse sentido a palavra "ciência" é usada como ideia oposta à noção de "opinião" de forma que como noberto bobbio* esclarece em seu dicionário de política "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos"  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral ela cuida principalmente dos atos e dos atores que participam de atividades políticas considerando suas ações e o cenário em que essas ações são tomadas dedica-se também ao estudo dos processos de disputa política isto é os processos de embate em nome da distribuição de poderes  em seus estudos a ciência política recorre a diversas outras áreas do conhecimento humano os campos de estudo da economia do direito da sociologia da história da antropologia da administração pública das relações internacionais da psicologia e da filosofia política fazem parte do arcabouço teórico sobre o qual os esforços da ciência política estão apoiados  tendo surgido no mesmo momento histórico em que o progresso científico começava a deslanchar no mundo europeu e acompanhando o nascimento das demais disciplinas das ciências sociais a ciência política construiu-se sobre as bases do empirismo científico apesar de serem metodologicamente diversos de maneira geral suas análises estão baseadas nos mesmos métodos utilizados pelas demais áreas que se dedicam à pesquisa social: baseando-se em documentos históricos em registros oficiais na produção de pesquisa por questionário análises estatísticas estudos de caso e na construção de modelos  mesmo sendo uma disciplina "recente" a ciência política possui raízes profundas na história do conhecimento humano alguns dos primeiros pensadores que se dedicaram ao estudo da política remontam à grécia antiga com platão e aristóteles ou ainda à índia com chanakya há mais ou menos 2500 anos apesar de seus trabalhos pertencerem ao campo da filosofia política as análises dos contextos políticos de suas realidades serviram como base de construção da disciplina que temos hoje em tempos mais recentes entre os séculos xiv e xviii diversos outros pensadores contribuíram para o campo do conhecimento político entre os mais importantes estão: thomas hobbes john locke jean-jacques rousseau immanuel kant e friedrich hegel '
In [29]:
text3 = text2.replace(':','')
text3
Out[29]:
'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como "ciência do estado" principalmente na alemanha itália e frança de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais nesse sentido a palavra "ciência" é usada como ideia oposta à noção de "opinião" de forma que como noberto bobbio* esclarece em seu dicionário de política "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos"  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral ela cuida principalmente dos atos e dos atores que participam de atividades políticas considerando suas ações e o cenário em que essas ações são tomadas dedica-se também ao estudo dos processos de disputa política isto é os processos de embate em nome da distribuição de poderes  em seus estudos a ciência política recorre a diversas outras áreas do conhecimento humano os campos de estudo da economia do direito da sociologia da história da antropologia da administração pública das relações internacionais da psicologia e da filosofia política fazem parte do arcabouço teórico sobre o qual os esforços da ciência política estão apoiados  tendo surgido no mesmo momento histórico em que o progresso científico começava a deslanchar no mundo europeu e acompanhando o nascimento das demais disciplinas das ciências sociais a ciência política construiu-se sobre as bases do empirismo científico apesar de serem metodologicamente diversos de maneira geral suas análises estão baseadas nos mesmos métodos utilizados pelas demais áreas que se dedicam à pesquisa social baseando-se em documentos históricos em registros oficiais na produção de pesquisa por questionário análises estatísticas estudos de caso e na construção de modelos  mesmo sendo uma disciplina "recente" a ciência política possui raízes profundas na história do conhecimento humano alguns dos primeiros pensadores que se dedicaram ao estudo da política remontam à grécia antiga com platão e aristóteles ou ainda à índia com chanakya há mais ou menos 2500 anos apesar de seus trabalhos pertencerem ao campo da filosofia política as análises dos contextos políticos de suas realidades serviram como base de construção da disciplina que temos hoje em tempos mais recentes entre os séculos xiv e xviii diversos outros pensadores contribuíram para o campo do conhecimento político entre os mais importantes estão thomas hobbes john locke jean-jacques rousseau immanuel kant e friedrich hegel '
Mais alguns caracteres espúrios do texto devem ser eliminados: * e "
In [30]:
text4 = text3.replace('*','')
text4
Out[30]:
'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como "ciência do estado" principalmente na alemanha itália e frança de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais nesse sentido a palavra "ciência" é usada como ideia oposta à noção de "opinião" de forma que como noberto bobbio esclarece em seu dicionário de política "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos"  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral ela cuida principalmente dos atos e dos atores que participam de atividades políticas considerando suas ações e o cenário em que essas ações são tomadas dedica-se também ao estudo dos processos de disputa política isto é os processos de embate em nome da distribuição de poderes  em seus estudos a ciência política recorre a diversas outras áreas do conhecimento humano os campos de estudo da economia do direito da sociologia da história da antropologia da administração pública das relações internacionais da psicologia e da filosofia política fazem parte do arcabouço teórico sobre o qual os esforços da ciência política estão apoiados  tendo surgido no mesmo momento histórico em que o progresso científico começava a deslanchar no mundo europeu e acompanhando o nascimento das demais disciplinas das ciências sociais a ciência política construiu-se sobre as bases do empirismo científico apesar de serem metodologicamente diversos de maneira geral suas análises estão baseadas nos mesmos métodos utilizados pelas demais áreas que se dedicam à pesquisa social baseando-se em documentos históricos em registros oficiais na produção de pesquisa por questionário análises estatísticas estudos de caso e na construção de modelos  mesmo sendo uma disciplina "recente" a ciência política possui raízes profundas na história do conhecimento humano alguns dos primeiros pensadores que se dedicaram ao estudo da política remontam à grécia antiga com platão e aristóteles ou ainda à índia com chanakya há mais ou menos 2500 anos apesar de seus trabalhos pertencerem ao campo da filosofia política as análises dos contextos políticos de suas realidades serviram como base de construção da disciplina que temos hoje em tempos mais recentes entre os séculos xiv e xviii diversos outros pensadores contribuíram para o campo do conhecimento político entre os mais importantes estão thomas hobbes john locke jean-jacques rousseau immanuel kant e friedrich hegel '
In [32]:
text5 = text4.replace('"', '')
text5
Out[32]:
'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como ciência do estado principalmente na alemanha itália e frança de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais nesse sentido a palavra ciência é usada como ideia oposta à noção de opinião de forma que como noberto bobbio esclarece em seu dicionário de política ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral ela cuida principalmente dos atos e dos atores que participam de atividades políticas considerando suas ações e o cenário em que essas ações são tomadas dedica-se também ao estudo dos processos de disputa política isto é os processos de embate em nome da distribuição de poderes  em seus estudos a ciência política recorre a diversas outras áreas do conhecimento humano os campos de estudo da economia do direito da sociologia da história da antropologia da administração pública das relações internacionais da psicologia e da filosofia política fazem parte do arcabouço teórico sobre o qual os esforços da ciência política estão apoiados  tendo surgido no mesmo momento histórico em que o progresso científico começava a deslanchar no mundo europeu e acompanhando o nascimento das demais disciplinas das ciências sociais a ciência política construiu-se sobre as bases do empirismo científico apesar de serem metodologicamente diversos de maneira geral suas análises estão baseadas nos mesmos métodos utilizados pelas demais áreas que se dedicam à pesquisa social baseando-se em documentos históricos em registros oficiais na produção de pesquisa por questionário análises estatísticas estudos de caso e na construção de modelos  mesmo sendo uma disciplina recente a ciência política possui raízes profundas na história do conhecimento humano alguns dos primeiros pensadores que se dedicaram ao estudo da política remontam à grécia antiga com platão e aristóteles ou ainda à índia com chanakya há mais ou menos 2500 anos apesar de seus trabalhos pertencerem ao campo da filosofia política as análises dos contextos políticos de suas realidades serviram como base de construção da disciplina que temos hoje em tempos mais recentes entre os séculos xiv e xviii diversos outros pensadores contribuíram para o campo do conhecimento político entre os mais importantes estão thomas hobbes john locke jean-jacques rousseau immanuel kant e friedrich hegel '
Agora que o texto está razoavelmente limpo e uniforme, podemos eliminar todas as stopwords.
Primeiro transformamos o texto de string em lista de palavras:
In [33]:
ltxt = text5.split()
ltxt
Out[33]:
['a',
 'ciência',
 'política',
 'surgiu',
 'como',
 'disciplina',
 'e',
 'instituição',
 'em',
 'meados',
 'do',
 'século',
 'xix',
 'período',
 'em',
 'que',
 'avançou',
 'como',
 'ciência',
 'do',
 'estado',
 'principalmente',
 'na',
 'alemanha',
 'itália',
 'e',
 'frança',
 'de',
 'maneira',
 'mais',
 'ampla',
 'a',
 'ciência',
 'política',
 'pode',
 'ser',
 'entendida',
 'como',
 'a',
 'disciplina',
 'que',
 'se',
 'volta',
 'para',
 'o',
 'estudo',
 'de',
 'qualquer',
 'fenômeno',
 'ligado',
 'às',
 'estruturas',
 'políticas',
 'de',
 'maneira',
 'sistemática',
 'sempre',
 'apoiado',
 'na',
 'observação',
 'empírica',
 'rigorosa',
 'e',
 'fundamentado',
 'em',
 'argumentos',
 'racionais',
 'nesse',
 'sentido',
 'a',
 'palavra',
 'ciência',
 'é',
 'usada',
 'como',
 'ideia',
 'oposta',
 'à',
 'noção',
 'de',
 'opinião',
 'de',
 'forma',
 'que',
 'como',
 'noberto',
 'bobbio',
 'esclarece',
 'em',
 'seu',
 'dicionário',
 'de',
 'política',
 'ocupar-se',
 'cientificamente',
 'de',
 'política',
 'significa',
 'não',
 'se',
 'abandonar',
 'a',
 'opiniões',
 'e',
 'crenças',
 'do',
 'vulgo',
 'não',
 'formular',
 'juízos',
 'com',
 'base',
 'em',
 'dados',
 'imprecisos',
 'mas',
 'apoiar-se',
 'nas',
 'provas',
 'dos',
 'fatos',
 'trata-se',
 'portanto',
 'de',
 'uma',
 'disciplina',
 'das',
 'ciências',
 'sociais',
 'que',
 'lida',
 'com',
 'o',
 'estudo',
 'de',
 'sistemas',
 'de',
 'governo',
 'análises',
 'de',
 'comportamento',
 'político',
 'e',
 'de',
 'atividades',
 'políticas',
 'em',
 'geral',
 'ela',
 'cuida',
 'principalmente',
 'dos',
 'atos',
 'e',
 'dos',
 'atores',
 'que',
 'participam',
 'de',
 'atividades',
 'políticas',
 'considerando',
 'suas',
 'ações',
 'e',
 'o',
 'cenário',
 'em',
 'que',
 'essas',
 'ações',
 'são',
 'tomadas',
 'dedica-se',
 'também',
 'ao',
 'estudo',
 'dos',
 'processos',
 'de',
 'disputa',
 'política',
 'isto',
 'é',
 'os',
 'processos',
 'de',
 'embate',
 'em',
 'nome',
 'da',
 'distribuição',
 'de',
 'poderes',
 'em',
 'seus',
 'estudos',
 'a',
 'ciência',
 'política',
 'recorre',
 'a',
 'diversas',
 'outras',
 'áreas',
 'do',
 'conhecimento',
 'humano',
 'os',
 'campos',
 'de',
 'estudo',
 'da',
 'economia',
 'do',
 'direito',
 'da',
 'sociologia',
 'da',
 'história',
 'da',
 'antropologia',
 'da',
 'administração',
 'pública',
 'das',
 'relações',
 'internacionais',
 'da',
 'psicologia',
 'e',
 'da',
 'filosofia',
 'política',
 'fazem',
 'parte',
 'do',
 'arcabouço',
 'teórico',
 'sobre',
 'o',
 'qual',
 'os',
 'esforços',
 'da',
 'ciência',
 'política',
 'estão',
 'apoiados',
 'tendo',
 'surgido',
 'no',
 'mesmo',
 'momento',
 'histórico',
 'em',
 'que',
 'o',
 'progresso',
 'científico',
 'começava',
 'a',
 'deslanchar',
 'no',
 'mundo',
 'europeu',
 'e',
 'acompanhando',
 'o',
 'nascimento',
 'das',
 'demais',
 'disciplinas',
 'das',
 'ciências',
 'sociais',
 'a',
 'ciência',
 'política',
 'construiu-se',
 'sobre',
 'as',
 'bases',
 'do',
 'empirismo',
 'científico',
 'apesar',
 'de',
 'serem',
 'metodologicamente',
 'diversos',
 'de',
 'maneira',
 'geral',
 'suas',
 'análises',
 'estão',
 'baseadas',
 'nos',
 'mesmos',
 'métodos',
 'utilizados',
 'pelas',
 'demais',
 'áreas',
 'que',
 'se',
 'dedicam',
 'à',
 'pesquisa',
 'social',
 'baseando-se',
 'em',
 'documentos',
 'históricos',
 'em',
 'registros',
 'oficiais',
 'na',
 'produção',
 'de',
 'pesquisa',
 'por',
 'questionário',
 'análises',
 'estatísticas',
 'estudos',
 'de',
 'caso',
 'e',
 'na',
 'construção',
 'de',
 'modelos',
 'mesmo',
 'sendo',
 'uma',
 'disciplina',
 'recente',
 'a',
 'ciência',
 'política',
 'possui',
 'raízes',
 'profundas',
 'na',
 'história',
 'do',
 'conhecimento',
 'humano',
 'alguns',
 'dos',
 'primeiros',
 'pensadores',
 'que',
 'se',
 'dedicaram',
 'ao',
 'estudo',
 'da',
 'política',
 'remontam',
 'à',
 'grécia',
 'antiga',
 'com',
 'platão',
 'e',
 'aristóteles',
 'ou',
 'ainda',
 'à',
 'índia',
 'com',
 'chanakya',
 'há',
 'mais',
 'ou',
 'menos',
 '2500',
 'anos',
 'apesar',
 'de',
 'seus',
 'trabalhos',
 'pertencerem',
 'ao',
 'campo',
 'da',
 'filosofia',
 'política',
 'as',
 'análises',
 'dos',
 'contextos',
 'políticos',
 'de',
 'suas',
 'realidades',
 'serviram',
 'como',
 'base',
 'de',
 'construção',
 'da',
 'disciplina',
 'que',
 'temos',
 'hoje',
 'em',
 'tempos',
 'mais',
 'recentes',
 'entre',
 'os',
 'séculos',
 'xiv',
 'e',
 'xviii',
 'diversos',
 'outros',
 'pensadores',
 'contribuíram',
 'para',
 'o',
 'campo',
 'do',
 'conhecimento',
 'político',
 'entre',
 'os',
 'mais',
 'importantes',
 'estão',
 'thomas',
 'hobbes',
 'john',
 'locke',
 'jean-jacques',
 'rousseau',
 'immanuel',
 'kant',
 'e',
 'friedrich',
 'hegel']
Lembre que nossa lista final de stopwords ficou guardada no conjunto SW. Vamos transformar SW numa lista de palavras tambem, após o que fica fácil proceder a eliminação:
In [34]:
lsw = list(SW)
lsw
Out[34]:
['quando',
 'região',
 'então',
 'meu',
 'tudo',
 'forma',
 'lei',
 'brasília',
 'neste',
 'outro',
 'houvessem',
 'somente',
 'casa',
 'tenha',
 'elas',
 'já',
 'ela',
 'recursos',
 'produção',
 'quatro',
 'houveria',
 'quê',
 'tive',
 'direita',
 'estamos',
 'estavam',
 'seus',
 'tivéramos',
 'tinha',
 'onde',
 'ontem',
 'eu',
 'for',
 'a',
 'houvéssemos',
 'carlos',
 'saúde',
 'minha',
 'houvermos',
 'tipo',
 'houverão',
 'fossem',
 'enquanto',
 'tentaram',
 'cerca',
 'outra',
 'houverá',
 'cima',
 'como',
 'além',
 'atrás',
 'após',
 'diretor',
 'empresas',
 'aquilo',
 'nós',
 'seríamos',
 'estejam',
 'quase',
 'real',
 'com',
 'você',
 'tenhamos',
 'pessoas',
 'nas',
 'houveram',
 'tel',
 'final',
 'nossas',
 'essas',
 'tiveram',
 'mesmo',
 'deles',
 'hoje',
 'plano',
 'número',
 'hajam',
 'zona',
 'muitos',
 'eram',
 'estivessem',
 'estar ',
 'fomos',
 'preço',
 'diz',
 'relação',
 'estivemos',
 'tente',
 'contra',
 'havia',
 'sistema',
 'sua',
 'reportagem',
 'esse',
 'durante',
 'melhor',
 'tivessem',
 'problemas',
 'usa',
 'cada',
 'inflação',
 'trabalho',
 'partir',
 'qual',
 'terão',
 'irá',
 'da',
 'na',
 'à',
 'não',
 'agora',
 'desde',
 'aumento',
 'programa',
 'setor',
 'verdadeiro',
 'último',
 'até',
 'nova',
 'filho',
 'poderá ',
 'que',
 'quer',
 'mais',
 'banco',
 'tiver',
 'deputado',
 'política',
 'se',
 'seriam',
 'vão',
 'janeiro',
 'maiorias',
 'hão',
 'sem',
 'lugar',
 'umas',
 'assim',
 'afirma',
 'suas',
 'há',
 'coisa',
 'bem',
 'me',
 'prazo',
 'depois',
 'alguns',
 'sucursal',
 'faz',
 'caminho',
 'direito',
 'ir',
 'mundo',
 'r',
 'teria',
 'caso',
 'área',
 'preços',
 'pegar',
 'lhe',
 'tentar',
 'média',
 'houveríamos',
 'câmara',
 'havemos',
 'para',
 'uns',
 'dias',
 'tempo',
 'muito',
 'processo',
 'estávamos',
 'usar',
 'cinco',
 'nosso',
 'rio',
 'tivera',
 'sempre',
 'pesquisa',
 'história',
 'terei',
 'houvera',
 'livro',
 'momento',
 'campanha',
 'nos',
 'tivemos',
 'podem',
 'vida',
 'dos',
 'éramos',
 'estado',
 'só',
 'houvemos',
 'três',
 'vos',
 'delas',
 'hei',
 'federal',
 'quem',
 'hajamos',
 'próprio',
 'ambos',
 'estas',
 'sobre',
 'tentei',
 'ao',
 'debaixo',
 'formos',
 'us',
 'seja',
 'mesma',
 'aqueles',
 'toda',
 'povo',
 'bilhões',
 'cinema',
 'inicio',
 'ainda',
 'ficou',
 'público',
 'estivera',
 'pelas',
 'dinheiro',
 'aquelas',
 'podia',
 'te',
 'houver',
 'houverem',
 'deverá',
 'quanto',
 'pouco',
 'ano',
 'filme',
 'horas',
 'será',
 'mercado',
 'fazia',
 'houverei',
 'centro',
 'acerca',
 'estiverem',
 'dois',
 'paulo',
 'todo',
 'tivermos',
 'tua',
 'ista',
 'sendo',
 'ligado',
 'teve',
 'também',
 'às',
 'eua',
 'isto',
 'henrique',
 'pode',
 'passado',
 'sp',
 'devem',
 'tal',
 'forem',
 'houveremos',
 'seremos',
 'tenham',
 'jogo',
 'vezes',
 'social',
 'valor',
 'tinham',
 'fui',
 'todas',
 'conhecido',
 'pt',
 'somos',
 'todos',
 'dentro',
 'aquela',
 'sou',
 'brasileiro',
 'fazer',
 'do',
 'esta',
 'apenas',
 'comprido',
 'ver',
 'primeiro',
 'ou',
 'pelo',
 'maior',
 'mas',
 'lado',
 'temos',
 'porque',
 'terá',
 'ser',
 'falta',
 'tenho',
 'no',
 'central',
 'é',
 'deve',
 'ali',
 'local',
 'cidade',
 'vez',
 'ministério',
 'sociedade',
 'estivesse',
 'equipe',
 'meus',
 'estiver',
 'sejamos',
 'sejam',
 'entre',
 'serão',
 'promeiro',
 'as',
 'veja',
 'silva',
 'apontar',
 'antes',
 'estes',
 'congresso',
 'tuas',
 'josé',
 'problema',
 'fernando',
 'de',
 'folha',
 'estiveram',
 'houvesse',
 'são',
 'tém',
 'fez',
 'sido',
 'meses',
 'produtos',
 'estará',
 'e',
 'corrente',
 'iniciar',
 'vai',
 'segundo',
 'ministro',
 'tiverem',
 'pontos',
 'fora',
 'haja',
 'presidente',
 'especial',
 'foi',
 'brasil',
 'tão',
 'estivermos',
 'por',
 'fará',
 'serei',
 'fôssemos',
 'início',
 'noite',
 'partido',
 'ter',
 'estivéssemos',
 'um',
 'dela',
 'economia',
 'tivesse',
 'dar',
 'o',
 'ele',
 'têm',
 'nossa',
 'teriam',
 'novo',
 'afirmou',
 'polícia',
 'semana',
 'fôramos',
 'fato',
 'candidato',
 'países',
 'justiça',
 'tu',
 'duas',
 'qualquer',
 'fim',
 'fhc',
 'uma',
 'num',
 'vocês',
 'houve',
 'tínhamos',
 'fosse',
 'nacional',
 'vem',
 'estados',
 'aquele',
 'estão',
 'houveriam',
 'dia',
 'exemplo',
 'trabalhar',
 'nem',
 'das',
 'governo',
 'isso',
 'estive',
 'outros',
 'esteja',
 'brasileira',
 'pela',
 'esses',
 'conta',
 'nome',
 'tivéssemos',
 'estava',
 'teu',
 'poder',
 'empresa',
 'milhões',
 'minhas',
 'teus',
 'menos',
 'grande',
 'eles',
 'esteve',
 'este',
 'desligado',
 'país',
 'meio',
 'período',
 'nossos',
 'houvéramos',
 'pelos',
 'parte',
 'seu',
 'essa',
 'era',
 'aqui',
 'maioria',
 'saber',
 'tem',
 'lhes',
 'primeira',
 'mil',
 'seria',
 'teremos',
 'mês',
 'acordo',
 'algmas',
 'dele',
 'sul',
 'estou',
 'anos',
 'juros',
 'mulher',
 'dizer',
 'numa',
 'está',
 'estivéramos',
 'os',
 'disse',
 'outras',
 'foram',
 'aos',
 'grupo',
 'nada',
 'bom',
 'econômica',
 'verdade',
 'teríamos',
 'projeto',
 'estejamos',
 'iste',
 'em',
 'quieto']
In [35]:
palavras = [x for x in ltxt if x not in lsw]
palavras
Out[35]:
['ciência',
 'surgiu',
 'disciplina',
 'instituição',
 'meados',
 'século',
 'xix',
 'avançou',
 'ciência',
 'principalmente',
 'alemanha',
 'itália',
 'frança',
 'maneira',
 'ampla',
 'ciência',
 'entendida',
 'disciplina',
 'volta',
 'estudo',
 'fenômeno',
 'estruturas',
 'políticas',
 'maneira',
 'sistemática',
 'apoiado',
 'observação',
 'empírica',
 'rigorosa',
 'fundamentado',
 'argumentos',
 'racionais',
 'nesse',
 'sentido',
 'palavra',
 'ciência',
 'usada',
 'ideia',
 'oposta',
 'noção',
 'opinião',
 'noberto',
 'bobbio',
 'esclarece',
 'dicionário',
 'ocupar-se',
 'cientificamente',
 'significa',
 'abandonar',
 'opiniões',
 'crenças',
 'vulgo',
 'formular',
 'juízos',
 'base',
 'dados',
 'imprecisos',
 'apoiar-se',
 'provas',
 'fatos',
 'trata-se',
 'portanto',
 'disciplina',
 'ciências',
 'sociais',
 'lida',
 'estudo',
 'sistemas',
 'análises',
 'comportamento',
 'político',
 'atividades',
 'políticas',
 'geral',
 'cuida',
 'principalmente',
 'atos',
 'atores',
 'participam',
 'atividades',
 'políticas',
 'considerando',
 'ações',
 'cenário',
 'ações',
 'tomadas',
 'dedica-se',
 'estudo',
 'processos',
 'disputa',
 'processos',
 'embate',
 'distribuição',
 'poderes',
 'estudos',
 'ciência',
 'recorre',
 'diversas',
 'áreas',
 'conhecimento',
 'humano',
 'campos',
 'estudo',
 'sociologia',
 'antropologia',
 'administração',
 'pública',
 'relações',
 'internacionais',
 'psicologia',
 'filosofia',
 'fazem',
 'arcabouço',
 'teórico',
 'esforços',
 'ciência',
 'apoiados',
 'tendo',
 'surgido',
 'histórico',
 'progresso',
 'científico',
 'começava',
 'deslanchar',
 'europeu',
 'acompanhando',
 'nascimento',
 'demais',
 'disciplinas',
 'ciências',
 'sociais',
 'ciência',
 'construiu-se',
 'bases',
 'empirismo',
 'científico',
 'apesar',
 'serem',
 'metodologicamente',
 'diversos',
 'maneira',
 'geral',
 'análises',
 'baseadas',
 'mesmos',
 'métodos',
 'utilizados',
 'demais',
 'áreas',
 'dedicam',
 'baseando-se',
 'documentos',
 'históricos',
 'registros',
 'oficiais',
 'questionário',
 'análises',
 'estatísticas',
 'estudos',
 'construção',
 'modelos',
 'disciplina',
 'recente',
 'ciência',
 'possui',
 'raízes',
 'profundas',
 'conhecimento',
 'humano',
 'primeiros',
 'pensadores',
 'dedicaram',
 'estudo',
 'remontam',
 'grécia',
 'antiga',
 'platão',
 'aristóteles',
 'índia',
 'chanakya',
 '2500',
 'apesar',
 'trabalhos',
 'pertencerem',
 'campo',
 'filosofia',
 'análises',
 'contextos',
 'políticos',
 'realidades',
 'serviram',
 'base',
 'construção',
 'disciplina',
 'tempos',
 'recentes',
 'séculos',
 'xiv',
 'xviii',
 'diversos',
 'pensadores',
 'contribuíram',
 'campo',
 'conhecimento',
 'político',
 'importantes',
 'thomas',
 'hobbes',
 'john',
 'locke',
 'jean-jacques',
 'rousseau',
 'immanuel',
 'kant',
 'friedrich',
 'hegel']
Fica claro olhando esta lista que muitas outras palavras poderiam ser eliminadas. Verbos, adverbios, etc. Isto ilustra que uma lista básica de stopwords vai ser sempre expandida com palavras adicionais dependentes da aplicação no caso.
Por exemplo poderiamos usar um dicionário para eliminar verbos, etc.
Alem disso fica claro que termos como "Ciências Sociais" deveriam permanecer como tais e não ser desmembrados em duas (ou mais) palavras isoladas.
Neste exemplo símples vamos só fazer a contagem de ocorrências de cada palavra em palavras e listar o resultado em ordem decrescente. Como fazer tal contagem?
Objetos da classe list possuem um método count() que conta as ocorrências de cada elemento. Vamos usa-lo para este exemplo. Observe que antes de mais nada precisamos de uma lista de todas palavras do texto sem repetições, o que fazemos com a técnica de conversão em conjuntos vista acima:
In [36]:
slist = set(palavras)
lista = list(slist)
lista
Out[36]:
['atividades',
 'alemanha',
 'deslanchar',
 'recente',
 'instituição',
 'cuida',
 'rousseau',
 'possui',
 'dedica-se',
 'aristóteles',
 'nesse',
 'bases',
 'estatísticas',
 'juízos',
 'provas',
 'significa',
 'disputa',
 'ocupar-se',
 'imprecisos',
 'baseando-se',
 'hegel',
 'principalmente',
 'pública',
 'histórico',
 'conhecimento',
 'itália',
 'geral',
 'ciências',
 'estruturas',
 'psicologia',
 'demais',
 'argumentos',
 'thomas',
 'dados',
 'surgido',
 'modelos',
 'relações',
 'oficiais',
 'palavra',
 'fazem',
 'filosofia',
 'campo',
 'sociais',
 'pensadores',
 'utilizados',
 'platão',
 'dedicaram',
 'tendo',
 'maneira',
 'lida',
 'recorre',
 'vulgo',
 'ciência',
 'estudos',
 'apoiar-se',
 'tomadas',
 'apoiado',
 'surgiu',
 'políticos',
 'sistemas',
 'empírica',
 'sistemática',
 'sentido',
 'arcabouço',
 'registros',
 'atos',
 'mesmos',
 'raízes',
 'administração',
 'progresso',
 'locke',
 'antiga',
 'observação',
 'políticas',
 'portanto',
 'diversos',
 'grécia',
 'comportamento',
 'disciplinas',
 'fatos',
 'ideia',
 'tempos',
 'esforços',
 'participam',
 'históricos',
 'começava',
 'político',
 'entendida',
 'realidades',
 'poderes',
 'nascimento',
 'séculos',
 'friedrich',
 'trata-se',
 'serem',
 'análises',
 'base',
 'apesar',
 'abandonar',
 'distribuição',
 'opiniões',
 'áreas',
 'fundamentado',
 'índia',
 'usada',
 'chanakya',
 'trabalhos',
 'bobbio',
 'hobbes',
 'primeiros',
 'formular',
 'opinião',
 'questionário',
 'noção',
 'xviii',
 'apoiados',
 'racionais',
 'meados',
 'dicionário',
 'xix',
 'contribuíram',
 'construção',
 'atores',
 'empirismo',
 'rigorosa',
 'ampla',
 'remontam',
 'fenômeno',
 'embate',
 'esclarece',
 'importantes',
 'noberto',
 'teórico',
 'cientificamente',
 'xiv',
 'diversas',
 'ações',
 'europeu',
 'contextos',
 'antropologia',
 'avançou',
 'baseadas',
 'recentes',
 'disciplina',
 'internacionais',
 'frança',
 'metodologicamente',
 '2500',
 'considerando',
 'campos',
 'jean-jacques',
 'oposta',
 'científico',
 'dedicam',
 'immanuel',
 'kant',
 'profundas',
 'john',
 'crenças',
 'humano',
 'construiu-se',
 'cenário',
 'estudo',
 'serviram',
 'acompanhando',
 'volta',
 'documentos',
 'métodos',
 'século',
 'processos',
 'pertencerem',
 'sociologia']
In [37]:
len(lista)
Out[37]:
172
In [38]:
contagem = [palavras.count(x) for x in lista]
contagem
Out[38]:
[2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 3,
 1,
 2,
 2,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 2,
 2,
 2,
 1,
 1,
 1,
 1,
 3,
 1,
 1,
 1,
 8,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 3,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 4,
 2,
 2,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 5,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 5,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1]
Estes números estão na mesma ordem das palavras em palavras. Para obtermos pares (pal, conta) com cada palavra e sua contagem podemos usar zip() juntando a lista de palavras sem repetição e sua contagem respectiva.
In [39]:
cont = list(zip(lista,contagem))
cont
Out[39]:
[('atividades', 2),
 ('alemanha', 1),
 ('deslanchar', 1),
 ('recente', 1),
 ('instituição', 1),
 ('cuida', 1),
 ('rousseau', 1),
 ('possui', 1),
 ('dedica-se', 1),
 ('aristóteles', 1),
 ('nesse', 1),
 ('bases', 1),
 ('estatísticas', 1),
 ('juízos', 1),
 ('provas', 1),
 ('significa', 1),
 ('disputa', 1),
 ('ocupar-se', 1),
 ('imprecisos', 1),
 ('baseando-se', 1),
 ('hegel', 1),
 ('principalmente', 2),
 ('pública', 1),
 ('histórico', 1),
 ('conhecimento', 3),
 ('itália', 1),
 ('geral', 2),
 ('ciências', 2),
 ('estruturas', 1),
 ('psicologia', 1),
 ('demais', 2),
 ('argumentos', 1),
 ('thomas', 1),
 ('dados', 1),
 ('surgido', 1),
 ('modelos', 1),
 ('relações', 1),
 ('oficiais', 1),
 ('palavra', 1),
 ('fazem', 1),
 ('filosofia', 2),
 ('campo', 2),
 ('sociais', 2),
 ('pensadores', 2),
 ('utilizados', 1),
 ('platão', 1),
 ('dedicaram', 1),
 ('tendo', 1),
 ('maneira', 3),
 ('lida', 1),
 ('recorre', 1),
 ('vulgo', 1),
 ('ciência', 8),
 ('estudos', 2),
 ('apoiar-se', 1),
 ('tomadas', 1),
 ('apoiado', 1),
 ('surgiu', 1),
 ('políticos', 1),
 ('sistemas', 1),
 ('empírica', 1),
 ('sistemática', 1),
 ('sentido', 1),
 ('arcabouço', 1),
 ('registros', 1),
 ('atos', 1),
 ('mesmos', 1),
 ('raízes', 1),
 ('administração', 1),
 ('progresso', 1),
 ('locke', 1),
 ('antiga', 1),
 ('observação', 1),
 ('políticas', 3),
 ('portanto', 1),
 ('diversos', 2),
 ('grécia', 1),
 ('comportamento', 1),
 ('disciplinas', 1),
 ('fatos', 1),
 ('ideia', 1),
 ('tempos', 1),
 ('esforços', 1),
 ('participam', 1),
 ('históricos', 1),
 ('começava', 1),
 ('político', 2),
 ('entendida', 1),
 ('realidades', 1),
 ('poderes', 1),
 ('nascimento', 1),
 ('séculos', 1),
 ('friedrich', 1),
 ('trata-se', 1),
 ('serem', 1),
 ('análises', 4),
 ('base', 2),
 ('apesar', 2),
 ('abandonar', 1),
 ('distribuição', 1),
 ('opiniões', 1),
 ('áreas', 2),
 ('fundamentado', 1),
 ('índia', 1),
 ('usada', 1),
 ('chanakya', 1),
 ('trabalhos', 1),
 ('bobbio', 1),
 ('hobbes', 1),
 ('primeiros', 1),
 ('formular', 1),
 ('opinião', 1),
 ('questionário', 1),
 ('noção', 1),
 ('xviii', 1),
 ('apoiados', 1),
 ('racionais', 1),
 ('meados', 1),
 ('dicionário', 1),
 ('xix', 1),
 ('contribuíram', 1),
 ('construção', 2),
 ('atores', 1),
 ('empirismo', 1),
 ('rigorosa', 1),
 ('ampla', 1),
 ('remontam', 1),
 ('fenômeno', 1),
 ('embate', 1),
 ('esclarece', 1),
 ('importantes', 1),
 ('noberto', 1),
 ('teórico', 1),
 ('cientificamente', 1),
 ('xiv', 1),
 ('diversas', 1),
 ('ações', 2),
 ('europeu', 1),
 ('contextos', 1),
 ('antropologia', 1),
 ('avançou', 1),
 ('baseadas', 1),
 ('recentes', 1),
 ('disciplina', 5),
 ('internacionais', 1),
 ('frança', 1),
 ('metodologicamente', 1),
 ('2500', 1),
 ('considerando', 1),
 ('campos', 1),
 ('jean-jacques', 1),
 ('oposta', 1),
 ('científico', 2),
 ('dedicam', 1),
 ('immanuel', 1),
 ('kant', 1),
 ('profundas', 1),
 ('john', 1),
 ('crenças', 1),
 ('humano', 2),
 ('construiu-se', 1),
 ('cenário', 1),
 ('estudo', 5),
 ('serviram', 1),
 ('acompanhando', 1),
 ('volta', 1),
 ('documentos', 1),
 ('métodos', 1),
 ('século', 1),
 ('processos', 2),
 ('pertencerem', 1),
 ('sociologia', 1)]

No comments:

Post a Comment