Corpora de Português

(Quer sugerir um link? Encontrou um link não operante?
Por favor, escreva para: projetocomet@edu.usp.br)

 

Corpus Brasileiro: corpus de português brasileiro contemporâneo, língua geral, ainda em desenvolvimento junto ao LAEL da PUC-SP, é etiquetado morfossintaticamente e permite pesquisas por gênero textual / registro.

Lácio Web: site brasileiro com um corpus contemporâneo de língua geral, subdividido em subcorpora que representam vários gêneros e tipos textuais - textos disponíveis para download e para serem usados com as próprias ferramentas do site.

Banco do Português: site brasileiro com um corpus de português contemporâneo, atualizado constantemente (em 2004, possuia 223 milhões de palavras). Apenas uma amostra está disponível para consulta e uso com as próprias ferramentas do site.

COMPARA: site português com um corpus paralelo - originais e respectivas traduções - de/para as diversas variantes do português e do inglês.

CetenFOLHA (Corpus de Extractos de Textos Electrónicos NILC/Folha de São Paulo): corpus de cerca de 24 milhões de palavras em português brasileiro retirados do jornal "A Folha de São Paulo" - os textos podem ser baixados via FTP / HTTP ou consultados no link do projeto AC/DC.

CetemPUBLICO (Corpus de Extractos de Textos Electrónicos MCT/Público): corpus de aproximadamente 180 milhões de palavras em português europeu retirados do jornal português "Público" - disponobiliza as versões anotada e sem anotação para consulta online e envia cd com o corpus mediante solicitação.

Projecto AC/DC (Acesso a Corpora / Disponibilização de Corpora): projeto português que disponibiliza diversos corpora codificados no sistema IMS corpus workbench, para os quais foi desenvolvida uma interface online. A interface permite consultar um corpus de cada vez (inclusive versão anotada) - são vários os corpora disponíveis, a maioria em português de Portugal.

TychoBrahe: site brasileiro com um corpus de português histórico.

PHPB (Para Uma História do Português do Brasil - RJ): site brasileiro com corpus diacrônico: transcrições de impressos do século XIX e edições diplomático-interpretativas de manuscritos dos séculos XVIII e XIX. Não oferece nenhuma ferrmenta de análise e os textos devem ser cosultados online, um a um.