Corpora


CAL2 – Corpus de Aquisição de L2

Descrição: CAL2 reúne os dados de produção espontânea (escritos e orais) recolhidos no âmbito do projeto Morfologia e Sintaxe na Aquisição de L2 (ler mais)
Endereço: http://cal2.clunl.fcsh.unl.pt


CIPM – Corpus Informatizado do Português Medieval

Descrição: CIPM é um corpus constituído por textos portugueses dos séculos XII a XVI, e inclui textos em prosa, literários (narrativas hagiográficas, históricas e de viagem, prosa doutrinal de corte, tratados filosóficos, textos de carácter moralista e religioso) e não literários (documentos notariais de carácter particular, documentos régios, testamentos, foros, isto é, textos essencialmente jurídicos) (ler mais)
Endereço: http://cipm.fcsh.unl.pt


CORPORART – Corpus Comparável PT/IT de Especialidade no Domínio da Arte Pública

Descrição: CORPORART – PT/IT é um corpus bilingue, comparável, do domínio da Arte Pública. É composto por dois subcorpora contemporâneos de Português Europeu e Italiano, período de 2000 a 2018, compreendendo tipos de texto e subdomínios representativos da produção de textos de especialidade num domínio altamente interdisciplinar (ler mais)
Endereço: https://clunl.fcsh.unl.pt/recursos-em-linha/corpora/corporart-corpus-comparavel-pt-it-de-especialidade-no-dominio-da-arte-publica/


Corpus de Literatura Portuguesa para Distant Reading

Descrição: O Corpus de Literatura Portuguesa para Distant Reading é um corpus literário de obras não canónicas de autores portugueses, datadas de 1840 a 1920 (ler mais)
Endereço: https://github.com/COST-ELTeC/ELTeC-por


G&T.Comenta

Descrição: O corpus G&T.Comenta foi criado no âmbito do projeto G&T.Comenta para estudo e categorização do comentário enquanto atividade de linguagem e prática textual. Resulta da recolha de um conjunto de textos com circulação em diversos suportes e de diferentes origens (ler mais)
Endereço: https://projetos.dhlab.fcsh.unl.pt/s/GTComenta/item


MIGRANTE.PT

Descrição: Resultado do projeto EXPRIMI, o MIGRANTE.PT é um corpus para fins específicos, com cerca de 1,5 milhões de palavras do Português Europeu, constituído por textos institucionais e compilado a partir de sites e materiais de acesso aberto relacionados com a integração de migrantes em Portugal e direcionados a esses mesmos migrantes (ler mais)
Endereço: https://clunl.fcsh.unl.pt/recursos-em-linha/corpora/migrante-pt/


Parallel sense-annotated corpus ELEXIS-WSD 1.0

Descrição: ELEXIS-WSD é um corpus paralelo de sentidos anotados, no qual palavras de conteúdo (substantivos, adjectivos, verbos, e advérbios) foram atribuídos sentidos. A versão 1.0 contém frases para 10 línguas: búlgaro, dinamarquês, inglês, espanhol, estónio, húngaro, italiano, neerlandês, português e esloveno (ler mais)
Endereço: http://hdl.handle.net/11356/1674