CORDIAL-SIN – Corpus dialetal para o Estudo da Sintaxe

Identificação

Descrição

“O projeto Corpus Dialetal para o Estudo da Sintaxe (CORDIAL-SIN) visa estudar a variação sintática dialetal do português europeu, numa perspetiva de Princípios e Parâmetros, usando uma metodologia de constituição/exploração de um corpus anotado. O projeto rentabiliza recursos existentes (coleções de registos sonoros) e tem impulsionado a pesquisa em sintaxe dialetal comparada, uma área de investigação de desenvolvimento recente. A atual extensão do CORDIAL-SIN é de 600.000 palavras.

O Grupo de Dialetologia do Centro de Linguística da Universidade de Lisboa (CLUL) constituiu durante os últimos trinta anos um rico arquivo sonoro contendo cerca de 4.500 horas de gravações, obtidas em mais de 200 localidades do território português. O CORDIAL-SIN integra um conjunto geograficamente representativo de excertos de discurso livre e semidirigido selecionados a partir das gravações efetuadas no âmbito dos seguintes projetos:
ALEPG Atlas Linguístico e Etnográfico de Portugal e da Galiza
ALLP Atlas Linguístico do Litoral Português
ALEAç Atlas Linguístico e Etnográfico dos Açores
BA Fronteira Dialectal do Barlavento Algarvio
[Luisa Segura da Cruz. 1987. A Fronteira Dialectal do Barlavento do Algarve. Dissertação para as Provas de Acesso à categoria de Investigador Auxiliar. Lisboa: Instituto Nacional de Investigação Científica.]

O CORDIAL-SIN apresenta-se ao utilizador em quatro formatos: transcrição conservadora; transcrição ortográfica normalizada; texto com anotação morfossintáctica (anotação por palavra); texto com anotação sintática (anotação por frase).
A transcrição conservadora contém informação sobre aspetos da produção (captados pela fonte sonora) tais como pausas, sobreposições de produção, hesitações, abandono de fragmentos frásicos, reformulações, repetições, formas truncadas, variantes fonéticas e morfofonológicas, etc. (vd. Normas de Transcrição). Esta versão da transcrição interessa a estudos centrados na observação de estratégias de interação discursiva típicas da oralidade. A versão normalizada da transcrição obtém-se através da extração automática dos códigos que identificam marcas de oralidade e constitui o suporte da anotação. Esta versão inclui apenas transcrição ortográfica, após a eliminação das marcas de pausa (silenciosa ou preenchida), bem como das sequências de transcrição fonética identificadoras de variantes fonéticas e morfofonológicas. Além disso, não retém repetições e fragmentos frásicos abandonados como resultado de processos de reformulação, adiamento da produção e hesitação, embora assinale os lugares de elisão dos mesmos. A transcrição normalizada inclui frases completas ou fragmentos frásicos – em geral frases inacabadas – sintaticamente analisáveis e anotáveis.

A anotação morfossintática do corpus é automaticamente implementada, decorrendo de uma adaptação (revisão/ampliação) do sistema desenvolvido pela equipa do projeto Tycho Brahe. O sistema de anotação morfossintática combina etiquetas categoriais com subetiquetas, maioritariamente flexionais, permitindo uma anotação bastante fina das unidades lexicais do corpus. A proximidade entre os sistemas de anotação morfossintática do CORDIAL-SIN e do projeto Tycho Brahe permite a utilização do etiquetador automático, de base probabilística, desenvolvido por Marcelo Finger (e melhorado por Fabio Natanael Kepler e Marcelo Finger) no âmbito do Tycho Brahe (vd. Manual de Anotação Morfossintáctica).

O sistema de anotação sintática segue as orientações definidas pelo Penn-Helsinki Parsed Corpus of Middle English. A anotação sintáctica opera sobre dados etiquetados morfossintacticamente; marca fronteiras de constituintes, dependências sintagmáticas e oracionais, tipos de frases, relações gramaticais e certas relações transformacionais. A anotação sintática define configurações que podem ser pesquisadas sistemática e exaustivamente, compatíveis com o programa CorpusSearch2, da autoria de Beth Randall (open source software, Sourceforge).

No âmbito do projeto CORDIAL-SIN, foram elaboradas diversas dissertações de doutoramento e de mestrado.”

(Texto transcrito do sítio web do projeto.)

 

Entidades Participantes

Centro de Linguística da Universidade de Lisboa
Centro de Linguística da Universidade NOVA de Lisboa