CORDIAL-SIN – Corpus dialetal para o Estudo da Sintaxe
Identificação
- Identificação do projeto: CORDIAL-SIN – Corpus dialectal para o Estudo da Sintaxe
- Coordenação: Ana Maria Martins (Centro de Linguística da Universidade de Lisboa)
- Responsável no CLUNL: Maria Lobo (Grupo Linguística Comparada)
- Duração: 1999 – …
- Entidade financiadora: Fundação para a Ciência e a Tecnologia
- Sítio web: http://www.clul.ulisboa.pt/pt/23-investigacao/696-cordial-sin-corpus-dialectal-para-o-estudo-da-sintaxe
Descrição
“O projeto Corpus Dialetal para o Estudo da Sintaxe (CORDIAL-SIN) visa estudar a variação sintática dialetal do português europeu, numa perspetiva de Princípios e Parâmetros, usando uma metodologia de constituição/exploração de um corpus anotado. O projeto rentabiliza recursos existentes (coleções de registos sonoros) e tem impulsionado a pesquisa em sintaxe dialetal comparada, uma área de investigação de desenvolvimento recente. A atual extensão do CORDIAL-SIN é de 600.000 palavras.
O Grupo de Dialetologia do Centro de Linguística da Universidade de Lisboa (CLUL) constituiu durante os últimos trinta anos um rico arquivo sonoro contendo cerca de 4.500 horas de gravações, obtidas em mais de 200 localidades do território português. O CORDIAL-SIN integra um conjunto geograficamente representativo de excertos de discurso livre e semidirigido selecionados a partir das gravações efetuadas no âmbito dos seguintes projetos:
ALEPG Atlas Linguístico e Etnográfico de Portugal e da Galiza
ALLP Atlas Linguístico do Litoral Português
ALEAç Atlas Linguístico e Etnográfico dos Açores
BA Fronteira Dialectal do Barlavento Algarvio
[Luisa Segura da Cruz. 1987. A Fronteira Dialectal do Barlavento do Algarve. Dissertação para as Provas de Acesso à categoria de Investigador Auxiliar. Lisboa: Instituto Nacional de Investigação Científica.]
O CORDIAL-SIN apresenta-se ao utilizador em quatro formatos: transcrição conservadora; transcrição ortográfica normalizada; texto com anotação morfossintáctica (anotação por palavra); texto com anotação sintática (anotação por frase).
A transcrição conservadora contém informação sobre aspetos da produção (captados pela fonte sonora) tais como pausas, sobreposições de produção, hesitações, abandono de fragmentos frásicos, reformulações, repetições, formas truncadas, variantes fonéticas e morfofonológicas, etc. (vd. Normas de Transcrição). Esta versão da transcrição interessa a estudos centrados na observação de estratégias de interação discursiva típicas da oralidade. A versão normalizada da transcrição obtém-se através da extração automática dos códigos que identificam marcas de oralidade e constitui o suporte da anotação. Esta versão inclui apenas transcrição ortográfica, após a eliminação das marcas de pausa (silenciosa ou preenchida), bem como das sequências de transcrição fonética identificadoras de variantes fonéticas e morfofonológicas. Além disso, não retém repetições e fragmentos frásicos abandonados como resultado de processos de reformulação, adiamento da produção e hesitação, embora assinale os lugares de elisão dos mesmos. A transcrição normalizada inclui frases completas ou fragmentos frásicos – em geral frases inacabadas – sintaticamente analisáveis e anotáveis.
A anotação morfossintática do corpus é automaticamente implementada, decorrendo de uma adaptação (revisão/ampliação) do sistema desenvolvido pela equipa do projeto Tycho Brahe. O sistema de anotação morfossintática combina etiquetas categoriais com subetiquetas, maioritariamente flexionais, permitindo uma anotação bastante fina das unidades lexicais do corpus. A proximidade entre os sistemas de anotação morfossintática do CORDIAL-SIN e do projeto Tycho Brahe permite a utilização do etiquetador automático, de base probabilística, desenvolvido por Marcelo Finger (e melhorado por Fabio Natanael Kepler e Marcelo Finger) no âmbito do Tycho Brahe (vd. Manual de Anotação Morfossintáctica).
O sistema de anotação sintática segue as orientações definidas pelo Penn-Helsinki Parsed Corpus of Middle English. A anotação sintáctica opera sobre dados etiquetados morfossintacticamente; marca fronteiras de constituintes, dependências sintagmáticas e oracionais, tipos de frases, relações gramaticais e certas relações transformacionais. A anotação sintática define configurações que podem ser pesquisadas sistemática e exaustivamente, compatíveis com o programa CorpusSearch2, da autoria de Beth Randall (open source software, Sourceforge).
No âmbito do projeto CORDIAL-SIN, foram elaboradas diversas dissertações de doutoramento e de mestrado.”
(Texto transcrito do sítio web do projeto.)
Entidades Participantes
Centro de Linguística da Universidade de Lisboa
Centro de Linguística da Universidade NOVA de Lisboa
Menu < voltar
- Projetos
- Projetos em curso
- iRead4Skills – Intelligent Reading Improvement System for Fundamental and Transversal Skills Development
- ProPerL2 – Produção e Perceção de fala na aprendizagem de L2
- Heritage Languages go to School: The interplay of (extra)linguistic factors in successful language development
- Investigating the impact of implicit and explicit instruction on phonological acquisition in a second language
- LL2DS – Linking Linguistics to Data Science
- LAUA – Language Attrition and Ultimate Attainment
- CORRELATE – Corpora e Recursos Lexicais e Terminológicos
- ANACOREX – Anafora y expresiones referenciales en el bilinguismo: triangulando enfoques de corpus y experimentales
- Caring Communication: a terapia genética no contexto da hemofilia
- CoRaLHis – Comparing Romance Languages through History: building a multilingual parallel diachronic corpus (13th-18th C.)
- MorDigital – Digitalização do Diccionario da Lingua Portugueza de António de Morais Silva
- QuILL – Quality in Language Learning
- Western Sephardic Diaspora Roadmap
- EXPRIMI
- G&T.Comenta
- Projeto GiroFLE
- Com@Rehab – Comunicação para reabilitação interativa em realidade virtual
- OrthoDef
- Glossário Colaborativo COVID-19
- Read4Succeed: Improving migrant, refugee and from deprived neighbourhood children reading skills through an Animal Assisted Reading program
- TERMVEST – Terminologia do Vestuário: Versão Português Europeu
- Edição Digital do Vocabulário Ortográfico da Língua Portuguesa (VOLP-1940)
- PIPALE – Projeto de Intervenção Preventiva para a Aprendizagem da Leitura e da Escrita
- Corpus Linguístico & Avatar para a Língua Gestual Portuguesa
- ELEXIS – European Lexicographic Infrastructure
- POR Nível – Construção e validação de um teste de colocação em nível para PLE
- ANACOR: A corpus-based approach to anaphora resolution in second language acquisition: beyond the interfaces
- Léxico dos Bens Culturais
- Cátedra de Português Língua Segunda e Estrangeira
- Projetos concluídos
- Humanities Going Digital (HUGOD)
- Monitor Corpora. PressCoronaVírus
- Dicionário de Português Europeu-Árabe Padrão
- MOCOLANG-O – MOdélisation COnceptuelle des troubles (du LANGage et de la communication) en Orthophonie
- Romance clitics in diachrony. An integrated approach
- Corpus de Literatura Portuguesa para Distant Reading
- ALPROF – Automatic Assessment of Language Proficiency for Migrant Integration
- CLARIN CLUNL
- Utopia, Alimentação e Futuro
- Desenvolvimento de estruturas sintáticas na aquisição monolingue e bilingue do português e do francês
- The Case of Grammatical Relations
- BlackBox – Artes e Cognição
- Promoção da Literacia Científica
- PerGRam – Percursos para o ensino da gramática nos primeiros anos de escolaridade
- Proposta de Organização do Conhecimento no Âmbito da Infertilidade: uma questão de terminologia
- Subordinação em Português Medieval
- Crosslinguistic and Crosspopulation approaches to the Acquisition of Dependencies
- Fatores Sintáticos e Lexicais na Complexidade do Processamento
- SIERA – Integrating Sina Institute into the European Research Area
- Dependências Sintáticas dos 3 aos 10 Anos
- Eventos e Subeventos em Caboverdiano
- TKB – Transmedia Knowledge Base for Contemporary Dance
- CogniNET – Semântica cognitiva em redes colaborativas
- Estudos Contrastivos Português/Esloveno
- APSE – Envelhecimento, pobreza e exclusão social: Um estudo interdisciplinar sobre serviços inovadores de intervenção social
- MERIDIUM – Multilingualism in Europe as a Resource for Immigration – Dialogue Iniatiative among the Universities of the Mediterranean
- DUPLEX – Duplos e Expletivos na Sintaxe Dialectal do Português Europeu
- Reflets Culturels de la Métaphore de Spécialité d’une culture à l’autre – Réseau de Lexicologie, Terminologie et Traduction
- ACASS – Análise da Conversação Aplicada ao Serviço Social. O interagir comunicacional na Intervenção Social
- VILA_CCC_Mont: Video indexation and linguistic annotation of contemporary choreographic creations
- e-LearnLex – Lexicografia de aprendizagem
- PreTexto – Praxis, Conhecimento e Texto
- PROGRAMMA – Processos de Gramaticalização em Português Europeu
- DHISCURSO – História dos Discursos em Portugal
- Técnicas Experimentais na Compreensão da Aquisição do Português Europeu
- Morfologia e Sintaxe na Aquisição de L2
- Laboratório de Linguística e Ensino de Línguas
- Dicionário da Língua Portuguesa Medieval
- Políticas e Práticas de Internacionalização do Ensino da Língua Portuguesa: os Leitorados de Português
- ENUNTIO
- Oneness – On-line less used and less taught language courses
- DISTEX – Textos e Discursos do Português Moderno e Contemporâneo
- ENLU – European Network for the Promotion of Language Learning among all undergraduates
- GRADE – Gramática e Enunciação
- HISPAM – História do Português Antigo e Médio
- LANGVAR – Aquisição/Aprendizagem da Linguagem, Variação e Mudança
- MORPHOCOM – Morfologia Computacional Aplicada a Corpora
- NEOPORTERM – Observatório de Neologia e de Terminologia em Língua Portuguesa
- NOTATOR – Tipo Medieval para Computador
- ONTOLEXTERM – Dicionários terminológicos e ontologias
- PHILOLOGIA – Filologia e Linguística Histórica: Fontes para a História da Língua Portuguesa
- REFORTERM – Reformulação e Terminologia
- LEXTERM – Léxico e automatização
- Quality assessment of the Word Health Survey Questionnaire in Portuguese. Classification, Assessment, Surveys & Terminology
- Léxico e Sintaxe do Verbo do Português Medieval
- PHARMATERM – Lexicografia Bilingue de Especialidade
- Terminologia Linguística para os Ensinos Básico e Secundário
- Automatic Translation System from and to Portuguese for public administration
- Thematic Network Project in the Area of Languages 2 (TNP 2)
- Thematic Network Project in Languages: Exploitation and Dissemination of Results
- Thematic Network Project in the Area of Languages (TNP 1)
- Arquivos Electrónicos de Terminologias e “corpora”, PRAXIS XXI
- CORDIAL-SIN – Corpus dialetal para o Estudo da Sintaxe
- TERMÉDICA – TERminologia e ensino da língua MÉDICA
- Corpora do Português Medieval – Etiquetagem e Segmentação Automáticas
- Etiquetagem e Segmentação Automática de Corpora de Português Medieval
- A Gramática do Português Medieval – Contributos para a sua caracterização
- Projetos em rede
- CLIL in Languages Other Than English
- NexusLinguarum – European network for Web-centred linguistic data science
- Consórcio de Língua de Herança
- @ Cientista Regressa à Escola
- Distant Reading for European Literary History
- KEYSTONE – Semantic Keyword-Based Search on Structures Data Sources
- ENeL – European Network of e-Lexicography
- GraMaLL – Grasping Meaning Across Languages and Learners
- European Statistical System Centers and Networks of Excellence on SDMX
- Language Impairment in a Multilingual Society: Linguistic Patterns and the Road to Assessment
- Crosslinguistically Robust Stages of Children’s Linguistic Performance
- Value for Health CoLAB
- Infraestruturas
- Prestação de Serviços
- BDTT-AR – Base de Dados Terminológica e Textual para a Assembleia da República. Fase 2
- Sistemas Conceptuais e Terminológicos no INE
- BDTT-AR – Base de Dados Terminológica e Textual para a Assembleia da República
- Glossários Terminológicos Multilingues para fins específicos dentro do espaço da CPLP – Angola
- Glossários Especializados em línguas faladas em Angola, Moçambique e São Tomé e Príncipe