CORDIAL-SIN – Corpus dialetal para o Estudo da Sintaxe
Identificação
- Identificação do projeto: CORDIAL-SIN – Corpus dialectal para o Estudo da Sintaxe
- Coordenação: Ana Maria Martins (Centro de Linguística da Universidade de Lisboa)
- Responsável no CLUNL: Maria Lobo (Grupo Linguística Comparada)
- Duração: 1999 – …
- Entidade financiadora: Fundação para a Ciência e a Tecnologia
- Sítio web: http://www.clul.ulisboa.pt/pt/23-investigacao/696-cordial-sin-corpus-dialectal-para-o-estudo-da-sintaxe
Descrição
“O projeto Corpus Dialetal para o Estudo da Sintaxe (CORDIAL-SIN) visa estudar a variação sintática dialetal do português europeu, numa perspetiva de Princípios e Parâmetros, usando uma metodologia de constituição/exploração de um corpus anotado. O projeto rentabiliza recursos existentes (coleções de registos sonoros) e tem impulsionado a pesquisa em sintaxe dialetal comparada, uma área de investigação de desenvolvimento recente. A atual extensão do CORDIAL-SIN é de 600.000 palavras.
O Grupo de Dialetologia do Centro de Linguística da Universidade de Lisboa (CLUL) constituiu durante os últimos trinta anos um rico arquivo sonoro contendo cerca de 4.500 horas de gravações, obtidas em mais de 200 localidades do território português. O CORDIAL-SIN integra um conjunto geograficamente representativo de excertos de discurso livre e semidirigido selecionados a partir das gravações efetuadas no âmbito dos seguintes projetos:
ALEPG Atlas Linguístico e Etnográfico de Portugal e da Galiza
ALLP Atlas Linguístico do Litoral Português
ALEAç Atlas Linguístico e Etnográfico dos Açores
BA Fronteira Dialectal do Barlavento Algarvio
[Luisa Segura da Cruz. 1987. A Fronteira Dialectal do Barlavento do Algarve. Dissertação para as Provas de Acesso à categoria de Investigador Auxiliar. Lisboa: Instituto Nacional de Investigação Científica.]
O CORDIAL-SIN apresenta-se ao utilizador em quatro formatos: transcrição conservadora; transcrição ortográfica normalizada; texto com anotação morfossintáctica (anotação por palavra); texto com anotação sintática (anotação por frase).
A transcrição conservadora contém informação sobre aspetos da produção (captados pela fonte sonora) tais como pausas, sobreposições de produção, hesitações, abandono de fragmentos frásicos, reformulações, repetições, formas truncadas, variantes fonéticas e morfofonológicas, etc. (vd. Normas de Transcrição). Esta versão da transcrição interessa a estudos centrados na observação de estratégias de interação discursiva típicas da oralidade. A versão normalizada da transcrição obtém-se através da extração automática dos códigos que identificam marcas de oralidade e constitui o suporte da anotação. Esta versão inclui apenas transcrição ortográfica, após a eliminação das marcas de pausa (silenciosa ou preenchida), bem como das sequências de transcrição fonética identificadoras de variantes fonéticas e morfofonológicas. Além disso, não retém repetições e fragmentos frásicos abandonados como resultado de processos de reformulação, adiamento da produção e hesitação, embora assinale os lugares de elisão dos mesmos. A transcrição normalizada inclui frases completas ou fragmentos frásicos – em geral frases inacabadas – sintaticamente analisáveis e anotáveis.
A anotação morfossintática do corpus é automaticamente implementada, decorrendo de uma adaptação (revisão/ampliação) do sistema desenvolvido pela equipa do projeto Tycho Brahe. O sistema de anotação morfossintática combina etiquetas categoriais com subetiquetas, maioritariamente flexionais, permitindo uma anotação bastante fina das unidades lexicais do corpus. A proximidade entre os sistemas de anotação morfossintática do CORDIAL-SIN e do projeto Tycho Brahe permite a utilização do etiquetador automático, de base probabilística, desenvolvido por Marcelo Finger (e melhorado por Fabio Natanael Kepler e Marcelo Finger) no âmbito do Tycho Brahe (vd. Manual de Anotação Morfossintáctica).
O sistema de anotação sintática segue as orientações definidas pelo Penn-Helsinki Parsed Corpus of Middle English. A anotação sintáctica opera sobre dados etiquetados morfossintacticamente; marca fronteiras de constituintes, dependências sintagmáticas e oracionais, tipos de frases, relações gramaticais e certas relações transformacionais. A anotação sintática define configurações que podem ser pesquisadas sistemática e exaustivamente, compatíveis com o programa CorpusSearch2, da autoria de Beth Randall (open source software, Sourceforge).
No âmbito do projeto CORDIAL-SIN, foram elaboradas diversas dissertações de doutoramento e de mestrado.”
(Texto transcrito do sítio web do projeto.)
Entidades Participantes
Centro de Linguística da Universidade de Lisboa
Centro de Linguística da Universidade NOVA de Lisboa
Menu < voltar
- Projetos
- Projetos em curso
- MultiPoD – Espaços Multilingues e Multiculturais para Deliberação Política
- HEREDITARY – HetERogeneous sEmantic Data Integration for guT-brAin interplay
- TTC-CPLP – Terminologias Técnicas e Científicas para a CPLP
- CHAMUÇA – Arquivo Lexical Português e Sul-Asiático
- e-Term ANCV – Recurso terminológico jurídico-parlamentar digital Assembleia Nacional de Cabo Verde
- NObarriers2Health: Reducing language and cultural barriers through machine translation literacy for inclusive multilingual health communication
- EPISTRAN – Epistemic Translation: Towards an Ecology of Knowledges
- DiTo – Didática do Texto
- REDGRAM – Percursos e trajetórias gramaticais (recursos educativos digitais)
- iRead4Skills – Intelligent Reading Improvement System for Fundamental and Transversal Skills Development
- Active Citizenship Through Dialogue in Virtual teacher communities
- ProPerL2 – Produção e Perceção de fala na aprendizagem de L2
- Heritage Languages go to School: The interplay of (extra)linguistic factors in successful language development
- Investigating the impact of implicit and explicit instruction on phonological acquisition in a second language
- LAUA – Language Attrition and Ultimate Attainment
- CORRELATE – Corpora e Recursos Lexicais e Terminológicos
- ANACOREX – Anafora y expresiones referenciales en el bilinguismo: triangulando enfoques de corpus y experimentales
- Caring Communication: a terapia genética no contexto da hemofilia
- CoRaLHis – Comparing Romance Languages through History: building a multilingual parallel diachronic corpus (13th-18th C.)
- MorDigital – Digitalização do Diccionario da Lingua Portugueza de António de Morais Silva
- EXPRIMI
- Language and literacy at school – the contribution of metasyntactic abilities to reading comprehension development
- G&T.Comenta
- Glossário Colaborativo COVID-19
- TERMVEST – Terminologia do Vestuário: Versão Português Europeu
- Edição Digital do Vocabulário Ortográfico da Língua Portuguesa (VOLP-1940)
- PIPALE – Projeto de Intervenção Preventiva para a Aprendizagem da Leitura e da Escrita
- POR Nível – Construção e validação de um teste de colocação em nível para PLE
- Léxico dos Bens Culturais
- Projetos concluídos
- Western Sephardic Diaspora Roadmap
- ELEXIS – European Lexicographic Infrastructure
- Humanities Going Digital (HUGOD)
- LL2DS – Linking Linguistics to Data Science
- QuILL – Quality in Language Learning
- Corpus Linguístico & Avatar para a Língua Gestual Portuguesa
- Monitor Corpora. PressCoronaVírus
- Com@Rehab – Comunicação para reabilitação interativa em realidade virtual
- Read4Succeed: Improving migrant, refugee and from deprived neighbourhood children reading skills through an Animal Assisted Reading program
- Projeto GiroFLE
- ANACOR: A corpus-based approach to anaphora resolution in second language acquisition: beyond the interfaces
- OrthoDef
- Dicionário de Português Europeu-Árabe Padrão
- MOCOLANG-O – MOdélisation COnceptuelle des troubles (du LANGage et de la communication) en Orthophonie
- Romance clitics in diachrony. An integrated approach
- Corpus de Literatura Portuguesa para Distant Reading
- ALPROF – Automatic Assessment of Language Proficiency for Migrant Integration
- CLARIN CLUNL
- Utopia, Alimentação e Futuro
- Desenvolvimento de estruturas sintáticas na aquisição monolingue e bilingue do português e do francês
- The Case of Grammatical Relations
- BlackBox – Artes e Cognição
- Promoção da Literacia Científica
- PerGRam – Percursos para o ensino da gramática nos primeiros anos de escolaridade
- Proposta de Organização do Conhecimento no Âmbito da Infertilidade: uma questão de terminologia
- Subordinação em Português Medieval
- Crosslinguistic and Crosspopulation approaches to the Acquisition of Dependencies
- Fatores Sintáticos e Lexicais na Complexidade do Processamento
- SIERA – Integrating Sina Institute into the European Research Area
- Dependências Sintáticas dos 3 aos 10 Anos
- Eventos e Subeventos em Caboverdiano
- TKB – Transmedia Knowledge Base for Contemporary Dance
- CogniNET – Semântica cognitiva em redes colaborativas
- Estudos Contrastivos Português/Esloveno
- APSE – Envelhecimento, pobreza e exclusão social: Um estudo interdisciplinar sobre serviços inovadores de intervenção social
- MERIDIUM – Multilingualism in Europe as a Resource for Immigration – Dialogue Iniatiative among the Universities of the Mediterranean
- DUPLEX – Duplos e Expletivos na Sintaxe Dialectal do Português Europeu
- Reflets Culturels de la Métaphore de Spécialité d’une culture à l’autre – Réseau de Lexicologie, Terminologie et Traduction
- ACASS – Análise da Conversação Aplicada ao Serviço Social. O interagir comunicacional na Intervenção Social
- VILA_CCC_Mont: Video indexation and linguistic annotation of contemporary choreographic creations
- e-LearnLex – Lexicografia de aprendizagem
- PreTexto – Praxis, Conhecimento e Texto
- PROGRAMMA – Processos de Gramaticalização em Português Europeu
- DHISCURSO – História dos Discursos em Portugal
- Técnicas Experimentais na Compreensão da Aquisição do Português Europeu
- Morfologia e Sintaxe na Aquisição de L2
- Laboratório de Linguística e Ensino de Línguas
- Dicionário da Língua Portuguesa Medieval
- Políticas e Práticas de Internacionalização do Ensino da Língua Portuguesa: os Leitorados de Português
- ENUNTIO
- Oneness – On-line less used and less taught language courses
- DISTEX – Textos e Discursos do Português Moderno e Contemporâneo
- ENLU – European Network for the Promotion of Language Learning among all undergraduates
- GRADE – Gramática e Enunciação
- HISPAM – História do Português Antigo e Médio
- LANGVAR – Aquisição/Aprendizagem da Linguagem, Variação e Mudança
- MORPHOCOM – Morfologia Computacional Aplicada a Corpora
- NEOPORTERM – Observatório de Neologia e de Terminologia em Língua Portuguesa
- NOTATOR – Tipo Medieval para Computador
- ONTOLEXTERM – Dicionários terminológicos e ontologias
- PHILOLOGIA – Filologia e Linguística Histórica: Fontes para a História da Língua Portuguesa
- REFORTERM – Reformulação e Terminologia
- LEXTERM – Léxico e automatização
- Quality assessment of the Word Health Survey Questionnaire in Portuguese. Classification, Assessment, Surveys & Terminology
- Léxico e Sintaxe do Verbo do Português Medieval
- PHARMATERM – Lexicografia Bilingue de Especialidade
- Terminologia Linguística para os Ensinos Básico e Secundário
- Automatic Translation System from and to Portuguese for public administration
- Thematic Network Project in the Area of Languages 2 (TNP 2)
- Thematic Network Project in Languages: Exploitation and Dissemination of Results
- Thematic Network Project in the Area of Languages (TNP 1)
- Arquivos Electrónicos de Terminologias e “corpora”, PRAXIS XXI
- CORDIAL-SIN – Corpus dialetal para o Estudo da Sintaxe
- TERMÉDICA – TERminologia e ensino da língua MÉDICA
- Corpora do Português Medieval – Etiquetagem e Segmentação Automáticas
- Etiquetagem e Segmentação Automática de Corpora de Português Medieval
- A Gramática do Português Medieval – Contributos para a sua caracterização
- Projetos em rede
- ELEXIS Association
- PhraConRep – A Multilingual Repository of Phraseme Constructions in Central and Eastern European Languages
- Y-JustLang – Justice to youth language needs
- ENEOLI – European Network On Lexical Innovation
- Consórcio Huma-Num ARIANE
- GRAFE’Maire
- UniDive – Universality, diversity and idiosyncrasy in language technology
- Metalex – International Metalexicography Network
- @ Cientista Regressa à Escola
- CLIL in Languages Other Than English
- NexusLinguarum – European network for Web-centred linguistic data science
- Distant Reading for European Literary History
- HL2C – Consórcio de Língua de Herança
- KEYSTONE – Semantic Keyword-Based Search on Structures Data Sources
- ARLE – International Association for Research in L1 Education
- ENeL – European Network of e-Lexicography
- GraMaLL – Grasping Meaning Across Languages and Learners
- European Statistical System Centers and Networks of Excellence on SDMX
- Language Impairment in a Multilingual Society: Linguistic Patterns and the Road to Assessment
- Crosslinguistically Robust Stages of Children’s Linguistic Performance
- GIRTraduvino – Grupo de Investigación Reconocido sobre la Lengua de la Vid Y el Vino y su Traducción
- Value for Health CoLAB
- Infraestruturas
- Prestação de Serviços
- Projeto de formação “Ensinar com o dicionário: informações linguísticas e lexicográficas para ensino de Português”
- BDTT-AR – Base de Dados Terminológica e Textual para a Assembleia da República. Fase 2
- Sistemas Conceptuais e Terminológicos no INE
- BDTT-AR – Base de Dados Terminológica e Textual para a Assembleia da República
- Glossários Terminológicos Multilingues para fins específicos dentro do espaço da CPLP – Angola
- Glossários Especializados em línguas faladas em Angola, Moçambique e São Tomé e Príncipe