O C-ORAL-BRASIL I - corpus de referência para a fala espontânea informal do português brasileiro

  • Quem: Heliana Ribeiro de Mello
  • Onde: FGV, Praia de Botafogo, 190, sala 317
  • Quando: 04 de Outubro de 2012 às 16:00h

O C-ORAL-BRASIL I (RASO & MELLO, 2012) é um corpus de fala espontânea informal do português brasileiro, representativo da diatopia do estado de Minas Gerais (sobretudo da área metropolitana de Belo Horizonte). O corpus foi compilado segundo a mesma arquitetura e critérios de segmentação do C-ORAL-ROM (CRESTI & MONEGLIA, 2005), assim como também utilizou o mesmo software de alinhamento som-transcrição, o WinPitch (@ Pitch Instruments Ltda). O corpus é composto por 139 textos de fala informal, 208.130 palavras, 21:08:52 horas de gravação (6.1 GB arquivos wav). A média de palavras por texto é de 1.500. As gravações foram executadas através de equipamento sem fio, de alta resolução acústica, com microfones de lapela monodirecionais e um mixer em interações com mais de dois participantes; em algumas poucas ocasiões microfones omnidirecionais foram utilizados. Os textos foram transcritos utilizando-se o formato CHAT, implementado para anotação prosódica. Todos os arquivos de transcrição são etiquetados morfossintaticamente através do anotador PALAVRAS (BICK, 2000). Os objetivos primários da arquitetura do corpus são a documentação das variações diafásicas (atos de fala) e diastráticas (sociolinguísticas) do português brasileiro falado, porém, a sua empregabilidade se estende, dentre outras áreas, à síntese da fala, processamento da linguagem natural, estudos da estrutura informacional e pragmática.

Palavras-chave: fala espontânea, português brasileiro, compilação de corpus, anotação prosódica, anotação morfossintática.

Observação para visitantes

A presença é gratuíta e não exige confirmação. A FGV não permite a entrada de homens vestindo bermuda ou chinelo.

Tags: