CoBiLiRo

Proiectul CoBiLiRo

CoBiLiRo: Corpus bimodal pentru limba română adnotat pe multiple niveluri

Proiect finanțat de Ministerul Cercetării și Inovării, Program PN-III-P1-1.2.-PCCDI, nr. 73/2018, durata: 2018-2020

Proiect component al proiectului complex

RETEROM

Proiecte paralele

TEPROLIN TADARAV SINTERO

This work was supported by a grant of the Romanian Ministery of Research and Innovation, CCCDI – UEFISCDI, project number PN-III-P1-1.2-PCCDI-2017-0818 - 73/2018 , within PNCDI III

Descriere CoBiLiRo

Denumire: Corpus bimodal pentru limba română adnotat pe multiple niveluri (CoBiLiRo)

CoBiLiRo are ca obiectiv general crearea unui tezaur cu resurse audio și textuale, adnotate pe diferite niveluri de realizare acustică, respectiv lingvistică, care să constituie cea mai importantă referință de acest tip pentru limba română.

Aplicabilitate: Resursele de date audio și text adnotate vor reprezenta fundamentul pentru dezvoltarea tehnologiilor de interfețe om mașină în limbaj natural în limba română:
Proiect 2 (TEPROLIN), Proiect 3 (TADARAV) și Proiect 4 (SINTERO).

Activitățile vor avea în vedere: inventarierea atentă a resurselor bimodale existente la parteneri; armonizarea formatelor de reprezentare, adnotare și metadate; proiectarea, realizarea și testarea infrastructurii care va găzdui resursele; dezvoltarea instrumentele de prelucrare și acces ale consorțiului; augmentarea corpusului voce-text, cu completarea lui cu metadate, alinieri și adnotări; efectuarea de studii statistice asupra corpusului, exploatarea pentru cercetare și producție, precum si larga diseminare a corpusului bimodal, valorizare și utilizare cecuri de tip A1, A2, B.

Rapoarte de activitate

Noiembrie 2018

Noiembrie 2019

Noiembrie 2020

Aprilie 2021

Raport Final de proiect CoBiLiRo

Raport

Consorțiu

ICIA

Institutul de Cercetări pentru Inteligență Artificială “Mihai Drăgănescu” București

Universitatea Tehnică din Cluj-Napoca

Universitatea "Politehnica" București

Universitatea "Alexandru Ioan Cuza" Iași

Etape de lucru

Prima etapă

Acțiuni preparatorii realizării unui corpus bimodal (vorbire/text) pentru limba română, urmărește aducerea la zi a membrilor proiectului cu literatura de specialitate în privința tehnologiilor de creare de corpusuri bimodale și cu realizările existente în momentul de față în lume în această direcție, precum și inventarierea colecțiilor de date voce-text aliniate românești, disponibile la parteneri sau în terțe coaliții, a conținutului metadatelor lor și a formatelor de stocare și adnotare ale acestora.
A doua etapă

Soluții de realizare a unui corpus bimodal (vorbire/text) pentru limba română, este concentrată pe proiectarea funcțională și arhitecturală a infrastructurii care va găzdui resursele și instrumentele de prelucrare și acces ale consorțiului și, respectiv, realizarea infrastructurii comune de calcul care va găzdui resursele și instrumentele de prelucrare și acces.
A treia etapă

Achiziția, completarea și exploatarea corpusului bimodal al limbii române, urmărește augmentarea corpusului de la iterația zero la iterația unu, care se realizează prin realizarea de noi înregistrări vocale care dublează textele existente în corpusul COROLA și prin rularea algoritmilor de recunoaștere automată a vocii.

Echipa de proiect

Universitatea "Alexandru Ioan Cuza" din Iasi, Facultatea de Informatică

Dan Cristea

Anca Bibiri

Daniela Gifu

Mihaela Onofrei

Ionuț Pistol

Andrei Scutelnicu

Șerban Boghiu

Diana Trandabat

Colaboratori

Institutul de Cercetări pentru Inteligență Artificială ”Mihai Drăgănescu” din București

Dan Tufiș

Verginica Mititelu

Radu Ion

Elena Irimia

Universitatea ”Politehnica” din București

Corneliu Burileanu

Dragoș Burileanu

Horia Cucu

Dan Oneață

Universitatea Tehnică din Cluj-Napoca

Mircea Giurgiu

Adriana Stan

Contact

dcristea@info.uaic.ro