Pentru a compara un text, in sensul detectarii similaritatii semantice, cu alte texte din acelasi domeniu particular al cunoasterii, este necesara existenta unui repozitoriu de documente care sa permita rularea programului de detectare.
In mod ideal, daca ne-am propune un studiu exhaustiv al detectarii similaritatii, un astfel de repozitoriu ar trebui sa continua toate textele publicate vreodata in acel domeniu, ceea ce este, evident, o limita de netrecut.
In acest proiect, repozitoriul este bilingv si va fi structurat pe domenii stiintifice pentru a permite compararea congruenta a textelor. Clasificarea pe care ne-o propunem este, in mod necesar, unificata (modelele romanesti de clasificare nu-si gasesc corespondente univoce in cele anglo-americane) pentru a facilita colectarea sau migrarea documentelor in repozitoriu.
Dincolo de problematica legata de nevoile de comparare automata, repozitoriul poate permite o serie de cercetari scientometrice.