Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí.
Nahrávky byly pořizovány v průběhu deseti let, v letech 2002-2011. Korpus není vyvážený, převažují data z české části České republiky (více viz složení korpusu).
Transkripce je jednoúrovňová, a pokud to bylo možné, byla spolu s tokenizací sjednocena pro všechny části korpusů. Korpus ORAL sjednocuje korpusy ORAL2006, ORAL2008, ORAL2013 a dosud nepublikované nahrávky ORAL-Z.
Celková velikost korpusu je 5 368 391 slov, celkový čas nahrávek je 582 hodin. Část transkriptů není spojena se zvukem (data z korpusů ORAL2006 a ORAL2008). Korpus je lemmatizován a morfologicky označkován.
Používá stejný typ morfologických značek jako současné psané korpusy.