V današnjem Leemetinem članku bomo predstavili jezikoslovne tehnologije – korpuse, ki nam pomagajo, ko ne vemo, kaj se v jezikovni rabi pogosteje uporablja – zmanjkalo nam je biftka ali zmanjkalo nam je bifteka.
Kaj je (besedilni) korpus?
Besedilni korpusi so zbirke avtentičnih besedil v elektronski obliki. Z njihovo pomočjo lahko določamo vzorce jezikovne rabe v različnih besedilnih zvrsteh. Ko jezikoslovci oblikujejo nove normativne priročnike in slovarje, so jim v pomoč prav besedilni korpusi, saj kažejo prevladujočo rabo besed oz. besednih zvez. Korpusi nam omogočajo vpogled v »živ« jezik, vendar se moramo tudi glede te »živosti« in »aktualnosti« kritično opredeliti. Kot bomo videli v nadaljevanju, so v besedilne/jezikovne korpuse vključena tudi že lektorirana besedila – torej že pregledana in skladno z obstoječo jezikovno normo popravljena besedila.
Za kaj in zakaj potrebujemo korpuse?
V besedilne korpuse so vključene obsežne zbirke besedil, pridobljene iz različnih virov – mediji, leposlovje, stvarna besedila, splet … Zbrana besedila kažejo na nove smernice v jeziku. Če želimo, da korpusi služijo za pripravo ter nadgrajevanje jezikovnih priročnikov in drugih pripomočkov, se morajo redno posodabljati. V letu 2019 sta bila posodobljena največji in referenčni korpus slovenskega jezika Gigafida 2.0 (prej Gigafida) in njen podkorpus Kres. Korpus Gigafida 2.0 služi izdelavi novih sodobnih jezikovnih priročnikov.
Primeri korpusov
Korpusi slovenskega jezika so zelo različni in usmerjeni v specifična področja.
Poglejmo nekaj primerov
Ime korpusa | Opis | Povezava |
---|---|---|
Gigafida 2.0 | Največji in referenčni korpus slovenskega jezika. Vsebuje več kot 1,1 milijarde besed in služi gradnji novih priročnikov. | https://viri.cjvt.si/gigafida/ |
Šolar | Vsebuje pisna besedila slovenskih učencev in dijakov. Ugotovljeno je bilo, da učenci in dijaki pri pisanju delajo največ pravopisnih napak (pisanje skupaj/narazen). | http://solar.sketchengine.co.uk/run.cgi/first_form?corpname=fidaplus_solar |
Lektor | Vsebuje lektorirana besedila odraslih piscev. Lektorji vnašajo največ slogovnih, pravopisnih in skladenjskih popravkov. | http://lektor.sketchengine.co.uk/run.cgi/first_form?corpname=fidaplus_le... |
Janes | Korpus spletne slovenščine, ki služi izboljšanju orodij za obdelavo besedil. | https://www.clarin.si/noske/run.cgi/corp_info?corpname=janes |
GOS | Korpus govorjene slovenščine, ki obsega prepis več kot 120 ur pogovorov v najrazličnejših situacijah. | http://www.korpus-gos.net/ |
Signor | Korpus slovenskega znakovnega jezika. | http://www.lojze.si/signor/ |
Bifteka ali biftka?
Samostalnik biftek ima v rodilniku dve možni obliki:
- bifteka in biftka.
Zakaj?
Čeprav se nekateri samostalniki končujejo na nenaglašeni -ek (burek, biftek, avstralopitek), to ne pomeni, da se e izgovarja kot polglasnik in pri sklanjanju doživi izpust (napačno: biftek > biftka).
-ek je tako v primeru bifteka samo konec besede, ne obrazilo, zato se pri sklanjanju ohranja:
- biftek, bifteka, bifteku, biftek, o bifteku in z biftekom.
- Takšni primeri so še: burek, človek, pendrek, avstralopitek.
V nekaterih primerih besedil nezborne slovenščine lahko večkrat zasledimo napačno rabo:
- Slovenci smo letos pojedli več biftka.
Naučite se uporabljati jezikovni korpus Gigafida 2.0
V videoposnetku je prikazana praktična uporaba korpusa Gigafida 2.0.
Zanima nas, kaj je v rabi pogosteje: biftka ali bifteka.
Korpus Gigafida 2.0 nam omogoča dva načina iskanja: osnovno in napredno.
V našem primeru bomo uporabili napredno iskanje, saj nam to (med drugim) omogoča iskanje glede na sklon samostalnika (rodilnik).
Prepričani smo, da vam uporaba korpusov ne bo povzročala težav.
Ko boste naslednjič vprašali, kaj je v rabi pogosteje, pobrskajte po korpusu, če pa vas bo zanimalo, zakaj, pa pokukajte v Leemetine članke.