Helyesírás-ellenőrző programok versenye
Ön mikor fogott utoljára tollat a kezébe? Digitalizált világunkban kétségtelenül jóval többet írunk számítógépes szövegszerkesztővel, mint papírra. E programoknak köszönhetően azonban nem csak abban kényelmesedtünk el, hogy immár nem kell ügyelnünk írásunk külalakjára – a szövegszerkesztőkbe beépített helyesírás-ellenőrző programok könnyen keltik azt az illúziót, hogy a helyesírásunkra sem kell többé figyelnünk, a „gép” majd megteszi ezt helyettünk. Az Anyanyelvápolók Szövetségének fiatal tagjai egy rövid „helyesírási versennyel” megvizsgálták, milyen eredménnyel.
Szöveg: Dömötör Andrea
(Jelen írás az anyanyelvapolo.hu oldalon található cikk átdolgozott változata.)
Mit várhatunk el?
Mielőtt eredményt hirdetnénk (és ítéletet mondanánk), nem árt végiggondolni, mire lehet képes egy gépi helyesírás-ellenőrző, illetve hogy mire szeretnénk valójában használni. Az biztos, hogy a számítógépnek nem lehet úgy megtanítani a helyesírási szabályzatot, ahogy azt egy ember ismeri és használja, hiszen az írásmód sokszor kiejtés- vagy jelentésfüggő, amivel a számítógép nem tud mit kezdeni, hiszen számára egy begépelt szó nem jelent többet egy számsornál. Az elütéseket és az egyszerű hibákat a szótár alapján szűrik a rendszerek, és matematikai módszerrel keresnek a leírt alakhoz közeli, a szótárban megtalálható javaslatot. A szó szintjén nem felismerhető hibákat viszont, mint például az egyeztetés vagy az összetett szavak helyesírása, nagyon nehéz gépi eszközökkel kezelni. Ilyen esetekben már a nyelvi elemző erősségén múlik a hibajavítás sikeressége.
A verseny
A versenyben két szövegszerkesztő, egy internetes helyesírási szótár és egy helyesírási tanácsadó portál vett részt. A népszerű Microsoft Word helyesírás-ellenőrzőjének alapja a Morphologic által fejlesztett Helyesek elnevezésű programcsomag. Vetélytársa a többek között a Google Chrome, a Firefox és a LibreOffice által is használt Hunspell nevű szabad szoftver.
Emellett versenyeztettük még az MTA néhány éve működő weboldalát, a helyesiras.mta.hu-t és a legnagyobb magyarországi helyesírási adatbázist, a magyarhelyesiras.hu-t, bár ez utóbbi nincs egészen azonos súlycsoportban a többivel, hiszen csak szótár, nincs morfológiai elemző rendszere.
A teszt négy feladattípusból állt, ebből három kifejezetten nehéznek mondható. Az ellenőrzőknek dönteniük kellett összetett szavak kötőjeles vagy egybeírásáról, javítaniuk kellett földrajzi neveket és -i képzős származékaikat, alkalmazniuk kellett toldalékolási és mássalhangzó-egyszerűsítési szabályokat, illetve hosszú és rövid magánhangzók közül kellett választaniuk. A felismert hibás és javított szavakért 1 pontot kaptak, ha jót javítottak rosszra, –1-et, ha figyelmen kívül hagytak egy hibás alakot, 0-t, ha pedig felismerték, hogy az alak hibás, de nem adtak javítási javaslatot, akkor fél pontot.
Az összetett szavak
Az összetett szavak gépi ellenőrzésénél leginkább az okoz gondot, hogy a rendszer nem tudja eldönteni, hány szóval van dolga. Ha az összetett szavakat egybeírjuk, javíthatjuk a program esélyeit. További probléma ennél a feladatnál, hogy az összetételek tagjai közötti viszony elemzése nagyon nehéz a jelentést nem ismerő gép számára. Ezek után nem nagy meglepetés, hogy a teszt első részével mindkét szövegszerkesztőnek meggyűlt a baja.
- A Hunspell minden harmadik szót talált meg a szótárában, az ismeretlen szavakat pedig nem tudta kezelni.
- A Word helyesírás-ellenőrzője ebben a feladatban negatív eredményt ért el, azaz úgy tűnik, többet árt, mint használ.
- A magyarhelyesiras.hu összetettszó-adatbázisa nagyobbnak és hatékonyabbnak bizonyult a Hunspellénél: 64%-ban kiadta a helyes alakokat.
- A helyesiras.mta.hu külön modult szán az egybe- vagy különírás kérdésének. A teszt szavainál nemcsak a helyes alakot adta meg, hanem a különböző jelentésekből adódó összes lehetséges helyes változatot. Minden javaslathoz részletes magyarázat is tartozik, így a felhasználó kiválaszthatja a közlési szándékának megfelelő írásformát.
A földrajzi nevek
A földrajzi nevek helyesírására vonatkozó rész még kevésbé volt sikeres. Ha a vonatkozó szabályokra gondolunk, kiderül, hogy a helyesíráshoz sok esetben világismeretre is szükség van. Ám egy gépi ellenőrzőnek már az sem egyszerű feladat, hogy rájöjjön, hogy a szó földrajzi név, arról már nem is beszélve, hogy természet vagy ember alkotta-e, vagy hogy mi az alaptag: köznév, tulajdonnév vagy -i képzős alak. A szövegszerkesztők a különírt vagy kötőjeles, illetve a kis és nagy kezdőbetűs verziók között alig tudtak különbséget tenni.
- A Hunspell a megadott 17 földrajzi névből csupán egyet javított jóra, és kettőt ismert fel hibásként, de nem adott javaslatot a javításra. A többinél semmilyen szabálytalanságot nem jelzett.
- Hasonló eredményt kaptunk a Word ellenőrzőjével is, amely csak két hibás alakot ismert fel és javított, ráadásul egy jót is kijavított rosszra.
- A magyarhelyesiras.hu ebben a körben jól teljesített, a beírt nevek felét ismerte.
- Az MTA névkereső modulja 59%-ban adott jó választ.
Toldalékolás és mássalhangzó-egyszerűsítés
A nevek toldalékolása és a mássalhangzó-egyszerűsítés kérdése sem bizonyult könnyű feladatnak. Ehhez sokszor a kiejtés ismeretére van szükség, ami szintén nehezen várható el egy számítógéptől.
- A Word ellenőrzője alig ismerte fel a hibákat, de néha a helyesen leírt szavakat sem tudta értelmezni, és ebben a részben is szerzett mínuszpontot. Az összteljesítménye 9% volt.
- A Hunspell ennél jóval eredményesebb volt, 59%-ban jó javaslatokat adott.
- A magyarhelyesiras.hu alig tudja kezelni a toldalékolt alakokat, ami nem meglepő, hiszen – mint említettük – vetélytársaival ellentétben nincs morfológiai elemző rendszere. Adatbázisa viszonylag nagy, ennek köszönhetően a keresett szavak harmada megtalálható benne, ugyanakkor nehezen kereshető.
- A helyesiras.mta.hu ebben a blokkban is győzött, 5%-kal volt eredményesebb a Hunspellnél.
A hosszú és rövid magánhangzók
A hosszú és rövid magánhangzós szavak felismerését mindegyik ellenőrző jól végezte, csupán 2-3 hibát vétettek, ezenkívül minden esetben a jó alakot javasolták.
- A Hunspell és a Word ellenőrzőjének becsületét ez a feladat mentette meg, ebben mindkettő csak két szónál (megszüntet, anaforikus) hibázott.
- A magyarhelyesiras.hu a 24 keresett szóból hármat nem ismert (anonim, úti, anaforikus).
- A helyesiras.mta.hu-n pedig csak az anaforikus szó fogott ki.
Az összesítésben jól láthatjuk, hogyan végeztek versenyünkben a helyesírás-ellenőrzők. Emellett – bár a vizsgált kifejezéseket nem érintik a helyesírás változásai – „versenyen kívül” az új szabályzat ismeretét is kipróbáltuk a rendszereken. Úgy tűnik, eddig csak az MTA online helyesírási tanácsadója adaptálta a 12. kiadást.
A verseny a teljesség igénye nélkül készült, és inkább játék, mint reprezentatív teszt, de a legfontosabb tanulság így is jól látható: egyik rendszer sem gondolkodik helyettünk (eleget). Bár az egyszerű és tipikus hibákat mindegyik program jól kezeli, a bonyolultabb problémákat már nem bízhatjuk egészen a gépre. A piros aláhúzás jelzés: nézzük meg még egyszer, mit írtunk, gondoljuk át, helyes-e úgy, és ha kell, nézzünk utána. Üssük fel például A magyar helyesírás szabályait.