Olvasási idő: 
14 perc

A 2003. és 2004. évi angol nyelvi próbaérettségi szókészletének számítógépes feldolgozása

A szerzők a 2003. és 2004. évi próbaérettségi angol nyelvi feladatsorai alapján a vizsgán számon kért szókincs jellemzőit vizsgálták több szempont alapján. Az elemzés azt mutatja, hogy sem a szókincs, sem az egy percre jutó alkalmazott szavak számában nincs jelentős eltérés a közép- és az emelt szintű érettségi feladatsorai között. Elemezték azt is, hogy a próbaérettségi szóanyaga mennyire tükrözi a mindennapi beszélt angol nyelvet. Kiderült, hogy a szóalakok 2025 százaléka épp a beszélt nyelvben való nem gyakori előfordulás miatt nehezen érthető a diákok számára.​

Az új típusú érettségi bevezetését közel tízéves előkészítő munka (1996–2005) és hosszas vita előzte meg, amely eredményeként születettek meg a 2003. és 2004. évi próbaérettségi feladatsorai. Számos fórumon elhangzottak már az egyes feladatok mellett szóló érvek és természetesen az ellenérvek is. A feladatok típusának és tartalmának értékelése azonban az esetek többségében szubjektív véleményeken alapult. Vizsgálataink során az angol írásbeli próbaérettségi szavainak számítógépes feldolgozását végeztük el, bízva abban, hogy az így kapott értékek alapján a korábbi szubjektív vélemények kiegészíthetők.

Tantervi útmutatók a szókincs nagyságára vonatkozóan

Bármely idegen nyelvi vizsgára, így az érettségi vizsgára való felkészítés egyik feltétele az, hogy legyenek pontos, megbízható információk a vizsga sikeres letételéhez szükséges szókincsről. A nyelvkönyvek, oktatási segédanyagok, vizsgatesztek szókincsének tanulmányozása azonban nem tartozik az alkalmazott nyelvészet kiemelt érdeklődési területéhez. Ennek ellenére a nyelvtanítással foglalkozók nem kerülhetik meg a szókinccsel kapcsolatos alapvető kérdések megválaszolását.

Az angol nyelv vonatkozásában a kutatások az 1930-as években kezdődtek Ogden Basic English (1930) szólistájával, melyet számos hasonló jellegű mű követett, mint például I. A. Richards Basic English and its Uses (1943) 850 szót tartalmazó listája, illetve Michael West A General Service List of English Words (GSL)(1953) című munkája. Ez utóbbi 2000 szavához a szemantikai és gyakorisági adatokat egy 2-5 millió szóból álló korpuszból nyerték. A szakirodalom szerint e szavak ismerete hozzáférhetővé teszi bármilyen angol nyelven írott szöveg 80 százalékát.

A nyelvet tanulók számára segítséget nyújthatnának a szókincs nagyságára vonatkozó korlátozások, esetleg listák, amelyek a tantervek mellékleteként jelenhetnének meg.

A korábban megjelent hazai tantervek – mint az 1978-as, A gimnáziumi oktatás és nevelés terve és az 1995-ös Nemzeti alaptanterv (NAT) – megadták az elsajátítandó szavak számát. A kerettanterv (2000) és annak módosított változatai (2003) azonban nem tartalmaznak a szókincsre vonatkozó előírásokat (1. táblázat). Így a szókincs tekintetében – a kimeneti szabályozás következtében – az érettségi vizsga szókincse nyújthat bizonyos támpontokat.

1. táblázat • Tantervi útmutatók a szókincs nagyságára vonatkozóan
Osztály A gimnáziumi oktatás és nevelés terve (1978) NAT (1995)
Aktív Passzív Aktív Passzív
6.     600 szó 200 szó
8.     1200 kifejezés 400 kifejezés
10. 600 lexikai egy. 100 lexikai egy. 1600 kifejezés 400 kifejezés
12. 1200 lexikai egy. 400 lexikai egy.    

Szövegek feldolgozása, szavak számlálása

Az írásbeli próbaérettségik teljes, nyomtatásban megjelent anyagát feldolgoztuk. Mivel mind a feladatok, mind az utasítások a célnyelven kerültek a feladatsorokba, nem tettünk különbséget közöttük. Kivételt képezett a – minden egyes lap alján háromszor is megjelenő – Do not write below this line szöveg, mivel megtartása esetén indokolatlanul megemelkedett volna az ebben a mondatban szereplő szóalakok gyakorisága.

A hallás utáni értést ellenőrző vizsgarészben írott formában csak az utasítások és a kiegészítendő mondatok jelentek meg, ezért a hallott szövegértésnek csak az írásos részét dolgoztuk fel, jelen tanulmányunk nem foglalkozik magával a meghallgatott szöveggel.

A szövegek feldolgozása saját fejlesztésű programmal történt (DyMoCASAT: Dynamic Model for Computer Aided Statistical Analysis of Texts), amelyet irodalmi művek és nyelvkönyvek szókészletének számítógépes feldolgozására készítettünk (Csernoch–Hunyadi 2003; Csernoch 2004). Elsőként elvégeztük a szövegek összefűzését évek és szint szerint, így a továbbiakban négy szövegről beszélünk: 2003 közép, 2003 emelt, 2004 közép, 2004 emelt.

A programmal megszámoltuk az egyes szövegekben előforduló szövegszók (N) és szóalakok (V[N]) számát. Az eredményeket a 2. táblázatban összegeztük. Vizsgálatainkat a szavak lemmatizálása nélkül végeztük el, mivel a nyelvtanulás során, csakúgy mint a nyelvhasználatban, gyakran találni arra példát, hogy egy szó ragozott alakja lényegesen gyakoribb, mint a szótári alak, így az eredeti szóalakok számlálása reálisabb képet ad a nyelvhasználatról.

2. táblázat • Szavak száma, szövegszó- és szóalakszinten, valamint a szókészlet gazdagsága és az egy percre jutó szavak száma
  Szöveg-szó
N
Szóalak
V(N)
V(N) : N N : V(N) N : t V(N) : t
2003 közép 3450 1016 0,2945 3,3957 19,2 5,64
2003 emelt 4600 1361 0,2959 3,3799 19,2 5,67
2004 közép 3400 1069 0,3144 3,1805 18,9 5,94
2004 emelt 4550 1301 0,2859 3,4973 19,0 5,42

A szókészlet gazdagsága és az egy percre jutó szavak száma

A szavak számának ismeretében megnéztünk két, a szógazdagság leírására használatos hányadost: a szóalakok és szövegszók hányadosát[1] és ennek reciprokát[2], az átlagos szógyakoriságot.

2. táblázat értékei mutatják, hogy nincs lényeges eltérés a közép- és emelt szintű szövegek ezen mutatói között. A finom eltéréseket elemezve azt láthatjuk, hogy a 2004-es középszintű feladatsor szókészlete a leggazdagabb, amit az átlagos szógyakoriság is mutat, hiszen itt a legalacsonyabb.

A következő mutató, amelyet megnéztünk, az egy percre jutó szövegszók és szóalakok száma (2. táblázat). Arra voltunk kíváncsiak, hogy nehezebb-e az emelt szintű feladatsor azzal, hogy magasabb az egy perc alatt elolvasandó szavak száma. Ahogy azt a táblázat értékei mutatják, egyik hányados esetén sincs lényeges eltérés sem a két év közép-, sem a két év emelt szintű feladatai között, de még csak a közép- és az emelt szintű feladatok között sem. Ez tehát azt mutatja, hogy az emelt szintű feladatsorok ebből a szempontból sem nehezebbek, mint a középszintűek.

A próbaérettségik gyakorisági listája

A következő lépésben azt elemeztük, hogy az érettségiben előforduló szavak mennyire gyakoriak a beszélt nyelvben. A már említett DyMoCASAT-program segítségével nemcsak a szavak számát, hanem a szavakat is tároltuk, így össze tudtuk hasonlítani más korpuszok szókészletével.

Elsőként a British National Corpus (BNC) százmilliós korpuszából készült szóalakok gyakorisági listájához, majd a Reading Teachers’ Book of Lists (RTBL) leggyakoribb ezer szavának listájához hasonlítottuk a próbaérettségi szóalakjait.

A nagy korpuszok és a próbaérettségi gyakorisági listáját összevetve azt tapasztaltuk, hogy az ún. funkciószó(function word) kategóriájába tartozó szavak esetében nincs lényeges eltérés a gyakorisági listán betöltött pozíciójuk alapján. Szembetűnő viszont a will segédige, amely mind a négy feladatsor esetén lényegesen előrébb helyezkedik el, mint az a BNC és az RTBL alapján várható lenne (2003 közép: 17., emelt: 8.; 2004 közép: 11.; emelt: 14.; BNC: 46., RTBL: 51.). Hasonló a helyzet a your szóalakkal.

tartalmi szavakat (content word) vizsgálva azt tapasztaltuk, hogy magas azoknak a szavaknak a száma, amelyek a BNC alapján igen ritka szónak számítanak, ezzel szemben a feladatsorokban akár többször is előfordulnak (pl. task, genius, answers, Chad, emperor, dotted, cutlery, compartment, blizzard, rambling).

Az 1. ábra grafikonjain látható, hogy igen magas azoknak a szavaknak a száma, amelyek a BNC-ben alacsony gyakoriságúak. A tízezrediknél ritkább szavak az össz-szószám közel tíz százalékát teszik ki (1/A ábra; 2003 közép: 9 százalék, 2003 emelt: 10,3 százalék, 2004 közép: 10,6 százalék, 2004 emelt: 8,8 százalék). Ha ehhez hozzávesszük, hogy a tanulók többsége az első tízezer szót sem ismeri maradéktalanul, akkor az ismeretlen szavak száma olyan magas az érettségi feladatsorokban, hogy az szövegértési problémákhoz vezethet. Annak eldöntésére, hogy a tanulók ismerik, ismerhetik-e ezeket a szavakat, a leggyakrabban használt nyelvkönyvsorozatok közül kiválasztottunk hármat, és ezek szókészletét hasonlítottuk az érettségi szavaihoz.

1. ábra • A 2003. évi középszintű próbaérettségi szavainak helyezése a BNC gyakorisági listájában

Megjegyzés: A vízszintes tengelyen a próbaérettségi szavait gyakoriságuk sorrendjében szerepeltettük, és ezekhez hozzárendeltük a BNC gyakorisági listájában található sorszámukat.

Nyelvkönyvek és a próbaérettségi szókészlete

A gyakorisági vizsgálatok után tehát megnéztük, hogy a kiválasztott három nyelvkönyvsorozat és az érettségi szavai mennyire fedik egymást. A három nyelvkönyv – New Headway, Project, Cutting Edge – mindegyikét széleskörűen használják a középiskolákban, és természetesen szerepelnek az OM hivatalos tankönyvlistáján. Közülük a Project témáit tekintve inkább tizenéveseknek szóló könyv, míg a másik kettő kifejezetten felnőtteknek való, a Cutting Edge még inkább, mint a New Headway.

New Headway és a Cutting Edge hatkötetes sorozat, míg a Project öt. A középszintű feladatsorokat először az első három összefűzött kötettel hasonlítottuk össze, tehát Pre-intermediate kötetekkel bezárólag. A második lépésben hozzávettük a negyedik, Intermediate köteteket is. Az emelt szintet az ötödik Projecttel és az ötödik New Headway, illetve Cutting Edge könyvvel, tehát Upper-intermediate-tel, valamint a hatodik, Advanced kötetekkel bezárólag hasonlítottuk össze.

Az eredményeket a 3. táblázat mutatja.

3. táblázat • A közép- és emelt szintű próbaérettségi szavainak megjelenése három tankönyvsorozat köteteiben
  2003 2004
Igen Nem Igen Nem
Középszint
Headway Pre-Int. 722 71% 294 723 68% 346
Headway Int. 824 81% 192 815 76% 254
Project 3. 644 63% 372 656 61% 413
Cutting Edge Pre-Int. 763 75% 253 764 71% 305
Cutting Edge Int. 824 81% 192 838 78% 231
Emelt szint
Headway Upper-Int. 1063 73% 298 1001 77% 300
Headway Adv. 1132 81% 229 1072 82% 229
Project 5. 913 67% 448 873 67% 439
Cutting Edge Upper-Int. 1103 81% 258 1073 82% 228
Cutting Edge Adv. 1162 85% 199 1113 86% 188

A kapott értékek alapján elmondhatjuk, hogy a kifejezetten felnőttek számára készült nyelvkönyv, a Cutting Edge esetében kaptuk a legjobb lefedettséget, míg a tizenéveseknek íródott Project tért el leginkább az érettségitől.

Összegzés

Vizsgálatainkban a 2003. és 2004. évi angol próbaérettségi szavainak – szövegszóinak és szóalakjainak – statisztikai elemzését végeztük el. Elsőként arra kerestük a választ, hogy szószinten van-e érzékelhető eltérés a közép- és emelt szintű feladatsorok között. A szavak számának ismeretében kijelenthetjük, hogy az emelt szintű feladatsorok nem az adott időegységre jutó szavak számának emelkedésével váltak nehezebbé a középszintűekhez képest. Ezen megállapítás tehát indokolttá tette a további vizsgálatokat is, amelyekben először azt néztük meg, hogy az előforduló szavak milyen gyakoriak a nyelvben. Ez a paraméter sem mutatott lényeges eltérést a közép- és emelt szintű feladatsorok között. Mindkét szinten találtunk igen ritkán használt szavakat, olyanokat, amelyek emelt szinten sokkal inkább helyénvalók lennének. Az így kapott értékek is alátámasztják azt a tényt, hogy „…a vizsgafejlesztők [csak] saját tapasztalataik alapján értelmezték és állapították meg egy-egy feladat szintjét…”, „…szemben a nyelvi vizsgáztatás elfogadott gyakorlatával, miszerint csak jóval hosszabb feldolgozási időszakot igénylő, előzetes méréseken alapuló adatfeldolgozás és nyilvántartás esetében megbízható a vizsgaszintek pontos meghatározása…” (Major 2005).

Megnéztük továbbá, hogy a nyelvkönyvek szókészlete mennyire fedi le az érettségi szókészletét. Ezek a teoretikus értékek azt szemléltetik, hogy milyen a tanulók felkészültsége, ha az általuk használt tankönyv valamennyi szavát ismerik az érettségin. A kapott értékek százalékos formában mutatják, hogy a szóalakok 20-25 százaléka ismeretlen a tanulók számára, amit még tovább növelhet annak az egyszerű ténynek a számbavétele, hogy a tankönyvek egyszer-kétszer előforduló szavai nem képeznek maradandó tudást, tehát sok esetben ezek is emelik az ismeretlen szavak számát. Az ismeretlen szavak magas száma szövegértési problémához vezethet, ami különösen a kitűzött feladatok, utasítások megértése során okozhat gondot. Ezt a tényt támasztják alá a próbaérettségik eredményeit feldolgozó statisztikák is, amelyekből kitűnik, hogy a normál eloszláshoz képest egyértelmű balra tolódás tapasztalható, ami azt jelenti, hogy a vizsga a diákok egy részének túl nehéz volt (Major 2005).

Irodalom

Csernoch, M. (2004): Another Method to Analyze the Introduction of Word-Types in Literary Works and Textbooks. Conference Abstract, The 16th Joint International Conference of the Association for Literary and Linguistic Computing and the Association for Computers and the Humanities Göteborg University, Sweden.

Csernoch Mária – Hunyadi L. (2003): Szótípusok bevezetésének szabályszerűsége magyar és angol nyelvű nyomtatott szövegekben. Magyar Számítógépes Nyelvészeti Konferencia, Szeged.

Major Éva (2005): A 2004-es próbaérettségi tapasztalatai – idegen nyelvek. Új Pedagógiai Szemle, 3. sz. 11–18.

Ogden, C. K. (1930): Basic English: a General Introduction. Kegan Paul, Trench and Trubner, London.

Richard, I. A. (1943): Basic English and its Uses. Kegan Paul, London.

West, M. P. (1953): A General Service List of English Words. Longman, Green, London.

Footnotes

  1. ^ V(N) : N
  2. ^ N : V(N)