Szerkesztő:BinBot/munka/kivételek

Gyakoribb helyesírási javításaim BinBot segítségével

szerkesztés


Standard kivételek / Standard exceptions

szerkesztés
Ezek a helyesírási javítások során gyakran használt standard kivételek, amelyek az include kulcsszóval illeszthetők be a javítócsomagba (de ezeken kívül a javítócsomag természetesen egyéb, csak arra a javításra jellemző kivételeket is tartalmazhat). További magyarázat az angol szövegben. As part of my presentation at Wikimania 2012, I uploaded here a sample exceptions dictionary with some explanation. This one is used for spelling corrections in Hungarian Wikipedia as a basic set of exceptions that can be included in any fix with the line 'include': BaseExceptions, and extended with specific exceptions for that fix. This dictionary must be out of your fixes dictionary as explained here. Dictionaries are explained in this section, while the exact meaning of keys is written here.
BaseExceptions = {
    'inside-tags': [
        'hyperlink',
        'interwiki',
        'source',
        'math',
        'comment',
        #'template', #Óvatosan kell bánni vele!
    ],
    'text-contains': [
        ur'(?i)(\{\{szinnyei( József: Magyar írók élete és munkái)?|\{\{pallas\}|\{\{fényes\}|\{\{vályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
    ],
    'inside': [
        # ur'(?i)\b.*?\.(hu|com|org|net|de|ru|ro|sk)\]', # Ahol a külső link szövegének magát a linket adják meg - ez kegyetlenül belassítja
        ur'(?m)\|\s*honlap\s*=.*$', # infoboxok honlap paramétere
        # Ez a kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
        # This expression excludes image names, except in galleries and templates.
        ur'(?i)\[\[(Image|File|Fájl|Kép)\:[^\]\|]+?\|', # Képek nevében ne
        ur'(?i)(Image|File|Fájl|Kép)\:.+?(jpe?g|png|gif|svg)', #Galériás képek nevében se (sablon is kéne) / Image names in galleries
        ur'(?i)\| *(kép2?|image|logó) *=.*?\.(jpe?g|gif|png)', #Ez infoboxos képnév / Image names in infoboxes
        ur'(?i)\|\s*imagefile.*', # a lefordítatlanul átmásolt chembox new sablon képparamétere :-( (ImageFile2 is lehet.)
        ur'(?i)\{\{Kép\|.*?\|', # A Kép sablon első paramétere (tfh. névtelenül és sorban adják meg)
        # Kizárjuk a külső hivatkozások szöveges részében előforduló leggyakoribb URL-töredékeket:
        # ur'(?i)\[[a-z0-9\-\.:/]+? [a-z0-9\-\.]+?\.(hu|com|org|net|de|uk|html?|txt|pdf|php|asp|doc)',
        # r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat. (Régi) / Categories and interwikis (old)
        ur'\[\[:?[kK]ategória:.*?\]\]', #Csak a kategóriák (az interwikikre van tag) / Don't touch category names!
        r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak. / Neither defaultsort
        ur'<ref\s+name.*?>',
        # Mindenféle idézősablonok / Cite templates:
        ur'(?is)\{\{cite.*?\}\}', #Az összes citenyavalya sablon (nem mindig van szóköz)
        ur'(?is)\{\{cit(lib|per).*?\}\}', #A CitLib és a CitPer (nem biztos a szóköz, lehet |)
        ur'(?is)\{\{citation.*?\}\}', #Átmenetileg, amíg nem töröljük?
        ur'(?is)\{\{(hivatkozás|fordítás).*?\}\}', #Hivatkozás/Könyv v. más, fordítás sablon
        ur'(?is)\{\{idézet ?\d? *\|.*?\}\}', # idézetsablonok -- menjen mind a levesbe, ne bajlódjunk velük
        ur'(?is)\{\{rquote.*?\}\}', # Az idézet 3 burkolósablonja
        ur'(?is)\{\{refhely\s*\|.*?\}\}',
        ur'(?is)\{\{halott link\s*\|.*?\}\}',
        ur'(?s).*?”', # sablon nélküli magyar idézőjel
        # A youtube sabloncsaládban az azonosító névtelen 1-es paraméter vagy id lehet, a 2. paraméter nem kötelező.
        # Csak az első helyen keressük névvel is.
        ur'(?i)\{\{(youtube|twitter|instagram) *\|(id *=)?.*?(\||\}\})',
        # Médialejátszó sablon, csak az első helyen keressük az azonosítót, de mindenképp várunk további paramétert.
        ur'(?i)\{\{hallgat *\| *filename *=.*?\|',
    ],
    'title': [
        # Ezek tele vannak régies vagy rossz helyesírású törvényczímekkel:
        # Articles like [[:en:Category:Law by year]] contain outdated or simply bad spelling, but must not be modified (as they are laws)
        ur'\d{4} a jogalkotásban',
        ur'^Szál:', # ideiglenesen, szoftverhiba miatt
    ],
}