Já, ég er tölvunarfræðinemi svo ég forrita, þó ég hafi ekki næga kunnáttu til að pulla eitthvað svona sjálfur. Var bara að velta fyrir mér hvort þetta væri ekki örugglega hægt yfir höfuð, og þeirri vangaveltu var svarað. Ég geri mér auðvitað grein fyrir því að þetta er flókið mál, en langt því frá óleysanlegt eða flóknara en allt það sem tölvur gera í dag.
Ég hafði ekki velt aðferðinni neitt mikið fyrir mér, svo án þess að hafa kynnt mér sambærileg myndvinnsluforrit þá myndi ég örugglega reyna að gera þetta einhvern veginn svona:
1. Analyza litinn á öllum pixlum myndarinnar
2. Flokka þá eftir lit/birtu (líklega gera oft við sömu mynd, með mismunandi skekkjumörk)
3. Bera mynstur saman við þekkt tákn (myndi reyna að skilgreina “þekkt tákn” lauslega, þannig að forritið myndi a.m.k. geta lesið mismunandi leturgerðir og vonandi brenglaða stafi líka)
4. Merkja hvert mynstur (brenglaðan staf) með öllu sem kemur út úr lið 3 fyrir mismunandi skekkjumörk.
5. Öll captcha sem ég hef séð nota raunveruleg orð til að auðvelda fólki að lesa úr myndinni. Þegar allt orðið á myndinni hefur verið afkóðað í mögulegar bókstafasamsetningar, bera alla möguleika saman við orðabók. (Dæmi: Ef orðið á myndinni er “HALLÓ” þá gæti forritið lesið það sem “KH1IO”, “IALLC” og fleira sem líkist orðinu eftir brenglun - en einungis fáar þeirra munu finnast í orðabókinni, sem þrengir hringinn).
6. Ef eitthvað mynstur á myndinni var oftast lesið sem sami bókstafurinn (dæmi: ef H-ið í HALLÓ var lesið sem K,H,H,H,A,I,H með mismunandi skekkjumörkum) þá nota það sem tiebreaker ef mörg orð finnast í orðabókinni sem geta passað.
Ég veit ekkert hvort þessi algóritmi meikar sens, enda er hann bara dreginn út úr rassgatinu á mér rétt í þessu :P
Peace through love, understanding and superior firepower.
Jújú, þetta meikar svosem sens, og ég hef eitthvað spáð í þessu sjálfur. Í flestum tilfellum myndi maður reyna að finna stóra hópa af pixlum sem eru að sjálfsögðu tengdir(Einhverskonar tákn) sem eru einnig töluvert öðruvísi en bakgrunnurinn. En það er, eins og ég sagði, mun erfiðara en að segja það vegna þess að það gæti alltaf komið lína í gegnum orðið, og það gæti ruglað forritið.
Ofan á það, þá væri hægt að nota einhverskonar orðabók til þess að vera viss um að þetta orð sé til, ef maður veit að þessi orð séu alltaf ekta orð. Ef þetta eru bara tölur og bókstafir í einhverri handhófskenndri röð, er þetta töluvert erfiðara.
0