A UCI adatbányászai felzárkóztak a Google mögé


(Colin Stewart)

To Google or not to Google – ez már nem valódi kérdés többé.

Természetesen használni kell a Google-t, különben az Internet jó része kikerül a látótérből.

A legkedveltebb internetes kereső bármit segít megtalálni: Birkenstock Arizona szandált, tv-műsort vagy akár azt, hogy hogyan hasznosítják újra a hulladékot.

De mi van akkor, ha nem vagyunk biztosak benne, hogy pontosan mit is keresünk?

Ebben az esetben legjobb a UC Irvine-nál dolgozó David Newman-hoz és kollégáihoz fordulni, akik egy olyan programot segítettek kifejleszteni, amely anélkül tud keresni nagy mennyiségű szövege, hogy megmondanák neki, mit keressen.

A szövegbányászatnak ez a formája egy statisztikai topic-modellezés nevezetű eljárást használ, amelynek távolra mutató hatásai valószínűsíthetőek az internetes keresésben. Ez a technikát használhatják akár piackutatók, akik a kultúrális trendeket akarják tanulmányozni, történészek, akik a modern társadalom gyökereit térképezik fel, doktorok, akik az orvosi kutatások hegynyi publikációjával szembesülnek vagy akár titkosügynökök, az e-mail-forgalmom analizálásához, hogy kiszűrjék a terroristákat.

A topic modellezés az adatokat kategorizálja, a szavak egymást való követésének gyakoriságának mérésével. Ezek a kategorizált eredmények böngészése a felhasználó számára olyasmik, mintha egy könyvesboltban keresgélne, ahelyett hogy egy adott könyvet vásárolna meg online.

„Nagyon egyszerű a használata, a szövegbányászat evolúciós ugrást végzett” állítja Newman. „Pár éven belül mindenki által használt, hétköznapi eszköz lesz, orvostól kezdve hirdetőkig, íróktól a politikusokig.”

A topic modellezést, amelyet számítógépes szakemeberek és kutató egyetemek fejlesztettek ki, még nem alkalmazzák az adatkereséssel foglalkozó cégek. De Newman szerint pár éven belül a szakmai körökön kívül is fogják használni.

„Amikor az emberek először hallanak erről, azt gondolják: ‘Ó, persze. Google.’ mondja professzor Sharon Block, a UCI-nél dolgozó történész, aki szintén Newman programját használta kutatásaihoz. „Valójában egy 10.000$-os piramis-játék.”

A piramis játékban, amely 1973-ban indult, hírességek adtak meg szavakat a játékosoknek, akik megpróbálták meghatározni, hogy milyen közös kategória alapján lehet ezeket a szavakat összekötni.

Még dolgozunk azon, hogy a számítógép képes legyen egy jelentéssel bíró címkét rakni az egyes kategóriákra, mondja Newman. A topic modellezést nem csak különböző területeken, de különböző módokon is lehet használni – trendek kiszűrésére, ismeretlen adatok rendezésére vagy észrevétlen kapcsolatok feltérképezésére.

Trendek kiszűrése: hirdetők, piackutatók és kiadók tanulhatnak a foci, a biciklizés, az Oszkár-díjak és a társaságok negyedévi jelentései iránti érdeklődés növekedésének-esésének mintázatából, amint ez nyilvánvalóvá vált Newman legutóbbi kutatása alapján. Topic modellezést használt 330.000 sajtóhír (legtöbbjük a New York Times-ból származott) elemzéséhez. A program kategorizálta a leggyakoribb szavakat, neveket, helyeket és szervezeteket.

A Times 2000-től 2002-ig terjedő számait vizsgálva, a különböző témakörökben hasznnált szavak számának elemzése a következő eredményt hozta:

  • A foci népszerűsége nőtt, ezt a szavak havi 25.000-ről havi 40.000-re való növekedése bizonyította.
  • A Tour de France iránti érdeklődés csökkent ebben az időszakban, ezt a szavak számának 14.000-ről 12.000-re való csökkenése jelezte.
  • Az Oszkár-díjakkal foglalkozó cikkek hossza majdnem dupázódott 2001-ről (Gladiátor) 2002-re (Egy csodálatos elme).
  • A vállalatok negyedéves jelentései iránt 2001-ben volt a legmagasabb az érdeklődés, amikor a dot-com lufi kidurrant.

Newman felesége, Block történész-professzor asszony ezt a topic modellezést alkalmaztaa Pennsylvania Gazette-ben 1728-tól 1800-ig (ebbe az időbe esik az az időszak is, amikor Benjamin Franklin volt a lap tulajdonosa) megjelent 82.000 cikken és hirdetésen a trendek szűréséhez.

Az eredmények között feltűnt neki, hogy ha a divatról és a kereskedelemről szóló cikkek száma nőtt, akkor a vallásról szólók csökkentek – és vice versa. Az 1750-es években volt a „ruha” kategória csúcspontja, amely többek között a „gyapjúszövet”, a „selyem”, a „vászon”, „finom” és „fonál” szavakat tartalmazza, ugyanakkor a mélypontja az olyan cikkeknek, amelyekben pl. az „egyház”, az „erény” és „jellem” szavak szerepeltek.

Ismeretlen adatok rendezése:
Kutatók a topic modellezést használták annak a 250.000 e-mailnek az elemzéséhez, amelyet a U.S. Igazségügyi Minisztériumnak küldtek.

Newman szerint ez segítheti a Google Library Project-et is, amely digitális formátumba konvertálja azt a sok millió könyvet, amely a Standford, Harvard és Oxford egyetemeken, a New York Public Library-ban és sok más helyen van.

A nemzetbiztonsági ügynökségek szintén jól tudnák hasznosítani a topic modellezést a hatalmas mennyiségű rendezetlen adat feldolgozásában. Ez magyarázza, hogy Newman miért mutatta be találmányát a May’s Intelligence and Security Informatics konferenciáján, San Diego-ban.

Új kapcsolatok vadászata: a UCI számítógépes szakemberei olyan tanulmányok felkutatásában fognak segíteni a UCI orvostudományi kutatóinak, amelyek skizonfréniához kapocsolódnak.

Topic modellezést fognak alkalmazni 17 millió orvostudományi folyóiratnak a kutatásához, hogy kiszűrjék azokat a cikkeket, amelyek azokhoz génekhez és agyterületekhez kapcsolódnak, amelyek érintve vannak a skizonfréniában.

A modell működése miatt azt is elvárják tőle, hogy ne csak azokat a tanulmányokat találja meg, amelyek közvetlenül kapcsolódnak a skizofréniához – és még nem is említettük a rendezetlenséget.

A UCI adatbányászai felzárkóztak a Google mögé


Leave a Reply

Ez az oldal az Akismet szolgáltatást használja a spam csökkentésére. Ismerje meg a hozzászólás adatainak feldolgozását .