Adatbányászat újratöltve

Ma újra eszembe jutott, hogy hát engem érdekel az adatbányászat, és hogy volt egy cikk, amit le is fordítottam a nyár végén. Amíg újabb nem jön, addig ezt is átszedem a régi blogomról (külön Gábornak, csak hogy ne kelljen annyit keresni ; )

A UCI adatbányászai felzárkóztak a Google mögé (Colin Stewart)

To Google or not to Google – ez már nem valódi kérdés többé. Természetesen használni kell a Google-t, különben az Internet jó része kikerül a látótérből. A legkedveltebb internetes kereső bármit segít megtalálni: Birkenstock Arizona szandált, tv-műsort vagy akár azt, hogy hogyan hasznosítják újra a hulladékot.

De mi van akkor, ha nem vagyunk biztosak benne, hogy pontosan mit is keresünk?

Ebben az esetben legjobb a UC Irvine-nál dolgozó David Newman-hoz és kollégáihoz fordulni, akik egy olyan programot segítettek kifejleszteni, amely anélkül tud keresni nagy mennyiségű szöveget, hogy megmondanák neki, mit keressen.

A szövegbányászatnak ez a formája egy statisztikai topic-modellezés nevezetű eljárást használ, amelynek távolra mutató hatásai valószínűsíthetőek az internetes keresésben. Ez a technikát használhatják akár piackutatók, akik a kulturális trendeket akarják tanulmányozni, történészek, akik a modern társadalom gyökereit térképezik fel, doktorok, akik az orvosi kutatások hegynyi publikációjával szembesülnek vagy akár titkosügynökök, az e-mail-forgalom analizálásához, hogy kiszűrjék a terroristákat.

A topic-modellezés az adatokat kategorizálja, a szavak egymást való követésének gyakoriságának mérésével. Ezek a kategorizált eredmények böngészése a felhasználó számára olyasmik, mintha egy könyvesboltban keresgélne, ahelyett hogy egy adott könyvet vásárolna meg online.

“Nagyon egyszerű a használata, a szövegbányászat evolúciós ugrást végzett” állítja Newman. “Pár éven belül mindenki által használt, hétköznapi eszköz lesz, orvostól kezdve hirdetőkig, íróktól a politikusokig.”

A topic-modellezést, amelyet számítógépes szakemeberek és kutató egyetemek fejlesztettek ki, még nem alkalmazzák az adatkereséssel foglalkozó cégek. De Newman szerint pár éven belül a szakmai körökön kívül is fogják használni.

“Amikor az emberek először hallanak erről, azt gondolják: ‘Ó, persze. Google.’” mondja professzor Sharon Block, a UCI-nél dolgozó történész, aki szintén Newman programját használta kutatásaihoz. “Valójában egy 10.000$-os piramis-játék.”

A piramis játékban, amely 1973-ban indult, hírességek adtak meg szavakat a játékosoknak, akik megpróbálták meghatározni, hogy milyen közös kategória alapján lehet ezeket a szavakat összekötni.

Még dolgozunk azon, hogy a számítógép képes legyen egy jelentéssel bíró címkét rakni az egyes kategóriákra, mondja Newman. A topic-modellezést nem csak különböző területeken, de különböző módokon is lehet használni – trendek kiszűrésére, ismeretlen adatok rendezésére vagy észrevétlen kapcsolatok feltérképezésére.

Trendek kiszűrése: hirdetők, piackutatók és kiadók tanulhatnak a foci, a biciklizés, az Oszkár-díjak és a társaságok negyedévi jelentései iránti érdeklődés növekedésének-esésének mintázatából, amint ez nyilvánvalóvá vált Newman legutóbbi kutatása alapján. Topic-modellezést használt 330.000 sajtóhír (legtöbbjük a New York Times-ból származott) elemzéséhez. A program kategorizálta a leggyakoribb szavakat, neveket, helyeket és szervezeteket.

A Times 2000-től 2002-ig terjedő számait vizsgálva, a különböző témakörökben használt szavak számának elemzése a következő eredményt hozta:

  • A foci népszerűsége nőtt, ezt a szavak havi 25.000-ről havi 40.000-re való növekedése bizonyította.
  • A Tour de France iránti érdeklődés csökkent ebben az időszakban, ezt a szavak számának 14.000-ről 12.000-re való csökkenése jelezte.
  • Az Oszkár-díjakkal foglalkozó cikkek hossza majdnem duplázódott 2001-ről (Gladiátor) 2002-re (Egy csodálatos elme).
  • A vállalatok negyedéves jelentései iránt 2001-ben volt a legmagasabb az érdeklődés, amikor a dot-com lufi kidurrant.

Newman felesége, Block történész-professzor asszony ezt a topic-modellezést alkalmazta a Pennsylvania Gazette-ben 1728-tól 1800-ig (ebbe az időbe esik az az időszak is, amikor Benjamin Franklin volt a lap tulajdonosa) megjelent 82.000 cikken és hirdetésen a trendek szűréséhez.

Az eredmények között feltűnt neki, hogy ha a divatról és a kereskedelemről szóló cikkek száma nőtt, akkor a vallásról szólók csökkentek – és vice versa. Az 1750-es években volt a “ruha” kategória csúcspontja, amely többek között a “gyapjúszövet”, a “selyem”, a “vászon”, “finom” és “fonál” szavakat tartalmazza, ugyanakkor a mélypontja az olyan cikkeknek, amelyekben pl. az “egyház”, az “erény” és “jellem” szavak szerepeltek.

Ismeretlen adatok rendezése:
Kutatók a topic-modellezést használták annak a 250.000 e-mailnek az elemzéséhez, amelyet a U.S. Igazségügyi Minisztériumnak küldtek.

Newman szerint ez segítheti a Google Library Project-et is, amely digitális formátumba konvertálja azt a sok millió könyvet, amely a Standford, Harvard és Oxford egyetemeken, a New York Public Library-ban és sok más helyen van.

A nemzetbiztonsági ügynökségek szintén jól tudnák hasznosítani a topic-modellezést a hatalmas mennyiségű rendezetlen adat feldolgozásában. Ez magyarázza, hogy Newman miért mutatta be találmányát a May’s Intelligence and Security Informatics konferenciáján, San Diego-ban.

Új kapcsolatok vadászata: a UCI számítógépes szakemberei olyan tanulmányok felkutatásában fognak segíteni a UCI orvostudományi kutatóinak, amelyek skizofréniához kapcsolódnak.

Topic-modellezést fognak alkalmazni 17 millió orvostudományi folyóiratnak a kutatásához, hogy kiszűrjék azokat a cikkeket, amelyek azokhoz génekhez és agyterületekhez kapcsolódnak, amelyek érintve vannak a skizofréniában.

A modell működése miatt azt is elvárják tőle, hogy ne csak azokat a tanulmányokat találja meg, amelyek közvetlenül kapcsolódnak a skizofréniához – és még nem is említettük a rendezetlenséget.

Eredeti cikk: ‘Data miners’ at UCI moving beyond Google

One thought on “Adatbányászat újratöltve”

Hozzászólás