A UCI adatbányászai felzárkóztak a Google mögé

(Colin Stewart)

To Google or not to Google – ez már nem valódi kérdés többé.

Természetesen használni kell a Google-t, különben az Internet jó része kikerül a látótérből.

A legkedveltebb internetes kereső bármit segít megtalálni: Birkenstock Arizona szandált, tv-műsort vagy akár azt, hogy hogyan hasznosítják újra a hulladékot.

De mi van akkor, ha nem vagyunk biztosak benne, hogy pontosan mit is keresünk?

Ebben az esetben legjobb a UC Irvine-nál dolgozó David Newman-hoz és kollégáihoz fordulni, akik egy olyan programot segítettek kifejleszteni, amely anélkül tud keresni nagy mennyiségű szövege, hogy megmondanák neki, mit keressen.

A szövegbányászatnak ez a formája egy statisztikai topic-modellezés nevezetű eljárást használ, amelynek távolra mutató hatásai valószínűsíthetőek az internetes keresésben. Ez a technikát használhatják akár piackutatók, akik a kultúrális trendeket akarják tanulmányozni, történészek, akik a modern társadalom gyökereit térképezik fel, doktorok, akik az orvosi kutatások hegynyi publikációjával szembesülnek vagy akár titkosügynökök, az e-mail-forgalmom analizálásához, hogy kiszűrjék a terroristákat.

A topic modellezés az adatokat kategorizálja, a szavak egymást való követésének gyakoriságának mérésével. Ezek a kategorizált eredmények böngészése a felhasználó számára olyasmik, mintha egy könyvesboltban keresgélne, ahelyett hogy egy adott könyvet vásárolna meg online.

“Nagyon egyszerű a használata, a szövegbányászat evolúciós ugrást végzett” állítja Newman. “Pár éven belül mindenki által használt, hétköznapi eszköz lesz, orvostól kezdve hirdetőkig, íróktól a politikusokig.”

A topic modellezést, amelyet számítógépes szakemeberek és kutató egyetemek fejlesztettek ki, még nem alkalmazzák az adatkereséssel foglalkozó cégek. De Newman szerint pár éven belül a szakmai körökön kívül is fogják használni.

“Amikor az emberek először hallanak erről, azt gondolják: ‘Ó, persze. Google.’ mondja professzor Sharon Block, a UCI-nél dolgozó történész, aki szintén Newman programját használta kutatásaihoz. “Valójában egy 10.000$-os piramis-játék.”

A piramis játékban, amely 1973-ban indult, hírességek adtak meg szavakat a játékosoknek, akik megpróbálták meghatározni, hogy milyen közös kategória alapján lehet ezeket a szavakat összekötni.

Még dolgozunk azon, hogy a számítógép képes legyen egy jelentéssel bíró címkét rakni az egyes kategóriákra, mondja Newman. A topic modellezést nem csak különböző területeken, de különböző módokon is lehet használni – trendek kiszűrésére, ismeretlen adatok rendezésére vagy észrevétlen kapcsolatok feltérképezésére.

Trendek kiszűrése: hirdetők, piackutatók és kiadók tanulhatnak a foci, a biciklizés, az Oszkár-díjak és a társaságok negyedévi jelentései iránti érdeklődés növekedésének-esésének mintázatából, amint ez nyilvánvalóvá vált Newman legutóbbi kutatása alapján. Topic modellezést használt 330.000 sajtóhír (legtöbbjük a New York Times-ból származott) elemzéséhez. A program kategorizálta a leggyakoribb szavakat, neveket, helyeket és szervezeteket.

A Times 2000-től 2002-ig terjedő számait vizsgálva, a különböző témakörökben hasznnált szavak számának elemzése a következő eredményt hozta:

  • A foci népszerűsége nőtt, ezt a szavak havi 25.000-ről havi 40.000-re való növekedése bizonyította.
  • A Tour de France iránti érdeklődés csökkent ebben az időszakban, ezt a szavak számának 14.000-ről 12.000-re való csökkenése jelezte.
  • Az Oszkár-díjakkal foglalkozó cikkek hossza majdnem dupázódott 2001-ről (Gladiátor) 2002-re (Egy csodálatos elme).
  • A vállalatok negyedéves jelentései iránt 2001-ben volt a legmagasabb az érdeklődés, amikor a dot-com lufi kidurrant.

Newman felesége, Block történész-professzor asszony ezt a topic modellezést alkalmaztaa Pennsylvania Gazette-ben 1728-tól 1800-ig (ebbe az időbe esik az az időszak is, amikor Benjamin Franklin volt a lap tulajdonosa) megjelent 82.000 cikken és hirdetésen a trendek szűréséhez.

Az eredmények között feltűnt neki, hogy ha a divatról és a kereskedelemről szóló cikkek száma nőtt, akkor a vallásról szólók csökkentek – és vice versa. Az 1750-es években volt a “ruha” kategória csúcspontja, amely többek között a “gyapjúszövet”, a “selyem”, a “vászon”, “finom” és “fonál” szavakat tartalmazza, ugyanakkor a mélypontja az olyan cikkeknek, amelyekben pl. az “egyház”, az “erény” és “jellem” szavak szerepeltek.

Ismeretlen adatok rendezése:
Kutatók a topic modellezést használták annak a 250.000 e-mailnek az elemzéséhez, amelyet a U.S. Igazségügyi Minisztériumnak küldtek.

Newman szerint ez segítheti a Google Library Project-et is, amely digitális formátumba konvertálja azt a sok millió könyvet, amely a Standford, Harvard és Oxford egyetemeken, a New York Public Library-ban és sok más helyen van.

A nemzetbiztonsági ügynökségek szintén jól tudnák hasznosítani a topic modellezést a hatalmas mennyiségű rendezetlen adat feldolgozásában. Ez magyarázza, hogy Newman miért mutatta be találmányát a May’s Intelligence and Security Informatics konferenciáján, San Diego-ban.

Új kapcsolatok vadászata: a UCI számítógépes szakemberei olyan tanulmányok felkutatásában fognak segíteni a UCI orvostudományi kutatóinak, amelyek skizonfréniához kapocsolódnak.

Topic modellezést fognak alkalmazni 17 millió orvostudományi folyóiratnak a kutatásához, hogy kiszűrjék azokat a cikkeket, amelyek azokhoz génekhez és agyterületekhez kapcsolódnak, amelyek érintve vannak a skizonfréniában.

A modell működése miatt azt is elvárják tőle, hogy ne csak azokat a tanulmányokat találja meg, amelyek közvetlenül kapcsolódnak a skizofréniához – és még nem is említettük a rendezetlenséget.

A UCI adatbányászai felzárkóztak a Google mögé

1914 – ugyanaz a kérdés

Elfelejtettem egy fontos dolgot: a kérdésem forrását feltüntetni. Nos hát: Braun József: Információk. Bevezető állandó rovatunkhoz. In: Könyvtári Szemle (szerk. Kőhalmi Béla), 1914, 26-30. (Egy kicsit összemosódnak a fejemben az irodalmi, irodalomtörténeti, nyelvészeti és könyvtári hivatkozási szabványok…)

A cikket kötelező olvasmánnyá tenném proszemináriumon:) (Péter, ha olvasod…:) Kis bemelegítő tréning. Nagyon-nagyon kitűnő cikk. Szerintem.

A Fővárosi Könyvtárban elhangzott kérdésekből szemezgetett a példák keresésekor. Rögtön belecsap a közepébe (kedvenc kérdésem):

“Egy peres esetből kifolyólag egy ügyvédjelölt fölvilágositást kér aziránt, hogy mint állapítható meg egy kazal szalma súlya.”

– Fantasztikus. És hogyan lehet megválaszolni?

“Telefonon megkérdeztük a technika könyvtárát, honnan azonban az a válasz érkezett, hogy ez az időjárástól (víztartalom) stb.-től függ, ugy hogy a súly csak esetről esetre állapítható meg. A Mezőgazdasági Lexikon azonban, melyet ezután néztünk meg, megadta egy köbméter szalma átlagos sulyát, ami az olvasónak teljesen kielégitő fölvilágositás lévén, elégedetten távozott.”

És így tovább. Nem is kommentelném tovább. Hasonmásban is kiadták (1979-ben), ősszel ingyen vágták az ember után a KSZK-ban (amiért megfelelő mód hálás is vagyok:)