Régi dolgok új köntösben – könyvtár 2.0 (1. rész)

“Lépj be a Könyvtár 2.0-ba. Ezt az új könyvtári szolgáltatási modellt vitatják online fórumokon, konferenciákon vezetői irodákban és tájékoztatópultoknál. Ha még nem vagy, illetve munkatársaid még nincsenek a Könyvtár 2.0-t tárgyalók között, jól figyelj; a Könyvtár 2.0 újjáélesztheti a könyvtárhasználókkal való kapcsolatunkat.”
(Library Journal, 2006. szeptember 1.)

Aki esetleg olvassa ezt, és már jártasabb a témában, az nyugodtan kihagyhatja, ez a post igazából egy könyvtárosoknak szóló cikksorozat első része, inkább ismeretterjesztő jellegű, nincsenek benne nagy feltalálások.

Az elnevezés napjaink egy nagyon divatos kifejezésének, a web 2.0-nak (webkettő) a könyvtárakra alkalmazott változata. Ahhoz azonban, hogy megértsük, mit is jelenthet valójában az a szám a könyvtár szó mögött, érdemes megismerkedni az eredeti fogalommal.

A webkettő egyrészt szerves folytatása annak, amit a ’90-es évek közepén mint internetet ismertünk meg, ugyanakkor gyökeresen el is tér tőle. Ezt a látszólagos ellentétet azonban nem nehéz megérteni, ha megnézzük, miben áll ez a változás. A webkettő, mint kifejezés először 1999-ben bukkant fel, de csak 2005-től terjedt el, Tim O’Reilly-nek köszönhetően, tehát elég jól lehet kötni az ezredfordulóhoz ezt a változást.

Az első lépéseket a szociális hálókat kezelő alkalmazások – pl. WiW, MyVIP – közeledése jelentette a tag-alapú rendszerekkel – pl. Wikipédia, blogok (tag: a felhasználók által adható címke, amellyel – igaz szubjektíven, de a lehető legnagyobb demokráciában – az adott tartalmat – kép, szöveg, videó stb. – jelölik). Mindez a következő változatatásokat vonta magával:

  1. a kisebb-nagyobb, egymástól elszigetelt ‘információs szigetek’ egybeépültek, egységes szolgáltatási és keresési felületet alakíttottak ki;
  2. a társadalmi változásoknak köszönhetően a kommunikáció és az információáramlás egyre szabadabbá, decentralizáltabbá és kontrollálatlanabbá vált;
  3. egyre inkább belső igénnyé vált a tartalmak kategorizálása, rendezése;
  4. a web üzleti értéke ismét megugrott (a “dot-com lufi” kidurranása után);
  5. új lehetőségek nyíltak meg az internet segítségével (webalkalmazások és -szolgáltatások).

Ezek eredményeképpen jött létre az, amit ma látunk: szabványok, blogok, linklogok (linkgyűjtő “közösségek”), wikik, podcastok (multimédia megosztása RSS-en keresztül), RSS-csatornák stb. Tim O’Reilly mindezt egy 4+1-es struktúrába rendezte, a 3-astól a 0. szintig, ahol a legfelső szintre a teljesen online szolgáltatások, alkalmazások kerültek, a legalsóra pedig azok, amelyeknek voltaképpen nncs szükségük hálózatra, de jól néznek ki a neten is (pl. GoogleMaps). A 0. alatti szinthez pedig az email-, instant-messaging (pl. MSN) kilensek és a telefon tartoznak.

Az “új” webnek tehát lényege az egységessék (és itt hadd helyezzek nagyon erős hangsúlyt a szabványokra), a közösségiség (ez egyfajta új demokráciát teremtett), a platformfüggetlenség (operációs rendszer és – elvileg – böngészőfüggetlenség) és a dinamizmus.

Mindezeken alapul tehát a könyvtár 2.0 kifejezés – figyelemre méltó, hogy ezenkívül csak egy hasonló fogalom, a marketing 2.0 született, azonban már alakulóban van a web 3.0 is (persze még nagyon sok, ezen analógia alapján keletkezett elnevezés van – web 1.5, amely a dot-com lufi környékén született, ill. a különböző gúnyos, kritikus elnevezések: web 4.0, web 0.5 stb.).

Magyarországon is elindult egy hasonló folyamat – természetesen külföldi minták alapján. Először is a hatalmas mennyiségű blog (és a két legnagyobb blogszolgáltató – freeblog, blogter) az, ami az alapvető hálót jelenti itthon is – természetesen az iWiW-vel kiegészülve, de van (volt) webkettes magazinunk is már, linklogunk, videómegosztónk stb. Azt azonban látni kell, hogy Magyarországon (még) igazából nincsen igazi piaca a webkettőnek, egyelőre még ismerkedik csak a magyar társadalom a lehetőségeivel, és pár tucat geek-en kívül még nem igazán tudják kihasználni. Nemrég 14 bloggernek föltették a kérdést a volt Sesblogon (ma Kispad), hogy szerintük mit is jelent a webkettő. A válaszok sokfélék, érdemes őket zárszóként elolvasni.

A végén pedig engedtessék meg nekem egy kis gonoszkodás (magammal szemben is, mert ez lényegében a könyvtár 2.0-ra is vonatkozik): a legnagyobb baj megint az szerintem, hogy előbb csináljuk a tetőt, aztán alá a házat.

Apukám házat épít.
Előszöt kéményt, borzasztó nagy füsttel.
Aztán a ház tetejét.
Azután aztán az ablakokat,
nem látunk át rajtuk, olyan feketék,
csak a falakon látok keresztül,
mivel még nincsenek.
De meg kell építeni a falakat is,
meg a szobákat külön-külön.
Mikor a ház leér a földig,
apukám azt mondja: Ujjé!

Weöres Sándor: Kisfiúk témáira (4.)

Ez valahogy úgy nézhetetett ki (szerintem, lehet ütni, ha nem így volt) a nagy büdös szabadságban, hogy csinálták-csinálták, aztán hirtelen felkiáltottak: “nézd már, webkettő!” Mi meg nem igazán mozgolódunk, legalábbis a tehetetlenségi pálya eléréséhez még nagyon nincs meg a lendület, de annál inkább izzadunk, fogcsikorgatunk, behugyozunk az erőlködéstől (igeosztás, konferenciázás, miegymás, mindenesetre állati fontosnak érezzük magunkat ezektől), aztán lesz a jó büdös magyar narancs. Kivételek persze vannak (szerintem a szanalmas.hu simán beletartozik, de itt van a kispad is, ami azzal, hogy inkább közsséget épít, mint osztja az igét a közösségnek, sokkal inkább webkettes, mint sok, magát annak hirdető bizbasz – ühüm, én szerencsére még nem mondtam magamról, hogy webkettesnek érzem magam, de igen, ez rám is vonatkozik).

Folytatás jön, ami már végre a könyvtár 2.0-ról fog szólni.

  • webkettővel foglalkozó magyar blogok:

http://caracallablog.blogter.hu/
http://doransky.hu/
http://kultplay.hu/
http://sztahanov.blog.hu/
http://webisztan.blog.hu/

  • a 2006. május 29-én tartott webkettő szimpózium blogjai:

http://web2symp.blog.hu/
http://web2symposium.blogter.hu/

  • magyar webkettes oldalak:

blogszolgáltatók

http://bajkonur.blog.hu/
http://blogter.hu
http://freeblog.hu

közösségépítő oldalak

http://baratikor.com/
http://iwiw.hu/

linkgyűjtők

http://book.mark.hu/
http://linkter.hu/

videó

http://porkolt.com/
http://videobomb.hu/

újság

http://www.nett-system.hu/tomorrow/

fő forrás: http://en.wikipedia.org/wiki/Web_2.0

A UCI adatbányászai felzárkóztak a Google mögé

(Colin Stewart)

To Google or not to Google – ez már nem valódi kérdés többé.

Természetesen használni kell a Google-t, különben az Internet jó része kikerül a látótérből.

A legkedveltebb internetes kereső bármit segít megtalálni: Birkenstock Arizona szandált, tv-műsort vagy akár azt, hogy hogyan hasznosítják újra a hulladékot.

De mi van akkor, ha nem vagyunk biztosak benne, hogy pontosan mit is keresünk?

Ebben az esetben legjobb a UC Irvine-nál dolgozó David Newman-hoz és kollégáihoz fordulni, akik egy olyan programot segítettek kifejleszteni, amely anélkül tud keresni nagy mennyiségű szövege, hogy megmondanák neki, mit keressen.

A szövegbányászatnak ez a formája egy statisztikai topic-modellezés nevezetű eljárást használ, amelynek távolra mutató hatásai valószínűsíthetőek az internetes keresésben. Ez a technikát használhatják akár piackutatók, akik a kultúrális trendeket akarják tanulmányozni, történészek, akik a modern társadalom gyökereit térképezik fel, doktorok, akik az orvosi kutatások hegynyi publikációjával szembesülnek vagy akár titkosügynökök, az e-mail-forgalmom analizálásához, hogy kiszűrjék a terroristákat.

A topic modellezés az adatokat kategorizálja, a szavak egymást való követésének gyakoriságának mérésével. Ezek a kategorizált eredmények böngészése a felhasználó számára olyasmik, mintha egy könyvesboltban keresgélne, ahelyett hogy egy adott könyvet vásárolna meg online.

“Nagyon egyszerű a használata, a szövegbányászat evolúciós ugrást végzett” állítja Newman. “Pár éven belül mindenki által használt, hétköznapi eszköz lesz, orvostól kezdve hirdetőkig, íróktól a politikusokig.”

A topic modellezést, amelyet számítógépes szakemeberek és kutató egyetemek fejlesztettek ki, még nem alkalmazzák az adatkereséssel foglalkozó cégek. De Newman szerint pár éven belül a szakmai körökön kívül is fogják használni.

“Amikor az emberek először hallanak erről, azt gondolják: ‘Ó, persze. Google.’ mondja professzor Sharon Block, a UCI-nél dolgozó történész, aki szintén Newman programját használta kutatásaihoz. “Valójában egy 10.000$-os piramis-játék.”

A piramis játékban, amely 1973-ban indult, hírességek adtak meg szavakat a játékosoknek, akik megpróbálták meghatározni, hogy milyen közös kategória alapján lehet ezeket a szavakat összekötni.

Még dolgozunk azon, hogy a számítógép képes legyen egy jelentéssel bíró címkét rakni az egyes kategóriákra, mondja Newman. A topic modellezést nem csak különböző területeken, de különböző módokon is lehet használni – trendek kiszűrésére, ismeretlen adatok rendezésére vagy észrevétlen kapcsolatok feltérképezésére.

Trendek kiszűrése: hirdetők, piackutatók és kiadók tanulhatnak a foci, a biciklizés, az Oszkár-díjak és a társaságok negyedévi jelentései iránti érdeklődés növekedésének-esésének mintázatából, amint ez nyilvánvalóvá vált Newman legutóbbi kutatása alapján. Topic modellezést használt 330.000 sajtóhír (legtöbbjük a New York Times-ból származott) elemzéséhez. A program kategorizálta a leggyakoribb szavakat, neveket, helyeket és szervezeteket.

A Times 2000-től 2002-ig terjedő számait vizsgálva, a különböző témakörökben hasznnált szavak számának elemzése a következő eredményt hozta:

  • A foci népszerűsége nőtt, ezt a szavak havi 25.000-ről havi 40.000-re való növekedése bizonyította.
  • A Tour de France iránti érdeklődés csökkent ebben az időszakban, ezt a szavak számának 14.000-ről 12.000-re való csökkenése jelezte.
  • Az Oszkár-díjakkal foglalkozó cikkek hossza majdnem dupázódott 2001-ről (Gladiátor) 2002-re (Egy csodálatos elme).
  • A vállalatok negyedéves jelentései iránt 2001-ben volt a legmagasabb az érdeklődés, amikor a dot-com lufi kidurrant.

Newman felesége, Block történész-professzor asszony ezt a topic modellezést alkalmaztaa Pennsylvania Gazette-ben 1728-tól 1800-ig (ebbe az időbe esik az az időszak is, amikor Benjamin Franklin volt a lap tulajdonosa) megjelent 82.000 cikken és hirdetésen a trendek szűréséhez.

Az eredmények között feltűnt neki, hogy ha a divatról és a kereskedelemről szóló cikkek száma nőtt, akkor a vallásról szólók csökkentek – és vice versa. Az 1750-es években volt a “ruha” kategória csúcspontja, amely többek között a “gyapjúszövet”, a “selyem”, a “vászon”, “finom” és “fonál” szavakat tartalmazza, ugyanakkor a mélypontja az olyan cikkeknek, amelyekben pl. az “egyház”, az “erény” és “jellem” szavak szerepeltek.

Ismeretlen adatok rendezése:
Kutatók a topic modellezést használták annak a 250.000 e-mailnek az elemzéséhez, amelyet a U.S. Igazségügyi Minisztériumnak küldtek.

Newman szerint ez segítheti a Google Library Project-et is, amely digitális formátumba konvertálja azt a sok millió könyvet, amely a Standford, Harvard és Oxford egyetemeken, a New York Public Library-ban és sok más helyen van.

A nemzetbiztonsági ügynökségek szintén jól tudnák hasznosítani a topic modellezést a hatalmas mennyiségű rendezetlen adat feldolgozásában. Ez magyarázza, hogy Newman miért mutatta be találmányát a May’s Intelligence and Security Informatics konferenciáján, San Diego-ban.

Új kapcsolatok vadászata: a UCI számítógépes szakemberei olyan tanulmányok felkutatásában fognak segíteni a UCI orvostudományi kutatóinak, amelyek skizonfréniához kapocsolódnak.

Topic modellezést fognak alkalmazni 17 millió orvostudományi folyóiratnak a kutatásához, hogy kiszűrjék azokat a cikkeket, amelyek azokhoz génekhez és agyterületekhez kapcsolódnak, amelyek érintve vannak a skizonfréniában.

A modell működése miatt azt is elvárják tőle, hogy ne csak azokat a tanulmányokat találja meg, amelyek közvetlenül kapcsolódnak a skizofréniához – és még nem is említettük a rendezetlenséget.

A UCI adatbányászai felzárkóztak a Google mögé