Hogyan tervezzünk könyvtárat a Google korában?

A cím eléggé hangzatos, de mégis jó kérdés, de szerencsére nem teljesen idegen területekre vezet. Többek közt Baranyi Flóra foglalkozott vele sokat, legutóbb az MLS-konferencián, de hogy még mindig fúj a szél, azt a nemsokára nyíló kiállítása fogja bizonyítani az Iparművészeti Múzeumban, ahol Moholy-Nagy László Formatervezési ösztöndíjasként mutatja be új könyvtári bútor kollekcióját. Nagyon ajánlom.

Seattle

Ehhez kapcsolódik az a prezentáció, amelyet

Teljes fordítás (ha eljutok odáig) a könyvtárépítészeten lesz.

Forrás: The Shifted Librarian. Photo by Timothy Hursley.

A Google-nemzedék mítosza

Az USC-hez tartozó Center of Digital Future felmérése szerint egyáltalán nem annyira triviális, hogy a gúgli majd mindent megmond. A mégkérdezettek csupán 51%-a mondta azt, hogy szinte minden információt meg lehet szerezni a keresőmotorok segítségével.

Legutoljára a British Library kérdezte meg olvasóit, hogy mennyire veszik igénybe ezeket az eszközöket. Az eredmény – életkortól függetlenül -, hogy még mindig sokkal fontosabb a személyes ajánlás, messze maga mögött hagyta minden esetben a Google Scholart.

Age Differences In Article DiscoveryA tapasztalatok szerint a legfiatalabbak járnak a legkevesebbet könyvtárba, viszont ők adnak a leginkább a személyes tanácsra és használják legkevésbé a Google Scholart. Utánuk megnő a könyvtárlátogatási arány is, valamint kiegyensúlyozódnak az eszközhasználati arányok is.

A tanácsok csereberéjének egyik legnagyobb generátora pedig még mindig a szociális háló/közösségi alkalmazások, mint pl. a Facebook, amely teret ad a tapasztalatok cseréjére. Hasonlóan erősek a tudásmegosztó helyek is, mint pl. a Wikipédia, ahol egyre nagyobb elfogadottságot ér el a könyvtárosok jelenléte, vagy a Flickr, ahová a Library of Congress kezdte publikálni a képarchívumát (Ádámnál bővebben).

És hogy mi a tanulság az egészből? Egy, hogy egyáltalán nem igaz a Google-mítosz, azaz nem mindenki egyből esik neki a gúglinak vagy más keresőnek. Kettő, hogy a könyvtárosoknak be kell épülni a közösségekbe, méghozzá ezeknek az alkalmazásoknak a segítségével (egy pár hónapos még csak pl. a Kreditvadász, de ott van a Turulcsirip – ahol főleg ajánlom Koronix játékát, a találdkit – stb.).

És addig húztam az időt (tegnap reggel óta), míg a Webisztán lehozta. Nem megyek újságírónak. Sem.

De legalább marhaságot sikerült kikövetkeztetnie belőle. Szerintem.

Forrás: SearchEngineWatch

Bloglines mesék egy (klog- és könyvtári világ)

Nehéz volt válogatni a termésből, most a leghasznosabb posztokat szedem ki.

Klogok:

  • Még az MLS-konf után nem sokkal született Ádám nagylélegzetű bejegyzése a könyvtári evolúcióról. Nekem állandóan az a félmondat jár a fejemben, amit anno írta nem tudom mikor Katalistre (nem találtam meg), hogy úgyis túl fognak élni minket, akik.
  • A Polcológián született egy eddig négy részes sorozat az irodalmi (és nyelvészeti) folyóiratok elektronikus elérhetőségéről, 27 (? – nem vagyok biztos benne, de nem fogom újraszámolni) az előbbi és 3 az utóbbi témakörből. Egy, kettő, három, négy.
  • Végül kiemelném Sanyi levelét a Katalisten szabad szoftver témakörből.

Németország:

  • Az IBI-Weblogon (olyan szép hosszú a neve: Weblog am Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin) szerepelt a Mein VDB nevű oldal, amely a Verein Deutscher Bibliothekare e.V. (Német Könyvtárosok Szövetsége) portáljának része. A tagok személyre szabott infót kaphatnak az évkönyvből, pusztán annyi kell hozzá, hogy megadják az email-címüket az évkönyv összeállításánál.
  • Készült egy modul Drupalhoz, amely MARC importot és kezelést tesz lehetővé.

Angol nyelvből:

Most ennyi.

Picasa 2.7 Linuxra is (már)

Elvileg most jött ki a natív Picasa 2.7 Linuxra, amely már – többek közt – tartalmazza a Picasaweb integrációját is. De. Az egész akkora kamu mint a ház, mert még mindig WINE-nal fut. Én eddig is a fejlettebb Windows-verziót használtam, szintén WINE-nal, tehát ez a változás számomra semmit nem jelent. Úgy átverés az egész, ahogy van. (Hm, november 21-én jött ki a Picasa Groups-on a béta, de akkor még kellett hozzá a pajszer is…)

Egyébként is kezd elegem lenni a Google-ból, tudom hogy kutyát nem érdekel, de nagyon nem érint, hogy milyen új felületet terveztek iPhone alá, amíg a Picasa, Gmail és társai funkcionalitása messze alulmarad az elvárhatónál… (Persze lehet mondani, hogy címke, na de ezt eddig egy Greasemonkey scripttel is meg lehetett csinálni.)

Nagytestvérnek nagyrosszpont.

Szkennelj okosan

Itt, a MOME Könyvtárban művész-tervező arcok vannak, sokan. Munkájukat segítendő elég sokat szkennelnek albumokból, könyvekből. Ez pedig sem a könyvnek, sem az időnek nem tesz jót. A feladat tehát az, hogy a szkenneléssel egyidőben egy háttértárolón létrejöjjön egy képtár, ami lehetőleg címkézett képeket tárol (azt nem akarjuk kiverekedni, hogy a hallgatók úgy rakják könyvtárakba vagy nevezzék el, hogy szerző_cím_oldalszám, meg így nem is találnák meg, és úgy sem sikerülne). Erre pedigfeatures valószínűleg a Google Picasa-ja a legalkalmasabb, amely lehetővé teszi a címkézést is, méghozzá elég egyszerűen (ez kifejezetten fontos szempont, hiszen nem várhatjuk el a hallgatóktól, hogy manuálokat magoljanak…). Jobbkatt a képre, és máris vígan tölthetjük ki a Név, Dátum, Felvétel készítésének helye és a Képfelirat mezőket.

Az egészben pedig az a finom csavar, hogy van az Eszközök között egy olyan, hogy képek mentése. Ez pedig lehetővé teszi, hogy hálózaton belül el lehessen őket pakolni, és utána bármikor keresgélni köztük, pont a Picasa segítségével.

Még amit alaposabban meg kell személnem, hogy mennyire lehet leegyszerűsíteni a szkennelést (most egyelőre az a baj, hogy itt a könyvtárban egy gépen vagy net van, vagy szkenner…), és hogy automatikusra be lehet-e állítani a backupot. Kb.

Update: nemrégóta van már Picasa2, de ahhoz is a napokban jött ki update (amiben még Geotag is van), ami még csak angol nyelven kommunikál, szerintem max néhány héten belül az is magyar lesz…

Adatbányászat újratöltve

Ma újra eszembe jutott, hogy hát engem érdekel az adatbányászat, és hogy volt egy cikk, amit le is fordítottam a nyár végén. Amíg újabb nem jön, addig ezt is átszedem a régi blogomról (külön Gábornak, csak hogy ne kelljen annyit keresni ; )

A UCI adatbányászai felzárkóztak a Google mögé (Colin Stewart)

To Google or not to Google – ez már nem valódi kérdés többé. Természetesen használni kell a Google-t, különben az Internet jó része kikerül a látótérből. A legkedveltebb internetes kereső bármit segít megtalálni: Birkenstock Arizona szandált, tv-műsort vagy akár azt, hogy hogyan hasznosítják újra a hulladékot.

De mi van akkor, ha nem vagyunk biztosak benne, hogy pontosan mit is keresünk?

Ebben az esetben legjobb a UC Irvine-nál dolgozó David Newman-hoz és kollégáihoz fordulni, akik egy olyan programot segítettek kifejleszteni, amely anélkül tud keresni nagy mennyiségű szöveget, hogy megmondanák neki, mit keressen.

A szövegbányászatnak ez a formája egy statisztikai topic-modellezés nevezetű eljárást használ, amelynek távolra mutató hatásai valószínűsíthetőek az internetes keresésben. Ez a technikát használhatják akár piackutatók, akik a kulturális trendeket akarják tanulmányozni, történészek, akik a modern társadalom gyökereit térképezik fel, doktorok, akik az orvosi kutatások hegynyi publikációjával szembesülnek vagy akár titkosügynökök, az e-mail-forgalom analizálásához, hogy kiszűrjék a terroristákat.

A topic-modellezés az adatokat kategorizálja, a szavak egymást való követésének gyakoriságának mérésével. Ezek a kategorizált eredmények böngészése a felhasználó számára olyasmik, mintha egy könyvesboltban keresgélne, ahelyett hogy egy adott könyvet vásárolna meg online.

“Nagyon egyszerű a használata, a szövegbányászat evolúciós ugrást végzett” állítja Newman. “Pár éven belül mindenki által használt, hétköznapi eszköz lesz, orvostól kezdve hirdetőkig, íróktól a politikusokig.”

A topic-modellezést, amelyet számítógépes szakemeberek és kutató egyetemek fejlesztettek ki, még nem alkalmazzák az adatkereséssel foglalkozó cégek. De Newman szerint pár éven belül a szakmai körökön kívül is fogják használni.

“Amikor az emberek először hallanak erről, azt gondolják: ‘Ó, persze. Google.’” mondja professzor Sharon Block, a UCI-nél dolgozó történész, aki szintén Newman programját használta kutatásaihoz. “Valójában egy 10.000$-os piramis-játék.”

A piramis játékban, amely 1973-ban indult, hírességek adtak meg szavakat a játékosoknak, akik megpróbálták meghatározni, hogy milyen közös kategória alapján lehet ezeket a szavakat összekötni.

Még dolgozunk azon, hogy a számítógép képes legyen egy jelentéssel bíró címkét rakni az egyes kategóriákra, mondja Newman. A topic-modellezést nem csak különböző területeken, de különböző módokon is lehet használni – trendek kiszűrésére, ismeretlen adatok rendezésére vagy észrevétlen kapcsolatok feltérképezésére.

Trendek kiszűrése: hirdetők, piackutatók és kiadók tanulhatnak a foci, a biciklizés, az Oszkár-díjak és a társaságok negyedévi jelentései iránti érdeklődés növekedésének-esésének mintázatából, amint ez nyilvánvalóvá vált Newman legutóbbi kutatása alapján. Topic-modellezést használt 330.000 sajtóhír (legtöbbjük a New York Times-ból származott) elemzéséhez. A program kategorizálta a leggyakoribb szavakat, neveket, helyeket és szervezeteket.

A Times 2000-től 2002-ig terjedő számait vizsgálva, a különböző témakörökben használt szavak számának elemzése a következő eredményt hozta:

  • A foci népszerűsége nőtt, ezt a szavak havi 25.000-ről havi 40.000-re való növekedése bizonyította.
  • A Tour de France iránti érdeklődés csökkent ebben az időszakban, ezt a szavak számának 14.000-ről 12.000-re való csökkenése jelezte.
  • Az Oszkár-díjakkal foglalkozó cikkek hossza majdnem duplázódott 2001-ről (Gladiátor) 2002-re (Egy csodálatos elme).
  • A vállalatok negyedéves jelentései iránt 2001-ben volt a legmagasabb az érdeklődés, amikor a dot-com lufi kidurrant.

Newman felesége, Block történész-professzor asszony ezt a topic-modellezést alkalmazta a Pennsylvania Gazette-ben 1728-tól 1800-ig (ebbe az időbe esik az az időszak is, amikor Benjamin Franklin volt a lap tulajdonosa) megjelent 82.000 cikken és hirdetésen a trendek szűréséhez.

Az eredmények között feltűnt neki, hogy ha a divatról és a kereskedelemről szóló cikkek száma nőtt, akkor a vallásról szólók csökkentek – és vice versa. Az 1750-es években volt a “ruha” kategória csúcspontja, amely többek között a “gyapjúszövet”, a “selyem”, a “vászon”, “finom” és “fonál” szavakat tartalmazza, ugyanakkor a mélypontja az olyan cikkeknek, amelyekben pl. az “egyház”, az “erény” és “jellem” szavak szerepeltek.

Ismeretlen adatok rendezése:
Kutatók a topic-modellezést használták annak a 250.000 e-mailnek az elemzéséhez, amelyet a U.S. Igazségügyi Minisztériumnak küldtek.

Newman szerint ez segítheti a Google Library Project-et is, amely digitális formátumba konvertálja azt a sok millió könyvet, amely a Standford, Harvard és Oxford egyetemeken, a New York Public Library-ban és sok más helyen van.

A nemzetbiztonsági ügynökségek szintén jól tudnák hasznosítani a topic-modellezést a hatalmas mennyiségű rendezetlen adat feldolgozásában. Ez magyarázza, hogy Newman miért mutatta be találmányát a May’s Intelligence and Security Informatics konferenciáján, San Diego-ban.

Új kapcsolatok vadászata: a UCI számítógépes szakemberei olyan tanulmányok felkutatásában fognak segíteni a UCI orvostudományi kutatóinak, amelyek skizofréniához kapcsolódnak.

Topic-modellezést fognak alkalmazni 17 millió orvostudományi folyóiratnak a kutatásához, hogy kiszűrjék azokat a cikkeket, amelyek azokhoz génekhez és agyterületekhez kapcsolódnak, amelyek érintve vannak a skizofréniában.

A modell működése miatt azt is elvárják tőle, hogy ne csak azokat a tanulmányokat találja meg, amelyek közvetlenül kapcsolódnak a skizofréniához – és még nem is említettük a rendezetlenséget.

Eredeti cikk: ‘Data miners’ at UCI moving beyond Google

Reklám ingyért

A HVG könyvek sorozatában két érdekes új kötet ragadta meg figyelmemet a reggeli kávé közben. Íme:

keressJohn Battelle: Keress! Hogyan alakítja át kultúránkat, üzleti életünket a Google és az internetes keresés

“A Wired alapító szerkesztőjének könyve egy, az életünket megváltoztató technológiáról: a keresőkről. Mit jelent mindennapjainkban az állandóan rendelkezésre álló, végtelen információmennyiség? Milyen hatással lehetnek a keresők életstílusunkra? Milyen kulturális következtetéseket lehet levonni a keresőmotorokba naponta tízezerszámra beírt keresésekből? A téma természetesen nem kerülheti meg az évtized legkiemelkedőbb cégtörténetét: Battelle élvezetesen meséli el a Google alapítását, mutatja be alapítóinak egymást kiegészítő, yin-yang személyiségét és a cégkultúrát, amit létrehoztablogvilagk.”

A másikról nem találtam képet (de Kelt meg igen, csak én tompa vagyok, nagyon), pedig az is HVG-KFKI kiadvány, a címe pedig blogvilág (Egy műfaj születése), szerzette (ahh) Bőgel György et al. (azaz és a többiek, kevésbé könyvtárosok kedvéért).

“Ez a könyv – a HVG Könyvek kötete a blogról – nem blogkönyv vagy bloggerkönyv, hanem több hozzáértő ember közös gondolkodása egy nagyon friss tartalom- és hírközvetítő műfajról, amelynek információtechnikai vonatkozásain túl kihatásai vannak a gazdasági életre és személyes infokultúránkra egyaránt. Ezeket a hatásokat – bár a műfaj még nagyon fiatal – máris érdemes elemezni: ezt teszik a könyvünk első részét kitevő tanulmányok. A kötet második részeként közölt blogrészlet, Bőgel György IT-lábjegyzetének kivonata jól illusztrálja a forrásban levő, sokszoros irányultságú blogműfajt – s közben érdekes olvasmányanyagot is nyújt az információgazdaság újszerű témáiban.”

Ez most ilyen update-elt cikk, és egyszer el is szállt. Sux.

EBSCO a Google-ban itthon is

Magyarországról is elérhető szeptembertől a Google szolgáltatása, amellyel a keresést az EBSCO cikkadatbázisában is el lehet végezni. A keresési eredményben a “Fulltext from EBSCO.” Az opció azonban csak az EBSCO-nál regisztrált könyvtárak IP-caméről működik – alapesetben. Azonban ha a nyitólapon a Scolar preferences oldalon országnak a Hungary-t adjuk meg, könyvtárnak (Find library) pedig az OSZK-t [Hungary – National Szechenyi Library (EBSCOhost) (Fulltext from EBSCO)], és mindezt elmentjük, máris kereshetünk a fulltext cikk-adatbázisban. Nosza hát!

És: a hivatkozásokat akár BibTEX, RefMan, RefWorks, WenXianWang (na ilyet ki használ itthon, erre kíváncsi vagyok) vagy akár EndNote formátumban is lehet kérni…

Forrás: Könyvtári Intézet – A magyarországi EBSCO használat legfrissebb hírei

A UCI adatbányászai felzárkóztak a Google mögé

(Colin Stewart)

To Google or not to Google – ez már nem valódi kérdés többé.

Természetesen használni kell a Google-t, különben az Internet jó része kikerül a látótérből.

A legkedveltebb internetes kereső bármit segít megtalálni: Birkenstock Arizona szandált, tv-műsort vagy akár azt, hogy hogyan hasznosítják újra a hulladékot.

De mi van akkor, ha nem vagyunk biztosak benne, hogy pontosan mit is keresünk?

Ebben az esetben legjobb a UC Irvine-nál dolgozó David Newman-hoz és kollégáihoz fordulni, akik egy olyan programot segítettek kifejleszteni, amely anélkül tud keresni nagy mennyiségű szövege, hogy megmondanák neki, mit keressen.

A szövegbányászatnak ez a formája egy statisztikai topic-modellezés nevezetű eljárást használ, amelynek távolra mutató hatásai valószínűsíthetőek az internetes keresésben. Ez a technikát használhatják akár piackutatók, akik a kultúrális trendeket akarják tanulmányozni, történészek, akik a modern társadalom gyökereit térképezik fel, doktorok, akik az orvosi kutatások hegynyi publikációjával szembesülnek vagy akár titkosügynökök, az e-mail-forgalmom analizálásához, hogy kiszűrjék a terroristákat.

A topic modellezés az adatokat kategorizálja, a szavak egymást való követésének gyakoriságának mérésével. Ezek a kategorizált eredmények böngészése a felhasználó számára olyasmik, mintha egy könyvesboltban keresgélne, ahelyett hogy egy adott könyvet vásárolna meg online.

“Nagyon egyszerű a használata, a szövegbányászat evolúciós ugrást végzett” állítja Newman. “Pár éven belül mindenki által használt, hétköznapi eszköz lesz, orvostól kezdve hirdetőkig, íróktól a politikusokig.”

A topic modellezést, amelyet számítógépes szakemeberek és kutató egyetemek fejlesztettek ki, még nem alkalmazzák az adatkereséssel foglalkozó cégek. De Newman szerint pár éven belül a szakmai körökön kívül is fogják használni.

“Amikor az emberek először hallanak erről, azt gondolják: ‘Ó, persze. Google.’ mondja professzor Sharon Block, a UCI-nél dolgozó történész, aki szintén Newman programját használta kutatásaihoz. “Valójában egy 10.000$-os piramis-játék.”

A piramis játékban, amely 1973-ban indult, hírességek adtak meg szavakat a játékosoknek, akik megpróbálták meghatározni, hogy milyen közös kategória alapján lehet ezeket a szavakat összekötni.

Még dolgozunk azon, hogy a számítógép képes legyen egy jelentéssel bíró címkét rakni az egyes kategóriákra, mondja Newman. A topic modellezést nem csak különböző területeken, de különböző módokon is lehet használni – trendek kiszűrésére, ismeretlen adatok rendezésére vagy észrevétlen kapcsolatok feltérképezésére.

Trendek kiszűrése: hirdetők, piackutatók és kiadók tanulhatnak a foci, a biciklizés, az Oszkár-díjak és a társaságok negyedévi jelentései iránti érdeklődés növekedésének-esésének mintázatából, amint ez nyilvánvalóvá vált Newman legutóbbi kutatása alapján. Topic modellezést használt 330.000 sajtóhír (legtöbbjük a New York Times-ból származott) elemzéséhez. A program kategorizálta a leggyakoribb szavakat, neveket, helyeket és szervezeteket.

A Times 2000-től 2002-ig terjedő számait vizsgálva, a különböző témakörökben hasznnált szavak számának elemzése a következő eredményt hozta:

  • A foci népszerűsége nőtt, ezt a szavak havi 25.000-ről havi 40.000-re való növekedése bizonyította.
  • A Tour de France iránti érdeklődés csökkent ebben az időszakban, ezt a szavak számának 14.000-ről 12.000-re való csökkenése jelezte.
  • Az Oszkár-díjakkal foglalkozó cikkek hossza majdnem dupázódott 2001-ről (Gladiátor) 2002-re (Egy csodálatos elme).
  • A vállalatok negyedéves jelentései iránt 2001-ben volt a legmagasabb az érdeklődés, amikor a dot-com lufi kidurrant.

Newman felesége, Block történész-professzor asszony ezt a topic modellezést alkalmaztaa Pennsylvania Gazette-ben 1728-tól 1800-ig (ebbe az időbe esik az az időszak is, amikor Benjamin Franklin volt a lap tulajdonosa) megjelent 82.000 cikken és hirdetésen a trendek szűréséhez.

Az eredmények között feltűnt neki, hogy ha a divatról és a kereskedelemről szóló cikkek száma nőtt, akkor a vallásról szólók csökkentek – és vice versa. Az 1750-es években volt a “ruha” kategória csúcspontja, amely többek között a “gyapjúszövet”, a “selyem”, a “vászon”, “finom” és “fonál” szavakat tartalmazza, ugyanakkor a mélypontja az olyan cikkeknek, amelyekben pl. az “egyház”, az “erény” és “jellem” szavak szerepeltek.

Ismeretlen adatok rendezése:
Kutatók a topic modellezést használták annak a 250.000 e-mailnek az elemzéséhez, amelyet a U.S. Igazségügyi Minisztériumnak küldtek.

Newman szerint ez segítheti a Google Library Project-et is, amely digitális formátumba konvertálja azt a sok millió könyvet, amely a Standford, Harvard és Oxford egyetemeken, a New York Public Library-ban és sok más helyen van.

A nemzetbiztonsági ügynökségek szintén jól tudnák hasznosítani a topic modellezést a hatalmas mennyiségű rendezetlen adat feldolgozásában. Ez magyarázza, hogy Newman miért mutatta be találmányát a May’s Intelligence and Security Informatics konferenciáján, San Diego-ban.

Új kapcsolatok vadászata: a UCI számítógépes szakemberei olyan tanulmányok felkutatásában fognak segíteni a UCI orvostudományi kutatóinak, amelyek skizonfréniához kapocsolódnak.

Topic modellezést fognak alkalmazni 17 millió orvostudományi folyóiratnak a kutatásához, hogy kiszűrjék azokat a cikkeket, amelyek azokhoz génekhez és agyterületekhez kapcsolódnak, amelyek érintve vannak a skizonfréniában.

A modell működése miatt azt is elvárják tőle, hogy ne csak azokat a tanulmányokat találja meg, amelyek közvetlenül kapcsolódnak a skizofréniához – és még nem is említettük a rendezetlenséget.

A UCI adatbányászai felzárkóztak a Google mögé