A UCI adatbányászai felzárkóztak a Google mögé

(Colin Stewart)

To Google or not to Google – ez már nem valódi kérdés többé.

Természetesen használni kell a Google-t, különben az Internet jó része kikerül a látótérből.

A legkedveltebb internetes kereső bármit segít megtalálni: Birkenstock Arizona szandált, tv-műsort vagy akár azt, hogy hogyan hasznosítják újra a hulladékot.

De mi van akkor, ha nem vagyunk biztosak benne, hogy pontosan mit is keresünk?

Ebben az esetben legjobb a UC Irvine-nál dolgozó David Newman-hoz és kollégáihoz fordulni, akik egy olyan programot segítettek kifejleszteni, amely anélkül tud keresni nagy mennyiségű szövege, hogy megmondanák neki, mit keressen.

A szövegbányászatnak ez a formája egy statisztikai topic-modellezés nevezetű eljárást használ, amelynek távolra mutató hatásai valószínűsíthetőek az internetes keresésben. Ez a technikát használhatják akár piackutatók, akik a kultúrális trendeket akarják tanulmányozni, történészek, akik a modern társadalom gyökereit térképezik fel, doktorok, akik az orvosi kutatások hegynyi publikációjával szembesülnek vagy akár titkosügynökök, az e-mail-forgalmom analizálásához, hogy kiszűrjék a terroristákat.

A topic modellezés az adatokat kategorizálja, a szavak egymást való követésének gyakoriságának mérésével. Ezek a kategorizált eredmények böngészése a felhasználó számára olyasmik, mintha egy könyvesboltban keresgélne, ahelyett hogy egy adott könyvet vásárolna meg online.

“Nagyon egyszerű a használata, a szövegbányászat evolúciós ugrást végzett” állítja Newman. “Pár éven belül mindenki által használt, hétköznapi eszköz lesz, orvostól kezdve hirdetőkig, íróktól a politikusokig.”

A topic modellezést, amelyet számítógépes szakemeberek és kutató egyetemek fejlesztettek ki, még nem alkalmazzák az adatkereséssel foglalkozó cégek. De Newman szerint pár éven belül a szakmai körökön kívül is fogják használni.

“Amikor az emberek először hallanak erről, azt gondolják: ‘Ó, persze. Google.’ mondja professzor Sharon Block, a UCI-nél dolgozó történész, aki szintén Newman programját használta kutatásaihoz. “Valójában egy 10.000$-os piramis-játék.”

A piramis játékban, amely 1973-ban indult, hírességek adtak meg szavakat a játékosoknek, akik megpróbálták meghatározni, hogy milyen közös kategória alapján lehet ezeket a szavakat összekötni.

Még dolgozunk azon, hogy a számítógép képes legyen egy jelentéssel bíró címkét rakni az egyes kategóriákra, mondja Newman. A topic modellezést nem csak különböző területeken, de különböző módokon is lehet használni – trendek kiszűrésére, ismeretlen adatok rendezésére vagy észrevétlen kapcsolatok feltérképezésére.

Trendek kiszűrése: hirdetők, piackutatók és kiadók tanulhatnak a foci, a biciklizés, az Oszkár-díjak és a társaságok negyedévi jelentései iránti érdeklődés növekedésének-esésének mintázatából, amint ez nyilvánvalóvá vált Newman legutóbbi kutatása alapján. Topic modellezést használt 330.000 sajtóhír (legtöbbjük a New York Times-ból származott) elemzéséhez. A program kategorizálta a leggyakoribb szavakat, neveket, helyeket és szervezeteket.

A Times 2000-től 2002-ig terjedő számait vizsgálva, a különböző témakörökben hasznnált szavak számának elemzése a következő eredményt hozta:

  • A foci népszerűsége nőtt, ezt a szavak havi 25.000-ről havi 40.000-re való növekedése bizonyította.
  • A Tour de France iránti érdeklődés csökkent ebben az időszakban, ezt a szavak számának 14.000-ről 12.000-re való csökkenése jelezte.
  • Az Oszkár-díjakkal foglalkozó cikkek hossza majdnem dupázódott 2001-ről (Gladiátor) 2002-re (Egy csodálatos elme).
  • A vállalatok negyedéves jelentései iránt 2001-ben volt a legmagasabb az érdeklődés, amikor a dot-com lufi kidurrant.

Newman felesége, Block történész-professzor asszony ezt a topic modellezést alkalmaztaa Pennsylvania Gazette-ben 1728-tól 1800-ig (ebbe az időbe esik az az időszak is, amikor Benjamin Franklin volt a lap tulajdonosa) megjelent 82.000 cikken és hirdetésen a trendek szűréséhez.

Az eredmények között feltűnt neki, hogy ha a divatról és a kereskedelemről szóló cikkek száma nőtt, akkor a vallásról szólók csökkentek – és vice versa. Az 1750-es években volt a “ruha” kategória csúcspontja, amely többek között a “gyapjúszövet”, a “selyem”, a “vászon”, “finom” és “fonál” szavakat tartalmazza, ugyanakkor a mélypontja az olyan cikkeknek, amelyekben pl. az “egyház”, az “erény” és “jellem” szavak szerepeltek.

Ismeretlen adatok rendezése:
Kutatók a topic modellezést használták annak a 250.000 e-mailnek az elemzéséhez, amelyet a U.S. Igazségügyi Minisztériumnak küldtek.

Newman szerint ez segítheti a Google Library Project-et is, amely digitális formátumba konvertálja azt a sok millió könyvet, amely a Standford, Harvard és Oxford egyetemeken, a New York Public Library-ban és sok más helyen van.

A nemzetbiztonsági ügynökségek szintén jól tudnák hasznosítani a topic modellezést a hatalmas mennyiségű rendezetlen adat feldolgozásában. Ez magyarázza, hogy Newman miért mutatta be találmányát a May’s Intelligence and Security Informatics konferenciáján, San Diego-ban.

Új kapcsolatok vadászata: a UCI számítógépes szakemberei olyan tanulmányok felkutatásában fognak segíteni a UCI orvostudományi kutatóinak, amelyek skizonfréniához kapocsolódnak.

Topic modellezést fognak alkalmazni 17 millió orvostudományi folyóiratnak a kutatásához, hogy kiszűrjék azokat a cikkeket, amelyek azokhoz génekhez és agyterületekhez kapcsolódnak, amelyek érintve vannak a skizonfréniában.

A modell működése miatt azt is elvárják tőle, hogy ne csak azokat a tanulmányokat találja meg, amelyek közvetlenül kapcsolódnak a skizofréniához – és még nem is említettük a rendezetlenséget.

A UCI adatbányászai felzárkóztak a Google mögé

Etr vs vebkettő

Ez kész csoda. Regisztráltam magam másfél perc alatt a következő szemeszterre. Tavaly még nyomtatni kellett, és az aláírt papírt (rajta TAJ-számtól kezdve SZIG-számig – bankszámlaszám included – sok minden) papírdobozba dobálni… A papírt apróra összehajtogatva, sunyin megközelítettem a ládát a főbejáratnál, és sutty. Utána egy hétig gyomorgörccsel figyeltem a számlámat, vártam a rendőrségtől az idézést stb.

Azelőtt egy évvel pedig volt vala a sorban állás. És a tárgyfelvételhez (szemináriumok) még most is bézbólütőt meg betétes bakancsot kell vinni. De az még ráér, egyelőre a kurzusok még ki sincsenek hirdetve. Majd (“Ej, leszarom” – Pató Pál úr után szabadon). Tavaly ősszel valamelyik tanszék megbugázta az egész etr-t, úgyhogy össze is omlott jól a szentem. Az elektronkus tárgyfölvétel 3 hetet csúszott (vagy mennyit is). Etr rulz!

Sörcsap és tejbár a könyvtárban

Hmmm… újabb szaftos téma a Katalisten : )

Amit lehet támadni vagy védeni, az egy “kívülálló” hozzászólása volt, miszerint ő (és társai) nem tartanák irreális ötletnek egy olyasmi szolgáltatási felület létrehozása, mint amilyen létezik már könyvesboltban – magyarán: olvass, tanulj, egyél, igyál, de ha valami kárt okozol, fizess mint a katonatiszt. (A reakciók szokásosak, aki nem bír a kíváncsisággal, ám olvassa, egészségére.)

A fikázásban van olyasmi, hogy hülye kis bunkó, mit ugat bele a nagyok dolgába, meg olyasmi is, hogy “hátafaszomnemkéne?” (Konkrétan annak a fölvetése, hogy akkor már miért ne lehetne posta és sztriptízbár is a könyvtárban – és lássuk be: miért ne lehetne posta? Sokan úgyis emailozni mennek be.)

A pozitív hozzáállás viszont megmutatja, hogy akár simán meg lehet oldani. A kedvencem a norvég Bislet-főiskola központ könyvtára, amelynek alagsorában konkrétan sörfőzde működik.

És egy hang, amire érdemes odafigyelni:

Végül az ajtónál, kifelé menet ki lehetne írni:
“Köszönjük, hogy nálunk költötte el pénzét: a fenntartó, aki már egy fillért sem ad a könyvtár
működtetéséhez.”
Szép, új világ…

Lehet, hogy itt az egyik legnagyobb probléma a szemléletbeli váltással? Mert amíg az állam (önkormányzat stb. – fenntartó) fizet, addig igazából szarhatunk magasról az olvasóra, de ha már az ő kegyeit kell keresni, akkor bizony sajnos le kell szállni az elefántcsont-toronyból…

Aha

Én is pont így gondolom.

aha

És akkor most mi van? Imádom. A Google Notebook meg cannot reach server.

(Ez a világon az egyik legnagyobb kiszúrás: jegyzetelj, gyűjtünk neked linket, mifaszt, aztán nem érjük el magunkat – ezentúl marad a Notepad, kész. Esetleg ha van még mezeibb szövegszerkesztő…)

Fél napomat rábasztam. Hol van a mélypont?

Ide még videó sem kell.

9 év múlva, avagy kultúra 2015-ben

Alap:

  • Magánhasználatra minden digitális alkotás jogdíjmentes, szabadon terjeszthető, másolható (könyv, zene, stb), akkor is, ha tegnap jött ki a gyárból.
  • A programokkal még nem tudom, mi legyen, ott szabad a gazda (gondolom úgyis SOA lesz egyébként, de akkor mi fut majd a desktopomon?)
  • Az alkotóknak (írók, zenészek, színészek, rendezők stb.) továbbra is képesnek kell lenniük megélniük abból, amit igazán szeretnek csinálni (írás, zenélés stb…), nem feltétlenül kell körülajnározott milliomosoknak lenniük (ház a Karib-tengeren, 8 millió egy évadért… mire?).

Megvalósítható lenne. Szerintem. Csak nem 2015-ben, hanem megkeverem a számokat, mondjuk legyen 2510. Reális.

Először is az olyan dolgokat kéne kiiktatni a folyamatból, mint a kiadók. Persze ez rengeteg problémát is jelent, mert (most ide könyveket hozok példaként, de a zenére is ugyanezt tessék érteni)

  • a kiadók egyfajta érdekképviseletet is jelentenek, amelyek amellett, hogy saját magukat védik, az általuk megvásárolt szellemi termékeket, és ez által a szerzőjüket is védi,
  • így elesnének a szerzők olyan előnyöktől, mint pl. egy-egy nagyobb kiadó többé-kevésbé stabil vásárlói köre (érdekes lenne megnézni, vajon ilyen területen is létezik-e márkahűség… én személy szerint pl. az osiris kiadót preferálom), kapcsolati tőkéje, logisztikája stb.,
  • az ismeretlenségből könnyen ki tud emelni egy szerzőt egy jobb kiadó (ld. Osváth, Nyugat stb.),
  • a “fogyasztókat” (nem szeretem ezt a szót, főleg a kultúra területén) is védi a kiadó, ugyanis garanciát jelenthet már maga a kiadó neve is (hagyomány, megbízhatóság stb.), vagy ha nem is, mindenképpen alapszinten meghatározza a könyvet – akár minőségileg, akár tartalmilag (pl. Szt. István, Akadémiai, Helikon stb.).

Előny:

  • az a hihetetlen mennyiségű pénz, amit a kiadók lenyelnek, az megmaradhatna a “fogyasztók” zsebében, még úgy is, hogy több jut a szerzőnek is (és – lássuk be – ebben a játékban a pénzen van a hangsúly).

Ez valami olyasmi lenne szerintem, mint amikor a reformátorok ki akarták iktatni a papokat a hívők és Isten között (ott is csúsztak rendesen a pénzek). Tetszés szerint lehet helyettesíteni a feleket. Hatalmas lesz (már az – Silent Library Project, Google stb.) az ellenállás. És ott a pénz. Itt meg az ember. Hát…

Abban viszont nem hiszek, hogy valamikor is tökéletesen ingyen lesz mindenfajta jóság. (“Ingyen ebéd márpedig nincs!”) Akár reklámmal (bár ebben annyira nem hiszek, ill. nem venném meg azt a verseskötetet, aminek tele van a hátulja reklámmal…), akár paypal-lel (ez ha működne itthon is, egyenesen nyomdából/stúdióból stb. rendelve, simán én is bevállalnám már most), akármivel.

Meg hát még mindig szól a “Lopni, megyünk lopni…” (Én is teszem.)

A vodka és a mise

Igen. Ezt már jóideje kerestem.

A vodka hatalma
Egy új lelkész annyira lámpalázas volt első szentbeszédekor, hogy alig tudott megszólalni. Második szentbeszédje előtt felkereste hát a feljebbvalóját, és megkérdezte, hogyan tudná leküzdeni idegességét.
Azt a választ kapta, hogy tegyen egy kis vodkát a misekehelybe, és néhány korty után már mindjárt lazábban fogja tudni folytatni.
A következő vasárnap a lelkész gyakorlatba ültette a tanácsot, és úgy érezte, hogy még hatalmas égzengés közepette is tudna beszélni, egyáltalán: pompásan érezte magát.
Amikor visszatért a plébániára, talált egy levelet a feljebbvalójától:

Kedves Testvérem!

1. Legközelebb kortyokat igyon, és ne döntse le egyből az egészet.
2. Nem teszünk jégkockát és citromkarikát a misekehelybe.
3. A misekönyv nem poháralátét.
4. Az oltár terítőjét nem használjuk szalvétának.
5. Tíz parancsolat van nem 12.
6. 12 tanítvány volt, nem 10.
7. Nem utalunk a keresztre, mint arra a ,,nagydarab T-betűre”.
8. Nem konferáljuk be Jézust és tanítványait mint DJ JC-t és bandáját.
9. Dávid Góliátot egy parittyával győzte le és nem ,,lőtte szitává a rohadt seggét egy Magnum 357-essel”.
10. A kígyó tekergett az almafán, nem pedig az ,,Isten fasza”.
11. Nem utalunk Júdásra, mint arra a ,,faszfej”-re.
12. A Pápa szent, nincs kigolyózva, és nem nevezzük “Keresztatyának”.
13. Az Atya, a Fiú és a Szentlélek nem a “Fater, a Kiscsávó és a Kriptaszökevény”.
14. Júdás harminc ezüstpénzen adta el Jézust, és nem 2 fillérért, az Olajfák hegyén, és nem a kínai piacon.

Egyébként a bűnösök a pokolra mennek, nem a büdös picsába.

Forrás: e-mail.freeblog

89%

A hálózatra csimpaszkodott gépek 89%-ának túltengése van kémprogramokban. Legalábbis ezt állapította meg a Webroot Software 2006 második negyedévében. Az utóbbi 3 hónapban 25%-kal nőtt a kémprogramokat terjesztő weblapok száma, több mint fél millióra (számszerint kb. 100e új lap született). Egy – számomra – új fogalom is képbe került ennek kapcsán: a zombihálózat, amelyek tevékenysége spam tömegek küldésében, és hasonló nem igazán etikus, sokszor netbűnözésnek nevezhető ténykedésben merül ki.

Ellenszer van raklapnyi, ezek közül ingyenes többek közt a Spybot Search & Destroy nevezetű programja. Nekem még most fut. Beszartam, csókolom.

Forrás: HWSW.hu

Update: 20 bejegyzésem volt. Mondom volt.

Update2: StopBadware.org