Търсачките вече надничат в най-тъмните кътчета на Интернет

Разработват се нови технологии, които могат да разширят обхвата на търсачките като Google и да им помогнат да достигнат до най-тайните кътчета на Интернет.

Mиналото лято Google тихичко премина през поредното си препятствие. Оттогава търсачката вече има достъп до още един трилион адреси. Колкото и огромен брой да изглежда това, всъщност представлява само частица от целия Интернет. Отвъд тези трилион страници се крие дори повече скрита уеб информация: финансови данни, шопинг каталози, разписания на полети, медицински изследвания и други подобни неща, които обикновено се складират в бази данни, недостъпни за търсачките.

Предизвикателството пред големите търсачки е именно да пробият в този тъмен ъгъл на Интернет, за да могат да дават задоволителни отговори на въпроси като „Каква е най-изгодната тарифа за пътуване от Ню Йорк до Лондон другия четвъртък?“ На този въпрос може да се отговори – стига търсачките да знаят къде да проверят. В момента се развиват нови технологии, които могат да разширят обхвата на търсачките и да им помогнат да достигнат до тайните кътчета на Интернет. Това не само ще подобри качеството на намерените резултати при търсене, но и до голяма степен може да преобрази начина, по който много компании правят бизнес онлайн.

Търсачките в момента разчитат на програми, известни като кролърс (или паяци), които събират информация като проследяват следите на хипервръзките, изграждащи Интернет. Този метод работи добре за страниците, които са  „на повърхността“ на мрежата, но има големи затруднения, когато трябва да навлезе в бази данни, които са нагласени да отговарят на много специфични търсения.

„Търсачките хващат само върха на айсберга“, казва Ананд Раджараман, един от основателите на компанията Kosmix, която се занимава точно с разработване на нов тип търсачки. Един от инвеститорите в компанията е Джефри Безос, изпълнителният директор на Amazon.com. От Kosmix са разработили софтуер, която насочва търсенето към базите данни, които най-вероятно съдържат нужната информация, след което предоставя резюме на нещата по темата, намерени от всички източници.

„Повечето търсачки се опитват да ви помогнат да намерите игла в купа сено“, казва Раджамаран. „Ние се опитваме да ви помогнем да опознаете цялата купа сено.“ Тази купа е безкрайно голяма. Милиони бази данни са свързани с мрежата, има безкраен брой условия за търсене и просто няма как една търсачка, без значение колко мощна, да прерови всяка възможна комбинация от информацията, която е на разположение.

За да достигнат до смислена информация в тъмните кътчета на Интернет, търсачките трябва да анализират критериите за търсене на потребителите и да разберат как да насочат тези търсения към специфичните бази данни. Например, ако потребителят търси „Рембранд“, търсачката трябва да знае кои бази данни могат да съдържат информация за изкуство (музейни каталози, вещи на търг и т.н.). Трябва да се знае и какъв тип търсене позволяват тези бази данни.

Този подход може да изглежда праволинеен на теория, но на практика голямото множество бази данни и различните критерии за търсене създават изключително голямо предизвикателство. „Това е най-интересната възможна задача за обработка на информация“, казва Алън Халеви, бивш професор по компютърни науки в Университета във Вашингтон. Сега Халеви работи в екипа на Google, който се опитва да проникне до отдалечените ъгли на Интернет.

Стратегията на Google включва изпращането на програма, анализираща съдържанието на всяка база данни, която срещне по пътя си. Например, ако търсачката намери страница свързана с изкуство, тя започва да предполага критериите за търсене – „Пикасо“, „Рембранд“, „Ван Гог“ и т.н. – докато един от тези критерии даде съвпадение. Търсачката след това анализира резултата и дава предполагаем модел на това, което базата данни съдържа.

В подобен дух, проф. Джулиян Фреир от Университета в Юта работи по амбициозния проект DeepPeep. Той се стреми да открие и индексира всяка една база данни, която е общодостъпна в Интернет. Достигането до съдържанието на толкова много бази данни изисква сложна изчислителна игра на вероятности. „Наивният начин би бил да търсим всички думи в речника“, казва Фреир. Вместо това DeepPeep започва с няколко примерни търсения, чрез които си създава обща представа за базата данни и след това си избира кои думи да търси.

На базата на този анализ програмата пробва автоматизирани набори от критерии за търсене, в опит да получи колкото се може повече информация. Според проф. Фреир по този начин се достига до повече от 90 процента от съдържанието в дадена база данни. Логично, методът вече привлече вниманието на големите търсачки.

Интересът към все по-затънтените краища на Интернет създава и друг проблем за търсачките – те трябва да решат как да представят всички събрани данни без да правят страниците си твърде сложни за ползване. Това е особено важно за Google, които отдавна устояват на изкушението да направят сериозни промени по доказания си като успешен дизайн. „Google са изправени пред наистина голямо предизвикателство, казва Крис Шърман, специалист в областта на търсачките. Те искат да подобрят качеството си, но трябва да внимават да не отчуждят потребителите си.“

Ако оставим настрана потребителското търсене, новите технологии могат да помогнат на бизнеса да използва информацията по нов начин. Един здравен сайт, да речем, може да кръстосва данните от базите данни на фармацевтичните компании с последните открития на медицинските изследователи. Местните информационни сайтове пък могат да разширят полезността си, като позволят на потребителите да търсят в публичните общински информационни регистри.

„Голямото предимство е в това, че така се свързват напълно отделни източници на информация“, казва Майк Бергман, компютърен специалист и консултант. Според него новите технологии за по-добро търсене ще имат повече значение за бизнеса, от за задоволяването на прищявките на сърфиращите в мрежата.

По в. Ню Йорк таймс

Здраве, Наука & Tex
Коментарите под статиите са спрени от 2014 г., заради противоречиви решения на Европейския съд, който в един случай присъди отговорност за тях на стопаните на сайта, после излезе с противоположно становище. В e-vestnik.bg нямаме капацитет да следим и коментари на читатели. Обект сме на съдебни претенции заради статии, имали сме по няколко дела с искове за по 50-100 хил. лева. Заради което приемаме дарения за сайта (виж тук повече), чиито единствени приходи са от рекламни банери.