www.e-vestnik.bg
Фийд за коментари Фийд за публикации
събота, 19 август 2017
БългарияСвятМения и коментариЗдраве и наукаАрт и шоу

Търсачките вече надничат в най-тъмните кътчета на Интернет

25 Февруари 2009

 

Разработват се нови технологии, които могат да разширят обхвата на търсачките като Google и да им помогнат да достигнат до най-тайните кътчета на Интернет.

Mиналото лято Google тихичко премина през поредното си препятствие. Оттогава търсачката вече има достъп до още един трилион адреси. Колкото и огромен брой да изглежда това, всъщност представлява само частица от целия Интернет. Отвъд тези трилион страници се крие дори повече скрита уеб информация: финансови данни, шопинг каталози, разписания на полети, медицински изследвания и други подобни неща, които обикновено се складират в бази данни, недостъпни за търсачките.

Предизвикателството пред големите търсачки е именно да пробият в този тъмен ъгъл на Интернет, за да могат да дават задоволителни отговори на въпроси като „Каква е най-изгодната тарифа за пътуване от Ню Йорк до Лондон другия четвъртък?“ На този въпрос може да се отговори – стига търсачките да знаят къде да проверят. В момента се развиват нови технологии, които могат да разширят обхвата на търсачките и да им помогнат да достигнат до тайните кътчета на Интернет. Това не само ще подобри качеството на намерените резултати при търсене, но и до голяма степен може да преобрази начина, по който много компании правят бизнес онлайн.

Търсачките в момента разчитат на програми, известни като кролърс (или паяци), които събират информация като проследяват следите на хипервръзките, изграждащи Интернет. Този метод работи добре за страниците, които са  “на повърхността” на мрежата, но има големи затруднения, когато трябва да навлезе в бази данни, които са нагласени да отговарят на много специфични търсения.

„Търсачките хващат само върха на айсберга“, казва Ананд Раджараман, един от основателите на компанията Kosmix, която се занимава точно с разработване на нов тип търсачки. Един от инвеститорите в компанията е Джефри Безос, изпълнителният директор на Amazon.com. От Kosmix са разработили софтуер, която насочва търсенето към базите данни, които най-вероятно съдържат нужната информация, след което предоставя резюме на нещата по темата, намерени от всички източници.

„Повечето търсачки се опитват да ви помогнат да намерите игла в купа сено“, казва Раджамаран. „Ние се опитваме да ви помогнем да опознаете цялата купа сено.“ Тази купа е безкрайно голяма. Милиони бази данни са свързани с мрежата, има безкраен брой условия за търсене и просто няма как една търсачка, без значение колко мощна, да прерови всяка възможна комбинация от информацията, която е на разположение.

За да достигнат до смислена информация в тъмните кътчета на Интернет, търсачките трябва да анализират критериите за търсене на потребителите и да разберат как да насочат тези търсения към специфичните бази данни. Например, ако потребителят търси „Рембранд“, търсачката трябва да знае кои бази данни могат да съдържат информация за изкуство (музейни каталози, вещи на търг и т.н.). Трябва да се знае и какъв тип търсене позволяват тези бази данни.

Този подход може да изглежда праволинеен на теория, но на практика голямото множество бази данни и различните критерии за търсене създават изключително голямо предизвикателство. „Това е най-интересната възможна задача за обработка на информация“, казва Алън Халеви, бивш професор по компютърни науки в Университета във Вашингтон. Сега Халеви работи в екипа на Google, който се опитва да проникне до отдалечените ъгли на Интернет.

Стратегията на Google включва изпращането на програма, анализираща съдържанието на всяка база данни, която срещне по пътя си. Например, ако търсачката намери страница свързана с изкуство, тя започва да предполага критериите за търсене - „Пикасо“, „Рембранд“, „Ван Гог“ и т.н. - докато един от тези критерии даде съвпадение. Търсачката след това анализира резултата и дава предполагаем модел на това, което базата данни съдържа.

В подобен дух, проф. Джулиян Фреир от Университета в Юта работи по амбициозния проект DeepPeep. Той се стреми да открие и индексира всяка една база данни, която е общодостъпна в Интернет. Достигането до съдържанието на толкова много бази данни изисква сложна изчислителна игра на вероятности. „Наивният начин би бил да търсим всички думи в речника“, казва Фреир. Вместо това DeepPeep започва с няколко примерни търсения, чрез които си създава обща представа за базата данни и след това си избира кои думи да търси.

На базата на този анализ програмата пробва автоматизирани набори от критерии за търсене, в опит да получи колкото се може повече информация. Според проф. Фреир по този начин се достига до повече от 90 процента от съдържанието в дадена база данни. Логично, методът вече привлече вниманието на големите търсачки.

Интересът към все по-затънтените краища на Интернет създава и друг проблем за търсачките – те трябва да решат как да представят всички събрани данни без да правят страниците си твърде сложни за ползване. Това е особено важно за Google, които отдавна устояват на изкушението да направят сериозни промени по доказания си като успешен дизайн. „Google са изправени пред наистина голямо предизвикателство, казва Крис Шърман, специалист в областта на търсачките. Те искат да подобрят качеството си, но трябва да внимават да не отчуждят потребителите си.“

Ако оставим настрана потребителското търсене, новите технологии могат да помогнат на бизнеса да използва информацията по нов начин. Един здравен сайт, да речем, може да кръстосва данните от базите данни на фармацевтичните компании с последните открития на медицинските изследователи. Местните информационни сайтове пък могат да разширят полезността си, като позволят на потребителите да търсят в публичните общински информационни регистри.

„Голямото предимство е в това, че така се свързват напълно отделни източници на информация“, казва Майк Бергман, компютърен специалист и консултант. Според него новите технологии за по-добро търсене ще имат повече значение за бизнеса, от за задоволяването на прищявките на сърфиращите в мрежата.

По в. Ню Йорк таймс





Етикет: ,

 


Коментарите под статиите са спрени от юни 2015 г. във връзка с решение на Европейския съд, според което собственикът на сайта носи съдебна отговорност за написано от читатели. E-vestnik.bg е обект на съдебни претенции и влиза в съдебни разходи по повод свои публикации, и няма възможност да модерира и читателски форум и да носи отговорност за него. Сайтът разчита и на дарения от читатели, за да се запази като място за мнения извън контролираните медии.
  1. 1) Anonymous
    Пише се "например"...
  2. 2) Сърпи Чуков
    А къде ни е Табачкин МенТелски?
  3. 3) До Сърпа, Чук, Керпедена и Ко.
    Там където Мтел не наднича, в Табачка !






 Начало | България | Свят | Мнения & Co | Интервю | Писмо от | Здраве, Наука & Тех | ИStoRии | Малък коментар | Арт & Шоу | Спорт | Виното | Фотогалерия | Видео | Връзка с нас


  

ЗА АВТОРСКИТЕ ПРАВА В САЙТА | ЗА ВРЪЗКА С НАС | ЗА РЕКЛАМА

направен 2007-2017® с мерак design and develop by www.ljube.com 2007 w.ljube.com