[phpBB Debug] PHP Notice: in file /viewtopic.php on line 945: date(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected 'Europe/Helsinki' for 'EEST/3.0/DST' instead
[phpBB Debug] PHP Notice: in file /viewtopic.php on line 945: getdate(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected 'Europe/Helsinki' for 'EEST/3.0/DST' instead
BREN forums • View topic - Търсеща машина - предложения

Търсеща машина - предложения

От всичко по малко... или повече за мрежите и комуникациите

Търсеща машина - предложения

Postby ntk » 15 Mar 2009, 13:26

Здравейте
Търся идеи - кой е най добрия безплатен продукт за търсеща машина който мога да инсталирам на линукс сървър.
Трябва да поддържа кирилица и отдалечено индексиране и също така да "чете" .doc . pdf .xls и др.
Как решавате този проблем - нуждата от търсеща машина във Вашите сайтове?
При нас за момента е решен с гугъл интерфейс който е вграден в сайта - но не е най-доброто решение. Липсва му възможност да управление и освен това няма как да индексира вътрешни (restricted )сайтове.
Благодаря Ви предварително.

Поздрави
Николай Кабаиванов
User avatar
ntk
 
Posts: 20
Joined: 17 Feb 2009, 10:00
Location: Ruse

Re: Търсеща машина - предложения

Postby vedrin » 18 Mar 2009, 15:42

Здравей Николай,

Нямам много опит в тази област, но всред огромното множество от предлагани решения бих ти предложил да разгледаш по-отблизо тези четири:

1) DSPACE http://www.dspace.org/. Прави впечатление че системата е използвана по много университетски сайтове http://www.dspace.org/index.php/DSpace-Repositories/Repositories-Alphabetical.html Трябва да имаш предвид че това е нещо повече от търсеща машина -- предоставя и желаната от теб функционалност, наред с много други. Написана е на Java и JSP, тъй че би вървяла на всякаква платформа, която поддържа Java. Благодарност към Нина, която привлече вниманието ми към това решение.

2) Swish-e (Simple Web Indexing System for Humans - Enhanced) http://swish-e.org/, написана на C.

3) SWISH++ http://swishplusplus.sourceforge.net/, преписан на C++ вариант на (2), твърди се че има някои предимства, но пък поддържа по-малко функции в сравнение с (2).

4) DataparkSeаrch Engine http://www.dataparksearch.org/, написана на C, има FreeBSD порт (последното може да важи и за някои от останалите системи по-горе, не съм проверявал, но Лъчо сигурно би го направил). Кратко резюме има и тук http://en.wikipedia.org/wiki/DataparkSearch

Ще се радваме ако споделиш впечатления от опитите, които явно предстои да направиш, подробности за избраното решение и причините довели до това. :)

Сърдечни поздрави,
Ведрин
--
Vedrin Jeliazkov
User avatar
vedrin
 
Posts: 174
Joined: 16 Feb 2009, 20:30
Location: Sofia

Re: Търсеща машина - предложения

Postby iliev » 07 Apr 2009, 20:22

vedrin wrote:Ще се радваме ако споделиш впечатления от опитите, които явно предстои да направиш, подробности за избраното решение и причините довели до това.

Да, наистина, успя ли да пуснеш нещо различно от Google, Ники?
Luchesar V. ILIEV
User avatar
iliev
 
Posts: 506
Joined: 16 Feb 2009, 20:10
Location: Sofia, Bulgaria

Re: Търсеща машина - предложения

Postby dstoykov » 08 Apr 2009, 20:44

Тъй като Николай ще е в отпуска известно време, ще отговоря аз за да не се забавя дискусията.

Нямаме все още задоволително работещо решение. Най-близо до истината бях с nutch ( http://lucene.apache.org/nutch/ ), но не останахме доволни от успеваемостта му с PDF и MS Office файловите формати, в които е болшинството от полезното съдържание по сайтовете ни. Доколкото си спомням конкретно при PDF се оплакваше от криптирането, което се прилага заедно с опциите за забрана на печат, копиране и т.н. За съжаление те са много на почит, въпреки лесното им преодоляване. Като цяло от .doc и PDF документите успешно бяха индексирани по-малко от половината. Решихме, че няма смисъл от такава "услуга" и засега се концентирахме върху други проекти.

Поздрави,

Деян
Деян Стойков
Русенски университет
dstoykov
 
Posts: 4
Joined: 23 Feb 2009, 00:40


Return to Обща дискусия

Who is online

Users browsing this forum: No registered users and 1 guest

cron