Месяц: Декабрь 2014
-
—
от автора
-
—
от автора
-
—
от автора
-
—
от автора
-
—
от автора
-
—
от автора
-
—
от автора
-
Конвейер обработки текста в Sphinx
—
от автора
Обработка текста в поисковом движке выглядит достаточно простой снаружи, однако на самом деле это сложный процесс. При индексации текст документов должен быть обработан стриппером HTML, токенайзером, фильтром стопслов, фильтром словоформ и морфологическим процессором. А ещё при этом нужно помнить про исключения (exceptions), слитные (blended) символы, N-граммы и границы предложений. При поиске всё становится ещё сложнее,…
-
—
от автора
-
—
от автора