Поиск по файлам сайта doc | xls | pdf | txt
Описание
Как найти документ по его содержимому, если он загружен на сайт?
Стандартный поиск на сайте «1С-Битрикс» отлично справляется с заголовками, текстами страниц и описаниями товаров. Но что делать, если нужная информация спрятана внутри прикреплённого файла — PDF-инструкции, прайс-листа в Excel или договора в Word? Без специального модуля эти документы остаются «тёмной зоной» для поисковой системы. Пользователь заходит на страницу, видит название файла, но не может найти его по ключевой фразе из середины документа. Модуль «Индексация контента файлов» решает эту проблему: он встраивается в штатный поиск и заставляет его «читать» содержимое ваших файлов. После установки посетители смогут находить нужные товары или документы, просто введя в строку поиска слово или фразу, которая встречается внутри файла, а не только в его названии.
Автоматическая индексация: модуль работает сам, вы только настраиваете
Модуль не требует ручного запуска для каждого нового файла. Он интегрируется с системным поиском «Битрикса» и запускает сканирование содержимого документов во время плановой переиндексации сайта. Это значит, что вы добавляете файл к элементу инфоблока, а при следующем обновлении поискового индекса его текст автоматически извлекается и добавляется в базу для поиска. Администратору не нужно совершать дополнительных действий — достаточно один раз настроить модуль, и процесс станет полностью автоматическим. Для контроля и диагностики ведется подробный лог-файл, в котором можно отследить, какие документы были обработаны, а какие пропущены, и быстро выявить возможные ошибки.
Какие форматы файлов умеет «читать» модуль
Модуль поддерживает индексацию самых распространённых офисных и веб-форматов. В список входят: PDF-документы (самый популярный формат для инструкций, каталогов и отчетов), файлы Microsoft Word (.docx) и Microsoft Excel (.xlsx) — договоры, спецификации, таблицы с данными, а также обычные текстовые файлы (.txt) и HTML-страницы (.html, .htm). Таким образом, практически любой документ, который вы загружаете на сайт, будет проиндексирован. Это особенно важно для интернет-магазинов с технической документацией, корпоративных порталов с регламентами и образовательных платформ с учебными материалами. Пользователь сможет найти конкретный PDF-файл с характеристиками товара, просто введя модель или технический параметр в строку поиска.
Гибкая настройка: индексируйте только то, что нужно
Вы не обязаны индексировать все файлы на сайте подряд. Модуль позволяет точечно выбирать, для каких информационных блоков и для каких именно свойств типа «Файл» будет выполняться извлечение текста. Например, вы можете включить индексацию для каталога товаров, но отключить для раздела с новостями, где файлы служат лишь иллюстрацией. Или разрешить сканирование только для свойства «Инструкция», но игнорировать свойство «Сертификат». Такой подход экономит ресурсы сервера и делает поиск более релевантным — в индекс попадает только действительно полезный контент. Дополнительно в настройках модуля можно задать два важных ограничения: максимальный размер обрабатываемого файла и максимальное количество извлекаемых символов. Это позволяет защитить сервер от перегрузки при обработке очень больших документов и контролировать объём данных, попадающих в поисковый индекс.
Инструменты администратора: контроль и предпросмотр
Модуль предоставляет удобный интерфейс для управления процессом. Вы можете просмотреть список всех файлов, которые были отобраны для индексации, и увидеть, какой контент будет добавлен в поисковый индекс. Функция предварительного просмотра особенно полезна: перед тем как запустить полную индексацию, администратор может проверить, корректно ли извлекается текст из конкретного документа. Если в файле много графики или сложное форматирование, можно заранее увидеть, что именно увидят пользователи при поиске. Ведение подробного лог-файла помогает диагностировать проблемы: например, если какой-то файл не индексируется из-за повреждения или слишком большого размера, это сразу будет зафиксировано в логах. Всё это делает модуль не просто «чёрным ящиком», а прозрачным инструментом, которым легко управлять даже без глубоких технических знаний.
Часто задаваемые вопросы
Характеристики
| Версия | 1.0.1 |
| Добавлен | 06.04.2026 |
| Установок | Менее 50 раз |
| Код | s44labs.filecontentindexing |
| Адаптивный | Да |
| Composite | Да |