Ambar — система полнотекстового поиска по документам
Сегодня в рубрике «Стартапы» — система полнотекстового поиска по документам Ambar, которая позволяет найти необходимый файл независимо от сложности запроса и количества документов. Передаем микрофон.
В избранное
Привет, нас зовут Игорь и Илья, нам 27 и 26 лет. Мы прошли долгий путь от разработчиков до руководителей самостоятельных подразделений в российском филиале крупной иностранной компании. Параллельно с основной работой мы успевали заниматься сторонними проектами. Осенью прошлого года мы решили наконец бросить офисное болото и уйти в самостоятельное плавание, чтобы развивать собственный продукт, идея которого вытекла из проблемы, с которой мы и наши коллеги постоянно сталкивались.
Итак, представьте себя сотрудником компании, в которой работает несколько тысяч человек, у компании единая сеть, раскинутая на множество филиалов в сотнях городов. У вашего подразделения есть файловое хранилище — «помойка», в котором лежат и регулярно добавляются миллионы документов в разных форматах: договоры, регламенты, отчёты и так далее. Часто перед вами и вашими коллегами возникает задача поиска информации в этих файлах или поиска какого-то конкретного файла по информации, которая в нём содержится.
Все решают эту проблему по-разному, кто на что горазд: кто-то использует старинный DtSearch, кто-то пишет что-то своё, кто-то зарится на дорогущий и неповоротливый Lucidworks, а кто-то вообще ищет вручную.
При использовании таких решений есть несколько проблем: во-первых, риск потерять или не найти нужную информацию из-за некорректной экстракции контента из файлов, например, из-за экзотической кодировки исходного файла (привет, CP 866), или из-за несовершенного полнотекстового поиска (привет, нормальный stemming), во-вторых, низкая скорость поиска по большим массивам файлов и по файлам большого размера, а в-третьих — отсутствие современного и не тормозного интерфейса для поиска.
Именно поэтому мы создали Ambar — систему полнотекстового поиска по документам. В процессе разработки мы держали в голове основные требования к системе: лёгкая, интуитивно понятная, при этом мощная и масштабируемая. Мы сразу ориентировались на объёмы в десятки и сотни миллионов файлов, обязательным условием был быстрый поиск, занимающий не более половины секунды независимо от сложности запроса и количества документов.
Мы прошли долгий путь выбора технологий, проектирования, исследования, разработки, тестирования и отладки. Официальный релиз состоялся 18 января 2017 года. В этот день мы запустили Ambar у первого крупного клиента.
Итак, основные моменты о нашей системе, которые важно знать:
Супербыстрый поиск с учётом особенностей языка: например, нечёткий поисковой запрос занимает около ста миллисекунд в более чем десятке миллионов файлов.
Лёгкий и понятный интерфейс как для поиска, так и для администрирования.
Поддержка всех распространённых (и не очень) форматов файлов и дедубликация.
Простой RESTful API, лёгкая интеграция с чем угодно.
Возможность использования облачной версии или установка на собственном железе.
В ближайшее время мы планируем добавить возможность читать и индексировать содержимое почтовых ящиков (привет, Barracuda) и начать развивать аналитическую часть системы, добавив распознавания именованных сущностей (ФИО, адреса, номера документов, идентификационные номера, телефоны).
Хотите попробовать наш поиск в деле? Специально для этого мы запустили демоверсию с англоязычными книгами в индексе.
Взлетит …
Не взлетит …
В избранное
—
Источник:
PCNews.ru - Последние обновления - Новости
http://pcnews.ru/news/ambar__sistema_polnotekstovogo_poiska_po_dokumentam-753848.html
Источник: Вконтакте
Источник: Одноклассники
Источник: Facebook
PCNews.ru - Последние обновления - Новости
http://pcnews.ru/news/ambar__sistema_polnotekstovogo_poiska_po_dokumentam-753848.html
Источник: Вконтакте
Источник: Одноклассники
Источник: Facebook
Похожие публикации
Новости про компьютеры в 2018 году - схемы, вилы, пилы вхуж
При современном развитии техники, казалось бы, что нет причин или их так мало, что скоро будет исчерпан век применения стационарных компьютеров. Большие, неуклюжие, стационарные компьютеры уже не отличаются такими "умом и сообразительностью", что без них невозможно представить себе существование современных гениев и тинейджеров.Информация лъёться, как из рога изобилия - и этому всему мы должны только последним свежим новостям о компьютерах в 2018 в нашей стране России. Именно здесь вы можете прочитать удивительные заметки и обзоры на новое железо, квантовые компьютеры, а так же ПО, которое разрабатывается специально не для вас, а для них, для работы вам с ними. Прочитав всего пару свежих новостей - вы будете в восторге от новой информации.