Abbyy выпустила первые решения на основе технологии, которую разрабатывала 19 лет
Первые решения на базе технологии интеллектуального анализа текстов Abbyy Compreno позволяют осуществлять интеллектуальный поиск и выявлять «сущности» в текстах.
Российская компания Abbyy выпустила первые продукты для корпоративного поиска и извлечения данных на базе технологии понимания, анализа и перевода текстов Compreno. Исследования и разработки в данной области велись Abbyy на протяжении 19 лет, а собственные инвестиции компании в это направление за все время работы составили более $80 млн.
Compreno представляет собой технологию синтаксического и семантического анализа текста, которая опирается на универсальную для всех языков иерархию понятий и модель отношений между этими понятиями, говорят в Abbyy. В основе Compreno лежит универсальное дерево семантических понятий, которое обеспечивает понимание и анализ текстов на основе их смыслов, а не просто визуального представления.
Первое решение на базе новой технологии получило название Abbyy Intelligent Search. Оно предназначено для поиска в корпоративных системах и предоставляет результаты поиска с высокой релевантностью, поскольку учитывает не только все формы слов, но и их значения, смысловые связи между словами, расстояние между словами в искомой фразе и контекст употребления, рассказали CNews в Abbyy.
Важной особенностью смыслового анализа документов является тот факт, что в результатах поиска есть возможность фильтровать слова по их значениям. Пользователь может выбрать, хочет ли он найти среди документов, например, слово «fire» в значении «стрелять», «поджигать» или «увольнять».
Второе из представленных решений, Abbyy Intelligent Tagger, автоматически находит в текстах так называемые «сущности» (названия организаций, персон, гео-объекты, даты и денежные суммы) и размещает их в метаданных документа. В результате, информацию в корпоративных хранилищах можно классифицировать, сортировать или фильтровать по какому-либо признаку.
«Используя выявленные сущности, можно качественно улучшить целый ряд организационных процессов, связанных с анализом содержимого и ключевых параметров документов. Например, повысить приоритет обработки документов, поступающих от самых важных клиентов, создать правила для автоматического сбора сведений о клиенте или партнере, оптимизировать маршрутизацию документа по определенным критериям бизнес-процессов, упростить очистку документов от персональных и конфиденциальных данных», — говорят в Abbyy.
Оба решения в настоящий момент поддерживают английский и русский языки. В будущем разработчик планирует добавить в продукты поддержку немецкого, испанского, французского и китайского языков.
Помимо интеллектуального поиска и извлечения «сущностей» в корпоративных хранилищах, Abbyy считает важным направлением работы e-discovery — процесс поиска информации в документах компаний в рамках юридических разбирательств, аудита и расследований в США и Великобритании.
«Скорость сотрудничества компании, участвующей в судебном процессе, и полнота предоставления информации зачастую являются ключевыми факторами для присяжных и судьи, которые позволяют им оценить участие компании в процессе», — считает гендиректор Abbyy Сергей Андреев. При этом в компании не исключают возможности в дальнейшем применять продукты на основе Compreno в юридических спорах и на территории России.
«Наша индустрия нуждается в аналитике и более интеллектуальных решениях поиска, — говорит Атле Шеккеланд (Atle Skjekkeland), вице-президент и главный операционный директор Ассоциации по вопросам управления информацией и изображениями (AIIM). — Люди часто используют самые разнообразные термины для обозначения одних и тех же понятий, а потому необходимы решения, которые работают не только со значением слов, но и с контекстом. Кроме того, люди, которые находятся в поиске информации, часто не до конца понимают, что именно они ищут – им приходится перебирать варианты. И не найдя искомую информацию со 2-3 раза, они просто сдаются».
Опубликовал: Александр Абрамов (info@ict-online.ru)
Тематики: Интеграция, ПО
Ключевые слова: ABBYY