Docflow 2013: Новая алхимия – золото из слов

01.06.2013

Александр Сапожников

Речь пойдет о теме первого (по времени) круглого стола, которая была заявлена как «Инструменты анализа структурированных и неструктурированных данных». Сразу скажем, разговор на Docflow не получился.

Получасовой формат требует крайне отточенной подготовки докладчиков и желательно продвинутых и предварительно просвещенных слушателей. Возможно, второе и имело место (все немногие, кого я знал лично, и те, с кем разговорился по ходу – были в теме и достаточно, IMHO, плотно), но краткое (а какое могло быть еще) выступление единственного явившегося эксперта – Александра Рылова (ABBYY) выглядело несколько сумбурным, а последовавшее с неясной целью разделение участников на небольшие группы завершило общую картину судорожной рекогносцировки. Странным образом, все это, однако, вполне гармонировало с неразберихой на рынке content analytics. Второй эксперт (из Forrester) не пришел, возможно, он внес бы некоторую четкость в понимание этого (нарождающегося?) рынка, хотя, надо сказать, что выступление представителя Forrester на пленарном заседании какого-то особого оптимизма в этом отношении внушить не могло.

Итак, content analytics, text engineering, semantic analysis, text mining или, как назвал это А.Колесов (http://www.pcweek.ru/its/blog/its/4909.php), аналитическая лингвистика (не имею ничего против). Все эти красивые слова указывают на некий класс задач, связанных с получением содержательных умозаключений на основе обработки массы слабоструктурированного контента. Из участников конференции эта тема (на практике) интересует ABBYY и еще АйТи (Логику бизнеса 2.0, см. http://www.pcweek.ru/idea/article/detail.php?ID=140515 , http://www.cnews.ru/news/2013/04/17/novoe_reshenie_logiki_biznesa_20_avtomati­ziruet_provedenie_pravovoy_ekspertizy_526051 и http://it.ru/press_center/news/5846/ ). Остальных, мне показалось, нет, не интересует. Почему? Не пахнет деньгами. «Контроль исполнения» пахнет (уже много лет одинаково), электронные архивы тоже, а аналитическая лингвистика нет. Это ли не тема для круглого стола. Я не был на других 30-минутных круглых столах и не могу сравнивать их по количеству болельщиков, но обсуждаемый собрал вполне достойную по численности аудиторию. И это при полном отсутствии пока у этой темы какого-либо прикладного звучания – чистая наука. Что за этим стоит? Безразличие к рыночным ценностям? Природное любопытство?

Андрей Колесов (http://www.pcweek.ru/its/blog/its/4909.php) припомнил, что тема появлялась пунктиром на прошлых Docflow. Был бы признателен за уточнение (названия компаний или продуктов) – у меня как-то не отложилось, хоть я и вел некоторый мониторинг.

По содержанию. А.Рылов попытался дать примеры практических задач, решаемых инструментами аналитической лингвистики. Мне они не показались взятыми из практики (например, ABBYY), смотрятся, как вычитанные из маркетологических сказок. Похожий случай, припоминаю, случился 2 года назад при обсуждении проблематики корпоративного полнотекстового поиска (см. http://www.pcweek.ru/ecm/blog/ecm/1185.php). Вообще, по какой-то загадочной для меня причине аналитическую лингвистику, эту наукоемкую и манящую перспективами сферу ИТ, почему-то пока отличают не слишком богатая фантазия и дефицит поставленных практикой содержательных задач. Аналогичное положение сложилось с Большими Данными (Big Data), которые, по существу, являются объемлющей аналитическую лингвистику маркетинговой ИТ-идиомой, так как подразумевают еще и обработку структурированного контента. И это не мое личное. О таком же понимании ситуации свидетельствуют многие публикации (см., например, Ощущение Больших Данных. Хорош и подзаголовок «…не просто позволяет обрабатывать на порядки больше данных, но и помогает находить неожиданные закономерности». Хоть бы один пример. И желательно побольше такой буржуазной назидательности – каким именно образом, найдя неожиданные закономерности, заказчик заработал больше денег).

Это к вопросу о (потенциальной?) прагматической ценности аналитической лингвистики. Но есть и встречные соображения. Импрессионистские выражения-намеки, все эти «ощущения», «предчувствия», «ожидания» и «томления» очень выпукло отражают состояние вопроса. Если вдуматься, однако, ничего априори зазорного тут нет и, возможно, положению и не суждено измениться, и мы просто имеем дело с созреванием новых, не совсем привычных для ИТ бизнес-моделей. В конце концов, биржевая торговля есть не что иное как торговля ожиданиями. Актуальные гранды забега Big Data компании Google и Facebook являются владельцами крупнейших коллекций неструктурированных данных, это соответственно . полнотекстовый индекс всемирного интернета + логи запросов (Google) и социальный граф с более чем миллиардом вершин + инф. потоки на этом графе (Facebook). Насколько сообразительны аналитические роботы, разработанные Google и Facebook, какие нежиданные закономерности они умеют находить в этих текстовых отвалах и терриконах, мы того не знаем, но самого факта обладания огромной массой информации о людях достаточно, чтобы рекламодатели понесли аналитическим лингвистам свои деньги.

Ключевые слова: Docflow