Масштабирование нормативного логического вывода
Нашел приличное количество публикаций на тему масштабирования логического и онтологического нормативного вывода. Проект MIREL из Университета Люксембурга, Университет Болоньи и прочие прорабатывают вопрос «как обрабатывать огромные количества данных с огромным количеством правил». Не нашёл пока работающих систем, хотя упоминания про то, что прототип вывели в коммерческую эксплуатацию, есть. Вместо заявленных систем, однако, там «адвокаты и психологи».
Масштабировать нормативный логический вывод в Европе пытаются, но непонятно зачем. Ввод в модель — такое бутылочное горлышко, которое задушит что угодно. И не столько ввод сущностей, фактов прагматической среды, извлечённых из текста или БД, а ввод логических и онтологических правил, отражающих нормативное пространство. Вопрос не в том, что до компонентов извлечения онтологий или NER ещё не дотянулись руки наращивателей мощности, а в том, что традиционные подходы, сколько их не масштабируй, не дают в результате полезных моделей — наборов правил, например. Госопода в Antoniou G. et al — Large-Scale Legal Reasoning with Rules and Databases (2020) констатируют проблему, но как-то скромничают:
«…существует ряд формализмов, которые могут быть использованы для представления правовых норм и фактов о делах, таких как программирование набора ответов, аргументация и отменяемая логика (defeasible logic). Хотя такие формализмы достаточно выразительны для представления правовых норм и для них существуют эффективные механизмы и инструменты аргументации, кодирование правил может в некоторых случаях оказаться сложным и трудоемким процессом, поскольку представление юридического документа может легко потребовать тысячи предложений и многих тысяч правил».
«В некоторых случаях» — это всегда в реальных промышленных масштабах. Эта команда (в основном University of Huddersfield + небезызвестный Guido Governatori из Data61) тренируется на относительно концептуально простом знании из базы данных US Food and Drug Administration (FDA) Adverse Event Reporting System (FAERS) с 3 млн записей, некотором (не указывают, но видимо, большом) количестве регулярных правил. Однопотоковый процессинг у них занимает 8 часов. Они его, конечно, ускорят распараллеливанием и оптимизацией. Но что делать с самой генерацией сложных правил, что и составляет суть нормативного регулирования? Количество серверов эту проблему не решит.
Крупномасштабные немонотонные рассуждения, применяемые в рамках отменяемой логики, были достигнуты в работе [46] для правил с одной переменной и расширены для поддержки стратифицированных наборов правил [47], включая также отрицательные подцели [44], а также над хорошо обоснованной семантикой [45], масштабируемой до 1 миллиарда фактов.
Batsakis S. et al — Massively parallel reasoning algorithms for normative reasoning (2019)
Миллиард фактов, но для правила с одной переменной.
В списке «направлений для будущих исследований», однако, этот ракурс проблемы стоит без какого-либо акцента: Mass Parallelization, Stream Reasoning, Semantic Technologies, Handling Inconsistencies, Simulation and Optimization.
Помимо онтологий верхнего уровня, дающих определения широкому кругу понятий, были предложены специализированные юридические онтологии, такие как LKIF [20]. Таким образом, инженеры знаний должны решить, будет ли представление данных основываться на существующей онтологии или разработать новое представление. Во втором случае определения существующих онтологий могут быть повторно использованы для предоставления семантических аннотаций юридических данных.
Batsakis S. et al — Massively parallel reasoning algorithms for normative reasoning (2019)
Ну то есть, использовать другие онтологии можно, но как существенный фактор это не рассматривается.
На мой взгляд, однако, главный вопрос здесь — в нахождении онтологии такого качества, которое позволило бы создавать релевантные и сложные онтологические правила сильно дешевле, чем сейчас. Это — главная проблема производительности таких систем. А совсем не «массажирование» триплетов. Современные «графы знаний» регулярны на синтаксическом уровне: триплеты RDF, графовые или векторные модели, а также какие-то репрезентации, используемые для модальных, описательных или отменяемых логик — это нижняя часть стека, которая понятна и масштабируется легко. Но структура классов, концептуализация предметной области — собственно онтология — которая является главной ценностью, которая должна быть интерпретируема не [только] машиной, а человеком [и машиной], организуя средство концептуального ввода-вывода, может иметь и имеет сейчас неадекватную сложности задачи принципиальную организацию. Эпистемическую конфигурацию, которая масштабируется куда сложнее, чем контейнеры с NER-экстракторами и OWL-ризонерами.