Под капотом META — многоуровневый NLP-пайплайн, трансформерные модели и собственные алгоритмы кластеризации текстов.
Каждый документ проходит семь последовательных стадий обработки
Извлечение текста из DOM, PDF или JSON. Удаление HTML-тегов, нормализация кодировки, токенизация по предложениям.
Морфологический разбор, лемматизация, POS-теггинг. Определение языка документа (поддержка 42 языков).
Обнаружение персон, организаций, геообъектов, дат, продуктов и пользовательских типов сущностей. Точность до 94% на корпусах RuBQ и CoNLL.
Конвертация текста в векторы высокой размерности с помощью трансформерных моделей. Основа для поиска похожих документов и кластеризации.
Автоматическое выявление скрытых тем документа. Алгоритмы LDA и BERTopic для выделения от 2 до 50 тематических кластеров.
KeyBERT-алгоритм для извлечения наиболее релевантных кандидатов. TF-IDF взвешивание с учётом позиции в документе. Ранжирование по семантической близости к главной теме.
Сборка структурированного JSON-ответа. Опциональная отправка через Webhook. Кеширование результата на 24 часа.
Многоклассовая классификация по 512 категориям IAB-таксономии. Fine-tuned RuBERT + XLM-RoBERTa ensemble.
Трёхклассовая (positive/neutral/negative) и аспектная сентимент-классификация. Работает на русском и английском.
MinHash LSH для быстрого приблизительного поиска дублей. Точное сравнение через косинусное сходство векторов SBERT.
KeyBERT с MMR-диверсификацией для снижения избыточности. Поддержка n-gram (1-3). Учёт позиции в тексте (title boost).