Алгоритмы анализа

NLP Pipeline

Путь текста через систему META

Каждый документ проходит семь последовательных стадий обработки

📥

Сбор и нормализация

Извлечение текста из DOM, PDF или JSON. Удаление HTML-тегов, нормализация кодировки, токенизация по предложениям.

tokenizerBeautifulSouppdfplumber

🔤

Лингвистический анализ

Морфологический разбор, лемматизация, POS-теггинг. Определение языка документа (поддержка 42 языков).

spaCy ru/enpymorphy2langdetect

🏷

Извлечение именованных сущностей (NER)

Обнаружение персон, организаций, геообъектов, дат, продуктов и пользовательских типов сущностей. Точность до 94% на корпусах RuBQ и CoNLL.

BERT-NERCRFDeepPavlov

🧩

Семантическое векторное представление

Конвертация текста в векторы высокой размерности с помощью трансформерных моделей. Основа для поиска похожих документов и кластеризации.

sentence-BERTFAISS768-dim vectors

🗂

Тематическое моделирование

Автоматическое выявление скрытых тем документа. Алгоритмы LDA и BERTopic для выделения от 2 до 50 тематических кластеров.

LDABERTopicUMAP

⚡

Генерация ключевых слов и тегов

KeyBERT-алгоритм для извлечения наиболее релевантных кандидатов. TF-IDF взвешивание с учётом позиции в документе. Ранжирование по семантической близости к главной теме.

KeyBERTTF-IDFMMR

📊

Формирование результата

Сборка структурированного JSON-ответа. Опциональная отправка через Webhook. Кеширование результата на 24 часа.

JSON SchemaRESTWebhook

Модели и метрики

Алгоритмы в деталях

Классификация текста

Многоклассовая классификация по 512 категориям IAB-таксономии. Fine-tuned RuBERT + XLM-RoBERTa ensemble.

Точность (Accuracy)

97%

F1-мера

94%

Recall

92%

Анализ тональности

Трёхклассовая (positive/neutral/negative) и аспектная сентимент-классификация. Работает на русском и английском.

Точность

91%

F1 (macro)

88%

Аспектный F1

82%

Дедупликация

MinHash LSH для быстрого приблизительного поиска дублей. Точное сравнение через косинусное сходство векторов SBERT.

Точные дубли

100%

Близкие дубли

96%

Семантические

87%

Извлечение ключевых слов

KeyBERT с MMR-диверсификацией для снижения избыточности. Поддержка n-gram (1-3). Учёт позиции в тексте (title boost).

nDCG@10

89%

Precision@5

86%

Coverage

93%

Спецификации

Технические характеристики

Макс. размер документа 2 МБ / 500 000 символов

Batch-обработка до 100 документов в запросе

Поддерживаемые форматы HTML, TXT, PDF, DOCX, JSON, CSV

Поддерживаемые языки 42 языка (RU, EN — extended support)

Среднее время ответа < 15 сек (стандарт), < 5 сек (PRO)

Лимит запросов (бесплатно) 100 запросов / день

Лимит запросов (PRO) Неограниченно (rate limit 10 req/sec)

Модели NLP RuBERT, XLM-RoBERTa, spaCy ru_core_news_lg

Инфраструктура Россия (ЦОД Tier III), GDPR-compliant

SLA (PRO) 99.9% uptime

API документация Установить расширение