ГлавнаяАлгоритмыО проекте КейсыРазработчикамБлог ПоддержкаУстановить

Алгоритмы анализа

Под капотом META — многоуровневый NLP-пайплайн, трансформерные модели и собственные алгоритмы кластеризации текстов.

Путь текста через систему META

Каждый документ проходит семь последовательных стадий обработки

📥

Сбор и нормализация

Извлечение текста из DOM, PDF или JSON. Удаление HTML-тегов, нормализация кодировки, токенизация по предложениям.

tokenizerBeautifulSouppdfplumber
🔤

Лингвистический анализ

Морфологический разбор, лемматизация, POS-теггинг. Определение языка документа (поддержка 42 языков).

spaCy ru/enpymorphy2langdetect
🏷

Извлечение именованных сущностей (NER)

Обнаружение персон, организаций, геообъектов, дат, продуктов и пользовательских типов сущностей. Точность до 94% на корпусах RuBQ и CoNLL.

BERT-NERCRFDeepPavlov
🧩

Семантическое векторное представление

Конвертация текста в векторы высокой размерности с помощью трансформерных моделей. Основа для поиска похожих документов и кластеризации.

sentence-BERTFAISS768-dim vectors
🗂

Тематическое моделирование

Автоматическое выявление скрытых тем документа. Алгоритмы LDA и BERTopic для выделения от 2 до 50 тематических кластеров.

LDABERTopicUMAP

Генерация ключевых слов и тегов

KeyBERT-алгоритм для извлечения наиболее релевантных кандидатов. TF-IDF взвешивание с учётом позиции в документе. Ранжирование по семантической близости к главной теме.

KeyBERTTF-IDFMMR
📊

Формирование результата

Сборка структурированного JSON-ответа. Опциональная отправка через Webhook. Кеширование результата на 24 часа.

JSON SchemaRESTWebhook

Алгоритмы в деталях

Классификация текста

Многоклассовая классификация по 512 категориям IAB-таксономии. Fine-tuned RuBERT + XLM-RoBERTa ensemble.

Точность (Accuracy)
97%
F1-мера
94%
Recall
92%

Анализ тональности

Трёхклассовая (positive/neutral/negative) и аспектная сентимент-классификация. Работает на русском и английском.

Точность
91%
F1 (macro)
88%
Аспектный F1
82%

Дедупликация

MinHash LSH для быстрого приблизительного поиска дублей. Точное сравнение через косинусное сходство векторов SBERT.

Точные дубли
100%
Близкие дубли
96%
Семантические
87%

Извлечение ключевых слов

KeyBERT с MMR-диверсификацией для снижения избыточности. Поддержка n-gram (1-3). Учёт позиции в тексте (title boost).

nDCG@10
89%
Precision@5
86%
Coverage
93%

Технические характеристики

Макс. размер документа 2 МБ / 500 000 символов
Batch-обработка до 100 документов в запросе
Поддерживаемые форматы HTML, TXT, PDF, DOCX, JSON, CSV
Поддерживаемые языки 42 языка (RU, EN — extended support)
Среднее время ответа < 15 сек (стандарт), < 5 сек (PRO)
Лимит запросов (бесплатно) 100 запросов / день
Лимит запросов (PRO) Неограниченно (rate limit 10 req/sec)
Модели NLP RuBERT, XLM-RoBERTa, spaCy ru_core_news_lg
Инфраструктура Россия (ЦОД Tier III), GDPR-compliant
SLA (PRO) 99.9% uptime