Парсинг и сбор данных

Сбор и анализ веб-страниц с фокусом на французском языке для идентификации компаний, проектов, брендов и других имен собственных.

Проблема, которую мы решаем

Автоматизированный мониторинг зарубежного интернет-пространства требует умных фильтров, так как более 90% собираемых страниц часто оказываются спамом.

Для проекта Datapult мы построили комплекс распознавания языка и выделения именованных сущностей (NER), оптимизированный под французский язык.

Система собирает, проверяет и каталогизирует новые коммерческие компании и перспективные проекты без ручного вмешательства специалистов.

Как это работает

Сбор данных организован через высокоточный ML-конвейер:

Детекция языка FastText

Быстрая библиотека от Meta мгновенно определяет язык загруженной веб-страницы, отдавая приоритет французскому языку для экономии ресурсов.

Модель CamemBERT (BERT)

Специализированная французская модель Hugging Face анализирует текстовые блоки для проведения точного NER (Named Entity Recognition) — извлечения брендов и имен.

GPU-Ускорители

Парсинг и инференс нейросетей развернуты на серверах с видеокартами, что повышает пропускную способность системы в десятки раз.

Технологии

FastTextHugging Face BERTCamemBERTGPU-ускорение

Преимущества

Высокая точность NER

Кастомная языковая адаптация CamemBERT обеспечивает нахождение брендов даже в сложносоставных речевых конструкциях.

Полная автоматизация

Система функционирует круглосуточно, обрабатывая терабайты сырых веб-страниц без привлечения асессоров.

Релевантность выдачи

Многоступенчатый отсев гарантирует, что в контур анализа попадает только качественный целевой контент на французском языке.

Основные проблемы:

Шум в структуре сайтов: Избыток рекламных блоков, меню и подвалов страниц часто сбивает разметчик NER.

Неоднозначность названий: Компании, названные общеупотребительными словами (например, 'Soleil', 'Horizon'), приводят к ложноположительным срабатываниям.

Ошибки классификации: Низкая вероятность распознавания на специфических сайтах приводила к случайной потере данных.

Пути решения:

Дополнительная очистка HTML-данных: Предварительное вырезание структурного мусора (реклама, футеры) перед анализом.

Обогащенный верификатор: Сравнение найденных объектов с внешними графами связей и реестрами коммерческих организаций.

Дообучение на целевом домене: Тонкая настройка CamemBERT на бизнес-переписке и профайлах фирм.

Следующий кейс

ML-анализ отзывов

Открыть

Готовы обсудить?

Расскажите про ваш проект

Написать нам