Детекция языка FastText
Быстрая библиотека от Meta мгновенно определяет язык загруженной веб-страницы, отдавая приоритет французскому языку для экономии ресурсов.
Сбор и анализ веб-страниц с фокусом на французском языке для идентификации компаний, проектов, брендов и других имен собственных.
Автоматизированный мониторинг зарубежного интернет-пространства требует умных фильтров, так как более 90% собираемых страниц часто оказываются спамом.
Для проекта Datapult мы построили комплекс распознавания языка и выделения именованных сущностей (NER), оптимизированный под французский язык.
Система собирает, проверяет и каталогизирует новые коммерческие компании и перспективные проекты без ручного вмешательства специалистов.
Сбор данных организован через высокоточный ML-конвейер:
Быстрая библиотека от Meta мгновенно определяет язык загруженной веб-страницы, отдавая приоритет французскому языку для экономии ресурсов.
Специализированная французская модель Hugging Face анализирует текстовые блоки для проведения точного NER (Named Entity Recognition) — извлечения брендов и имен.
Парсинг и инференс нейросетей развернуты на серверах с видеокартами, что повышает пропускную способность системы в десятки раз.
Кастомная языковая адаптация CamemBERT обеспечивает нахождение брендов даже в сложносоставных речевых конструкциях.
Система функционирует круглосуточно, обрабатывая терабайты сырых веб-страниц без привлечения асессоров.
Многоступенчатый отсев гарантирует, что в контур анализа попадает только качественный целевой контент на французском языке.
Шум в структуре сайтов: Избыток рекламных блоков, меню и подвалов страниц часто сбивает разметчик NER.
Неоднозначность названий: Компании, названные общеупотребительными словами (например, 'Soleil', 'Horizon'), приводят к ложноположительным срабатываниям.
Ошибки классификации: Низкая вероятность распознавания на специфических сайтах приводила к случайной потере данных.
Дополнительная очистка HTML-данных: Предварительное вырезание структурного мусора (реклама, футеры) перед анализом.
Обогащенный верификатор: Сравнение найденных объектов с внешними графами связей и реестрами коммерческих организаций.
Дообучение на целевом домене: Тонкая настройка CamemBERT на бизнес-переписке и профайлах фирм.