title

Реестр компаний Docubiz.fr

docubiz.fr

О проекте

B2B сервис, предоставляющий информацию об организациях из государственных информационных систем Франции. На текущий момент хранится и обновляется около 50 миллионов компаний, включая филиалы всемирно известных брендов. Разработаны уникальные подходы к импорту слабоструктурированных данных. Дополнительно разработана стратегия аналитики качества данных для улучшения их качества и достоверности.

Технологии

PostgreSQL,
Elasticsearch,
Docker,
Laravel,
Python,
Nuxt3,
D3,
AWS,
Jenkins,
RabbitMQ,
Redis,
Grafana,
Prometheus.

Достоверность. Надежность. Удобство.

Мы провели исследование и нашли основные государственные источники информации о компаниях. Результат – одна страница организации, на которой собраны данные из 12 источников данных. Каждая страница компании предоставляет набор сведений, включая директоров, капитализацию, штат работников, юридические документы. Сервис, в первую очередь, нацелен на оценку надежности контрагентов и прозрачную историю организации, начиная с 1978 года. В планах - развитие сервиса и подключение дополнительных услуг, включая предоставление API по подписке.

presentation one

Качество и актуальность данных

Качество данных - главный приоритет реестра компаний. Чтобы предоставить пользователям чистые данные, импорт включает в себя многоуровневые проверки и верификацию данных. В случае выявления данных, которые не соответствуют требованиям и документации, аналитик получает уведомление о разборе нестандартного кейса и корректирует стратегию импорта при необходимости. Дополнительно была разработана и внедрена стратегия объединения персон с опечатками в персональных данных.

>1 500 000 000

Объем данных, поражающий воображение

Суммарно база данных проекта содержит более 1,5 миллиарда записей, среди которых данные о людях, документах, компаниях и связях между ними.

>1 000 000 000

Отслеживание изменений

Разработан сервис по отслеживанию изменений любого параметра компании и хранению истории их изменений за всё время существования. Суммарное количество транзакций изменений в базе данных составляет более 1 миллиарда!

Качество поиска

Настройке поиска было уделено особое внимание. Были разработаны алгоритмы, которые позволяют подобрать результаты, максимально соответствующие поисковому запросу. Сервис учитывает опечатки, ввод определенных данных, как ID компании, и предлагает оптимальный результат.

presentation two

Отслеживание связей между персонами и компаниями

Одна из основных фич сервиса  - отслеживание связей между миллионами компаний и людей. Инструмент предоставляет уникальную информацию, которая может быть использована для проведении расследований, оценки надежности контрагента, маркетинговых исследований и многих других целей. Было разработано уникальное решение, позволяющее оптимально отображать большое количество данных на фреймворке D3.js

presentation three

Мобильные устройства

Особое внимание было уделено адаптации контента для мобильных устройств. Вся информация была разделена на карточки, содержащие информацию по одному из критериев. Для оптимизации скорости загрузки были применены SVG ресурсы, которые значительно увеличивают рейтинг в Google PageSpeed.

presentation four

Следующий проект