
Компания DeepSeek (Ханчжоуская лаборатория фундаментальных технологий ИИ) получила патент на «Метод и система широкомасштабного сбора данных», опубликованный 1 апреля на сайте Государственного управления интеллектуальной собственности Китая.

Ключевые преимущества технологии:
-
Меньше нагрузки на сайты — алгоритм минимизирует трафик при сканировании, предотвращая перегрузку серверов.
-
Повышенная эффективность — система анализирует загруженный контент и предсказывает качество нескачанных ссылок, избегая дублирования и низкокачественных данных.
-
Стабильность обработки — отдельная очередь для метаданных гарантирует безопасность и точность обновлений базы.
Зачем это нужно?
Современные большие языковые модели (LLM) требуют огромных объемов высококачественных текстовых данных для обучения. Однако традиционные методы сбора информации из интернета сталкиваются с проблемами:
-
Неполный охват сложных сайтов,
-
Чрезмерные запросы, ведущие к сбоям,
-
Загрузка дубликатов или бесполезного контента.
Новая технология DeepSeek оптимизирует эти процессы, делая сбор данных быстрее, точнее и экономичнее для сетевых ресурсов.
Источник: IT之家
ссылка на оригинал статьи https://habr.com/ru/articles/897052/
Добавить комментарий