Декоратор cached_property

от автора

В этой статье хочется рассмотреть декоратор cached_property. Почему он есть и в стандартной библиотеке и в Django. Чем они отличаются и когда какой лучше использовать

Проблема

Допустим у нас есть класс с property, которое вычислять довольно долго, но мы им пользуемся часто и не хочется вычислять его несколько раз.

Пример класса:

import dataclasses import hashlib   @dataclasses.dataclass class User:     first_name: str     last_name: str      @property     def signature(self) -> bytes:         return hashlib.sha512((self.first_name + self.last_name).encode()).digest()

Наивная реализация

Первая идея, которая может прийти в голову это сделать приватный атрибут и в нём хранить закешированный результат

import dataclasses from typing import Optional import hashlib   @dataclasses.dataclass class User:     first_name: str     last_name: str     _signature: Optional[bytes] = dataclasses.field(init=False, repr=False, compare=False, hash=False, default=None)      @property     def signature(self) -> bytes:         if self._signature is None:             self._signature = hashlib.sha512((self.first_name + self.last_name).encode()).digest()         return self._signature

И получится довольно хорошее решение. В нём есть один недостаток — нам приходится добавлять приватный метод, если у нас таких property много у класса, то у нас будет очень много атрибутов, что не очень хорошо.

Решение из модуля functools

Тогда стоит обратить внимание на cached_property в модуле functools.

Ниже представлен пример с использованием functools.cached_property

import dataclasses import functools from typing import Optional import hashlib   @dataclasses.dataclass class User:     first_name: str     last_name: str        @functools.cached_property     def signature(self) -> bytes:         return hashlib.sha512((self.first_name + self.last_name).encode()).digest() 

Этот декоратор сделан так, что если ты вызовешь метод signature параллельно несколько раз из разных потоков, то функция вызовется один раз(наивное решение не давало таких гарантий).

То есть код ниже вызовет функцию hashlib.sha512 только один раз

user = User(first_name='Andrei', last_name='Berenda')  tasks = [     threading.Thread(target=lambda: user.signature)     for i in range(10) ] for task in tasks:     task.start()  for task in tasks:     task.join()

Но нужно разобраться каким образом это сделано.
Если посмотреть на реализацию, то можем увидеть, что cached_property использует локи и лок берется на весь класс, а не на объект класса. То есть мы не сможем начать выполнять параллельно несколько сигнатур для разных объектов класса.

Проблемы с functools.cached_property

Если мы в метод signature поместим запрос в базу или поход по http (то есть любую операцию, которая не блокирует GIL), мы всё равно будем ждать завершения метода, перед тем, как начать выполнять эту же функцию на другом объекте

import dataclasses import datetime import functools import time from typing import Optional import hashlib import threading  @dataclasses.dataclass class User:     first_name: str     last_name: str     _signature: Optional[bytes] = dataclasses.field(init=False, repr=False, compare=False, hash=False)      @functools.cached_property     def signature(self) -> bytes:         time.sleep(1)         return b'signed'         tasks = [     threading.Thread(target=lambda: User(first_name='Andrei', last_name='Berenda').signature)     for i in range(10) ] now = datetime.datetime.now() for task in tasks:     task.start()  for task in tasks:     task.join() print('finished', datetime.datetime.now() - now)

Код выше будет выполняться больше 10 секунд (для упрощения я использовал time.sleep(1), но можно было использовать поход в базу).

Хотя если мы будем использовать первоначальное решение, то оно будет занимать немного больше секунды (что в 10 раз быстрее).

import dataclasses import datetime import time from typing import Optional import threading  @dataclasses.dataclass class User:     first_name: str     last_name: str     _signature: Optional[bytes] = dataclasses.field(init=False, repr=False, compare=False, hash=False, default=None)      @property     def signature(self) -> bytes:         if self._signature is None:             time.sleep(1)             self._signature = b'signed'         return self._signature   tasks = [     threading.Thread(target=lambda: User(first_name='Andrei', last_name='Berenda').signature)     for i in range(10) ] now = datetime.datetime.now() for task in tasks:     task.start()  for task in tasks:     task.join() print('finished', datetime.datetime.now() - now)

Решение от Django

Эту особенность заметили в Django и написали свой декоратор cached_property, который не гарантирует что метод будет вызван только один раз, но работает намного быстрее в многопоточном приложении (каким и является приложение с использованием Django).

import dataclasses import datetime import threading import time  from django.utils.functional import cached_property   @dataclasses.dataclass class User:     first_name: str     last_name: str      @cached_property     def signature(self) -> bytes:         time.sleep(1)         return b'signed'   tasks = [     threading.Thread(target=lambda: User(first_name='Andrei', last_name='Berenda').signature)     for i in range(10) ] now = datetime.datetime.now() for task in tasks:     task.start()  for task in tasks:     task.join() print('finished', datetime.datetime.now() - now)

Код выше будет работать примерно так же как и наше решение(будет отрабатывать за 1 секунду).

Подведение итогов

Если у нас есть функция, которую вы хотите кешировать и её вызывать несколько раз для одного и того же объекта крайне нежелательно, то в таком случае можно использовать functools.cached_property (или можно попробовать написать свой декоратор, который будет брать локи на уровне объекта, а не на уровне класса), а во всех остальных случаях я бы использовать cached_property из Django (если вы не используете django, то можно просто скопировать код, там не очень много кода).


ссылка на оригинал статьи https://habr.com/ru/post/724852/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *