В этой статье хочется рассмотреть декоратор cached_property
. Почему он есть и в стандартной библиотеке и в Django. Чем они отличаются и когда какой лучше использовать
Проблема
Допустим у нас есть класс с property
, которое вычислять довольно долго, но мы им пользуемся часто и не хочется вычислять его несколько раз.
Пример класса:
import dataclasses import hashlib @dataclasses.dataclass class User: first_name: str last_name: str @property def signature(self) -> bytes: return hashlib.sha512((self.first_name + self.last_name).encode()).digest()
Наивная реализация
Первая идея, которая может прийти в голову это сделать приватный атрибут и в нём хранить закешированный результат
import dataclasses from typing import Optional import hashlib @dataclasses.dataclass class User: first_name: str last_name: str _signature: Optional[bytes] = dataclasses.field(init=False, repr=False, compare=False, hash=False, default=None) @property def signature(self) -> bytes: if self._signature is None: self._signature = hashlib.sha512((self.first_name + self.last_name).encode()).digest() return self._signature
И получится довольно хорошее решение. В нём есть один недостаток — нам приходится добавлять приватный метод, если у нас таких property
много у класса, то у нас будет очень много атрибутов, что не очень хорошо.
Решение из модуля functools
Тогда стоит обратить внимание на cached_property
в модуле functools
.
Ниже представлен пример с использованием functools.cached_property
import dataclasses import functools from typing import Optional import hashlib @dataclasses.dataclass class User: first_name: str last_name: str @functools.cached_property def signature(self) -> bytes: return hashlib.sha512((self.first_name + self.last_name).encode()).digest()
Этот декоратор сделан так, что если ты вызовешь метод signature
параллельно несколько раз из разных потоков, то функция вызовется один раз(наивное решение не давало таких гарантий).
То есть код ниже вызовет функцию hashlib.sha512
только один раз
user = User(first_name='Andrei', last_name='Berenda') tasks = [ threading.Thread(target=lambda: user.signature) for i in range(10) ] for task in tasks: task.start() for task in tasks: task.join()
Но нужно разобраться каким образом это сделано.
Если посмотреть на реализацию, то можем увидеть, что cached_property
использует локи и лок берется на весь класс, а не на объект класса. То есть мы не сможем начать выполнять параллельно несколько сигнатур для разных объектов класса.
Проблемы с functools.cached_property
Если мы в метод signature поместим запрос в базу или поход по http (то есть любую операцию, которая не блокирует GIL), мы всё равно будем ждать завершения метода, перед тем, как начать выполнять эту же функцию на другом объекте
import dataclasses import datetime import functools import time from typing import Optional import hashlib import threading @dataclasses.dataclass class User: first_name: str last_name: str _signature: Optional[bytes] = dataclasses.field(init=False, repr=False, compare=False, hash=False) @functools.cached_property def signature(self) -> bytes: time.sleep(1) return b'signed' tasks = [ threading.Thread(target=lambda: User(first_name='Andrei', last_name='Berenda').signature) for i in range(10) ] now = datetime.datetime.now() for task in tasks: task.start() for task in tasks: task.join() print('finished', datetime.datetime.now() - now)
Код выше будет выполняться больше 10 секунд (для упрощения я использовал time.sleep(1)
, но можно было использовать поход в базу).
Хотя если мы будем использовать первоначальное решение, то оно будет занимать немного больше секунды (что в 10 раз быстрее).
import dataclasses import datetime import time from typing import Optional import threading @dataclasses.dataclass class User: first_name: str last_name: str _signature: Optional[bytes] = dataclasses.field(init=False, repr=False, compare=False, hash=False, default=None) @property def signature(self) -> bytes: if self._signature is None: time.sleep(1) self._signature = b'signed' return self._signature tasks = [ threading.Thread(target=lambda: User(first_name='Andrei', last_name='Berenda').signature) for i in range(10) ] now = datetime.datetime.now() for task in tasks: task.start() for task in tasks: task.join() print('finished', datetime.datetime.now() - now)
Решение от Django
Эту особенность заметили в Django и написали свой декоратор cached_property
, который не гарантирует что метод будет вызван только один раз, но работает намного быстрее в многопоточном приложении (каким и является приложение с использованием Django).
import dataclasses import datetime import threading import time from django.utils.functional import cached_property @dataclasses.dataclass class User: first_name: str last_name: str @cached_property def signature(self) -> bytes: time.sleep(1) return b'signed' tasks = [ threading.Thread(target=lambda: User(first_name='Andrei', last_name='Berenda').signature) for i in range(10) ] now = datetime.datetime.now() for task in tasks: task.start() for task in tasks: task.join() print('finished', datetime.datetime.now() - now)
Код выше будет работать примерно так же как и наше решение(будет отрабатывать за 1 секунду).
Подведение итогов
Если у нас есть функция, которую вы хотите кешировать и её вызывать несколько раз для одного и того же объекта крайне нежелательно, то в таком случае можно использовать functools.cached_property
(или можно попробовать написать свой декоратор, который будет брать локи на уровне объекта, а не на уровне класса), а во всех остальных случаях я бы использовать cached_property
из Django (если вы не используете django, то можно просто скопировать код, там не очень много кода).
ссылка на оригинал статьи https://habr.com/ru/post/724852/
Добавить комментарий