anonymizer
Офлайн · Открытый код · AGPL-3.0

Офлайн-редактор персональных данных для юридических документов.

Заменяет имена, организации, финансовые идентификаторы, адреса, email-адреса и телефоны структурированными токенами в .docx, .pdf и .xlsx. Работает локально. Русский + английский. Никакой телеметрии.

$ curl -fsSL anonymizer.site/install | sh
Нет сетевых вызовов macOS · Windows · Linux AGPL-3.0

Зачем это

Юристы хотят использовать AI для разбора договоров, но не могут вставить в сторонние сервисы сырые данные клиента. Ручная редактура медленная и подвержена ошибкам, особенно для отсканированных документов. anonymizer автоматизирует этап редактуры локально, не меняя остальной AI-workflow.

Что обезличивается

Стабильные токены с сохранением грамматической позиции. Нумерация постоянна в рамках сессии.

Имена
Иван Петров [Person_1]
Компании
ООО Ромашка [Company_1]
Email
i.petrov@example.com [Email_1]
Телефоны
+7 916 555-12-34 [Phone_1]
ИНН / СНИЛС / ОГРН
ИНН 7707083893 [Tax_ID_1]
IBAN
GB29 NWBK 6016... [IBAN_1]
Карты
4276 1300 ... [Card_1]
Адреса
Москва, Тверская 1 [Address_1]
Даты
12.03.2024 [Date_1]
IP / MAC
192.168.1.1 [IP_1]
URL
example.com/dashboard [URL_1]

Как это работает

Перетащите файл

Перетащите .docx, .pdf или .xlsx в локальный веб-интерфейс.

Локальное обнаружение

Natasha + spaCy работают на вашем CPU. Регулярные выражения ловят структурированные данные. Сокет не открывается.

Получите обезличенный документ

Структура сохранена, метаданные очищены. Исходный файл не изменён.

Данные не покидают ваш компьютер. Никогда.

Установка

macOS / Linux
$ curl -fsSL anonymizer.site/install | sh
Windows PowerShell
$ iwr -useb anonymizer.site/install.ps1 | iex
Вручную / для корпоративной среды
$ uv tool install docs-anonymizer

См. /ru/docs/installation/manual — SHA256 и опции офлайн-зеркала.

Почему это безопасно установить

Сетевые вызовы запрещены в ядре

Интеграционный тест проверяет, что при обработке документа сокет не открывается (tests/integration/test_no_network.py).

Открытый код, AGPL-3.0

Полный исходник публикуется как sdist рядом с wheel на PyPI.

Нет телеметрии

Обратная связь — только по явному нажатию кнопки в UI. Никакой пассивной аналитики.

Подписанный wheel и воспроизводимая сборка

Появится в v0.2.

Часто задаваемые вопросы

Работает ли с отсканированными PDF?

Пока нет. OCR появится в MVP-1.

Почему AGPL?

Потому что мы используем PyMuPDF. Sdist публикуется рядом с wheel.

Можно ли отключить ненужные детекторы?

Да — переключатели по категориям в UI и в конфиг-файле.

Программа что-то отправляет в сеть?

Только по нажатию кнопки «Проверить обновления». Пассивной телеметрии нет.

Будут ли токены одинаковыми между запусками?

Внутри одной сессии — да. Между сессиями — нет. Это сделано намеренно, см. документацию Token Manager.

Работает ли на Linux?

Да, но one-liner-установщика пока нет. Используйте 'uv tool install docs-anonymizer'.

Можно ли использовать в продакшене для юридической работы?

MVP-0 — пилотный уровень: ≥99% полноты по P0-категориям на эталонном корпусе. Решение остаётся за вами.