[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

ProPractic · 28 янв 2026

Складчина: [Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]
Ваш Персональный Командный Центр с поддержкой MCP

Срок на проверку материала 30 суток с даты перехода складчины на этап Доступно (п. 12.1.2. )
Нажмите, чтобы раскрыть...

История о том, как я выбросил клавиатуру после 16 лет слепой печати и заставил AI работать на меня...

У вас тоже есть эта папка? "Разобрать позже"?

Давайте честно, мы находимся на Складчике, и все мы немного страдаем "синдромом хомяка". У каждого из нас на жестком диске лежат сотни гигабайт "мертвого груза", до которого просто не доходят руки. Это курсы, которые "надо глянуть на выходных", записи вебинаров по 3-4 часа и бесконечные аудио-лекции.

Вы скачали их, потому что там есть ценность и вы за неё заплатили, но у вас физически нет времени смотреть 3 часа "воды", чтобы найти 5 минут "мяса". В итоге эти знания не работают на вас, они просто занимают место на диске и вызывают чувство вины за потраченные средства. Пора остановить этот бесконечный цикл отложенной жизни.

А теперь представьте другую реальность.
Вы берете папку с 10-часовым видео-курсом, перетаскиваете файлы в окно программы и спокойно идете заваривать чай. Whisper Voice Machine начинает "слушать" эти файлы в ускоренном режиме, пока вы отдыхаете. Возвращаетесь, а у вас перед глазами полный, структурированный текст, в котором вы мгновенно находите ответ на свой вопрос.

Whisper Voice Machine (WVM)
Ваш комбайн по переработке сырого контента и мыслей в структурированную базу знаний.

Почему я перестал печатать (владея слепой печатью 16 лет)?

Я разработчик, и мои пальцы бегают по клавиатуре быстрее, чем у 90% людей, чем я всегда гордился. Но 3 месяца назад я понял страшную правду: печать - это главное "узкое горлышко" моей продуктивности. Я думаю быстрее, чем печатаю, и пока я формулирую мысль, правлю опечатки и тянусь к Backspace - идея ускользает или мутирует.

Я написал WVM, чтобы убрать этого неуклюжего посредника (клавиатуру) между моим мозгом и компьютером навсегда. Теперь я просто нажимаю кнопку на мыши, откидываюсь в кресле, закрываю глаза и говорю все, что приходит в голову. Программа не просто записывает звук, она думает за меня, превращая поток сознания в готовый документ.

Три режима использования
Узнайте себя в одном из них

Для "Коллекционеров Знаний" (Складчиков)
Перестаньте копить гигабайты, начните их монетизировать и применять здесь и сейчас.
Сценарий: У вас есть запись зум-созвона, купленный курс или длинная лекция на английском.
Магия: Закиньте файл в WVM (Drag & Drop). Через несколько минут у вас есть текстовая расшифровка и перевод.
Результат: Попросите AI сделать саммари: "Выдели главные инсайты и составь список задач". Вы "посмотрели" 2-часовое видео за 5 минут чтения.

Для SMM, Копирайтеров и Креаторов
Вам знакомо чувство "чистого листа", когда курсор мигает, а в голове звенящая пустота?
Решение: Пойдите гулять с собакой или мыть посуду, надиктовывая поток идей, обрывки фраз и шутки в телефон.
Обработка: Пришли, закинули аудио в WVM и применили промт "Сделай пост в стиле Ильяхова".
Итог: Черновик готов, вам остается только опубликовать, превращаясь в настоящую фабрику контента.

Для Управленцев и Менеджеров
Вас бесят бесконечные переписки, но вы обязаны соблюдать корпоративный этикет?
Действие: Нажмите хоткей и выплесните эмоции: "Скажи этому <цензура>, что он сорвал все сроки, и мы расторгаем договор!".
Результат: В чат вставляется идеально выверенное, холодное и юридически грамотное письмо. Ваша нервная система скажет вам спасибо, а репутация останется безупречной.

Ваш технологический арсенал

1. Тотальный отказ от ручной печати
Диктуйте везде: Word, Telegram, Браузер, IDE, Notion. Где мигает курсор - туда летит идеальный текст. Вы сами пишете промты для обработки, создавая свой уникальный стиль.

2. "Пожиратель Курсов": Видео в Текст + Перевод
Купили крутой курс на английском, но уровень языка не позволяет смотреть в оригинале? Закиньте видео в WVM с промтом "Переведи на русский и оформи как конспект". Вы получите готовую методичку на родном языке.

3. Model Content Protocol (MCP Server)
Технология будущего, доступная сегодня.
WVM выступает сервером для ваших AI-агентов (Claude Desktop, IDE агенты).
Вы можете попросить Claude Desktop (или иную программу): "Проанализируй мои записи за прошлую неделю и найди идеи для стартапа". Агент сам залезет в вашу локальную базу, найдет нужное и даже откроет документ перед вами. Сделать саммари "сегодняшних заметок" или поискать "то самое видео про X и открыть его в программе."

4. Умный поиск и База Знаний
Все ваши мысли сохраняются локально. Мгновенный полнотекстовый поиск по архиву, фильтрация по датам. Ни одна гениальная мысль больше не потеряется.

Окно поиска: Ваша база знаний всегда под рукой

Настройки AI: Полная свобода в выборе моделей и промтов

Я уважаю ваше железо и кошелек, поэтому говорю как есть — без маркетингового обмана.

1) Распознавание (Уши) — 100% локально
Локально через ядро Whisper. Ваши файлы и голос никогда не уходят на чужие сервера. Абсолютная приватность.

Базовый вариант (без постобработки):
Вы можете выключить постобработку и работать почти что на любом современном компьютере.
Нужно примерно 8 ГБ ОЗУ и нормальный современный процессор. Начиная от Intel 8-го поколения — вообще комфортно. Но у меня это работает даже на Intel 4-го поколения.
Это самый доступный режим.

2) Постобработка (Мозги) — на ваш выбор

Вариант №2 — облачная постобработка (максимум качества на слабом ПК)
Если вы хотите постобработку, но у вас слабая машина — подключаете облачную LLM и получаете суперкачественную, супербыструю постобработку.
Пример: OpenRouter (Gemini Flash, DeepSeek и др.).
Экономика: обработка огромного лонгрида стоит пару центов, а вашей диктофонной записи — десятой цента.

Вариант №3 — локальная постобработка (тотальная приватность)
Если вы хотите постобработку локально и без облака — вам потребуется мощное железо.
Минимум: видеокарта от 8 ГБ VRAM — это режим для самых простых моделей постобработки.
Рекомендуется: 16 ГБ VRAM, если хотите действительно качественную постобработку и комфорт.
Из современных относительно недорогих вариантов — условная xx60 Ti на 16 ГБ.

Из протестированных мной моделей отлично себя показывают:
Qwen 3 (4B и 8B), Gemma 3 (разные размеры).
Но если вы хотите очень качественную постобработку — лучше ориентироваться на 16 ГБ VRAM в локальном режиме.
Я сам чаще использую облачную постобработку (через OpenRouter), потому что у меня нет суперконфиденциальных данных.
Но если бы я был юристом или психотерапевтом — я бы использовал исключительно локальные варианты.

Системные требования (3 уровня)

1) Минимальные (базовый режим: только распознавание)
Для кого: если вам нужна расшифровка аудио/видео в текст, без постобработки LLM (без «улучшайзинга», саммари, задач и т.д.).

CPU: Intel Core от 4-го поколения (у меня работает на таком железе).

ОЗУ: 8 ГБ.

GPU: не обязателен (можно на CPU, просто будет медленнее).

Что вы получаете: абсолютную приватность и максимальную совместимость — подходит почти для любого «живого» ПК.

2) Комфортный (распознавание быстро и стабильно + облачная постобработка)
Для кого: если вы хотите «красивый» текст (саммари, инсайты, задачи, стиль письма), но ваш компьютер не тянет локальные LLM — вы подключаете облако (OpenRouter и т.п.).

CPU: Intel Core от 8-го поколения (или аналогичный современный Ryzen).

ОЗУ: 16 ГБ (можно 8 ГБ, но 16 — заметно спокойнее).

GPU: желательно Nvidia от 4 ГБ (например GTX 1050 Ti), чтобы распознавание шло комфортно. (Можно и без GPU, но медленнее.)

Интернет: нужен только для постобработки (распознавание всё равно локальное).

Что вы получаете: быстрый локальный Whisper + сверхкачественную постобработку «в облаке» за копейки.

3) Максимальный (тотальная автономность: распознавание + локальная постобработка)
Для кого: если вам нужна постобработка LLM строго локально (максимальная приватность) и вы хотите скорость/качество без облака.

ОЗУ: 32 ГБ (минимум 16 ГБ, но 32 — правильная база под локальные LLM).

GPU: Nvidia RTX с 16 ГБ VRAM — рекомендуется для качественной локальной постобработки (8 ГБ VRAM — минимум для самых простых моделей, но качество/комфорт ниже).

CPU: современный многоядерный (чем мощнее — тем лучше), но основной упор тут в GPU/VRAM.

Что вы получаете: полный «локальный комбайн» — и распознавание, и постобработка на вашей машине, без передачи текста/данных в облако. На моём Ryzen 7 5700x + 32bg ram + 3080 10gb vram простые локальные модели вполне неплохо крутятся.

Почему lifetimeI, а не подписка?

Я разработчик-одиночка, который пользуется своим продуктом каждый день. Западные аналоги (SuperWhisper, Otter) просят $15-20 в месяц вечно. Здесь, эксклюзивно на Складчике, вы получаете:

Пожизненную лицензию (Lifetime) на 3 ваших компьютера.

Пакет «Системных промтов» (SMM, деловой стиль, кодинг).

Прямую поддержку от автора в этой теме.

Гарантию безопасности: программа логирует только технические ошибки. Никаких личных данных, текстов или ключей никуда не отправляется.

Важно по-честному про обновления и поддержку:
Обновления — 3 месяца, поддержка — 6 месяцев (в рамках этой версии).
Я буду слушать пожелания, допиливать программу и собирать обратную связь — я готовлю продукт к релизу на международном рынке, и мне важно обкатать всё на живых сценариях.
На международном рынке она, вероятно, будет стоить дороже.
Код будет защищен через обфускацию. Привязка к железу.
Вы получаете установщик, который установит софт на ваш компьютер (всё по взрослому))

Хватит печатать и копить информацию. Начните управлять ею.

Специальный бонус за рекламу
Сделайте 3 рекламных поста и получите расширенный пакет "Golden Pack" промтов

Внутри бонуса набор:

"Telegram-Машина" — посты из бубнежа.
"Корректор" — исправление ошибок с сохранением стиля.
"Деловая Акула" — жесткие юридические письма.
"Кодер" — оформление алгоритмов в чистый код.

Записывайтесь. В повторе, цена будет выше. А на обновления мажорных версий вас будет ждать скидка.

Все экраны приложения.

ProPractic · 28 янв 2026

Софт уже полностью написан, упакован в .exe и создан установщик для Windows.

Сейчас происходит адаптация под macOS, также есть полностью функциональная версия. Если будут желающие, я обязательно сделаю отдельную тему под macOS.

Лицензия будет выдана на три машины с привязкой к вашему железу. Большие и крупные обновления в будущем будут происходить для участников уже со скидкой.

И здесь также я еще сделаю серию постов про возможности программы и с радостью отвечу на все ваши вопросы.

Будет вкусный бонус за отзыв.

Кстати, этот текст тоже был только что надиктован. И оформлен этой программой.

Рома У · 28 янв 2026

Подскажите, можно ли делать такое саммари курса, чтобы не было проблем с авторскими правами. Чтобы он отличался от оригинала и его можно было как-то распространять без риск

И еще вопрос "Возвращаетесь, а у вас перед глазами полный, структурированный текст, в котором вы мгновенно находите ответ на свой вопрос." Полный текст это слово в слово как в оригинале или софт делает уже сам структуру убирая лишнее: слова паразиты и тд

ProPractic · 28 янв 2026

Рома У сказал(а): ↑

И еще вопрос "Возвращаетесь, а у вас перед глазами полный, структурированный текст, в котором вы мгновенно находите ответ на свой вопрос." Полный текст это слово в слово как в оригинале или софт делает уже сам структуру убирая лишнее: слова паразиты и тд
Нажмите, чтобы раскрыть...

При этом я хочу обратить внимание на то, что вам всегда будет доступна возможность посмотреть оригинальный исходник и обработать его повторно другим промптом.

То есть, часть, где ваш голос распознается в текст, она неизменяема, а вторым слоем идет часть постобработки. Таким образом, мы собираем небольшой слоеный пирог из информации.

ProPractic · 28 янв 2026

Подготовил демонстрационное видео: вы можете посмотреть, как работает программа.

Также это видео было потом обработано в ней, и вы сможете оценить качество постобработки локальной модели Gemma 3 (4 миллиарда параметров), а также облачной моделью OpenRouter - Gemini Flash 3.

И третий файл вообще никакой постобработки, просто то, что вы получаете из программы: с разбивкой на абзацы и с тайм-кодами.

Скрытое содержимое.

Если есть такая возможность, попрошу модераторов ссылочку закрепить в стартовом посте

m0hi4y · 28 янв 2026

С помощью программы можно переводить с любых языков?
Видео/аудио любой длительности возможно отдавать программе? И как много времени занимает перевод например видео длительностью 1 час?
Насколько близки и адекватны итоговые переводы к оригиналу? Ведь часто нейронки наглючивают то, чего и не было в контенте.

ProPractic · 29 янв 2026

m0hi4y сказал(а): ↑

С помощью программы можно переводить с любых языков?
Видео/аудио любой длительности возможно отдавать программе? И как много времени занимает перевод например видео длительностью 1 час?
Насколько близки и адекватны итоговые переводы к оригиналу? Ведь часто нейронки наглючивают то, чего и не было в контенте.
Нажмите, чтобы раскрыть...

@m0hi4y, спасибо за вопрос

Буду честен, это не лекарство от всех болезней. Распознавание аудио сильно зависит от языка, от качества записи, от произношения диктора, от наличия шумов.

Ниже я предлагаю табличку, где вы можете посмотреть, какие языки могут плохо распознаться. Соответственно, если они плохо распознаются, какая бы классная модель постобработки ни была, даже облачная, вероятно, с ней будут проблемы. Хорошая новость в том, что модель распознавания обучалась примерно на 100 языках. И европейская группа языков, славянская группа языков, большинство азиатских языков будут хорошо распознаваться.

Распознавание: Гарантированно проблемы могут быть с китайским языком и тюркской группой, наверное (если так можно сказать): казахский, узбекский, таджикский.

Вы, в принципе, можете посмотреть табличку. Если вам нужно распознавать эти языки, чтобы потом их на что-то переводить, возможно, программа для вас не очень актуальна.

Допустим, сейчас у меня рядом ездит робот-пылесос, и вроде бы распознавание происходит неплохо. (Вы читаете этот текст)

Если говорить про перевод, это уже касается второго этапа обработки. Этим занимается модель, которая делает пост-обработку.

Это будет означать то, что качество перевода будет зависеть от того, какая модель у вас будет этим заниматься. И здесь, наверное, я бы не стал полагаться на локальные модели. Конечно же, если вы не обладатель очень мощного железа, я доверился бы качественным моделям, которые доступны по облаку. И вот они, я уверен, что сделают очень достойный перевод того, что распознает локальная модель.

ProPractic · 29 янв 2026

m0hi4y сказал(а): ↑

Насколько близки и адекватны итоговые переводы к оригиналу?
Нажмите, чтобы раскрыть...

Если вы дадите конкретные задачи, я могу прогнать тесты, и мы посмотрим на результат.
Может быть, видео с YouTube и целевой язык

Kaliostro666 · 29 янв 2026

@ProPractic, добрый день!
Подскажите, а делает ли Ваша программа конспекты с видео, защищенных инфопротектором?)

ProPractic · 29 янв 2026

Kaliostro666 сказал(а): ↑

@ProPractic, добрый день!
Подскажите, а делает ли Ваша программа конспекты с видео, защищенных инфопротектором?)
Нажмите, чтобы раскрыть...

Добрый день!

Честно сказать я не помню как выглядит файл инфопротектора

Если это обычный видеофайл то без проблем. Программа извлекает аудио дорожку с помощью ffmpeg

Обработки видеоряда пока нет...

Ну если я не ошибаюсь там всё гораздо сложнее (

Kaliostro666 · 29 янв 2026

ProPractic сказал(а): ↑

Добрый день!

Честно сказать я не помню как выглядит файл инфопротектора

Если это обычный видеофайл то без проблем. Программа извлекает аудио дорожку с помощью ffmpeg

Обработки видеоряда пока нет...

Ну если я не ошибаюсь там всё гораздо сложнее (
Нажмите, чтобы раскрыть...

Ну да) Там видео в формате *.ipr ))

ProPractic · 29 янв 2026

Kaliostro666 сказал(а): ↑

Ну да) Там видео в формате *.ipr ))
Нажмите, чтобы раскрыть...

Скрытое содержимое.

К сожалению это немножко другого профиля софт

m0hi4y · 29 янв 2026

ProPractic сказал(а): ↑

Если вы дадите конкретные задачи, я могу прогнать тесты, и мы посмотрим на результат.
Может быть, видео с YouTube и целевой язык
Нажмите, чтобы раскрыть...

Например:

anderson10 · 29 янв 2026

Kaliostro666 сказал(а): ↑

Ну да) Там видео в формате *.ipr ))
Нажмите, чтобы раскрыть...

Там зашифрованный файл, поэтому для работы с ним нужно как-то извратиться, чтобы извлечь звук. Можно звук записать во время проигрывания файла в плеере инфопротектора, например, на диктофон. И распознавать/транскрибировать уже диктофонную запись, представленную в виде привычного мультимедийного файла. С файлами инфопротектора может работать только сам инфопротектор. Иначе какой смысл шифровать файл так, чтобы его можно было расшифровать без проблем? А в инфопротекторе файл зашифрован по самое "не балуй"

Holdi · 29 янв 2026

А приложение на телефон можно будет сделать или может наработки какие есть? Или технически это можно реализовать только на компе?

ProPractic · 29 янв 2026

Holdi сказал(а): ↑

А приложение на телефон можно будет сделать или может наработки какие есть? Или технически это можно реализовать только на компе?
Нажмите, чтобы раскрыть...

Технически это возможно. Ну, допустим, у Super Whisper есть приложение под iOS. Есть легковесные модели, которые могут делать распознавание голоса менее качественно, чем Whisper, но если хочется серьезной постобработки, то конечно же это только десктопная версия.

У меня была мысль сделать как примочкуTelegram-бота, чтобы при включенном компьютере можно было отправлять аудиосообщения или другие медиа туда, загружать и получать, может быть, в ответ даже распознавание. Но пока что я отказался от этой идеи.

Holdi · 29 янв 2026

по моему было бы неплохо облегченную версию на андройде иметь))) С возможностью синхронизироваться с десктопной версией или что то подобное)

ProPractic · 29 янв 2026

Holdi сказал(а): ↑

по моему было бы неплохо облегченную версию на андройде иметь))) С возможностью синхронизироваться с десктопной версией или что то подобное)
Нажмите, чтобы раскрыть...

Честно скажу, глядя на то, как раскаляет мой MacBook на чипе M3 на 8 гигабайт памяти, а также видеокарту 3080 на 10 гигабайт видеопамяти, эти модели, мне кажется, что то, что сейчас работает на мобильных устройствах, является детской игрушкой.

Единственное, в чем я лично вижу смысл — это возможность отправки заданий на локальную машину, ну или какую-то синхронизацию истории, чтобы можно было работать с информацией на Android.

Вот как раз для этого я думал делать с Telegram-ботом: куда можно просто отправлять аудиофайлы, видеофайлы, пересылать аудиосообщения от кого-либо и чтобы все это сохранялось локально в собственной базе данных.

По итогу, возможно, с отправкой в ответ расшифрованных текстов также в Telegram. Плюс тут открывается какая-то опция с совместной работой, то есть можно дать доступ еще нескольким людям для работы с конкретной базой данных.

ProPractic · 29 янв 2026

m0hi4y сказал(а): ↑

Например:
Нажмите, чтобы раскрыть...

@m0hi4y А подскажите, чем сейчас видео выкачиваете с Ютуба - у меня было пару хороших плагинов но не один ни на одном видео не сработал...

Hillman_T · 30 янв 2026

Вопросом транскрибации интересуюсь тоже довольно давно - в результате пользуюсь PLAUD NOTE. Теперь буду сравнивать с
Whisper Voice Machine

[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

Складчина: [Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

Отзывы участников