[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

Пилот · 30 янв 2026

ProPractic сказал(а): ↑

Whisper Voice Machine: Преврати гигабайты курсов в Знания, а голос в Деньги
Ваш Персональный Командный Центр с поддержкой MCP

История о том, как я выбросил клавиатуру после 16 лет слепой печати и заставил AI работать на меня...

Посмотреть вложение 1221286

У вас тоже есть эта папка? "Разобрать позже"?

Давайте честно, мы находимся на Складчике, и все мы немного страдаем "синдромом хомяка". У каждого из нас на жестком диске лежат сотни гигабайт "мертвого груза", до которого просто не доходят руки. Это курсы, которые "надо глянуть на выходных", записи вебинаров по 3-4 часа и бесконечные аудио-лекции.

Вы скачали их, потому что там есть ценность и вы за неё заплатили, но у вас физически нет времени смотреть 3 часа "воды", чтобы найти 5 минут "мяса". В итоге эти знания не работают на вас, они просто занимают место на диске и вызывают чувство вины за потраченные средства. Пора остановить этот бесконечный цикл отложенной жизни.

А теперь представьте другую реальность.
Вы берете папку с 10-часовым видео-курсом, перетаскиваете файлы в окно программы и спокойно идете заваривать чай. Whisper Voice Machine начинает "слушать" эти файлы в ускоренном режиме, пока вы отдыхаете. Возвращаетесь, а у вас перед глазами полный, структурированный текст, в котором вы мгновенно находите ответ на свой вопрос.

Whisper Voice Machine (WVM)
Ваш комбайн по переработке сырого контента и мыслей в структурированную базу знаний.

Почему я перестал печатать (владея слепой печатью 16 лет)?

Я разработчик, и мои пальцы бегают по клавиатуре быстрее, чем у 90% людей, чем я всегда гордился. Но 3 месяца назад я понял страшную правду: печать - это главное "узкое горлышко" моей продуктивности. Я думаю быстрее, чем печатаю, и пока я формулирую мысль, правлю опечатки и тянусь к Backspace - идея ускользает или мутирует.

Я написал WVM, чтобы убрать этого неуклюжего посредника (клавиатуру) между моим мозгом и компьютером навсегда. Теперь я просто нажимаю кнопку на мыши, откидываюсь в кресле, закрываю глаза и говорю все, что приходит в голову. Программа не просто записывает звук, она думает за меня, превращая поток сознания в готовый документ.

Три режима использования
Узнайте себя в одном из них

Для "Коллекционеров Знаний" (Складчиков)
Перестаньте копить гигабайты, начните их монетизировать и применять здесь и сейчас.
Сценарий: У вас есть запись зум-созвона, купленный курс или длинная лекция на английском.
Магия: Закиньте файл в WVM (Drag & Drop). Через несколько минут у вас есть текстовая расшифровка и перевод.
Результат: Попросите AI сделать саммари: "Выдели главные инсайты и составь список задач". Вы "посмотрели" 2-часовое видео за 5 минут чтения.

Для SMM, Копирайтеров и Креаторов
Вам знакомо чувство "чистого листа", когда курсор мигает, а в голове звенящая пустота?
Решение: Пойдите гулять с собакой или мыть посуду, надиктовывая поток идей, обрывки фраз и шутки в телефон.
Обработка: Пришли, закинули аудио в WVM и применили промт "Сделай пост в стиле Ильяхова".
Итог: Черновик готов, вам остается только опубликовать, превращаясь в настоящую фабрику контента.

Для Управленцев и Менеджеров
Вас бесят бесконечные переписки, но вы обязаны соблюдать корпоративный этикет?
Действие: Нажмите хоткей и выплесните эмоции: "Скажи этому <цензура>, что он сорвал все сроки, и мы расторгаем договор!".
Результат: В чат вставляется идеально выверенное, холодное и юридически грамотное письмо. Ваша нервная система скажет вам спасибо, а репутация останется безупречной.

Ваш технологический арсенал

1. Тотальный отказ от ручной печати
Диктуйте везде: Word, Telegram, Браузер, IDE, Notion. Где мигает курсор - туда летит идеальный текст. Вы сами пишете промты для обработки, создавая свой уникальный стиль.

2. "Пожиратель Курсов": Видео в Текст + Перевод
Купили крутой курс на английском, но уровень языка не позволяет смотреть в оригинале? Закиньте видео в WVM с промтом "Переведи на русский и оформи как конспект". Вы получите готовую методичку на родном языке.

3. Model Content Protocol (MCP Server)
Технология будущего, доступная сегодня.
WVM выступает сервером для ваших AI-агентов (Claude Desktop, IDE агенты).
Вы можете попросить Claude Desktop (или иную программу): "Проанализируй мои записи за прошлую неделю и найди идеи для стартапа". Агент сам залезет в вашу локальную базу, найдет нужное и даже откроет документ перед вами. Сделать саммари "сегодняшних заметок" или поискать "то самое видео про X и открыть его в программе."

4. Умный поиск и База Знаний
Все ваши мысли сохраняются локально. Мгновенный полнотекстовый поиск по архиву, фильтрация по датам. Ни одна гениальная мысль больше не потеряется.

Посмотреть вложение 1221732
Окно поиска: Ваша база знаний всегда под рукой

Посмотреть вложение 1221733

Настройки AI: Полная свобода в выборе моделей и промтов

Я уважаю ваше железо и кошелек, поэтому говорю как есть — без маркетингового обмана.

1) Распознавание (Уши) — 100% локально
Локально через ядро Whisper. Ваши файлы и голос никогда не уходят на чужие сервера. Абсолютная приватность.

Базовый вариант (без постобработки):
Вы можете выключить постобработку и работать почти что на любом современном компьютере.
Нужно примерно 8 ГБ ОЗУ и нормальный современный процессор. Начиная от Intel 8-го поколения — вообще комфортно. Но у меня это работает даже на Intel 4-го поколения.
Это самый доступный режим.

2) Постобработка (Мозги) — на ваш выбор

Вариант №2 — облачная постобработка (максимум качества на слабом ПК)
Если вы хотите постобработку, но у вас слабая машина — подключаете облачную LLM и получаете суперкачественную, супербыструю постобработку.
Пример: OpenRouter (Gemini Flash, DeepSeek и др.).
Экономика: обработка огромного лонгрида стоит пару центов, а вашей диктофонной записи — десятой цента.

Вариант №3 — локальная постобработка (тотальная приватность)
Если вы хотите постобработку локально и без облака — вам потребуется мощное железо.
Минимум: видеокарта от 8 ГБ VRAM — это режим для самых простых моделей постобработки.
Рекомендуется: 16 ГБ VRAM, если хотите действительно качественную постобработку и комфорт.
Из современных относительно недорогих вариантов — условная xx60 Ti на 16 ГБ.

Из протестированных мной моделей отлично себя показывают:
Qwen 3 (4B и 8B), Gemma 3 (разные размеры).
Но если вы хотите очень качественную постобработку — лучше ориентироваться на 16 ГБ VRAM в локальном режиме.
Я сам чаще использую облачную постобработку (через OpenRouter), потому что у меня нет суперконфиденциальных данных.
Но если бы я был юристом или психотерапевтом — я бы использовал исключительно локальные варианты.

Системные требования (3 уровня)

1) Минимальные (базовый режим: только распознавание)
Для кого: если вам нужна расшифровка аудио/видео в текст, без постобработки LLM (без «улучшайзинга», саммари, задач и т.д.).

CPU: Intel Core от 4-го поколения (у меня работает на таком железе).

ОЗУ: 8 ГБ.

GPU: не обязателен (можно на CPU, просто будет медленнее).

Что вы получаете: абсолютную приватность и максимальную совместимость — подходит почти для любого «живого» ПК.

2) Комфортный (распознавание быстро и стабильно + облачная постобработка)
Для кого: если вы хотите «красивый» текст (саммари, инсайты, задачи, стиль письма), но ваш компьютер не тянет локальные LLM — вы подключаете облако (OpenRouter и т.п.).

CPU: Intel Core от 8-го поколения (или аналогичный современный Ryzen).

ОЗУ: 16 ГБ (можно 8 ГБ, но 16 — заметно спокойнее).

GPU: желательно Nvidia от 4 ГБ (например GTX 1050 Ti), чтобы распознавание шло комфортно. (Можно и без GPU, но медленнее.)

Интернет: нужен только для постобработки (распознавание всё равно локальное).

Что вы получаете: быстрый локальный Whisper + сверхкачественную постобработку «в облаке» за копейки.

3) Максимальный (тотальная автономность: распознавание + локальная постобработка)
Для кого: если вам нужна постобработка LLM строго локально (максимальная приватность) и вы хотите скорость/качество без облака.

ОЗУ: 32 ГБ (минимум 16 ГБ, но 32 — правильная база под локальные LLM).

GPU: Nvidia RTX с 16 ГБ VRAM — рекомендуется для качественной локальной постобработки (8 ГБ VRAM — минимум для самых простых моделей, но качество/комфорт ниже).

CPU: современный многоядерный (чем мощнее — тем лучше), но основной упор тут в GPU/VRAM.

Что вы получаете: полный «локальный комбайн» — и распознавание, и постобработка на вашей машине, без передачи текста/данных в облако. На моём Ryzen 7 5700x + 32bg ram + 3080 10gb vram простые локальные модели вполне неплохо крутятся.

Почему lifetimeI, а не подписка?

Я разработчик-одиночка, который пользуется своим продуктом каждый день. Западные аналоги (SuperWhisper, Otter) просят $15-20 в месяц вечно. Здесь, эксклюзивно на Складчике, вы получаете:

Пожизненную лицензию (Lifetime) на 3 ваших компьютера.

Пакет «Системных промтов» (SMM, деловой стиль, кодинг).

Прямую поддержку от автора в этой теме.

Гарантию безопасности: программа логирует только технические ошибки. Никаких личных данных, текстов или ключей никуда не отправляется.

Важно по-честному про обновления и поддержку:
Обновления — 3 месяца, поддержка — 6 месяцев (в рамках этой версии).
Я буду слушать пожелания, допиливать программу и собирать обратную связь — я готовлю продукт к релизу на международном рынке, и мне важно обкатать всё на живых сценариях.
На международном рынке она, вероятно, будет стоить дороже.
Код будет защищен через обфускацию. Привязка к железу.
Вы получаете установщик, который установит софт на ваш компьютер (всё по взрослому))

Хватит печатать и копить информацию. Начните управлять ею.

Специальный бонус за рекламу
Сделайте 3 рекламных поста и получите расширенный пакет "Golden Pack" промтов

Внутри бонуса набор:

"Telegram-Машина" — посты из бубнежа.
"Корректор" — исправление ошибок с сохранением стиля.
"Деловая Акула" — жесткие юридические письма.
"Кодер" — оформление алгоритмов в чистый код.

Записывайтесь. В повторе, цена будет выше. А на обновления мажорных версий вас будет ждать скидка.

Все экраны приложения.

Посмотреть вложение 1221286 Посмотреть вложение 1221290 Посмотреть вложение 1221291 Посмотреть вложение 1221292 Посмотреть вложение 1221293 Посмотреть вложение 1221294 Посмотреть вложение 1221295 Посмотреть вложение 1221296 Посмотреть вложение 1221297 Посмотреть вложение 1221298
Нажмите, чтобы раскрыть...

ProPractic сказал(а): ↑

Софт уже полностью написан, упакован в .exe и создан установщик для Windows.

Сейчас происходит адаптация под macOS, также есть полностью функциональная версия. Если будут желающие, я обязательно сделаю отдельную тему под macOS.

Лицензия будет выдана на три машины с привязкой к вашему железу. Большие и крупные обновления в будущем будут происходить для участников уже со скидкой.

И здесь также я еще сделаю серию постов про возможности программы и с радостью отвечу на все ваши вопросы.

Будет вкусный бонус за отзыв.

Кстати, этот текст тоже был только что надиктован. И оформлен этой программой.
Нажмите, чтобы раскрыть...

Привет. С какими AI работает эта программа. С платными или бесплатными. Сколько они стоят?

ProPractic · 30 янв 2026

Пилот сказал(а): ↑

Привет. С какими AI работает эта программа. С платными или бесплатными. Сколько они стоят?
Нажмите, чтобы раскрыть...

Добрый день. Вот то, что прямо сейчас вы видите, является начиткой на микрофон. Никакой постобработки. Работа происходит локально на вашем железе.

Локальная модель Whisper 3 Large Turbo отдаёт подобный текст на русском языке с знаками припинания. Если вам нужна какая-то специфическая постобработка, эмодзики, жирный курсив, подготовка тегов для публикации на складчике, в Телеграме, творческая переработка контента, тогда нужна постобработка другой моделью.

Локально - LM Studio + все что потянет ваше железо

---уже с обработкой---

Эту модель можно запустить на вашем железе, если у вас мощное железо. Если такового нет, придется использовать удаленного поставщика.

Сейчас есть только один вариант — OpenRouter. Но я могу добавить и другие варианты, в том числе российские провайдеры, которые проксируют доступ.

Кстати, вот этот текст уже с небольшой постобработкой от модели Gemini 2.5 Flash-light, которая стоит десятую или сотую часть цента. Постобработка конкретно вот этого сообщения.

(Разбивка на абзацы, длинные тире, особо сложные слова - это уже на ней. Постобработка стоила 0.00029 доллара)

ProPractic · 30 янв 2026

ProPractic сказал(а): ↑

---уже с обработкой---
Нажмите, чтобы раскрыть...

Технически можно было бы сделать выделение жирным для ключевых моментов, курсивом.

Я собираюсь и такой промпт сделать для Складчика, но пока не добрался до этого.

То, что я делал выше, обычно я просто руками проходился по тексту, оформляя жирный и курсив.

Но теоретически это может делать модель, уже немножко подороже, допустим, Flash 3 от Google или иная подобная.

Skladunok · 30 янв 2026

Гайд будет прилагаться как пользоваться всеми возможностями программы?

ProPractic · 30 янв 2026

Skladunok сказал(а): ↑

Гайд будет прилагаться как пользоваться всеми возможностями программы?
Нажмите, чтобы раскрыть...

Да, конечно
Будет руководство пользователя с описанием всех параметров и рекомендациями по использованию, в том числе по подключению Model Content Protocol клиентов на примере нескольких программ.

PlatonXXL · 30 янв 2026

@ProPractic
Я хочу вашу программу. У мне нет денег. Я их потратил на годы покупки курсов на складчике. Но у мен горы курсов. Я болен, нету сил. Подарите мне вашу программу. Хочу подарок.(((,,,,,,я лью слёзы. Придется опять брать кредит. Помогите.

Рома У · 30 янв 2026

А если у меня есть годовая подписка на Клод? Значит я подрубаю через апи и делаю Саммари в вашей проге?
И это расходует меньше токенов, чем если я закину обычный текст из видео и сделаю Саммари в самом клоде?

ProPractic · 30 янв 2026

Рома У сказал(а): ↑

А если у меня есть годовая подписка на Клод? Значит я подрубаю через при и делаю Саммари в вашей проге?
И это расходует меньше токенов, чем если я закину обычный текст из видео и сделаю Саммари в самом клоде?
Нажмите, чтобы раскрыть...

Если ответить коротко, все будет зависеть от кейса использования. Если нужен просто summary, я думаю, что да. Даже по Open Router это будет дешевле, и вы не будете тратить запросы своего тарифа. Но в целом программа немножко про другое: это про диктовку под курсор, превращение в текст, аудио и видео информации и работу с ней. (В т.ч. автоматизированную через агентов по MCP)

Если использовать Cloud Code или Cloud Desktop, можно будет подключить программу по MCP как клиент. Тогда появится возможность производить поиск в заметках, делать, например, summary за день.

Также можно будет искать по аудио — и видеофайлам, которые просто были закинуты в саму программу.

Ну, например, можно будет закинуть какой-то небольшой курс, и Claude будет по нему искать и подбирать информацию для тех или иных вещей.

В некоторых направлениях, возможно, это будет не очень выгодно. Будет интереснее, наверное, использовать специализированные инструменты. Например, для кодирования лучше будет использовать MCP Tool Contex7...

Но если это любая другая ниша, вероятно, это будет лучший вариант.

+ В ближайшем будущем будет поиск внутри документа, и это так же будет доступно по MCP

skiftut · 30 янв 2026

Приветствую @ProPractic. Недавно собрал себе нечто подобное только из халявного Whisper Key и скрипта Autohotkey батником стартует все и также останавливается Так же два варианта с LM studio или без по одной клавише пишет в форму, по другой и пишет и отправляет. Ну я так скажу, я печатаю быстрей. Ну и по сравнению с Aqua Voice по скорости небо земля. Сильно медленней работает чем Aqua Voice. Как в вашей программе со скоростью обработки голоса в текст? Не могли бы вы записать видео с демонстрацией как быстро работает программа.
PS На всякий укажу машинку на чем тестировал, legion 5 pro c 32 оперативки и 8 видеопамяти.

ProPractic · 30 янв 2026

skiftut сказал(а): ↑

Приветствую @ProPractic. Недавно собрал себе нечто подобное только из халявного Whisper Key и скрипта Autohotkey батником стартует все и также останавливается Так же два варианта с LM studio или без по одной клавише пишет в форму, по другой и пишет и отправляет. Ну я так скажу, я печатаю быстрей. Ну и по сравнению с Aqua Voice по скорости небо земля. Сильно медленней работает чем Aqua Voice. Как в вашей программе со скоростью обработки голоса в текст? Не могли бы вы записать видео с демонстрацией как быстро работает программа.
PS На всякий укажу машинку на чем тестировал, legion 5 pro c 32 оперативки и 8 видеопамяти.
Нажмите, чтобы раскрыть...

Добрый день! Это действительно хороший вариант сборки.

Про печать, возможно, это больше маркетинг, но мне бывает действительно иногда лень печатать. Или хочется ответить голосом, потому что во время лекций очень много говорю и уже привык к этому.

Если говорить про скорость работы, то это примерно час аудио обрабатывается около двух минут на моей видеокарте. Я пробовал на другой машине, где стоит видеокарта 3050 с четырьмя, гигабайтами видеопамяти. Скорость обработки такая же, очень большая!

Обработка диктофонных записей, вот вроде этой, что вы сейчас читаете, занимает секунды. А если говорить про процессор, то тут, конечно, всё будет очень сильно зависеть от мощности.

Допустим, на стареньком ноутбуке жены, Core i5 восьмого поколения, четыре ядра, восемь потоков, одна минута аудио обрабатывается примерно 40 секунд. На своём процессоре я пока что не пробовал, но хочу попробовать. Но здесь, конечно же, не стоит ждать какой-то фантастики. Думаю что лучшее железо по CPU даст не больше чем x5 от продолжительности аудио (1минута за 12 секунд). В первую очередь, расчёт именно на видеокарту.

Если будет запрос, я смогу подключить облачный Whisper, но, конечно же, за это тогда придётся платить по API. Так же, по запросу, можно будет сделать выбор модели. Чтобы даже на слабых машинах можно было получить 1минута за 5 секунд например...

m0hi4y · 30 янв 2026

ProPractic сказал(а): ↑

@m0hi4y А подскажите, чем сейчас видео выкачиваете с Ютуба - у меня было пару хороших плагинов но не один ни на одном видео не сработал...
Нажмите, чтобы раскрыть...

Обычно Скрытая ссылка
Но последнее время не всегда получается.
На днях узнал про Stacher io
Но еще не проверял.

ProPractic · 30 янв 2026

PlatonXXL сказал(а): ↑

@ProPractic
Я хочу вашу программу. У мне нет денег. Я их потратил на годы покупки курсов на складчике. Но у мен горы курсов. Я болен, нету сил. Подарите мне вашу программу. Хочу подарок.(((,,,,,,я лью слёзы. Придется опять брать кредит. Помогите.
Нажмите, чтобы раскрыть...

Ответил в ЛС

ProPractic · 30 янв 2026

m0hi4y сказал(а): ↑

Обычно Скрытая ссылка
Но последнее время не всегда получается.
На днях узнал про Stacher io
Но еще не проверял.
Нажмите, чтобы раскрыть...

@m0hi4y Видео уже в папочке с примерами
Создал отдельную папку YOUTUBE TEST (ссылка в посте ниже)

ProPractic сказал(а): ↑

Подготовил демонстрационное видео: вы можете посмотреть, как работает программа.

Также это видео было потом обработано в ней, и вы сможете оценить качество постобработки локальной модели Gemma 3 (4 миллиарда параметров), а также облачной моделью OpenRouter - Gemini Flash 3.

И третий файл вообще никакой постобработки, просто то, что вы получаете из программы: с разбивкой на абзацы и с тайм-кодами.

Если есть такая возможность, попрошу модераторов ссылочку закрепить в стартовом посте
Нажмите, чтобы раскрыть...

skiftut · 30 янв 2026

@ProPractic. По поводу выкачивания с ютуба программа Internet Download Manager есть минус, платная (но когда нас это останавливало, у нас же есть импортозамещение, в виде ru-board) если лениво настраивать прокси в браузере или запускать (запрещенное слово из трех букАв), заходим в Яндекс браузере в поиск видео и ищем нужное видео там в этом варианте срабатывает качалка в 90% случаев.

ProPractic · 30 янв 2026

skiftut сказал(а): ↑

@ProPractic. По поводу выкачивания с ютуба программа Internet Download Manager есть минус, платная (но когда нас это останавливало, у нас же есть импортозамещение, в виде ru-board) если лениво настраивать прокси в браузере или запускать (запрещенное слово из трех букАв), заходим в Яндекс браузере в поиск видео и ищем нужное видео там в этом варианте срабатывает качалка в 90% случаев.
Нажмите, чтобы раскрыть...

Благодарю, я года два назад писал скрипт под это дело, но, эти библиотеки так быстро устаревают, что, наверное, сейчас бы пришлось искать новые варианты и все переписывать. Google не любит когда не платят за YouTube API

Cubinec · 31 янв 2026

возможно, чтобы обработанные данные с видео как то систематизировались в формате для Обсидиан? Тем более, что вы профи в нем. )

ProPractic · 31 янв 2026

Cubinec сказал(а): ↑

возможно, чтобы обработанные данные с видео как то систематизировались в формате для Обсидиан? Тем более, что вы профи в нем. )
Нажмите, чтобы раскрыть...

Добрый день. Да, это можно будет сделать без проблем.
Я думаю, что достаточно будет хорошего промпта, где мы попросим модель постобработки сделать заголовки, подзаголовки, а также оформление Markdown Style для Obsidian.

Единственное, что вероятно потребуется умная модель, то есть либо мощное железо, либо уже OpenRouter.

Xxxvita · 31 янв 2026

У меня Linux Manjaro. Что на счёт этой ОС и вообще Linux?
Как Ваша вариация использования Whisper Large ведёт себя со смешанной речью? Хотя бы rus + en.

ProPractic · 31 янв 2026

Xxxvita сказал(а): ↑

У меня Linux Manjaro. Что на счёт этой ОС и вообще Linux?
Как Ваша вариация использования Whisper Large ведёт себя со смешанной речью? Хотя бы rus + en.
Нажмите, чтобы раскрыть...

Программа готовится на всех операционных системах, но конкретно эта выдача будет на Windows. Позже, если будет интерес, я сделаю отдельные темы для macOS и Linux. И здесь я бы очень попросил написать тех, кому это будет актуально.

По поводу смешанной речи — это достаточно расплывчатая история. Я бы хотел какие-то конкретные примеры, может быть, с того же YouTube. И тогда я, как и по прошлому запросу, мог бы сделать демонстративный тест.

Если говорить про всякие слова, термины и англицизмы, технические термины — без проблем.
Если 50 на 50, я не знаю, что получится, честно говоря, такие тесты я не проводил.

Cubinec · 31 янв 2026

какого объема видео прога сможет обрабатывать? и какое железо посоветуете, будут рекомендации?