Открыто

[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

Тема в разделе "Бизнес и свое дело", создана пользователем ProPractic, 28 янв 2026.

Цена: 4600р.
Взнос: 4600р.
15%
Внимание! Сбор взносов 15 фев 2026

Основной список: 43 участников

  1. 28 янв 2026
    #1
    ProPractic
    ProPractic ОргОрганизатор (А)

    Складчина: [Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

    Ваш Персональный Командный Центр с поддержкой MCP

    История о том, как я выбросил клавиатуру после 16 лет слепой печати и заставил AI работать на меня...

    upload_2026-1-28_12-29-30.jpeg

    :eek: У вас тоже есть эта папка? "Разобрать позже"?

    Давайте честно, мы находимся на Складчике, и все мы немного страдаем "синдромом хомяка". У каждого из нас на жестком диске лежат сотни гигабайт "мертвого груза", до которого просто не доходят руки. Это курсы, которые "надо глянуть на выходных", записи вебинаров по 3-4 часа и бесконечные аудио-лекции.

    Вы скачали их, потому что там есть ценность и вы за неё заплатили, но у вас физически нет времени смотреть 3 часа "воды", чтобы найти 5 минут "мяса". В итоге эти знания не работают на вас, они просто занимают место на диске и вызывают чувство вины за потраченные средства. Пора остановить этот бесконечный цикл отложенной жизни.

    А теперь представьте другую реальность.
    Вы берете папку с 10-часовым видео-курсом, перетаскиваете файлы в окно программы и спокойно идете заваривать чай. Whisper Voice Machine начинает "слушать" эти файлы в ускоренном режиме, пока вы отдыхаете. Возвращаетесь, а у вас перед глазами полный, структурированный текст, в котором вы мгновенно находите ответ на свой вопрос.

    Whisper Voice Machine (WVM)
    Ваш комбайн по переработке сырого контента и мыслей в структурированную базу знаний.

    :cool: Почему я перестал печатать (владея слепой печатью 16 лет)?

    Я разработчик, и мои пальцы бегают по клавиатуре быстрее, чем у 90% людей, чем я всегда гордился. Но 3 месяца назад я понял страшную правду: печать - это главное "узкое горлышко" моей продуктивности. Я думаю быстрее, чем печатаю, и пока я формулирую мысль, правлю опечатки и тянусь к Backspace - идея ускользает или мутирует.

    Я написал WVM, чтобы убрать этого неуклюжего посредника (клавиатуру) между моим мозгом и компьютером навсегда. Теперь я просто нажимаю кнопку на мыши, откидываюсь в кресле, закрываю глаза и говорю все, что приходит в голову. Программа не просто записывает звук, она думает за меня, превращая поток сознания в готовый документ.

    :) Три режима использования
    Узнайте себя в одном из них
    1. Для "Коллекционеров Знаний" (Складчиков)
      Перестаньте копить гигабайты, начните их монетизировать и применять здесь и сейчас.
      Сценарий: У вас есть запись зум-созвона, купленный курс или длинная лекция на английском.
      Магия: Закиньте файл в WVM (Drag & Drop). Через несколько минут у вас есть текстовая расшифровка и перевод.
      Результат: Попросите AI сделать саммари: "Выдели главные инсайты и составь список задач". Вы "посмотрели" 2-часовое видео за 5 минут чтения.
    2. Для SMM, Копирайтеров и Креаторов
      Вам знакомо чувство "чистого листа", когда курсор мигает, а в голове звенящая пустота?
      Решение: Пойдите гулять с собакой или мыть посуду, надиктовывая поток идей, обрывки фраз и шутки в телефон.
      Обработка: Пришли, закинули аудио в WVM и применили промт "Сделай пост в стиле Ильяхова".
      Итог: Черновик готов, вам остается только опубликовать, превращаясь в настоящую фабрику контента.
    3. Для Управленцев и Менеджеров
      Вас бесят бесконечные переписки, но вы обязаны соблюдать корпоративный этикет?
      Действие: Нажмите хоткей и выплесните эмоции: "Скажи этому <цензура>, что он сорвал все сроки, и мы расторгаем договор!".
      Результат: В чат вставляется идеально выверенное, холодное и юридически грамотное письмо. Ваша нервная система скажет вам спасибо, а репутация останется безупречной.
    :cool: Ваш технологический арсенал

    1. Тотальный отказ от ручной печати
    Диктуйте везде: Word, Telegram, Браузер, IDE, Notion. Где мигает курсор - туда летит идеальный текст. Вы сами пишете промты для обработки, создавая свой уникальный стиль.

    2. "Пожиратель Курсов": Видео в Текст + Перевод
    Купили крутой курс на английском, но уровень языка не позволяет смотреть в оригинале? Закиньте видео в WVM с промтом "Переведи на русский и оформи как конспект". Вы получите готовую методичку на родном языке.

    3. Model Content Protocol (MCP Server)
    Технология будущего, доступная сегодня.
    WVM выступает сервером для ваших AI-агентов (Claude Desktop, IDE агенты).
    Вы можете попросить Claude Desktop (или иную программу): "Проанализируй мои записи за прошлую неделю и найди идеи для стартапа". Агент сам залезет в вашу локальную базу, найдет нужное и даже откроет документ перед вами. Сделать саммари "сегодняшних заметок" или поискать "то самое видео про X и открыть его в программе."

    4. Умный поиск и База Знаний
    Все ваши мысли сохраняются локально. Мгновенный полнотекстовый поиск по архиву, фильтрация по датам. Ни одна гениальная мысль больше не потеряется.

    1.png
    Окно поиска: Ваша база знаний всегда под рукой

    2.png

    Настройки AI: Полная свобода в выборе моделей и промтов​

    Я уважаю ваше железо и кошелек, поэтому говорю как есть — без маркетингового обмана.

    1) Распознавание (Уши) — 100% локально
    Локально через ядро Whisper. Ваши файлы и голос никогда не уходят на чужие сервера. Абсолютная приватность.

    Базовый вариант (без постобработки):
    Вы можете выключить постобработку и работать почти что на любом современном компьютере.
    Нужно примерно 8 ГБ ОЗУ и нормальный современный процессор. Начиная от Intel 8-го поколения — вообще комфортно. Но у меня это работает даже на Intel 4-го поколения.
    Это самый доступный режим.

    2) Постобработка (Мозги) — на ваш выбор
    • Вариант №2 — облачная постобработка (максимум качества на слабом ПК)
      Если вы хотите постобработку, но у вас слабая машина — подключаете облачную LLM и получаете суперкачественную, супербыструю постобработку.
      Пример: OpenRouter (Gemini Flash, DeepSeek и др.).
      Экономика: обработка огромного лонгрида стоит пару центов, а вашей диктофонной записи — десятой цента.
    • Вариант №3 — локальная постобработка (тотальная приватность)
      Если вы хотите постобработку локально и без облака — вам потребуется мощное железо.
      Минимум: видеокарта от 8 ГБ VRAM — это режим для самых простых моделей постобработки.
      Рекомендуется: 16 ГБ VRAM, если хотите действительно качественную постобработку и комфорт.
      Из современных относительно недорогих вариантов — условная xx60 Ti на 16 ГБ.

      Из протестированных мной моделей отлично себя показывают:
      Qwen 3 (4B и 8B), Gemma 3 (разные размеры).
      Но если вы хотите очень качественную постобработку — лучше ориентироваться на 16 ГБ VRAM в локальном режиме.
      Я сам чаще использую облачную постобработку (через OpenRouter), потому что у меня нет суперконфиденциальных данных.
      Но если бы я был юристом или психотерапевтом — я бы использовал исключительно локальные варианты.
    Системные требования (3 уровня)

    1) Минимальные (базовый режим: только распознавание)
    Для кого: если вам нужна расшифровка аудио/видео в текст, без постобработки LLM (без «улучшайзинга», саммари, задач и т.д.).
    • CPU: Intel Core от 4-го поколения (у меня работает на таком железе).
    • ОЗУ: 8 ГБ.
    • GPU: не обязателен (можно на CPU, просто будет медленнее).
    Что вы получаете: абсолютную приватность и максимальную совместимость — подходит почти для любого «живого» ПК.

    2) Комфортный (распознавание быстро и стабильно + облачная постобработка)
    Для кого: если вы хотите «красивый» текст (саммари, инсайты, задачи, стиль письма), но ваш компьютер не тянет локальные LLM — вы подключаете облако (OpenRouter и т.п.).
    • CPU: Intel Core от 8-го поколения (или аналогичный современный Ryzen).
    • ОЗУ: 16 ГБ (можно 8 ГБ, но 16 — заметно спокойнее).
    • GPU: желательно Nvidia от 4 ГБ (например GTX 1050 Ti), чтобы распознавание шло комфортно. (Можно и без GPU, но медленнее.)
    • Интернет: нужен только для постобработки (распознавание всё равно локальное).
    Что вы получаете: быстрый локальный Whisper + сверхкачественную постобработку «в облаке» за копейки.

    3) Максимальный (тотальная автономность: распознавание + локальная постобработка)
    Для кого: если вам нужна постобработка LLM строго локально (максимальная приватность) и вы хотите скорость/качество без облака.
    • ОЗУ: 32 ГБ (минимум 16 ГБ, но 32 — правильная база под локальные LLM).
    • GPU: Nvidia RTX с 16 ГБ VRAM — рекомендуется для качественной локальной постобработки (8 ГБ VRAM — минимум для самых простых моделей, но качество/комфорт ниже).
    • CPU: современный многоядерный (чем мощнее — тем лучше), но основной упор тут в GPU/VRAM.
    Что вы получаете: полный «локальный комбайн» — и распознавание, и постобработка на вашей машине, без передачи текста/данных в облако. На моём Ryzen 7 5700x + 32bg ram + 3080 10gb vram простые локальные модели вполне неплохо крутятся.

    :cool: Почему lifetimeI, а не подписка?

    Я разработчик-одиночка, который пользуется своим продуктом каждый день. Западные аналоги (SuperWhisper, Otter) просят $15-20 в месяц вечно. Здесь, эксклюзивно на Складчике, вы получаете:
    • Пожизненную лицензию (Lifetime) на 3 ваших компьютера.
    • Пакет «Системных промтов» (SMM, деловой стиль, кодинг).
    • Прямую поддержку от автора в этой теме.
    • Гарантию безопасности: программа логирует только технические ошибки. Никаких личных данных, текстов или ключей никуда не отправляется.
    Важно по-честному про обновления и поддержку:
    Обновления — 3 месяца, поддержка — 6 месяцев (в рамках этой версии).
    Я буду слушать пожелания, допиливать программу и собирать обратную связь — я готовлю продукт к релизу на международном рынке, и мне важно обкатать всё на живых сценариях.
    На международном рынке она, вероятно, будет стоить дороже.
    Код будет защищен через обфускацию. Привязка к железу.
    Вы получаете установщик, который установит софт на ваш компьютер (всё по взрослому))


    Хватит печатать и копить информацию. Начните управлять ею.

    :D Специальный бонус за рекламу
    Сделайте 3 рекламных поста и получите расширенный пакет "Golden Pack" промтов​

    Внутри бонуса набор:

    "Telegram-Машина" — посты из бубнежа.
    "Корректор" — исправление ошибок с сохранением стиля.
    "Деловая Акула" — жесткие юридические письма.
    "Кодер" — оформление алгоритмов в чистый код.

    Записывайтесь. В повторе, цена будет выше. А на обновления мажорных версий вас будет ждать скидка.

    Все экраны приложения.

    upload_2026-1-28_12-29-30.jpeg 2026-01-27_22-58-35.jpg 2026-01-27_22-59-16.jpg 2026-01-27_22-59-37.jpg 2026-01-27_22-59-46.jpg 2026-01-27_23-00-00.jpg 2026-01-27_23-00-08.jpg 2026-01-27_23-00-19.jpg 2026-01-27_23-00-27.jpg 2026-01-27_23-00-35.jpg
     
    Последнее редактирование модератором: 7 фев 2026 в 20:27
    5 пользователям это понравилось.
  2. Последние события

    1. kuler
      kuler участвует.
      10 фев 2026 в 20:55
    2. Ivela
      Ivela участвует.
      10 фев 2026 в 09:14
    3. Vahter
      Vahter участвует.
      10 фев 2026 в 09:00
    4. evaio
      evaio не участвует.
      10 фев 2026 в 06:16

    Последние важные события

    1. skladchik.com
      Сбор взносов начинается 15.02.2026.
      8 фев 2026 в 20:12
    2. skladchik.com
      ProPractic организатор.
      7 фев 2026 в 20:27
  3. Обсуждение
  4. 28 янв 2026
    #2
    ProPractic
    ProPractic ОргОрганизатор (А)
    Софт уже полностью написан, упакован в .exe и создан установщик для Windows.

    Сейчас происходит адаптация под macOS, также есть полностью функциональная версия. Если будут желающие, я обязательно сделаю отдельную тему под macOS.

    Лицензия будет выдана на три машины с привязкой к вашему железу. Большие и крупные обновления в будущем будут происходить для участников уже со скидкой.

    И здесь также я еще сделаю серию постов про возможности программы и с радостью отвечу на все ваши вопросы.

    Будет вкусный бонус за отзыв.

    Кстати, этот текст тоже был только что надиктован. И оформлен этой программой.
     
    2 пользователям это понравилось.
  5. 28 янв 2026
    #3
    Рома У
    Рома У ЧКЧлен клуба
    Подскажите, можно ли делать такое саммари курса, чтобы не было проблем с авторскими правами. Чтобы он отличался от оригинала и его можно было как-то распространять без риск

    И еще вопрос "Возвращаетесь, а у вас перед глазами полный, структурированный текст, в котором вы мгновенно находите ответ на свой вопрос." Полный текст это слово в слово как в оригинале или софт делает уже сам структуру убирая лишнее: слова паразиты и тд
     
    Последнее редактирование: 28 янв 2026
    1 человеку нравится это.
  6. 28 янв 2026
    #4
    ProPractic
    ProPractic ОргОрганизатор (А)
    При этом я хочу обратить внимание на то, что вам всегда будет доступна возможность посмотреть оригинальный исходник и обработать его повторно другим промптом.

    То есть, часть, где ваш голос распознается в текст, она неизменяема, а вторым слоем идет часть постобработки. Таким образом, мы собираем небольшой слоеный пирог из информации.
    upload_2026-1-28_17-25-41.png
    upload_2026-1-28_17-26-18.png
     
    3 пользователям это понравилось.
  7. 28 янв 2026
    #5
    ProPractic
    ProPractic ОргОрганизатор (А)
    Подготовил демонстрационное видео: вы можете посмотреть, как работает программа.

    Также это видео было потом обработано в ней, и вы сможете оценить качество постобработки локальной модели Gemma 3 (4 миллиарда параметров), а также облачной моделью OpenRouter - Gemini Flash 3.

    И третий файл вообще никакой постобработки, просто то, что вы получаете из программы: с разбивкой на абзацы и с тайм-кодами.



    Если есть такая возможность, попрошу модераторов ссылочку закрепить в стартовом посте :rolleyes:
     
    4 пользователям это понравилось.
  8. 28 янв 2026
    #6
    m0hi4y
    m0hi4y ЧКЧлен клуба
    С помощью программы можно переводить с любых языков?
    Видео/аудио любой длительности возможно отдавать программе? И как много времени занимает перевод например видео длительностью 1 час?
    Насколько близки и адекватны итоговые переводы к оригиналу? Ведь часто нейронки наглючивают то, чего и не было в контенте.
     
    1 человеку нравится это.
  9. 29 янв 2026
    #7
    ProPractic
    ProPractic ОргОрганизатор (А)
    @m0hi4y, спасибо за вопрос :)

    Буду честен, это не лекарство от всех болезней. Распознавание аудио сильно зависит от языка, от качества записи, от произношения диктора, от наличия шумов.

    Ниже я предлагаю табличку, где вы можете посмотреть, какие языки могут плохо распознаться. Соответственно, если они плохо распознаются, какая бы классная модель постобработки ни была, даже облачная, вероятно, с ней будут проблемы. Хорошая новость в том, что модель распознавания обучалась примерно на 100 языках. И европейская группа языков, славянская группа языков, большинство азиатских языков будут хорошо распознаваться.

    Распознавание: Гарантированно проблемы могут быть с китайским языком и тюркской группой, наверное (если так можно сказать): казахский, узбекский, таджикский.

    Вы, в принципе, можете посмотреть табличку. Если вам нужно распознавать эти языки, чтобы потом их на что-то переводить, возможно, программа для вас не очень актуальна.

    upload_2026-1-29_11-13-38.png

    Допустим, сейчас у меня рядом ездит робот-пылесос, и вроде бы распознавание происходит неплохо. (Вы читаете этот текст)

    Если говорить про перевод, это уже касается второго этапа обработки. Этим занимается модель, которая делает пост-обработку.

    Это будет означать то, что качество перевода будет зависеть от того, какая модель у вас будет этим заниматься. И здесь, наверное, я бы не стал полагаться на локальные модели. Конечно же, если вы не обладатель очень мощного железа, я доверился бы качественным моделям, которые доступны по облаку. И вот они, я уверен, что сделают очень достойный перевод того, что распознает локальная модель.
     
    Последнее редактирование: 29 янв 2026
    2 пользователям это понравилось.
  10. 29 янв 2026
    #8
    ProPractic
    ProPractic ОргОрганизатор (А)
    Если вы дадите конкретные задачи, я могу прогнать тесты, и мы посмотрим на результат.
    Может быть, видео с YouTube и целевой язык
     
    1 человеку нравится это.
  11. 29 янв 2026
    #9
    Kaliostro666
    Kaliostro666 ЧКЧлен клуба
    @ProPractic, добрый день!
    Подскажите, а делает ли Ваша программа конспекты с видео, защищенных инфопротектором?)
     
    2 пользователям это понравилось.
  12. 29 янв 2026
    #10
    ProPractic
    ProPractic ОргОрганизатор (А)
    Добрый день!

    Честно сказать я не помню как выглядит файл инфопротектора

    Если это обычный видеофайл то без проблем. Программа извлекает аудио дорожку с помощью ffmpeg

    Обработки видеоряда пока нет...

    Ну если я не ошибаюсь там всё гораздо сложнее (
     
    1 человеку нравится это.
  13. 29 янв 2026
    #11
    Kaliostro666
    Kaliostro666 ЧКЧлен клуба
    Ну да) Там видео в формате *.ipr ))
     
    1 человеку нравится это.
  14. 29 янв 2026
    #12
    ProPractic
    ProPractic ОргОрганизатор (А)


    К сожалению это немножко другого профиля софт
     
    1 человеку нравится это.
  15. 29 янв 2026
    #13
    m0hi4y
    m0hi4y ЧКЧлен клуба
    Например:


     
    1 человеку нравится это.
  16. 29 янв 2026
    #14
    anderson10
    anderson10 ЧКЧлен клуба
    Там зашифрованный файл, поэтому для работы с ним нужно как-то извратиться, чтобы извлечь звук. Можно звук записать во время проигрывания файла в плеере инфопротектора, например, на диктофон. И распознавать/транскрибировать уже диктофонную запись, представленную в виде привычного мультимедийного файла. С файлами инфопротектора может работать только сам инфопротектор. Иначе какой смысл шифровать файл так, чтобы его можно было расшифровать без проблем? :) А в инфопротекторе файл зашифрован по самое "не балуй" :(
     
    3 пользователям это понравилось.
  17. 29 янв 2026
    #15
    Holdi
    Holdi ЧКЧлен клуба
    А приложение на телефон можно будет сделать или может наработки какие есть? Или технически это можно реализовать только на компе?
     
    1 человеку нравится это.
  18. 29 янв 2026
    #16
    ProPractic
    ProPractic ОргОрганизатор (А)
    Технически это возможно. Ну, допустим, у Super Whisper есть приложение под iOS. Есть легковесные модели, которые могут делать распознавание голоса менее качественно, чем Whisper, но если хочется серьезной постобработки, то конечно же это только десктопная версия.

    У меня была мысль сделать как примочкуTelegram-бота, чтобы при включенном компьютере можно было отправлять аудиосообщения или другие медиа туда, загружать и получать, может быть, в ответ даже распознавание. Но пока что я отказался от этой идеи.
     
    3 пользователям это понравилось.
  19. 29 янв 2026
    #17
    Holdi
    Holdi ЧКЧлен клуба
    по моему было бы неплохо облегченную версию на андройде иметь))) С возможностью синхронизироваться с десктопной версией или что то подобное)
     
    1 человеку нравится это.
  20. 29 янв 2026
    #18
    ProPractic
    ProPractic ОргОрганизатор (А)
    Честно скажу, глядя на то, как раскаляет мой MacBook на чипе M3 на 8 гигабайт памяти, а также видеокарту 3080 на 10 гигабайт видеопамяти, эти модели, мне кажется, что то, что сейчас работает на мобильных устройствах, является детской игрушкой.

    Единственное, в чем я лично вижу смысл — это возможность отправки заданий на локальную машину, ну или какую-то синхронизацию истории, чтобы можно было работать с информацией на Android.

    Вот как раз для этого я думал делать с Telegram-ботом: куда можно просто отправлять аудиофайлы, видеофайлы, пересылать аудиосообщения от кого-либо и чтобы все это сохранялось локально в собственной базе данных.

    По итогу, возможно, с отправкой в ответ расшифрованных текстов также в Telegram. Плюс тут открывается какая-то опция с совместной работой, то есть можно дать доступ еще нескольким людям для работы с конкретной базой данных.
     
    3 пользователям это понравилось.
  21. 29 янв 2026
    #19
    ProPractic
    ProPractic ОргОрганизатор (А)
    @m0hi4y А подскажите, чем сейчас видео выкачиваете с Ютуба - у меня было пару хороших плагинов но не один ни на одном видео не сработал...
     
  22. 30 янв 2026
    #20
    Hillman_T
    Hillman_T ЧКЧлен клуба
    Вопросом транскрибации интересуюсь тоже довольно давно - в результате пользуюсь PLAUD NOTE. Теперь буду сравнивать с
    Whisper Voice Machine
     
    2 пользователям это понравилось.