Доступно

[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

Тема в разделе "Бизнес и свое дело", создана пользователем ProPractic, 28 янв 2026.

Цена: 273240р.
Взнос: 4600р.
98%

Основной список: 67 участников

Статус обсуждения:
Комментирование ограничено.
  1. 28 янв 2026
    #1
    ProPractic
    ProPractic ОргОрганизатор (А)

    Складчина: [Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

    Ваш Персональный Командный Центр с поддержкой MCP

    История о том, как я выбросил клавиатуру после 16 лет слепой печати и заставил AI работать на меня...

    upload_2026-1-28_12-29-30.jpeg

    :eek: У вас тоже есть эта папка? "Разобрать позже"?

    Давайте честно, мы находимся на Складчике, и все мы немного страдаем "синдромом хомяка". У каждого из нас на жестком диске лежат сотни гигабайт "мертвого груза", до которого просто не доходят руки. Это курсы, которые "надо глянуть на выходных", записи вебинаров по 3-4 часа и бесконечные аудио-лекции.

    Вы скачали их, потому что там есть ценность и вы за неё заплатили, но у вас физически нет времени смотреть 3 часа "воды", чтобы найти 5 минут "мяса". В итоге эти знания не работают на вас, они просто занимают место на диске и вызывают чувство вины за потраченные средства. Пора остановить этот бесконечный цикл отложенной жизни.

    А теперь представьте другую реальность.
    Вы берете папку с 10-часовым видео-курсом, перетаскиваете файлы в окно программы и спокойно идете заваривать чай. Whisper Voice Machine начинает "слушать" эти файлы в ускоренном режиме, пока вы отдыхаете. Возвращаетесь, а у вас перед глазами полный, структурированный текст, в котором вы мгновенно находите ответ на свой вопрос.

    Whisper Voice Machine (WVM)
    Ваш комбайн по переработке сырого контента и мыслей в структурированную базу знаний.

    :cool: Почему я перестал печатать (владея слепой печатью 16 лет)?

    Я разработчик, и мои пальцы бегают по клавиатуре быстрее, чем у 90% людей, чем я всегда гордился. Но 3 месяца назад я понял страшную правду: печать - это главное "узкое горлышко" моей продуктивности. Я думаю быстрее, чем печатаю, и пока я формулирую мысль, правлю опечатки и тянусь к Backspace - идея ускользает или мутирует.

    Я написал WVM, чтобы убрать этого неуклюжего посредника (клавиатуру) между моим мозгом и компьютером навсегда. Теперь я просто нажимаю кнопку на мыши, откидываюсь в кресле, закрываю глаза и говорю все, что приходит в голову. Программа не просто записывает звук, она думает за меня, превращая поток сознания в готовый документ.

    :) Три режима использования
    Узнайте себя в одном из них
    1. Для "Коллекционеров Знаний" (Складчиков)
      Перестаньте копить гигабайты, начните их монетизировать и применять здесь и сейчас.
      Сценарий: У вас есть запись зум-созвона, купленный курс или длинная лекция на английском.
      Магия: Закиньте файл в WVM (Drag & Drop). Через несколько минут у вас есть текстовая расшифровка и перевод.
      Результат: Попросите AI сделать саммари: "Выдели главные инсайты и составь список задач". Вы "посмотрели" 2-часовое видео за 5 минут чтения.
    2. Для SMM, Копирайтеров и Креаторов
      Вам знакомо чувство "чистого листа", когда курсор мигает, а в голове звенящая пустота?
      Решение: Пойдите гулять с собакой или мыть посуду, надиктовывая поток идей, обрывки фраз и шутки в телефон.
      Обработка: Пришли, закинули аудио в WVM и применили промт "Сделай пост в стиле Ильяхова".
      Итог: Черновик готов, вам остается только опубликовать, превращаясь в настоящую фабрику контента.
    3. Для Управленцев и Менеджеров
      Вас бесят бесконечные переписки, но вы обязаны соблюдать корпоративный этикет?
      Действие: Нажмите хоткей и выплесните эмоции: "Скажи этому <цензура>, что он сорвал все сроки, и мы расторгаем договор!".
      Результат: В чат вставляется идеально выверенное, холодное и юридически грамотное письмо. Ваша нервная система скажет вам спасибо, а репутация останется безупречной.
    :cool: Ваш технологический арсенал

    1. Тотальный отказ от ручной печати
    Диктуйте везде: Word, Telegram, Браузер, IDE, Notion. Где мигает курсор - туда летит идеальный текст. Вы сами пишете промты для обработки, создавая свой уникальный стиль.

    2. "Пожиратель Курсов": Видео в Текст + Перевод
    Купили крутой курс на английском, но уровень языка не позволяет смотреть в оригинале? Закиньте видео в WVM с промтом "Переведи на русский и оформи как конспект". Вы получите готовую методичку на родном языке.

    3. Model Content Protocol (MCP Server)
    Технология будущего, доступная сегодня.
    WVM выступает сервером для ваших AI-агентов (Claude Desktop, IDE агенты).
    Вы можете попросить Claude Desktop (или иную программу): "Проанализируй мои записи за прошлую неделю и найди идеи для стартапа". Агент сам залезет в вашу локальную базу, найдет нужное и даже откроет документ перед вами. Сделать саммари "сегодняшних заметок" или поискать "то самое видео про X и открыть его в программе."

    4. Умный поиск и База Знаний
    Все ваши мысли сохраняются локально. Мгновенный полнотекстовый поиск по архиву, фильтрация по датам. Ни одна гениальная мысль больше не потеряется.

    1.png
    Окно поиска: Ваша база знаний всегда под рукой

    2.png

    Настройки AI: Полная свобода в выборе моделей и промтов​

    Я уважаю ваше железо и кошелек, поэтому говорю как есть — без маркетингового обмана.

    1) Распознавание (Уши) — 100% локально
    Локально через ядро Whisper. Ваши файлы и голос никогда не уходят на чужие сервера. Абсолютная приватность.

    Базовый вариант (без постобработки):
    Вы можете выключить постобработку и работать почти что на любом современном компьютере.
    Нужно примерно 8 ГБ ОЗУ и нормальный современный процессор. Начиная от Intel 8-го поколения — вообще комфортно. Но у меня это работает даже на Intel 4-го поколения.
    Это самый доступный режим.

    2) Постобработка (Мозги) — на ваш выбор
    • Вариант №2 — облачная постобработка (максимум качества на слабом ПК)
      Если вы хотите постобработку, но у вас слабая машина — подключаете облачную LLM и получаете суперкачественную, супербыструю постобработку.
      Пример: OpenRouter (Gemini Flash, DeepSeek и др.).
      Экономика: обработка огромного лонгрида стоит пару центов, а вашей диктофонной записи — десятой цента.
    • Вариант №3 — локальная постобработка (тотальная приватность)
      Если вы хотите постобработку локально и без облака — вам потребуется мощное железо.
      Минимум: видеокарта от 8 ГБ VRAM — это режим для самых простых моделей постобработки.
      Рекомендуется: 16 ГБ VRAM, если хотите действительно качественную постобработку и комфорт.
      Из современных относительно недорогих вариантов — условная xx60 Ti на 16 ГБ.

      Из протестированных мной моделей отлично себя показывают:
      Qwen 3 (4B и 8B), Gemma 3 (разные размеры).
      Но если вы хотите очень качественную постобработку — лучше ориентироваться на 16 ГБ VRAM в локальном режиме.
      Я сам чаще использую облачную постобработку (через OpenRouter), потому что у меня нет суперконфиденциальных данных.
      Но если бы я был юристом или психотерапевтом — я бы использовал исключительно локальные варианты.
    Системные требования (3 уровня)

    1) Минимальные (базовый режим: только распознавание)
    Для кого: если вам нужна расшифровка аудио/видео в текст, без постобработки LLM (без «улучшайзинга», саммари, задач и т.д.).
    • CPU: Intel Core от 4-го поколения (у меня работает на таком железе).
    • ОЗУ: 8 ГБ.
    • GPU: не обязателен (можно на CPU, просто будет медленнее).
    Что вы получаете: абсолютную приватность и максимальную совместимость — подходит почти для любого «живого» ПК.

    2) Комфортный (распознавание быстро и стабильно + облачная постобработка)
    Для кого: если вы хотите «красивый» текст (саммари, инсайты, задачи, стиль письма), но ваш компьютер не тянет локальные LLM — вы подключаете облако (OpenRouter и т.п.).
    • CPU: Intel Core от 8-го поколения (или аналогичный современный Ryzen).
    • ОЗУ: 16 ГБ (можно 8 ГБ, но 16 — заметно спокойнее).
    • GPU: желательно Nvidia от 4 ГБ (например GTX 1050 Ti), чтобы распознавание шло комфортно. (Можно и без GPU, но медленнее.)
    • Интернет: нужен только для постобработки (распознавание всё равно локальное).
    Что вы получаете: быстрый локальный Whisper + сверхкачественную постобработку «в облаке» за копейки.

    3) Максимальный (тотальная автономность: распознавание + локальная постобработка)
    Для кого: если вам нужна постобработка LLM строго локально (максимальная приватность) и вы хотите скорость/качество без облака.
    • ОЗУ: 32 ГБ (минимум 16 ГБ, но 32 — правильная база под локальные LLM).
    • GPU: Nvidia RTX с 16 ГБ VRAM — рекомендуется для качественной локальной постобработки (8 ГБ VRAM — минимум для самых простых моделей, но качество/комфорт ниже).
    • CPU: современный многоядерный (чем мощнее — тем лучше), но основной упор тут в GPU/VRAM.
    Что вы получаете: полный «локальный комбайн» — и распознавание, и постобработка на вашей машине, без передачи текста/данных в облако. На моём Ryzen 7 5700x + 32bg ram + 3080 10gb vram простые локальные модели вполне неплохо крутятся.

    :cool: Почему lifetimeI, а не подписка?

    Я разработчик-одиночка, который пользуется своим продуктом каждый день. Западные аналоги (SuperWhisper, Otter) просят $15-20 в месяц вечно. Здесь, эксклюзивно на Складчике, вы получаете:
    • Пожизненную лицензию (Lifetime) на 3 ваших компьютера.
    • Пакет «Системных промтов» (SMM, деловой стиль, кодинг).
    • Прямую поддержку от автора в этой теме.
    • Гарантию безопасности: программа логирует только технические ошибки. Никаких личных данных, текстов или ключей никуда не отправляется.
    Важно по-честному про обновления и поддержку:
    Обновления — 3 месяца, поддержка — 6 месяцев (в рамках этой версии).
    Я буду слушать пожелания, допиливать программу и собирать обратную связь — я готовлю продукт к релизу на международном рынке, и мне важно обкатать всё на живых сценариях.
    На международном рынке она, вероятно, будет стоить дороже.
    Код будет защищен через обфускацию. Привязка к железу.
    Вы получаете установщик, который установит софт на ваш компьютер (всё по взрослому))


    Хватит печатать и копить информацию. Начните управлять ею.

    :D Специальный бонус за рекламу
    Сделайте 3 рекламных поста и получите расширенный пакет "Golden Pack" промтов​

    Внутри бонуса набор:

    "Telegram-Машина" — посты из бубнежа.
    "Корректор" — исправление ошибок с сохранением стиля.
    "Деловая Акула" — жесткие юридические письма.
    "Кодер" — оформление алгоритмов в чистый код.

    Записывайтесь. В повторе, цена будет выше. А на обновления мажорных версий вас будет ждать скидка.

    Все экраны приложения.

    upload_2026-1-28_12-29-30.jpeg 2026-01-27_22-58-35.jpg 2026-01-27_22-59-16.jpg 2026-01-27_22-59-37.jpg 2026-01-27_22-59-46.jpg 2026-01-27_23-00-00.jpg 2026-01-27_23-00-08.jpg 2026-01-27_23-00-19.jpg 2026-01-27_23-00-27.jpg 2026-01-27_23-00-35.jpg
     
    Последнее редактирование модератором: 7 фев 2026
    6 пользователям это понравилось.
  2. Последние события

    1. Masha-123
      Masha-123 оставил отзыв "Отлично".
      1 мар 2026 в 22:41
    2. 11Алекс
      11Алекс участвует.
      25 фев 2026
    3. diversant88
      diversant88 участвует.
      24 фев 2026
    4. skladchik.com
      Складчина доступна.
      23 фев 2026

    Последние важные события

    1. skladchik.com
      Складчина доступна.
      23 фев 2026
    2. skladchik.com
      Складчина активна.
      15 фев 2026
    3. skladchik.com
      Сбор взносов начинается 15.02.2026.
      8 фев 2026
    4. skladchik.com
      ProPractic организатор.
      7 фев 2026
  3. Отзывы участников

    5/5,
    • 5/5,
      Офигеть как я довольна. Не нужно платить сервисам-транскрибаторам - теперь свой собственный транскрибатор на компе. Не нужно переживать, хватит ли лимита в складчине-транскрибаторе , когда нужен транскрибатор. Сегодня столкнулась с текущей задачей, нужно было найти определенный момент в часовом видео. Пересматривать - долго. Загрузила видео в приложение , транскрибировала за 1-2 минуты и через поиск нашла нужный фрагмент. Идеально. Спасибо большое автору! Особое спасибо за поддержку во время установки софта.
      1 мар 2026 в 22:41
      11 пользователям это понравилось.
  4. Обсуждение
  5. 28 янв 2026
    #2
    ProPractic
    ProPractic ОргОрганизатор (А)
    Софт уже полностью написан, упакован в .exe и создан установщик для Windows.

    Сейчас происходит адаптация под macOS, также есть полностью функциональная версия. Если будут желающие, я обязательно сделаю отдельную тему под macOS.

    Лицензия будет выдана на три машины с привязкой к вашему железу. Большие и крупные обновления в будущем будут происходить для участников уже со скидкой.

    И здесь также я еще сделаю серию постов про возможности программы и с радостью отвечу на все ваши вопросы.

    Будет вкусный бонус за отзыв.

    Кстати, этот текст тоже был только что надиктован. И оформлен этой программой.
     
    5 пользователям это понравилось.
  6. 28 янв 2026
    #3
    Рома У
    Рома У ЧКЧлен клуба
    Подскажите, можно ли делать такое саммари курса, чтобы не было проблем с авторскими правами. Чтобы он отличался от оригинала и его можно было как-то распространять без риск

    И еще вопрос "Возвращаетесь, а у вас перед глазами полный, структурированный текст, в котором вы мгновенно находите ответ на свой вопрос." Полный текст это слово в слово как в оригинале или софт делает уже сам структуру убирая лишнее: слова паразиты и тд
     
    Последнее редактирование: 28 янв 2026
    2 пользователям это понравилось.
  7. 28 янв 2026
    #4
    ProPractic
    ProPractic ОргОрганизатор (А)
    При этом я хочу обратить внимание на то, что вам всегда будет доступна возможность посмотреть оригинальный исходник и обработать его повторно другим промптом.

    То есть, часть, где ваш голос распознается в текст, она неизменяема, а вторым слоем идет часть постобработки. Таким образом, мы собираем небольшой слоеный пирог из информации.
    upload_2026-1-28_17-25-41.png
    upload_2026-1-28_17-26-18.png
     
    3 пользователям это понравилось.
  8. 28 янв 2026
    #5
    ProPractic
    ProPractic ОргОрганизатор (А)
    Подготовил демонстрационное видео: вы можете посмотреть, как работает программа.

    Также это видео было потом обработано в ней, и вы сможете оценить качество постобработки локальной модели Gemma 3 (4 миллиарда параметров), а также облачной моделью OpenRouter - Gemini Flash 3.

    И третий файл вообще никакой постобработки, просто то, что вы получаете из программы: с разбивкой на абзацы и с тайм-кодами.



    Если есть такая возможность, попрошу модераторов ссылочку закрепить в стартовом посте :rolleyes:
     
    6 пользователям это понравилось.
  9. 28 янв 2026
    #6
    m0hi4y
    m0hi4y ЧКЧлен клуба
    С помощью программы можно переводить с любых языков?
    Видео/аудио любой длительности возможно отдавать программе? И как много времени занимает перевод например видео длительностью 1 час?
    Насколько близки и адекватны итоговые переводы к оригиналу? Ведь часто нейронки наглючивают то, чего и не было в контенте.
     
    1 человеку нравится это.
  10. 29 янв 2026
    #7
    ProPractic
    ProPractic ОргОрганизатор (А)
    @m0hi4y, спасибо за вопрос :)

    Буду честен, это не лекарство от всех болезней. Распознавание аудио сильно зависит от языка, от качества записи, от произношения диктора, от наличия шумов.

    Ниже я предлагаю табличку, где вы можете посмотреть, какие языки могут плохо распознаться. Соответственно, если они плохо распознаются, какая бы классная модель постобработки ни была, даже облачная, вероятно, с ней будут проблемы. Хорошая новость в том, что модель распознавания обучалась примерно на 100 языках. И европейская группа языков, славянская группа языков, большинство азиатских языков будут хорошо распознаваться.

    Распознавание: Гарантированно проблемы могут быть с китайским языком и тюркской группой, наверное (если так можно сказать): казахский, узбекский, таджикский.

    Вы, в принципе, можете посмотреть табличку. Если вам нужно распознавать эти языки, чтобы потом их на что-то переводить, возможно, программа для вас не очень актуальна.

    upload_2026-1-29_11-13-38.png

    Допустим, сейчас у меня рядом ездит робот-пылесос, и вроде бы распознавание происходит неплохо. (Вы читаете этот текст)

    Если говорить про перевод, это уже касается второго этапа обработки. Этим занимается модель, которая делает пост-обработку.

    Это будет означать то, что качество перевода будет зависеть от того, какая модель у вас будет этим заниматься. И здесь, наверное, я бы не стал полагаться на локальные модели. Конечно же, если вы не обладатель очень мощного железа, я доверился бы качественным моделям, которые доступны по облаку. И вот они, я уверен, что сделают очень достойный перевод того, что распознает локальная модель.
     
    Последнее редактирование: 29 янв 2026
    2 пользователям это понравилось.
  11. 29 янв 2026
    #8
    ProPractic
    ProPractic ОргОрганизатор (А)
    Если вы дадите конкретные задачи, я могу прогнать тесты, и мы посмотрим на результат.
    Может быть, видео с YouTube и целевой язык
     
    1 человеку нравится это.
  12. 29 янв 2026
    #9
    Kaliostro666
    Kaliostro666 ЧКЧлен клуба
    @ProPractic, добрый день!
    Подскажите, а делает ли Ваша программа конспекты с видео, защищенных инфопротектором?)
     
    2 пользователям это понравилось.
  13. 29 янв 2026
    #10
    ProPractic
    ProPractic ОргОрганизатор (А)
    Добрый день!

    Честно сказать я не помню как выглядит файл инфопротектора

    Если это обычный видеофайл то без проблем. Программа извлекает аудио дорожку с помощью ffmpeg

    Обработки видеоряда пока нет...

    Ну если я не ошибаюсь там всё гораздо сложнее (
     
    1 человеку нравится это.
  14. 29 янв 2026
    #11
    Kaliostro666
    Kaliostro666 ЧКЧлен клуба
    Ну да) Там видео в формате *.ipr ))
     
    1 человеку нравится это.
  15. 29 янв 2026
    #12
    ProPractic
    ProPractic ОргОрганизатор (А)


    К сожалению это немножко другого профиля софт
     
    1 человеку нравится это.
  16. 29 янв 2026
    #13
    m0hi4y
    m0hi4y ЧКЧлен клуба
    Например:


     
    1 человеку нравится это.
  17. 29 янв 2026
    #14
    anderson10
    anderson10 ЧКЧлен клуба
    Там зашифрованный файл, поэтому для работы с ним нужно как-то извратиться, чтобы извлечь звук. Можно звук записать во время проигрывания файла в плеере инфопротектора, например, на диктофон. И распознавать/транскрибировать уже диктофонную запись, представленную в виде привычного мультимедийного файла. С файлами инфопротектора может работать только сам инфопротектор. Иначе какой смысл шифровать файл так, чтобы его можно было расшифровать без проблем? :) А в инфопротекторе файл зашифрован по самое "не балуй" :(
     
    3 пользователям это понравилось.
  18. 29 янв 2026
    #15
    Holdi
    Holdi ЧКЧлен клуба
    А приложение на телефон можно будет сделать или может наработки какие есть? Или технически это можно реализовать только на компе?
     
    1 человеку нравится это.
  19. 29 янв 2026
    #16
    ProPractic
    ProPractic ОргОрганизатор (А)
    Технически это возможно. Ну, допустим, у Super Whisper есть приложение под iOS. Есть легковесные модели, которые могут делать распознавание голоса менее качественно, чем Whisper, но если хочется серьезной постобработки, то конечно же это только десктопная версия.

    У меня была мысль сделать как примочкуTelegram-бота, чтобы при включенном компьютере можно было отправлять аудиосообщения или другие медиа туда, загружать и получать, может быть, в ответ даже распознавание. Но пока что я отказался от этой идеи.
     
    3 пользователям это понравилось.
  20. 29 янв 2026
    #17
    Holdi
    Holdi ЧКЧлен клуба
    по моему было бы неплохо облегченную версию на андройде иметь))) С возможностью синхронизироваться с десктопной версией или что то подобное)
     
    1 человеку нравится это.
  21. 29 янв 2026
    #18
    ProPractic
    ProPractic ОргОрганизатор (А)
    Честно скажу, глядя на то, как раскаляет мой MacBook на чипе M3 на 8 гигабайт памяти, а также видеокарту 3080 на 10 гигабайт видеопамяти, эти модели, мне кажется, что то, что сейчас работает на мобильных устройствах, является детской игрушкой.

    Единственное, в чем я лично вижу смысл — это возможность отправки заданий на локальную машину, ну или какую-то синхронизацию истории, чтобы можно было работать с информацией на Android.

    Вот как раз для этого я думал делать с Telegram-ботом: куда можно просто отправлять аудиофайлы, видеофайлы, пересылать аудиосообщения от кого-либо и чтобы все это сохранялось локально в собственной базе данных.

    По итогу, возможно, с отправкой в ответ расшифрованных текстов также в Telegram. Плюс тут открывается какая-то опция с совместной работой, то есть можно дать доступ еще нескольким людям для работы с конкретной базой данных.
     
    4 пользователям это понравилось.
  22. 29 янв 2026
    #19
    ProPractic
    ProPractic ОргОрганизатор (А)
    @m0hi4y А подскажите, чем сейчас видео выкачиваете с Ютуба - у меня было пару хороших плагинов но не один ни на одном видео не сработал...
     
  23. 30 янв 2026
    #20
    Hillman_T
    Hillman_T ЧКЧлен клуба
    Вопросом транскрибации интересуюсь тоже довольно давно - в результате пользуюсь PLAUD NOTE. Теперь буду сравнивать с
    Whisper Voice Machine
     
    2 пользователям это понравилось.
Статус обсуждения:
Комментирование ограничено.