[Авторская] [Windows|MacOS] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic] [Повтор-1]

ProPractic · 26 мар 2026

evgennsk154 сказал(а): ↑

Когда ориентировочно старт?
Нажмите, чтобы раскрыть...

@evgennsk154
Привет!

Нужно набрать народ
Думаю еще недели 2-3 примерно, не меньше

Milky · 28 мар 2026

Подскажите пожалуйста, а к этой версии будет реализованы скриншотики из материала который транскрибируется?
И будет ли возможность самому обновлять версию виспера?

И еще уточню- если винду буду переставлять, то нужно будет крутиться с активацией, да?

ProPractic · 30 мар 2026

Milky сказал(а): ↑

Подскажите пожалуйста, а к этой версии будет реализованы скриншотики из материала который транскрибируется?
И будет ли возможность самому обновлять версию виспера?

И еще уточню- если винду буду переставлять, то нужно будет крутиться с активацией, да?
Нажмите, чтобы раскрыть...

@Milky,
Привет! Спасибо за интерес. Скриншоты будут реализованы: сейчас уже есть работа со снимками, но в рамках отдельного процесса. Возможность захвата непосредственно из видео появится в ближайших обновлениях.

В программе предусмотрено несколько разных версий Whisper. Насколько я знаю, сейчас эта модель не развивается, и последняя вышедшая версия — Whisper Large 3 Turbo.

Она также будет доступна. Я хотел бы уточнить, на какую именно версию хочется обновить Whisper. Потенциально я рассматриваю вариант работы с облачным Whisper для очень слабых машин или для обработки очень больших объемов данных.

При переустановке Windows возиться с активацией не нужно будет. Старый лицензионный ключ подойдет при условии, что не была изменена дисковая система.

Например, если старый SSD был заменен на новый скоростной NVMe или был совершен переезд на другой компьютер, в таком случае придется запросить новый ключ.

Записано с помощью WVM

intelligent man · 2 апр 2026

@ProPractic,
Здравствуйте.
1)

ProPractic сказал(а): ↑

Базовый вариант (без постобработки):
1) Минимальные (базовый режим: только распознавание)
2) Комфортный (распознавание быстро и стабильно + облачная постобработка)
Нажмите, чтобы раскрыть...

ProPractic сказал(а): ↑

Записано с помощью WVM
Нажмите, чтобы раскрыть...

Есть видео в реальном времени этих двух режимов? Если нет, то прошу записать.
2) Чем это удобнее голосового ввода в Windows 11? Или других бесплатных вариантов режима "голос → под курсор".
3) Например, беру android смартфон, открываю телегу и Google клавиатуру, там нажимаю кнопку микрофона. И ввожу текст голосом, потом чуть правлю и отправляю. Это занимает какое-то время. Ваша программа в среде Windows, она будет это делать сопоставимо по времени или дольше? Качество вашего распознавания текста будет выше? Меньше или без ошибок? Спрашиваю, чтобы было с чем сравнить. Так как нельзя затестить вашу программу, как демку.
4) Какой надо купить микрофон для вашей программы? Есть в вашей инструкции по софту, советы по выбору микрофона, типа гайдов. Явно же, что без микрофона, нельзя делать "голос → под курсор". Я смотрел веб-страницы подобных программ и там отмечают, что очень важен хороший и правильный микрофон. Чем лучше звук, тем лучше итоговый результат. Вы вообще про это ничего не пишите.
5)

ProPractic сказал(а): ↑

Пожизненную лицензию (Lifetime) на 3 ваших компьютера.
Нажмите, чтобы раскрыть...

Например, вы пропали из интернета, а я купил новый компьютер. Какие есть варианты запустить вашу программу? Никаких, потерянные деньги?
6)

ProPractic сказал(а): ↑

У меня была мысль сделать как примочкуTelegram-бота, чтобы при включенном компьютере можно было отправлять аудиосообщения или другие медиа туда, загружать и получать, может быть, в ответ даже распознавание.
Нажмите, чтобы раскрыть...

Да, это было бы полезно.
А может, можно что-то смастерить через Obsidian? И выдать, это здесь как бонус. Имеется в виду вариант реализации без использования или с использованием вашей программы.
Или например, используешь на смартфоне Яндекс диск. Создал там папку Диктофон и закинул туда аудиозапись. Есть включенный компьютер с вашей программой. И она сканирует данную папку. Программа увидела аудиофайл и сохранила рядом текстовый файл. Я зашёл со смартфона и открыл этот текстовый файл. Но с большим компьютером в этот момент никак не взаимодействовал. Как вариант.
7) Посмотрел ваш скриншот горячих клавиш. У вас же там глобальные горячие клавиши? Можно туда добавить формат alt + key и ещё F клавиши для Windows?
Зачем мне нажимать три кнопки, если удобнее нажимать одну F4 или две alt + z. Я нажал F4, что-то говорю, потом нажал F4 во второй раз. Моя аудиозапись голоса обработалась и пошла автовставка под курсор.
8)

ProPractic сказал(а): ↑

В ней гораздо больше возможностей, чем было на том запуске.
Нажмите, чтобы раскрыть...

Может есть смысл, сделать разные тарифы? Кому нужен режим "голос → под курсор", оплатил его и цена ниже. В будущем, если захотел делать транскрибации, доплатил и перешёл на другой тариф. Просто для некоторых, навороты могут быть избыточными.
9) Автозагрузка на Windows и ваша программа. Есть? Добавьте такую настройку.
10) Есть дорожная карта по будущим новым "фичам"? Например, подружить вашу программу с Obsidian.

Milky · 3 апр 2026

Огромное спасибо за ответы!

ProPractic сказал(а): ↑

на какую именно версию хочется обновить Whisper.
Нажмите, чтобы раскрыть...

Не на какую конкретно, но учитывать если вдруг выйдет где-то обновление, можно ли его прикрутить

ProPractic · 6 апр 2026

Milky сказал(а): ↑

Огромное спасибо за ответы!
Нажмите, чтобы раскрыть...

Milky сказал(а): ↑

Не на какую конкретно, но учитывать если вдруг выйдет где-то обновление, можно ли его прикрутить
Нажмите, чтобы раскрыть...

@Milky
Добрый день, спасибо за интерес!
На самом деле модели Whisper выходят очень редко, и если такое событие случится, обязательно, конечно же, я сделаю обновление.

Модели не вшиваются в приложение. Установщик весит полтора гигабайта, и это тяжелые зависимости Python.
При первом запуске загружается модель, которая выбрана в настройках, поэтому те библиотеки, которые используются, если выйдет обновление модели Whisper, тоже обновятся. Я, соответственно, обеспечу работоспособность следующей версии модели Whisper, если такая появится.

ProPractic · 6 апр 2026

intelligent man сказал(а): ↑

Есть видео в реальном времени этих двух режимов? Если нет, то прошу записать.
2) Чем это удобнее голосового ввода в Windows 11? Или других бесплатных вариантов режима "голос → под курсор".
3) Например, беру android смартфон, открываю телегу и Google клавиатуру, там нажимаю кнопку микрофона. И ввожу текст голосом, потом чуть правлю и отправляю. Это занимает какое-то время. Ваша программа в среде Windows, она будет это делать сопоставимо по времени или дольше? Качество вашего распознавания текста будет выше? Меньше или без ошибок? Спрашиваю, чтобы было с чем сравнить. Так как нельзя затестить вашу программу, как демку.
4) Какой надо купить микрофон для вашей программы? Есть в вашей инструкции по софту, советы по выбору микрофона, типа гайдов. Явно же, что без микрофона, нельзя делать "голос → под курсор". Я смотрел веб-страницы подобных программ и там отмечают, что очень важен хороший и правильный микрофон. Чем лучше звук, тем лучше итоговый результат. Вы вообще про это ничего не пишите.
5)
Нажмите, чтобы раскрыть...

@intelligent, Добрый день
Во-первых, можно будет выбрать очень качественную модель распознавания голоса. Во-вторых, её можно будет немножко донастроить, чтобы она лучше понимала то, что вы говорите. Допустим, без донастройки у меня сервис Lemon Squeezy распознавался некорректно. Я просто добавил это слово, и модель отдаёт текст нормальным.

Ни на Android, ни на Windows вы не получите нормальных знаков препинания, соблюдения правил русского языка, изменения стилистики текста исходя из ваших пожеланий, перевода на другой язык и тому подобных вещей.

Вы можете опираться на отзывы, которые есть в предыдущей теме, их уже почти 20 штук. Я думаю, что здесь вы не пожалеете, но, конечно же, всё будет зависеть от железа, которым вы располагаете.

Хорошие, какие-то специальные конденсаторные микрофоны не нужны. Я использую веб-камеру, допустим, достаточно часто. И большинство участников, я тоже думаю, не имеют каких-то специальных особых микрофонов.

Главное, чтобы вас было слышно и человеческое ухо могло понять, о чём вы говорите.

Вот этот текст я не редактировал вообще. Возникает вопрос: ваш голосовой набор Windows 11 сможет так сделать или даже перевести его, допустим, на арабский язык?

عزيزي المستخدم، لن تندم.

---

intelligent man сказал(а): ↑

Например, вы пропали из интернета, а я купил новый компьютер. Какие есть варианты запустить вашу программу? Никаких, потерянные деньги?
6)
Нажмите, чтобы раскрыть...

Честно скажу, никаких гарантий. Посмотрите на мой аккаунт: я на Складчике уже больше 10 лет. Напишите в приватную тему, напишите в личку — я выдам вам лицензию. Без проблем.

Какие могут быть гарантии, что любая фирма, в которой вы купите софт, не закроется? Что вы не сможете скачать установщик с их официального сайта? Я думаю, что здесь тоже нет каких-либо особых гарантий.

intelligent man сказал(а): ↑

Да, это было бы полезно.
А может, можно что-то смастерить через Obsidian? И выдать, это здесь как бонус. Имеется в виду вариант реализации без использования или с использованием вашей программы.
Или например, используешь на смартфоне Яндекс диск. Создал там папку Диктофон и закинул туда аудиозапись. Есть включенный компьютер с вашей программой. И она сканирует данную папку. Программа увидела аудиофайл и сохранила рядом текстовый файл. Я зашёл со смартфона и открыл этот текстовый файл. Но с большим компьютером в этот момент никак не взаимодействовал. Как вариант.
7) Посмотрел ваш скриншот горячих клавиш. У вас же там глобальные горячие клавиши? Можно туда добавить формат alt + key и ещё F клавиши для Windows?
Зачем мне нажимать три кнопки, если удобнее нажимать одну F4 или две alt + z. Я нажал F4, что-то говорю, потом нажал F4 во второй раз. Моя аудиозапись голоса обработалась и пошла автовставка под курсор.
8)
Нажмите, чтобы раскрыть...

Честно скажу, у меня повешена горячая клавиша на кнопку мыши, и фактически я нажимаю одну кнопку мыши для начала записи и эту же кнопку мыши для окончания записи, поэтому здесь я вообще не напрягаюсь.

Но если потребуется, я думаю, что мы сможем поработать с горячими клавишами, сделать комбинации из двух клавиш. Я не тестировал, возможно, это сейчас уже так же будет работать.

Безусловно, возможны пересечения с горячими клавишами других приложений и конфликты. Здесь это уже ваша зона ответственности, потому что я без понятия, каким приложением вы пользуетесь.

intelligent man сказал(а): ↑

Может есть смысл, сделать разные тарифы? Кому нужен режим "голос → под курсор", оплатил его и цена ниже. В будущем, если захотел делать транскрибации, доплатил и перешёл на другой тариф. Просто для некоторых, навороты могут быть избыточными.
9) Автозагрузка на Windows и ваша программа. Есть? Добавьте такую настройку.
10) Есть дорожная карта по будущим новым "фичам"? Например, подружить вашу программу с Obsidian.
Нажмите, чтобы раскрыть...

Для диктовки под курсор есть бесплатные приложения, которые в принципе достаточно неплохо работают. Их можно найти, просто задав вопрос в ChatGPT, и он выдаст несколько вариантов.

Здесь идея шире: можно автоматизировать задачи, связанные с медиафайлами — поиск по видео, в будущем поиск по смыслам и поиск по видеоряду. Я думаю, что это также очень интересно многим складчикам.

Голосовой ввод — сейчас я знаю как минимум два приложения, которые делают эту функцию бесплатно, и как будто бы нет смысла продавать то, что доступно в популярных приложениях.

ProPractic · 6 апр 2026

@intelligent,
Вот видео с работой программы. Правда, визуально она стала гораздо более приятной, много новых функций появилось, но концептуально, я думаю, эти видео помогут разобраться, как это работает, с какой скоростью, и подумать, стоит ли покупать или нет. Свежее видео я постараюсь сделать в ближайшее время.

Скрытое содержимое.

katena_slastena · 6 апр 2026

ProPractic сказал(а): ↑

@intelligent,
Вот видео с работой программы. Правда, визуально она стала гораздо более приятной, много новых функций появилось, но концептуально, я думаю, эти видео помогут разобраться, как это работает, с какой скоростью, и подумать, стоит ли покупать или нет. Свежее видео я постараюсь сделать в ближайшее время.
Нажмите, чтобы раскрыть...

Добрый вечер! Будет ли инструкция к программе? А то судя по видео, для меня программа кажется сложной)

ProPractic · 6 апр 2026

katena_slastena сказал(а): ↑

Добрый вечер! Будет ли инструкция к программе? А то судя по видео, для меня программа кажется сложной)
Нажмите, чтобы раскрыть...

@katena_slastena, Добрый вечер. Есть видео-гайды, я буду их обновлять, потому что графический интерфейс изменился, стал более приятным, поэтому видео-инструкции обязательно будут.

intelligent man · 7 апр 2026

ProPractic сказал(а): ↑

у меня повешена горячая клавиша на кнопку мыши, и фактически я нажимаю одну кнопку мыши для начала записи и эту же кнопку мыши для окончания записи, поэтому здесь я вообще не напрягаюсь.
Нажмите, чтобы раскрыть...

О, это очень круто
А какая у вас модель мыши? И на какую клавишу мыши, вы повесили эту функцию? Будем перенимать этот опыт.

Скрытое содержимое.

howard roark · 8 апр 2026

Какое нужно железо, чтобы транскрибация часового видео не занимало столько же реального времени? На m1 pro 32 gb было долго

howard roark · 8 апр 2026

Когда сбор?

ProPractic · 8 апр 2026

howard roark сказал(а): ↑

Какое нужно железо, чтобы транскрибация часового видео не занимало столько же реального времени? На m1 pro 32 gb было долго
Нажмите, чтобы раскрыть...

howard roark сказал(а): ↑

Когда сбор?
Нажмите, чтобы раскрыть...

Привет!
Сборы думаю будут в течении 2х недель примерно, будем обсуждать это с Гарантом
Рассчитывай, примерно на такое:

С учетом того, что для видио курсов при постобработке хорошей моделью и норм. качестве звука можно ставить small

ProPractic · 8 апр 2026

CUDA Nvidia - для счастливых обладателей видеокарт

alr42 · 8 апр 2026

Есть ли такая фича - настроил директорию и промт для неё - закидываю файлы, программа сама видит, по очереди распознаём, обрабатывает, текст пишет в файл рядом с видео.
И так настроить пару директорий с несколькими разными промтами?
Мне проще файлы скопировать, чем мышкой их тягать.

alr42 · 8 апр 2026

Еще вопрос, пробовал другую программу тоже whister, максимально большая модель, так она подглючивала, плохо распознавала числительные и часть слов пропускала, и писала про диму тормозка. Буду ли тут такие же проблемы? Я не понимаю это проблема софта, микрофона или моей дикции.

ProPractic · 9 апр 2026

alr42 сказал(а): ↑

Есть ли такая фича - настроил директорию и промт для неё - закидываю файлы, программа сама видит, по очереди распознаём, обрабатывает, текст пишет в файл рядом с видео.
И так настроить пару директорий с несколькими разными промтами?
Мне проще файлы скопировать, чем мышкой их тягать.
Нажмите, чтобы раскрыть...

@alr42
Привет! Такой функционал уже имеется. Единственное, что prompt будет один общий на всех. Сейчас в программе есть глобально два варианта обработки.

Это идеальное сохранение смысла с удалением слов-паразитов, расстановка знаков припинания для полной синхронизации с таймлайном видео. Таким образом, мы можем получить хороший, качественный перевод на другой язык, замечательные субтитры и тому подобные вещи.

Другой вариант предполагает уже искажение количества слов, творческую постобработку, и синхронизация такого будет, конечно же, не идеальна. В целом-то, можно просто делать постобработку одним promptом.

Сейчас уже есть разные папки для отслеживания, их можно добавлять, чтобы они запускались по расписанию, по таймеру или вручную. Функционала на каждую папку давать разный prompt пока нет, но я не думаю, что с этим могут быть большие проблемы.

Если очень сильно захочется, я смогу это добавить.

alr42 сказал(а): ↑

Еще вопрос, пробовал другую программу тоже whister, максимально большая модель, так она подглючивала, плохо распознавала числительные и часть слов пропускала, и писала про диму тормозка. Буду ли тут такие же проблемы? Я не понимаю это проблема софта, микрофона или моей дикции.
Нажмите, чтобы раскрыть...

То, что ты видел, называется галлюцинации модели. Саму модель обучали на огромном количестве субтитров, в том числе и аниме, и сериалы, и авторские всякие переводы. Поэтому субтитры подготовил Дима Тормозок! Это, по сути, есть галлюцинация модели Whisper для русскоязычных текстов. На каждом из языков, которые поддерживает модель, есть свой набор таких галлюцинаций. Примерно месяц назад я подключил стороннюю библиотеку с открытой лицензией, которая знает все популярные галлюцинации на всех поддерживаемых языках этой модели, и она их вырезает. Есть даже такая специальная настройка в моей программе, которая позволит это ещё более точно и детально сконфигурировать. Поэтому таких проблем быть не должно. Модель великолепно понимает речь. Если её сможет нормально как-то разобрать человеческое ухо, соответственно, модель её тоже сможет понять. Если у тебя очень дешёвый микрофон, слабый какой-то ноутбук с низким качеством звука, конечно, тогда нужно менять микрофон. Но если это какая-то обычная веб-камера, то тут проблем вообще никаких не будет.

alr42 · 9 апр 2026

1. хорошо что уже есть функционал что текст пишет в файл рядом с видео, а то я посмотрел видео с демо и там такого не увидел и не понимаю подойдёт ли мне
2. да, хочется разные промты

ProPractic · 10 апр 2026

alr42 сказал(а): ↑

1. хорошо что уже есть функционал что текст пишет в файл рядом с видео, а то я посмотрел видео с демо и там такого не увидел и не понимаю подойдёт ли мне
2. да, хочется разные промты
Нажмите, чтобы раскрыть...

Видео сделано уже достаточно давно там появилось многофункционалов в частности массовый экспорт транскрипции