Открыто

[Авторская] [Windows|MacOS] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic] [Повтор-1]

Тема в разделе "Бизнес и свое дело", создана пользователем ProPractic, 15 мар 2026.

Цена: 5 800р
Взнос: 5 800р

Основной список: 27 участников

  1. 26 мар 2026
    #21
    ProPractic
    ProPractic ОргОрганизатор (А)
    @evgennsk154
    Привет! :)

    Нужно набрать народ
    Думаю еще недели 2-3 примерно, не меньше
     
    1 человеку нравится это.
  2. 28 мар 2026
    #22
    Milky
    Milky ЧКЧлен клуба
    Подскажите пожалуйста, а к этой версии будет реализованы скриншотики из материала который транскрибируется? :)
    И будет ли возможность самому обновлять версию виспера? :)

    И еще уточню- если винду буду переставлять, то нужно будет крутиться с активацией, да? :)
     
  3. 30 мар 2026
    #23
    ProPractic
    ProPractic ОргОрганизатор (А)
    @Milky,
    Привет! Спасибо за интерес. Скриншоты будут реализованы: сейчас уже есть работа со снимками, но в рамках отдельного процесса. Возможность захвата непосредственно из видео появится в ближайших обновлениях.

    В программе предусмотрено несколько разных версий Whisper. Насколько я знаю, сейчас эта модель не развивается, и последняя вышедшая версия — Whisper Large 3 Turbo.

    Она также будет доступна. Я хотел бы уточнить, на какую именно версию хочется обновить Whisper. Потенциально я рассматриваю вариант работы с облачным Whisper для очень слабых машин или для обработки очень больших объемов данных.

    При переустановке Windows возиться с активацией не нужно будет. Старый лицензионный ключ подойдет при условии, что не была изменена дисковая система.

    Например, если старый SSD был заменен на новый скоростной NVMe или был совершен переезд на другой компьютер, в таком случае придется запросить новый ключ.

    Записано с помощью WVM :)
     
    1 человеку нравится это.
  4. 2 апр 2026
    #24
    intelligent man
    intelligent man ОргОрганизатор
    @ProPractic,
    Здравствуйте.
    1)
    Есть видео в реальном времени этих двух режимов? Если нет, то прошу записать.
    2) Чем это удобнее голосового ввода в Windows 11? Или других бесплатных вариантов режима "голос → под курсор".
    3) Например, беру android смартфон, открываю телегу и Google клавиатуру, там нажимаю кнопку микрофона. И ввожу текст голосом, потом чуть правлю и отправляю. Это занимает какое-то время. Ваша программа в среде Windows, она будет это делать сопоставимо по времени или дольше? Качество вашего распознавания текста будет выше? Меньше или без ошибок? Спрашиваю, чтобы было с чем сравнить. Так как нельзя затестить вашу программу, как демку.
    4) Какой надо купить микрофон для вашей программы? Есть в вашей инструкции по софту, советы по выбору микрофона, типа гайдов. Явно же, что без микрофона, нельзя делать "голос → под курсор". Я смотрел веб-страницы подобных программ и там отмечают, что очень важен хороший и правильный микрофон. Чем лучше звук, тем лучше итоговый результат. Вы вообще про это ничего не пишите.
    5)
    Например, вы пропали из интернета, а я купил новый компьютер. Какие есть варианты запустить вашу программу? Никаких, потерянные деньги?
    6)
    Да, это было бы полезно.
    А может, можно что-то смастерить через Obsidian? И выдать, это здесь как бонус. Имеется в виду вариант реализации без использования или с использованием вашей программы.
    Или например, используешь на смартфоне Яндекс диск. Создал там папку Диктофон и закинул туда аудиозапись. Есть включенный компьютер с вашей программой. И она сканирует данную папку. Программа увидела аудиофайл и сохранила рядом текстовый файл. Я зашёл со смартфона и открыл этот текстовый файл. Но с большим компьютером в этот момент никак не взаимодействовал. Как вариант.
    7) Посмотрел ваш скриншот горячих клавиш. У вас же там глобальные горячие клавиши? Можно туда добавить формат alt + key и ещё F клавиши для Windows?
    Зачем мне нажимать три кнопки, если удобнее нажимать одну F4 или две alt + z. Я нажал F4, что-то говорю, потом нажал F4 во второй раз. Моя аудиозапись голоса обработалась и пошла автовставка под курсор.
    8)
    Может есть смысл, сделать разные тарифы? Кому нужен режим "голос → под курсор", оплатил его и цена ниже. В будущем, если захотел делать транскрибации, доплатил и перешёл на другой тариф. Просто для некоторых, навороты могут быть избыточными.
    9) Автозагрузка на Windows и ваша программа. Есть? Добавьте такую настройку.
    10) Есть дорожная карта по будущим новым "фичам"? Например, подружить вашу программу с Obsidian.
     
  5. 3 апр 2026
    #25
    Milky
    Milky ЧКЧлен клуба
    Огромное спасибо за ответы!

    Не на какую конкретно, но учитывать если вдруг выйдет где-то обновление, можно ли его прикрутить :)
     
    1 человеку нравится это.
  6. 6 апр 2026
    #26
    ProPractic
    ProPractic ОргОрганизатор (А)
    @Milky
    Добрый день, спасибо за интерес! :)
    На самом деле модели Whisper выходят очень редко, и если такое событие случится, обязательно, конечно же, я сделаю обновление.

    Модели не вшиваются в приложение. Установщик весит полтора гигабайта, и это тяжелые зависимости Python.
    При первом запуске загружается модель, которая выбрана в настройках, поэтому те библиотеки, которые используются, если выйдет обновление модели Whisper, тоже обновятся. Я, соответственно, обеспечу работоспособность следующей версии модели Whisper, если такая появится.
     
    1 человеку нравится это.
  7. 6 апр 2026
    #27
    ProPractic
    ProPractic ОргОрганизатор (А)
    @intelligent, Добрый день :)
    Во-первых, можно будет выбрать очень качественную модель распознавания голоса. Во-вторых, её можно будет немножко донастроить, чтобы она лучше понимала то, что вы говорите. Допустим, без донастройки у меня сервис Lemon Squeezy распознавался некорректно. Я просто добавил это слово, и модель отдаёт текст нормальным.

    Ни на Android, ни на Windows вы не получите нормальных знаков препинания, соблюдения правил русского языка, изменения стилистики текста исходя из ваших пожеланий, перевода на другой язык и тому подобных вещей.

    Вы можете опираться на отзывы, которые есть в предыдущей теме, их уже почти 20 штук. Я думаю, что здесь вы не пожалеете, но, конечно же, всё будет зависеть от железа, которым вы располагаете.

    Хорошие, какие-то специальные конденсаторные микрофоны не нужны. Я использую веб-камеру, допустим, достаточно часто. И большинство участников, я тоже думаю, не имеют каких-то специальных особых микрофонов.

    Главное, чтобы вас было слышно и человеческое ухо могло понять, о чём вы говорите.

    Вот этот текст я не редактировал вообще. Возникает вопрос: ваш голосовой набор Windows 11 сможет так сделать или даже перевести его, допустим, на арабский язык?

    عزيزي المستخدم، لن تندم. :cool:

    ---
    Честно скажу, никаких гарантий. Посмотрите на мой аккаунт: я на Складчике уже больше 10 лет. Напишите в приватную тему, напишите в личку — я выдам вам лицензию. Без проблем.

    Какие могут быть гарантии, что любая фирма, в которой вы купите софт, не закроется? Что вы не сможете скачать установщик с их официального сайта? Я думаю, что здесь тоже нет каких-либо особых гарантий.
    Честно скажу, у меня повешена горячая клавиша на кнопку мыши, и фактически я нажимаю одну кнопку мыши для начала записи и эту же кнопку мыши для окончания записи, поэтому здесь я вообще не напрягаюсь.

    Но если потребуется, я думаю, что мы сможем поработать с горячими клавишами, сделать комбинации из двух клавиш. Я не тестировал, возможно, это сейчас уже так же будет работать.

    Безусловно, возможны пересечения с горячими клавишами других приложений и конфликты. Здесь это уже ваша зона ответственности, потому что я без понятия, каким приложением вы пользуетесь.
    Для диктовки под курсор есть бесплатные приложения, которые в принципе достаточно неплохо работают. Их можно найти, просто задав вопрос в ChatGPT, и он выдаст несколько вариантов.

    Здесь идея шире: можно автоматизировать задачи, связанные с медиафайлами — поиск по видео, в будущем поиск по смыслам и поиск по видеоряду. Я думаю, что это также очень интересно многим складчикам.

    Голосовой ввод — сейчас я знаю как минимум два приложения, которые делают эту функцию бесплатно, и как будто бы нет смысла продавать то, что доступно в популярных приложениях.
     
    2 пользователям это понравилось.
  8. 6 апр 2026
    #28
    ProPractic
    ProPractic ОргОрганизатор (А)
    @intelligent,
    Вот видео с работой программы. Правда, визуально она стала гораздо более приятной, много новых функций появилось, но концептуально, я думаю, эти видео помогут разобраться, как это работает, с какой скоростью, и подумать, стоит ли покупать или нет. Свежее видео я постараюсь сделать в ближайшее время.
     
    1 человеку нравится это.
  9. 6 апр 2026
    #29
    katena_slastena
    katena_slastena ЧКЧлен клуба
    Добрый вечер! Будет ли инструкция к программе? А то судя по видео, для меня программа кажется сложной)
     
    1 человеку нравится это.
  10. 6 апр 2026
    #30
    ProPractic
    ProPractic ОргОрганизатор (А)
    @katena_slastena, Добрый вечер. Есть видео-гайды, я буду их обновлять, потому что графический интерфейс изменился, стал более приятным, поэтому видео-инструкции обязательно будут.
     
    1 человеку нравится это.
  11. 7 апр 2026
    #31
    intelligent man
    intelligent man ОргОрганизатор
    О, это очень круто :cool:
    А какая у вас модель мыши? И на какую клавишу мыши, вы повесили эту функцию? Будем перенимать этот опыт.
     
  12. 8 апр 2026
    #32
    howard roark
    howard roark ЧКЧлен клуба
    Какое нужно железо, чтобы транскрибация часового видео не занимало столько же реального времени? На m1 pro 32 gb было долго
     
    1 человеку нравится это.
  13. 8 апр 2026
    #33
    howard roark
    howard roark ЧКЧлен клуба
    Когда сбор?
     
    1 человеку нравится это.
  14. 8 апр 2026
    #34
    ProPractic
    ProPractic ОргОрганизатор (А)
    Привет!
    Сборы думаю будут в течении 2х недель примерно, будем обсуждать это с Гарантом :)
    Рассчитывай, примерно на такое:

    upload_2026-4-8_20-12-27.png

    С учетом того, что для видио курсов при постобработке хорошей моделью и норм. качестве звука можно ставить small
     
    1 человеку нравится это.
  15. 8 апр 2026
    #35
    ProPractic
    ProPractic ОргОрганизатор (А)
    CUDA Nvidia - для счастливых обладателей видеокарт :)
    upload_2026-4-8_20-28-59.png
     
    1 человеку нравится это.
  16. 8 апр 2026
    #36
    alr42
    alr42 ЧКЧлен клуба
    Есть ли такая фича - настроил директорию и промт для неё - закидываю файлы, программа сама видит, по очереди распознаём, обрабатывает, текст пишет в файл рядом с видео.
    И так настроить пару директорий с несколькими разными промтами?
    Мне проще файлы скопировать, чем мышкой их тягать.
     
    1 человеку нравится это.
  17. 8 апр 2026
    #37
    alr42
    alr42 ЧКЧлен клуба
    Еще вопрос, пробовал другую программу тоже whister, максимально большая модель, так она подглючивала, плохо распознавала числительные и часть слов пропускала, и писала про диму тормозка. Буду ли тут такие же проблемы? Я не понимаю это проблема софта, микрофона или моей дикции.
     
    1 человеку нравится это.
  18. 9 апр 2026 в 13:09
    #38
    ProPractic
    ProPractic ОргОрганизатор (А)
    @alr42
    Привет! Такой функционал уже имеется. Единственное, что prompt будет один общий на всех. Сейчас в программе есть глобально два варианта обработки.

    Это идеальное сохранение смысла с удалением слов-паразитов, расстановка знаков припинания для полной синхронизации с таймлайном видео. Таким образом, мы можем получить хороший, качественный перевод на другой язык, замечательные субтитры и тому подобные вещи.

    Другой вариант предполагает уже искажение количества слов, творческую постобработку, и синхронизация такого будет, конечно же, не идеальна. В целом-то, можно просто делать постобработку одним promptом.

    Сейчас уже есть разные папки для отслеживания, их можно добавлять, чтобы они запускались по расписанию, по таймеру или вручную. Функционала на каждую папку давать разный prompt пока нет, но я не думаю, что с этим могут быть большие проблемы.

    Если очень сильно захочется, я смогу это добавить.

    То, что ты видел, называется галлюцинации модели. Саму модель обучали на огромном количестве субтитров, в том числе и аниме, и сериалы, и авторские всякие переводы. Поэтому субтитры подготовил Дима Тормозок! Это, по сути, есть галлюцинация модели Whisper для русскоязычных текстов. На каждом из языков, которые поддерживает модель, есть свой набор таких галлюцинаций. Примерно месяц назад я подключил стороннюю библиотеку с открытой лицензией, которая знает все популярные галлюцинации на всех поддерживаемых языках этой модели, и она их вырезает. Есть даже такая специальная настройка в моей программе, которая позволит это ещё более точно и детально сконфигурировать. Поэтому таких проблем быть не должно. Модель великолепно понимает речь. Если её сможет нормально как-то разобрать человеческое ухо, соответственно, модель её тоже сможет понять. Если у тебя очень дешёвый микрофон, слабый какой-то ноутбук с низким качеством звука, конечно, тогда нужно менять микрофон. Но если это какая-то обычная веб-камера, то тут проблем вообще никаких не будет.
     
  19. 9 апр 2026 в 19:07
    #39
    alr42
    alr42 ЧКЧлен клуба
    1. хорошо что уже есть функционал что текст пишет в файл рядом с видео, а то я посмотрел видео с демо и там такого не увидел и не понимаю подойдёт ли мне
    2. да, хочется разные промты
     
    1 человеку нравится это.
  20. 10 апр 2026 в 16:19
    #40
    ProPractic
    ProPractic ОргОрганизатор (А)
    Видео сделано уже достаточно давно там появилось многофункционалов в частности массовый экспорт транскрипции