Доступно

[Авторская] [Windows|MacOS] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic] [Повтор-1]

Тема в разделе "Бизнес и свое дело", создана пользователем ProPractic, 15 мар 2026.

Цена: 231 710р
Взнос: 5 800р
100%

Основной список: 47 участников

Статус обсуждения:
Комментирование ограничено.
  1. 16 апр 2026
    #41
    intelligent man
    intelligent man ОргОрганизатор
    @ProPractic,
    Деление на спикеров, у вас есть такое? Например, когда берем в расшифровку интервью с ютуба.
     
    1 человеку нравится это.
  2. 16 апр 2026
    #42
    ProPractic
    ProPractic ОргОрганизатор (А)
    @intelligent man привет!
    Разделение диалога на спикеров с помощью модели называется диаризация, и, на мой взгляд, это не очень надёжная история, потому что при перепадах интонаций она может посчитать, что в диалоге появились лишние спикеры.

    В целом, я пока что не смотрел в эту сторону, и такой функции пока что нет.

    Я смотрю в сторону добавления анализа видеоряда через извлечение и работу со скриншотами, а также на разные автоматизации с помощью внедрения агентских пайплайнов.
     
  3. 22 апр 2026
    #43
    ProPractic
    ProPractic ОргОрганизатор (А)
    Всем добрый день. :)
    Хотел предупредить, чтобы вы не теряли. Уже две недели я пытаюсь получить аккаунт Apple разработчика, с тем чтобы мы могли подписать приложение сертификатом Apple разработчика, чтобы вы на макбуках могли использовать приложение.

    Сейчас приложение под macOS полностью готово и фактически его можно использовать на macOS, но на чужих машинах этот билд будет работать всего одну неделю.

    Таким образом, эта история будет исключительно про тестирование, и чтобы иметь возможность выдать вам нормальную, полноценно работающую программу, и чтобы вам не пришлось скачивать свежие билды раз в 6 дней, мне необходим этот аккаунт.
    Возникли некоторые сложности, связанные со сменой региона Apple ID, но сейчас я уже веду переписку со службой поддержки Apple. Я добрался до людей, и мы решаем эту проблему.

    Скоро я получу этот сертификат, смогу подписать приложение, и мы сразу же стартуем.
    Ориентировочная дата — 10 дней, то есть нам нужно будет ещё примерно 10 дней на это.
     
    5 пользователям это понравилось.
  4. 26 апр 2026
    #44
    lifecoder
    lifecoder ЧКЧлен клуба (А)
    @ProPractic
    Можно пофантазировать?
    Сценарий. ходишь по комнате в гарнитуре. Надиктовываешь мысли. Потом говоришь "симсим" резюмируй. После условного слова "симсим" нейросеть на компьютере передает голосом краткое содержание всего текста. Потом говоришь симсим отметь этот блок как важный и помести в текстовый файл в папку с названием важное и текущей датой. Что и выполняется на компьютере. Ну или еще куда-то в базу знаний. например в обсидиане или программе с базой заметок разделенных по категориям. Такое может применяться - реализуемо? Стоит реализации, есть потенциал?
    То есть прямая обратная связь голосом, в виде более емкой версии блока мыслей на какую-то тему. Ну и, возможно, получение дополнительной информации налету. И, может быть, проверка по запросу на логику и достоверность. В финале - категоризация и помещение в базу.
     
    1 человеку нравится это.
  5. 26 апр 2026
    #45
    lifecoder
    lifecoder ЧКЧлен клуба (А)
    И еще один вопрос: не планируется ли интеграция с Обсидиан?
    И еще один )
    Возможно что-то пропустил в описании.
    Сохраняется ли возможность ввода информации с помощью печати (или настройка гибридного способа - где-то печатаешь, где-то голосом для упорядочивания информации, например). Есть привычка быстро печатать, может чуть медленнее скорости размеренной речи ( +редактировать проще) и не уверен, что переход полностью на голос даст значимое увеличение продуктивности. Набирать + редактировать может оказаться, в ряде сценариев, быстрее и рациональнее, чем надиктовывать и редактировать.
    Пока печатал этот текст добавил, убавил, исправил... несколько раз.

    П.С.
    Не особо понимаю как совмещать.
    Есть проработанная база в Обсидиан. Потом добавится еще одна база внутри этой программы... И наступит хаос вместо покоя.
     
    Последнее редактирование: 26 апр 2026
    1 человеку нравится это.
  6. 26 апр 2026
    #46
    intelligent man
    intelligent man ОргОрганизатор
    1) Есть один видеофайл с длительностью 6 часов. Ваша программа, берёт файлы с какой максимальной продолжительностью по времени?
    2) Видеофайл, там спикер разговаривает и показывает слайды. Я понимаю, что голос пойдёт в расшифровку. Но, спикер показывает слайды с текстом. Они как-то идут в расшифровку?
    3) Я правильно понимаю, что получу полный и очищенный текст видео? Это один файл. И второй файл — это краткий конспект? Например, я не хочу читать краткий конспект. Хочу, чтобы мне его озвучили. Как это сделать?
    4) Какая нейросеть, лучше всего переводит на русский язык?
    5) Например, я закинул файл в данную папку. Как быстро программа увидит файл и приступит к работе? Старт будет через 1 минуту или через 30 минут?
     
    1 человеку нравится это.
  7. 1 май 2026
    #47
    ProPractic
    ProPractic ОргОрганизатор (А)
    @lifecoder
    Добрый день, спасибо за интерес. :)
    Старт планируется, как только я получу сертификат разработчика Apple. Сейчас я общаюсь с живыми людьми из службы поддержки Apple.
    Я выслал им кучу личных документов. У меня уже приняли деньги две недели назад и даже прислали письмо-подтверждение о том, что я теперь сертифицированный разработчик Apple.

    Но доступ к сертификату я так и не получил. У них забуксовал backend из-за того, что я менял регион с России на Казахстан. Пять лет назад, когда я переезжал, я этого не сделал и поменял данные прямо перед оплатой сертификата. :(

    Поэтому у них там всё застопорилось, и мы пытаемся разобраться в ситуации. Я думаю, проблем не должно быть — это просто бюрократия. К сожалению, нужно ещё немножко подождать.
    Программа полностью функциональна, и я готов её отдать. Она будет работать на macOS и Windows. Единственное, на macOS она будет работать в виде сборки не больше недели.

    Потому что такова политика Apple, и мне нужно подписать её своим сертификатом разработчика, который я по-прежнему жду. :(

    ==============

    Очень прикольная идея. :)

    Сейчас у меня это реализовано в формате сложного промта постобработки. Если я в начале голосового сообщения говорю кодовую фразу, соответственно, на постобработке будет не просто постобработка, а будет сделано то, что я пожелал.

    Допустим, перевод на английский язык, какой-то кодовый пример модель может написать или сделать еще что-то. Здесь вопрос в том, что нужно использовать для таких вещей более дорогие, более качественные модели, которые понимают, что мы «ломаем пятую стену» и что в одних случаях нужно действовать так, а в других — совершенно иначе.

    Сейчас нечто подобное уже есть.

    Однако чтобы идти в многоэтапный диалог, нужна несколько иная система. Эта штука уже превращается из умного диктофона в агентский инструмент, где мы общаемся с агентом голосом.

    Такое технически можно сделать, но точно не на локальных моделях, и я бы здесь сделал отдельное приложение.

    Вероятно, это диалоговые модели, которые сейчас есть у OpenAI и Google Gemini, способные вызывать в фоне инструменты. То есть ты говоришь: «Слушай, а что там у нас сегодня по заказам?»

    Она фоном вызывает обращение к базе данных, собирает информацию и через 10 секунд отвечает: «Дорогой друг, с заказами всё круто, 10 заказов сегодня».

    Ты спрашиваешь: «А какие?» И она опять делает уточнение, вызывает фоном инструменты и отвечает. Такую систему можно собрать, но я не вижу здесь интеграции с моим приложением.


    Для моего приложения я вижу агентские функции, планирую их, но это будет в отдаленном будущем, где тексты, курсы и видеоматериалы могут обрабатываться в несколько этапов для получения более сложных вещей.

    Сейчас я работаю так: нажимаю горячую клавишу (она у меня забиндена на мышь), включается диктофон. Я наговариваю свою мысль, нажимаю опять эту же клавишу, диктофон останавливается, происходит распознавание, постобработка, и потом текст вставляется под курсор. Я выделяю его жирным курсивом, а если что-то не нравится — подправляю руками.

    Если понимаю, что делаю это очень часто, я донастраиваю промты. В целом это можно совмещать без проблем, но сама программа не является редактором текста, и контент вставляется туда, где находится курсор.

    Также теоретически есть опция сделать промт, который будет использовать `placeholder` с содержимым буфера обмена. То есть можно что-то выделить мышью, скопировать в буфер и надиктовать текст.

    При постобработке будет учитываться и содержание буфера обмена, и системный промт, и то, что ты надиктовал. Но это сложный кейс: здесь нужна очень хорошая модель, которая не затупит и не исказит всё.
     
    2 пользователям это понравилось.
  8. 1 май 2026
    #48
    ProPractic
    ProPractic ОргОрганизатор (А)
    @lifecoder
    Я планирую скоро курс по Obsidian, где мы будем работать с агентами искусственного интеллекта. Так уж получилось, что я преподаю на восьмимесячных курсах про искусственный интеллект и кодовые агенты для заработка и жизни. Мы сейчас очень детально с ребятами это разбираем, а я собираюсь как раз-таки упаковать это в свой курс и обновить его.

    Я понял, что время пришло. Почти полная автоматизация ведения заметок, перелинковки, дистилляция знаний в деньги — в какой-то хороший классный контент для YouTube, для социальных сетей, а также в платный контент в виде курсов. Идеально интегрируется с приложением :)
     
    3 пользователям это понравилось.
  9. 1 май 2026
    #49
    ProPractic
    ProPractic ОргОрганизатор (А)
    @intelligent man
    Привет! В этом и прелесть, что логического ограничения по таймингам нет. Программа великолепно обрабатывает трехчасовые видеолекции, которые я провожу вживую (записи из мероприятий Teams). У предыдущего потока, я знаю, были и пятичасовые записи.

    После этого программа извлекает аудиодорожку из видео, удаляет тишину (есть специальный механизм для этого) и распознает речь. Языком распознавания признаются первые 10 секунд аудиодорожки.

    Затем распознанный материал по частям проходит постобработку. Можно сделать так, чтобы постобработка была более качественной: к каждой части «пришиваться» целая.

    Тогда модель потратит больше токенов, но при этом вы получите очень качественную постобработку. Можно делать обработку полностью по частям: контекстное окно будет маленьким, токенов потратится меньше, и это даже можно развернуть локально на какой-нибудь мощной видеокарте.

    Вы получаете полный текст, и в зависимости от промпта постобработки он может быть даже идеально синхронизирован с таймингами — например, можно получить качественные субтитры в формате SRT.

    Из программы вы можете выгрузить данные в виде сырого текста Whisper, в виде постобработанного текста, в виде абзацев с таймингами и в формате SRT.

    В большинстве из этих форматов информация может быть добыта даже агентами через MCP-инструменты. Например, Claude Code может автоматизировать задачи, связанные с обработкой большого количества видеоматериалов через мой софт.

    Если вам нужны summary, озвучка или подобные вещи — вы можете просто взять весь текст и отправить его в ChatGPT, Qwen или DeepSeek — они сделают вам отличное резюме.
    Хотя я уже думаю в этом направлении :)

    Сейчас все модели достаточно неплохо справляются с переводом на русский язык, здесь проблем не будет. Если вы возьмете «копеечную» Gemini 2.5 Flash lite, она справится с этим вполне нормально.

    Обработку можно настроить по расписанию: например, таймером каждые 15 минут или по будильнику — скажем, в 12 дня и в 12 ночи.

    Или можно запускать очередь вручную: программа сама увидит, что нового появилось, и начнет обработку. На дроп-зону можно кинуть как пачку файлов, так и несколько папок.

    Также можно добавлять новые файлы, когда очередь уже запущена. Очередь можно поставить на паузу, но сессия не сохраняется: если приложение будет перезапущено, очередь не восстановится.
     
    2 пользователям это понравилось.
  10. 1 май 2026
    #50
    evgennsk154
    evgennsk154 ЧКЧлен клуба
    Прошло уже много времени с момента записи в складчину, уже есть сомнения надо ли оно мне.
    Чтобы развеять эти сомнения, вы сможете записать какое-то демо как работает программа, как выполняются заявленные функции, чтобы все снова вспомнить и понять, что это действительно нужно?
     
    1 человеку нравится это.
  11. 1 май 2026
    #51
    ProPractic
    ProPractic ОргОрганизатор (А)
    @evgennsk154
    Добрый день! Вы не знакомились вот с этими материалами? Они немножечко устарели: возможностей сейчас стало больше, и всё работает. Я как раз думаю о том, что скоро буду записывать новые материалы с пояснениями по программе.
     
    2 пользователям это понравилось.
  12. 1 май 2026
    #52
    lifecoder
    lifecoder ЧКЧлен клуба (А)
    @ProPractic
    Спасибо за ответы. Интересно. Рад, что программа расширилась, есть планы на дальнейший апгрейд.и, похоже, многое совпадает с тем, что хочу потестировать.
    Возможно сделаю надстройки под свои локальные хотелки, если сам принцип подойдет.

    По развитию. Многие курсы строятся вокруг объяснения схем, майндкарт и т.д.
    Планируется вместе с выдергиванием текста из видео выдергивание скриншотов к этому тексту?

    По Обсидиану непонятно пока что конкретно думаете сделать. Мысли есть, возможно тоже попробую пощупать, добавить автоматизацию поиска и структурирования информации. С интересом жду новостей.

    Наверное для комфортной работы с программой нужен более-менее нормальный микрофон, типа Maono PD200 ?
     
  13. 1 май 2026
    #53
    I_Wings
    I_Wings СкладчикСкладчик
    Добрый день!
    Вы пишите "Так уж получилось, что я преподаю на восьмимесячных курсах про искусственный интеллект и кодовые агенты для заработка и жизни." А ваш курс есть на складчине? Или где его можно посмотреть?
     
    1 человеку нравится это.
  14. 3 май 2026
    #54
    ProPractic
    ProPractic ОргОрганизатор (А)
    @lifecoder,
    Безусловно, это планируется. Это мой следующий шаг после локализации приложения на английский язык и упаковки в macOS сборку.
    Андрей Карпатый LLM Wiki - Можно просто забить вот этот запрос в DeepSeek, Qwen или в ChatGPT и спросить, что это такое. Я планирую об этом рассказать, но не так, как это делают в роликах на YouTube, а на самом деле копнуть глубоко.
    Нет, я думаю, что это не понадобится. У меня конденсаторный микрофон для проведения лекций, он подключен по USB, но иногда я его забываю подключать, и я не замечаю какой-то радикальной разницы с микрофоном от веб-камеры.
    Главное, чтобы это был нормальный микрофон и уровень сигнала позволял понять, что вообще человек говорит. Логика простая: если, послушав запись на микрофон, вы можете однозначно сказать, о чём эта запись, — значит, этот микрофон подходит.
     
    2 пользователям это понравилось.
  15. 3 май 2026
    #55
    ProPractic
    ProPractic ОргОрганизатор (А)
    Добрый день!
    Скоро будет несколько анонсов: следующий курс по Obsidian, большой курс по локальным LLM и курс по OpenCode.
    Я планирую сделать анонс трех курсов, и думаю, что это будет вам интересно. :)
     
    3 пользователям это понравилось.
  16. 4 май 2026
    #56
    ShangriLa
    ShangriLa ЧКЧлен клуба
    Подскажите, а вы обе версии только одновременно будет раздавать?
    Просто нужна в первую очередь под windows, и уже поскорее хочется расхомячиться
     
    1 человеку нравится это.
  17. 5 май 2026
    #57
    Atlantius
    Atlantius ЧКЧлен клуба
    @ProPractic приветствую, подскажи пожалуйста:
    1. планируется расширить перечень типов файлов на вход: MP3, MP4, M4A, OGG, WAV, FLAC, WMA, M4A, FLAC, AAC, WEBM ?
    2. планируется ли сделать полный комбайн? имею ввиду, на вход даю видео лекции, а на выходе получаю конспект с картинками/графиками в формате doc/pdf?
    3. по чему не делаешь сервис по транскрибации? видел там берут по 6 ₽/за минуту (пример), и нормально себя чувствуют.
     
    1 человеку нравится это.
  18. 6 май 2026
    #58
    intelligent man
    intelligent man ОргОрганизатор
    @ProPractic,
    Вы можете добавить данную модель в свою программу?
     
    1 человеку нравится это.
  19. 7 май 2026
    #59
    ProPractic
    ProPractic ОргОрганизатор (А)
    @lifecoder, благодарю!
    @ShangriLa будут лицензии под обе операционных системы, так же MacOS станет доступна и тем, кто был в первом потоке (только ради этого еще раз участвовать не надо :)
    @Atlantius, добрый день! :)
    1. Все эти типы файлов уже поддерживаются :)
    2. А он нужен? Я даю рецепт, как подключить своих агентов, opencode, ChatBox, Claude Desktop и т.п. Тут ведь какая история, одному нужен косперкт в md, другой хочет это сконвертировать в html или в pdf, а кому-то Claude Desktop который через свои навыки это упакует в docx или в pptf

    Приложение решает вопрос - медиа на вход - текст на выход, а так же диктовка под курсор, быстрый и удобный поиск и десятки "MCP педалек" для ваших агентов!

    3. 6р. за минуту вроде норнмально... НО! У некоторых участников это 6ти часовые лайвы... Это будет достаточно дорого. Учитывая что сейчас все это вообще может происходить локально на железе чуть выше среднего!


    Модель GigaAM-v3 от Сбера — это первая отечественная модель, которая по качеству распознавания русской речи превосходит зарубежные аналоги. Она обучена на огромном корпусе русскоязычных данных и учитывает особенности нашей фонетики.


    Это достаточно хороший вопрос :)
    Я думаю над тем чтобы добавить "кастомные бекенды" аудио-в-текст. У участника из прошлого потока есть пожелания по альтернативный Whisper доученный на казахский и арабский язык. У вас - вообще альтернативная модель, которая может так же давать точные тайминги... Буду думать :)
     
    2 пользователям это понравилось.
  20. 7 май 2026
    #60
    ProPractic
    ProPractic ОргОрганизатор (А)
    Вернулся с новостями. Тим Кук побежден. Сертификат для подписи приложений на руках.
    Сборка приложения подписана (теперь это примерно то, что вы качаете с любого сайта, вроде Chatbox, VLC или т.п, и это будет рабоатать как и должно))

    Скоро старт.
     
    Последнее редактирование: 7 май 2026
    4 пользователям это понравилось.
Статус обсуждения:
Комментирование ограничено.