Back to Krillinai

人間 / AI Agent向けビデオ翻訳・吹き替えツール(Skillsコレクション内蔵)

docs/jp/README.md

2.0.219.3 KB
Original Source
<div align="center">

人間 / AI Agent向けビデオ翻訳・吹き替えツール(Skillsコレクション内蔵)

<a href="https://trendshift.io/repositories/13360" target="_blank"></a>

English简体中文日本語한국어Tiếng ViệtFrançaisDeutschEspañolPortuguêsРусскийاللغة العربية

</div>

プロジェクト紹介 (Agent対応v2.0版 — リリース済み)

クイックスタート

KrillinAIは、Krillin AIチームが開発した多目的な音声・動画ローカリゼーション・強化ソリューションで、人間のユーザーとAI Agent両方のために設計されています。動画ダウンロード、音声転写、字幕翻訳、TTS吹き替え、縦向き変換、カバー生成など完全なパイプラインをカバーし、横向きと縦向きの両形式をサポートして、すべての主要プラットフォーム(Bilibili、Xiaohongshu、Douyin、WeChat Video、Kuaishou、YouTube、TikTokなど)での完璧なプレゼンテーションを保証します。人間のユーザーはクライアントからワンクリックでエンドツーエンドのコンテンツローカリゼーションを完了できます。各機能はCLIから独立して呼び出すこともでき、AI Agentは必要に応じて単一または複数のステージを編成して、柔軟な自動化ワークフローを構成できます。

新機能

🤖 CLI対応:各ステージが独立して実行され、構造化された結果を出力するフェーズ化コマンドラインインターフェースを提供します。ステージ間の成果物の再利用もサポートしています。

🧩 Skillsコレクションskills/ ディレクトリには、AI Agentが安定した規約に基づいて直接呼び出せる各ステージのSkillsが用意されており、CLIドキュメントを自分で解析する必要はありません。

🔗 Pipelineオーケストレーション:複数のステージをワンコマンドで連結し、ダウンロードからレンダリングまでの全プロセスを自動化します。

🖼️ カバー生成:元の動画のサムネイルとプロンプトテンプレートからプラットフォーム用カバー画像を自動生成します。

主な機能と機能:

📥 ビデオ取得: yt-dlpダウンロードまたはローカルファイルのアップロードをサポート

📜 正確な認識: Whisperに基づく高精度の音声認識

🧠 インテリジェントセグメンテーション: LLMを使用した字幕のセグメンテーションと整列

🔄 用語の置き換え: 専門用語のワンクリック置き換え

🌍 プロフェッショナル翻訳: 自然な意味を維持するための文脈を考慮したLLM翻訳

🎙️ 音声クローン: CosyVoiceから選択された音声トーンまたはカスタム音声クローンを提供

🎬 ビデオ合成: 横向きおよび縦向きのビデオと字幕レイアウトを自動的に処理

💻 クロスプラットフォーム: Windows、Linux、macOSをサポートし、デスクトップ版・サーバー版・CLIの三種の利用方法を提供

効果のデモ

以下の画像は、46分のローカルビデオをインポートし、ワンクリックで実行した後に生成された字幕ファイルの効果を示しています。手動調整は一切なく、欠落や重複はなく、セグメンテーションは自然で、翻訳の質は非常に高いです。

<table> <tr> <td width="33%">

字幕翻訳


https://github.com/user-attachments/assets/bba1ac0a-fe6b-4947-b58d-ba99306d0339

</td> <td width="33%">

吹き替え


https://github.com/user-attachments/assets/0b32fad3-c3ad-4b6a-abf0-0865f0dd2385

</td> <td width="33%">

縦向きモード


https://github.com/user-attachments/assets/c2c7b528-0ef8-4ba9-b8ac-f9f92f6d4e71

</td> </tr> </table>

🔍 サポートされている音声認識サービス

以下の表のすべてのローカルモデルは、実行可能ファイルとモデルファイルの自動インストールをサポートしています。選択するだけで、Klicがすべてを準備します。

サービスソースサポートされているプラットフォームモデルオプションローカル/クラウド備考
OpenAI Whisperすべてのプラットフォーム-クラウド高速で良好な効果
FasterWhisperWindows/Linuxtiny/medium/large-v2(推奨medium+)ローカル高速、クラウドサービスコストなし
WhisperKitmacOS(Mシリーズのみ)large-v2ローカルAppleチップ向けのネイティブ最適化
WhisperCppすべてのプラットフォームlarge-v2ローカルすべてのプラットフォームをサポート
Alibaba Cloud ASRすべてのプラットフォーム-クラウド中国本土でのネットワーク問題を回避

🚀 大規模言語モデルサポート

OpenAI API仕様に準拠したすべてのクラウド/ローカル大規模言語モデルサービスと互換性があります。これには以下が含まれますが、これに限定されません:

  • OpenAI
  • Gemini
  • DeepSeek
  • Tongyi Qianwen
  • ローカルに展開されたオープンソースモデル
  • OpenAI形式と互換性のある他のAPIサービス

🎤 TTS テキスト読み上げサポート

  • Alibaba Cloud Voice Service
  • OpenAI TTS

言語サポート

サポートされている入力言語: 中国語、英語、日本語、ドイツ語、トルコ語、韓国語、ロシア語、マレー語(継続的に増加中)

サポートされている翻訳言語: 英語、中国語、ロシア語、スペイン語、フランス語、その他101言語

インターフェースプレビュー

🚀 クイックスタート

Deepwiki of KrillinAIで質問できます。リポジトリ内のファイルをインデックス化しているので、迅速に回答を見つけることができます。

基本ステップ

まず、Releaseからデバイスシステムに合った実行可能ファイルをダウンロードし、以下のチュートリアルに従ってデスクトップ版または非デスクトップ版を選択します。ソフトウェアのダウンロードは空のフォルダーに配置してください。実行するといくつかのディレクトリが生成されるため、空のフォルダーに保管することで管理が容易になります。

【デスクトップ版の場合、「desktop」を含むリリースファイルを参照】 デスクトップ版は、新しいユーザーが設定ファイルを正しく編集するのに苦労する問題に対処するために新たにリリースされており、いくつかのバグが継続的に更新されています。

  1. ファイルをダブルクリックして使用を開始します(デスクトップ版もソフトウェア内での設定が必要です)

【非デスクトップ版の場合、「desktop」を含まないリリースファイルを参照】 非デスクトップ版は初期版で、設定がより複雑ですが、機能は安定しており、サーバー展開に適しており、ウェブ形式のUIを提供します。

  1. フォルダー内にconfigフォルダーを作成し、次にconfigフォルダー内にconfig.tomlファイルを作成します。ソースコードのconfigディレクトリからconfig-example.tomlファイルの内容をconfig.tomlにコピーし、コメントに従って設定情報を記入します。
  2. ダブルクリックするか、ターミナルで実行可能ファイルを実行してサービスを開始します。
  3. ブラウザを開き、http://127.0.0.1:8888にアクセスして使用を開始します(8888は設定ファイルで指定したポートに置き換えてください)。

macOSユーザーへ

【デスクトップ版の場合、「desktop」を含むリリースファイルを参照】 署名の問題により、デスクトップ版は現在ダブルクリックで実行したり、dmg経由でインストールしたりできません。アプリケーションを手動で信頼する必要があります。方法は以下の通りです:

  1. 実行可能ファイル(ファイル名がKrillinAI_1.0.0_desktop_macOS_arm64と仮定)のあるディレクトリでターミナルを開きます。
  2. 以下のコマンドを順番に実行します:
sudo xattr -cr ./KrillinAI_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_desktop_macOS_arm64
./KrillinAI_1.0.0_desktop_macOS_arm64

【非デスクトップ版の場合、「desktop」を含まないリリースファイルを参照】 このソフトウェアは署名されていないため、macOSで実行する際には、「基本ステップ」でファイル設定を完了した後、アプリケーションを手動で信頼する必要があります。方法は以下の通りです:

  1. 実行可能ファイル(ファイル名がKrillinAI_1.0.0_macOS_arm64と仮定)のあるディレクトリでターミナルを開きます。

  2. 以下のコマンドを順番に実行します:

    sudo xattr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64
    sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64
    ./KrillinAI_1.0.0_macOS_arm64
    

    これでサービスが開始されます。

Docker展開

このプロジェクトはDocker展開をサポートしています。詳細はDocker展開手順を参照してください。

CLIの使い方

KrillinAI は、スクリプト、自動化パイプライン、AI Agent から呼び出しやすい段階型 CLI を提供しています。CLI はデフォルトで同期実行され、完了時に stdout に 1 行の JSON を出力し、作業ディレクトリに krillinai_manifest.json を書き込みます。これにより、後続の段階で既存の成果物を再利用できます。

ソースから CLI をビルドします:

bash
go build -o build/krillinai-cli ./cmd/cli

コマンド概要:

コマンド用途主な成果物
subtitleYouTube / Bilibili リンクまたはローカル動画から字幕を生成します。まずプラットフォーム字幕を取得し、失敗した場合は Whisper にフォールバックしますorigin_language_srt.srttarget_language_srt.srtbilingual_srt.srtshort_origin_mixed_srt.srt
tts目標言語字幕から目標言語の吹き替え音声を生成しますtts_final_audio.wavvideo_with_tts.mp4
render-horizontal横向き動画を生成します:元動画 + 二言語字幕、または吹き替え動画 + 目標言語字幕horizontal_bilingual.mp4
render-vertical縦向き動画を生成します:元動画を縦向きに変換 + 短い字幕、または吹き替え動画 + 目標言語字幕transferred_vertical_video.mp4vertical_bilingual.mp4
pipelineoutputs に基づいて複数段階を連結します選択した段階によって異なります
cover元動画のカバー画像と prompt テンプレートからカバーを生成しますgenerated_cover.png

典型的なワークフロー:

bash
# 1. 元言語、目標言語、二言語字幕、縦向き用短字幕を生成
./build/krillinai-cli subtitle "https://www.youtube.com/watch?v=dQw4w9WgXcQ" \
  --origin-lang en \
  --target-lang zh_cn \
  --workdir tasks/demo \
  --caption-source any

# 2. 目標言語字幕から吹き替えを生成
./build/krillinai-cli tts \
  --workdir tasks/demo \
  --input-srt tasks/demo/target_language_srt.srt \
  --line-mode target-only \
  --video tasks/demo/origin_video.mp4

# 3. 二言語字幕付きの横向き動画を生成
./build/krillinai-cli render-horizontal \
  --workdir tasks/demo \
  --video tasks/demo/origin_video.mp4 \
  --subtitle tasks/demo/bilingual_srt.srt

# 4. 短い二言語字幕付きの縦向き動画を生成
./build/krillinai-cli render-vertical \
  --workdir tasks/demo \
  --video tasks/demo/origin_video.mp4 \
  --subtitle tasks/demo/short_origin_mixed_srt.srt \
  --major-title "今日の話題" \
  --minor-title "AI Video"

Agent 連携の規約:

  • stdout の最後の JSON 行と krillinai_manifest.json を優先して読み取ってください。通常ログは解析しないでください。
  • outputs フィールドには成果物パスが記録されます。後続コマンドは --workdir だけで manifest を再利用できます。
  • --dry-run は、動画ダウンロードや外部 AI サービス呼び出しを行わずに、引数検証と manifest 生成を行います。
  • error.kind に応じてエラーを処理します:usage は引数修正、retryable は再試行、dependencyffmpeg / ffprobe / yt-dlp のインストールが必要です。

より詳しいパラメータ説明は、CLI 機能概要を参照してください。

Agent Skills

このリポジトリには、Agent が安定した規約で CLI を呼び出せるように、skills/ 配下にすぐ使える Agent Skills も含まれています:

提供された設定ファイルに基づいて、READMEファイルの「設定ヘルプ(必読)」セクションを更新しました:

設定ヘルプ(必読)

設定ファイルは、[app][server][llm][transcribe]、および[tts]のいくつかのセクションに分かれています。タスクは音声認識(transcribe)+大規模モデル翻訳(llm)+オプションの音声サービス(tts)で構成されています。これを理解することで、設定ファイルをよりよく把握できます。

最も簡単で迅速な設定:

字幕翻訳のみの場合:

  • [transcribe]セクションでprovider.nameopenaiに設定します。
  • その後、[llm]ブロックにOpenAI APIキーを記入するだけで、字幕翻訳を開始できます。app.proxymodel、およびopenai.base_urlは必要に応じて記入できます。

コスト、速度、品質のバランス(ローカル音声認識を使用):

  • [transcribe]セクションでprovider.namefasterwhisperに設定します。
  • transcribe.fasterwhisper.modellarge-v2に設定します。
  • [llm]ブロックに大規模言語モデルの設定を記入します。
  • 必要なローカルモデルは自動的にダウンロードおよびインストールされます。

テキスト読み上げ(TTS)設定(オプション):

  • TTS設定はオプションです。
  • まず、[tts]セクションでprovider.nameを設定します(例:aliyunまたはopenai)。
  • 次に、選択したプロバイダーの対応する設定ブロックを記入します。たとえば、aliyunを選択した場合は、[tts.aliyun]セクションを記入する必要があります。
  • ユーザーインターフェースの音声コードは、選択したプロバイダーのドキュメントに基づいて選択する必要があります。
  • 注意: 音声クローン機能を使用する予定がある場合は、TTSプロバイダーとしてaliyunを選択する必要があります。

Alibaba Cloud設定:

  • Alibaba Cloudサービスに必要なAccessKeyBucket、およびAppKeyを取得する方法については、Alibaba Cloud設定手順を参照してください。AccessKeyなどの繰り返しフィールドは、明確な設定構造を維持するために設計されています。

よくある質問

よくある質問をご覧ください。

貢献ガイドライン

  1. .vscode、.ideaなどの無駄なファイルを提出しないでください。これらは.gitignoreを使用してフィルタリングしてください。
  2. config.tomlを提出しないでください。代わりにconfig-example.tomlを提出してください。

お問い合わせ

  1. 質問がある場合は、QQグループに参加してください:754069680
  2. ソーシャルメディアアカウントをフォローしてください。Bilibiliでは、毎日AI技術分野の質の高いコンテンツを共有しています。

スター履歴