docs/jp/README.md
<a href="https://trendshift.io/repositories/13360" target="_blank"></a>
English|简体中文|日本語|한국어|Tiếng Việt|Français|Deutsch|Español|Português|Русский|اللغة العربية
</div>KrillinAIは、Krillin AIチームが開発した多目的な音声・動画ローカリゼーション・強化ソリューションで、人間のユーザーとAI Agent両方のために設計されています。動画ダウンロード、音声転写、字幕翻訳、TTS吹き替え、縦向き変換、カバー生成など完全なパイプラインをカバーし、横向きと縦向きの両形式をサポートして、すべての主要プラットフォーム(Bilibili、Xiaohongshu、Douyin、WeChat Video、Kuaishou、YouTube、TikTokなど)での完璧なプレゼンテーションを保証します。人間のユーザーはクライアントからワンクリックでエンドツーエンドのコンテンツローカリゼーションを完了できます。各機能はCLIから独立して呼び出すこともでき、AI Agentは必要に応じて単一または複数のステージを編成して、柔軟な自動化ワークフローを構成できます。
🤖 CLI対応:各ステージが独立して実行され、構造化された結果を出力するフェーズ化コマンドラインインターフェースを提供します。ステージ間の成果物の再利用もサポートしています。
🧩 Skillsコレクション:skills/ ディレクトリには、AI Agentが安定した規約に基づいて直接呼び出せる各ステージのSkillsが用意されており、CLIドキュメントを自分で解析する必要はありません。
🔗 Pipelineオーケストレーション:複数のステージをワンコマンドで連結し、ダウンロードからレンダリングまでの全プロセスを自動化します。
🖼️ カバー生成:元の動画のサムネイルとプロンプトテンプレートからプラットフォーム用カバー画像を自動生成します。
📥 ビデオ取得: yt-dlpダウンロードまたはローカルファイルのアップロードをサポート
📜 正確な認識: Whisperに基づく高精度の音声認識
🧠 インテリジェントセグメンテーション: LLMを使用した字幕のセグメンテーションと整列
🔄 用語の置き換え: 専門用語のワンクリック置き換え
🌍 プロフェッショナル翻訳: 自然な意味を維持するための文脈を考慮したLLM翻訳
🎙️ 音声クローン: CosyVoiceから選択された音声トーンまたはカスタム音声クローンを提供
🎬 ビデオ合成: 横向きおよび縦向きのビデオと字幕レイアウトを自動的に処理
💻 クロスプラットフォーム: Windows、Linux、macOSをサポートし、デスクトップ版・サーバー版・CLIの三種の利用方法を提供
以下の画像は、46分のローカルビデオをインポートし、ワンクリックで実行した後に生成された字幕ファイルの効果を示しています。手動調整は一切なく、欠落や重複はなく、セグメンテーションは自然で、翻訳の質は非常に高いです。
<table> <tr> <td width="33%">https://github.com/user-attachments/assets/bba1ac0a-fe6b-4947-b58d-ba99306d0339
</td> <td width="33%">https://github.com/user-attachments/assets/0b32fad3-c3ad-4b6a-abf0-0865f0dd2385
</td> <td width="33%">https://github.com/user-attachments/assets/c2c7b528-0ef8-4ba9-b8ac-f9f92f6d4e71
</td> </tr> </table>以下の表のすべてのローカルモデルは、実行可能ファイルとモデルファイルの自動インストールをサポートしています。選択するだけで、Klicがすべてを準備します。
| サービスソース | サポートされているプラットフォーム | モデルオプション | ローカル/クラウド | 備考 |
|---|---|---|---|---|
| OpenAI Whisper | すべてのプラットフォーム | - | クラウド | 高速で良好な効果 |
| FasterWhisper | Windows/Linux | tiny/medium/large-v2(推奨medium+) | ローカル | 高速、クラウドサービスコストなし |
| WhisperKit | macOS(Mシリーズのみ) | large-v2 | ローカル | Appleチップ向けのネイティブ最適化 |
| WhisperCpp | すべてのプラットフォーム | large-v2 | ローカル | すべてのプラットフォームをサポート |
| Alibaba Cloud ASR | すべてのプラットフォーム | - | クラウド | 中国本土でのネットワーク問題を回避 |
✅ OpenAI API仕様に準拠したすべてのクラウド/ローカル大規模言語モデルサービスと互換性があります。これには以下が含まれますが、これに限定されません:
サポートされている入力言語: 中国語、英語、日本語、ドイツ語、トルコ語、韓国語、ロシア語、マレー語(継続的に増加中)
サポートされている翻訳言語: 英語、中国語、ロシア語、スペイン語、フランス語、その他101言語
Deepwiki of KrillinAIで質問できます。リポジトリ内のファイルをインデックス化しているので、迅速に回答を見つけることができます。
まず、Releaseからデバイスシステムに合った実行可能ファイルをダウンロードし、以下のチュートリアルに従ってデスクトップ版または非デスクトップ版を選択します。ソフトウェアのダウンロードは空のフォルダーに配置してください。実行するといくつかのディレクトリが生成されるため、空のフォルダーに保管することで管理が容易になります。
【デスクトップ版の場合、「desktop」を含むリリースファイルを参照】 デスクトップ版は、新しいユーザーが設定ファイルを正しく編集するのに苦労する問題に対処するために新たにリリースされており、いくつかのバグが継続的に更新されています。
【非デスクトップ版の場合、「desktop」を含まないリリースファイルを参照】 非デスクトップ版は初期版で、設定がより複雑ですが、機能は安定しており、サーバー展開に適しており、ウェブ形式のUIを提供します。
configフォルダーを作成し、次にconfigフォルダー内にconfig.tomlファイルを作成します。ソースコードのconfigディレクトリからconfig-example.tomlファイルの内容をconfig.tomlにコピーし、コメントに従って設定情報を記入します。http://127.0.0.1:8888にアクセスして使用を開始します(8888は設定ファイルで指定したポートに置き換えてください)。【デスクトップ版の場合、「desktop」を含むリリースファイルを参照】 署名の問題により、デスクトップ版は現在ダブルクリックで実行したり、dmg経由でインストールしたりできません。アプリケーションを手動で信頼する必要があります。方法は以下の通りです:
sudo xattr -cr ./KrillinAI_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_desktop_macOS_arm64
./KrillinAI_1.0.0_desktop_macOS_arm64
【非デスクトップ版の場合、「desktop」を含まないリリースファイルを参照】 このソフトウェアは署名されていないため、macOSで実行する際には、「基本ステップ」でファイル設定を完了した後、アプリケーションを手動で信頼する必要があります。方法は以下の通りです:
実行可能ファイル(ファイル名がKrillinAI_1.0.0_macOS_arm64と仮定)のあるディレクトリでターミナルを開きます。
以下のコマンドを順番に実行します:
sudo xattr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64
./KrillinAI_1.0.0_macOS_arm64
これでサービスが開始されます。
このプロジェクトはDocker展開をサポートしています。詳細はDocker展開手順を参照してください。
KrillinAI は、スクリプト、自動化パイプライン、AI Agent から呼び出しやすい段階型 CLI を提供しています。CLI はデフォルトで同期実行され、完了時に stdout に 1 行の JSON を出力し、作業ディレクトリに krillinai_manifest.json を書き込みます。これにより、後続の段階で既存の成果物を再利用できます。
ソースから CLI をビルドします:
go build -o build/krillinai-cli ./cmd/cli
コマンド概要:
| コマンド | 用途 | 主な成果物 |
|---|---|---|
subtitle | YouTube / Bilibili リンクまたはローカル動画から字幕を生成します。まずプラットフォーム字幕を取得し、失敗した場合は Whisper にフォールバックします | origin_language_srt.srt、target_language_srt.srt、bilingual_srt.srt、short_origin_mixed_srt.srt |
tts | 目標言語字幕から目標言語の吹き替え音声を生成します | tts_final_audio.wav、video_with_tts.mp4 |
render-horizontal | 横向き動画を生成します:元動画 + 二言語字幕、または吹き替え動画 + 目標言語字幕 | horizontal_bilingual.mp4 |
render-vertical | 縦向き動画を生成します:元動画を縦向きに変換 + 短い字幕、または吹き替え動画 + 目標言語字幕 | transferred_vertical_video.mp4、vertical_bilingual.mp4 |
pipeline | outputs に基づいて複数段階を連結します | 選択した段階によって異なります |
cover | 元動画のカバー画像と prompt テンプレートからカバーを生成します | generated_cover.png |
典型的なワークフロー:
# 1. 元言語、目標言語、二言語字幕、縦向き用短字幕を生成
./build/krillinai-cli subtitle "https://www.youtube.com/watch?v=dQw4w9WgXcQ" \
--origin-lang en \
--target-lang zh_cn \
--workdir tasks/demo \
--caption-source any
# 2. 目標言語字幕から吹き替えを生成
./build/krillinai-cli tts \
--workdir tasks/demo \
--input-srt tasks/demo/target_language_srt.srt \
--line-mode target-only \
--video tasks/demo/origin_video.mp4
# 3. 二言語字幕付きの横向き動画を生成
./build/krillinai-cli render-horizontal \
--workdir tasks/demo \
--video tasks/demo/origin_video.mp4 \
--subtitle tasks/demo/bilingual_srt.srt
# 4. 短い二言語字幕付きの縦向き動画を生成
./build/krillinai-cli render-vertical \
--workdir tasks/demo \
--video tasks/demo/origin_video.mp4 \
--subtitle tasks/demo/short_origin_mixed_srt.srt \
--major-title "今日の話題" \
--minor-title "AI Video"
Agent 連携の規約:
krillinai_manifest.json を優先して読み取ってください。通常ログは解析しないでください。outputs フィールドには成果物パスが記録されます。後続コマンドは --workdir だけで manifest を再利用できます。--dry-run は、動画ダウンロードや外部 AI サービス呼び出しを行わずに、引数検証と manifest 生成を行います。error.kind に応じてエラーを処理します:usage は引数修正、retryable は再試行、dependency は ffmpeg / ffprobe / yt-dlp のインストールが必要です。より詳しいパラメータ説明は、CLI 機能概要を参照してください。
このリポジトリには、Agent が安定した規約で CLI を呼び出せるように、skills/ 配下にすぐ使える Agent Skills も含まれています:
krillinai-cli:字幕、TTS、レンダリング、pipeline、カバーのワークフローを選択するための総合入口 skill。krillinai-subtitle、krillinai-tts、krillinai-render-horizontal、krillinai-render-vertical:各段階に特化した操作ガイド。krillinai-pipeline と krillinai-cover:pipeline 編成とカバー生成のための計画/予約済みガイド。対応する実行パスが完全に接続されるまでは計画用途として扱います。cli-contract.md:JSON、manifest、outputs、エラー処理に関する共通契約。提供された設定ファイルに基づいて、READMEファイルの「設定ヘルプ(必読)」セクションを更新しました:
設定ファイルは、[app]、[server]、[llm]、[transcribe]、および[tts]のいくつかのセクションに分かれています。タスクは音声認識(transcribe)+大規模モデル翻訳(llm)+オプションの音声サービス(tts)で構成されています。これを理解することで、設定ファイルをよりよく把握できます。
最も簡単で迅速な設定:
字幕翻訳のみの場合:
[transcribe]セクションでprovider.nameをopenaiに設定します。[llm]ブロックにOpenAI APIキーを記入するだけで、字幕翻訳を開始できます。app.proxy、model、およびopenai.base_urlは必要に応じて記入できます。コスト、速度、品質のバランス(ローカル音声認識を使用):
[transcribe]セクションでprovider.nameをfasterwhisperに設定します。transcribe.fasterwhisper.modelをlarge-v2に設定します。[llm]ブロックに大規模言語モデルの設定を記入します。テキスト読み上げ(TTS)設定(オプション):
[tts]セクションでprovider.nameを設定します(例:aliyunまたはopenai)。aliyunを選択した場合は、[tts.aliyun]セクションを記入する必要があります。aliyunを選択する必要があります。Alibaba Cloud設定:
AccessKey、Bucket、およびAppKeyを取得する方法については、Alibaba Cloud設定手順を参照してください。AccessKeyなどの繰り返しフィールドは、明確な設定構造を維持するために設計されています。よくある質問をご覧ください。