Chienomi

「はるかみ☆でぃじっと」の動画ができるまで

Live With Linux::practical

はるかみ☆でぃじっとはChienomiの動画版といった趣のチャンネルである。

Chienomiよりも初心者向けで密度の低い内容になっている。

このチャンネルの動画制作について解説しよう。 なお、この内容は高度な動画制作の話ではなく、どちらかといえば動画編集技術がない人間が動画をなるべく手短に仕上げるための話になる。 一方、音声編集に関しては素人ではないので、こちらは高度な話もする。

動画の形態

実際のところ制作方法は毎回違うのだが、大きく分けると

  • カメラを使ったもの (主にキーボード動画)
  • 画面を映すもの
  • プレゼンテーションになっているもの
  • 静止画素材のもの

の4種類となっている。

素材収録

カメラを使う場合

カメラを使った収録は、基本的にスマートフォンをカメラとして使って収録しつつ、同時にマイクを使った録音を行っている。

スマートフォンはこうした動画収録が最も重要な要件になっており、OPPOの高性能モデルのカメラは極端にオートフォーカスの性能に優れているため、OPPOのスマートフォンを愛用している。

動画によっては別途マイクで撮っていないが、キーボード動画は使っている。

以前はコンデンサーマイクをオーディオインターフェイスにつないで収録していた。この場合、

ffmpeg -f alsa -i pulse record.wav

のようにして収録している。

現在はキーボード動画はZOOM H2nを使用しており、こちらも本体録音ではなくインターフェイスとして使っているので、USB接続し、ffmpegで収録している。

画面を使う場合

画面を映す場合は、ffmpegで音声と画面を同時に収録している。 ただし、Windowsの動画に関しては、映像はWindows上でffmpegを使って収録しているが、扱いやすさの観点から音声はLinuxで収録する方法を取っている。

プレゼンテーションに関しても、Reveal.jsで作っており、これを操作しながら話して収録している。

静止画素材のもの

静止画素材の場合、収録は音声だけなのだが、でぃじっとに関してはこの場合でも防音室ではなく普通にPC前で収録している。

お仕事の場合、防音室でWindowsを立ち上げ、Cakewalkを使って収録しており、セクションごとに別のクリップになるようにしている。 リテイクはCakewalkのリテイク機能を使って行っており、これは収録だけでそれ以降の作業は通常のPCにデータを移して行う。

整音作業

初期のでぃじっとの動画は音声も録りっぱなしで、その後ゲインだけ上げていたのだが、最近の動画はちゃんと整音するようにしている。

まず、音声のwavファイルを用意する。映像と同時収録だった場合は、音声だけ抜き出す。 このため、同時収録では映像はH.264+wavのmkvを採用している。

ffmpeg -i recorded.mkv -vn recorded.wav

これまではCakewalk上に全部挿して整音していたのだが、最新の動画から複数ステップを踏むようになった。 ここでは最新の作業手順を説明しよう。

まず、Linux上のAudacityで編集を行う。 これは、もともとミステイクなどを含めた録りっぱなしの音源になっているので、再生しながら確認し、切り貼りすることを意味している。 また、大きなミスがあった場合などファイルを分けていることもあるので、これらを結合するという意味もある。 これで書き出し、これ以上カットを必要としない素材にしておく。

また、このとき消したいノイズ(私の場合は大抵ペチャ音)のレベルを確認しておく。 Cakewalkに載せる前にレベルを変更しない場合だけだが。

素材ができたらWindowsに移し、Windows上での作業になる。

まず、RX Audio Editorを使い、基本的な整音を行う。 私が使っているのはiZotope RX9 Standardだが、RX Elementsに関してはセールのときだと非常に安価である。 以前はRX8を使っていたのだが、KOMPLETEを買ったときにiZotopeのSutieも買ったのでRX9に上がった。

私の声はどうもAI Assistantを使うとうまくいかない(声自体がだいぶ削られてしまう)ので、実際に聴きながら必要だと思ったものを挿して、プレビューして、renderして、の繰り返しになる。 あんまりにうまく動かない場合は、Audacityで吐く時点で少しレベルを上げておくと良い。「増幅」を使って上げられる。-0.1dBまで上げるのはやりすぎだが。

また、RXでは完全にノイズを消しきれないのだが、ゲートで簡単に消せたりするので、後で消すつもりのノイズは消さなくていいというのも重要なポイント。

これが終わったらCakewalkに挿す。ナレーションがTrack1、BGMがTrack2である。 ルーティングとしては

  • Track1 - Gate - Vox - Mix - Master
  • Track2 - Mix - Master

となっている。ここでは”Gate”, “Vox”としているが、実際には”Gate”, “Treat”, “Extend”の3段になっている。 Gateは文字通りゲートだけ挿しており、Treatはディエッサーなど声の処理に関わるもの、ExtendはNectarやリバーブなど声を加工するためのものを挿してある。 “Mix”は基本的にはリミッターだけ。BGMのほうは完成形の音なので、Mixでさらに加工することはない。

GateのThreasholdはAudacityで確認した値を参考にする。

Treatは基本的にはディエッサーを使うようにしている。これはRXとは別のディエッサーを追加で挿したほうがうまくいくからだ。

Extendはやることが多い。 まずEQで少しだけ音を整える。あまり大きくいじると違和感が強くなるので少しだけ。 そしたらコンプで上げる。圧倒的にBGMのほうが大きいバランスだが、これは単にBGMを下げれば良い。 だが、それだとレベルが全然足りないので、適性な音量までコンプを使って上げる。コンプを使うのは、頭を潰すためである。 声の収録だとどうしてもスパイクが出てしまうからだ。 だが、めいっぱい上げる必要はない。私は通常の声量で-12dBあたりをターゲットにしている。

Nectarを使うのが良いかどうかは悩ましいところだが、今のところ「いらないかなぁ」という感じ。 これもAI任せだといまいちうまくいかないからだ。

リバーブは、新しく導入したSoftubeのリバーブがかなり気に入っているので今回使ってみたが、反応次第かなというところ。 かなり小さいルームにしてドライなミックスにしたが、「マイクを通ってる感」は出ているのではないか。 でぃじっとはその方が合うような気がしている。

EQなどでProChannelを使う場合、もっとバスを増やしたほうがやりやすいこともある。

声とBGMのバランスは、ExtendバスとTrack2のボリュームで調整している。 Mixに入った時点でバランスは適正になるようにしておいたほうが楽。 あとはリミッターを使ってヘッドルームを埋める。Boostのような音圧を稼ぐリミッターではなく、単なるリミッターコンプを使ったほうが良い。 私はBT Limiterを使っている。

こうしてノイズが除去され、適切なサウンドで0dBに合わせた音声を出力(48kHz/16bitのwavが良い)し、Linuxに戻る。

なお、静止画素材でない場合はBGMは混ぜず、単純に結合した素材に対して整音を行っている。

動画編集

動画編集はShotcutを使っている。 他にもいくつか使ったが、単なる切り貼りであればこれが楽だ。

カメラ撮影や画面録画の場合、「同期収録」を行っている。 カメラなら「手を叩く」、画面録画なら「キーボードを強く叩く」などによって、大きな音を出しつつ、その音が出るタイミングが映像として確認できるようにする。 これで音と映像のタイミングで同期が取れるので、クリップを移動して同期したら、実際に使う箇所より前の部分をカットする。

そして映像トラックにオープニング映像を入れる。このクリップは音声も含んでいる。

動画素材の場合

動画素材の場合は映像トラックがひとつ、音声トラックが2つである。

動画素材の場合、音声のカットと映像のカットが連動するため、音声のカットを先にやると面倒なことになる。 そのため、カットは映像トラックと音声トラックでまとめて行う。

切り貼りして映像ができたら、2つ目の音声トラックにBGMを追加し、クリップしないようにゲインフィルタで調整する。 クリップの確認は結構面倒だ。

静止画素材の場合

静止画素材の場合は映像トラックがふたつ、音声トラックが1つである。

静止画素材の場合は音声は完成形なので、音声トラックを載せて、あとは音声に合わせて画像素材を貼り、フィルタでテキストを入れていく。

レイヤーとしては、上側がアイデンティティピクチャのあるもの、下側がスライドコンテンツだ。

静止画がどのように作られたかに関係なく、最終的にはGimpで仕上げる。 impで上側レイヤーの描画部分を透明化し、それ以外を白色で塗ったプロジェクトを用意しているので、これに画像素材を貼り付け、エクスポートする。 透明部分にかかってしまうと、そこは動画にしたときに隠れてしまうということだ。

図に関してはLibreoffice Drawで書き、pdftoppmを使って画像として出力している。

文字入れは画像にするよりはテキストフィルタで書いたほうが楽なので、テキストフィルタで行っている。

サムネイルづくり

サムネイルは毎回作っているわけではないが、

字幕

字幕がある動画については、出力してから字幕制作に取り掛かる。 字幕はSRTファイルを使っており、テキストエディタで書く場合と、gnupolを使う場合がある。

チェック

出力後、通しで動画を視聴し、チェックする。

だいたいは問題が発見されるため、それを修正して再度通しでチェックすることを繰り返す。 問題が発見されなかった場合、念のためもう一度通しチェックを行う。

アップロード

動画をアップロードする際は、事前に概要欄をテキストとして編集している。 現在はチャプターなども絡むためそこそこ時間がかかる。

字幕がある場合は概要編集を一回閉じて開き直さないと選択できない。 「翻訳」から行う。

この記事を参考にしたい人へのアドバイス

整音に関して

整音は、喋りの動画の場合は絶対にやったほうが良いものではあるが、手間はかなりかかる。 LinuxユーザーとしてはそのためにWindowsが必要という話でもあるのであまり簡単ではない。

私はもともとSONARユーザーなので、Cakewalkを引き続き使っている。それが早いからだ。 他のDAWに慣れている人はそのほうがいいかもしれない。

喋りだけの動画だと過程するなら、最低限やるべきことは

  • 不快なリップノイズの低減
  • 音量の増幅

である。なので、上手い人だとゲートとコンプだけでなんとかすることもあるし、それであればLinux上のAudacityで完結できる。

実際はディエッサー→ゲート→コンプと3段かけるのが良い。

私はManjaro LinuxでPulseEffectsを使っている関係でCalf Studio Gearが既に入っており、何がデフォルトかはわからないのだが、AudacityがLV2に対応しているため、これら3段をAudacityで完結させることもできる。 (Calfのディエッサーは設定が必要だった。)

ちなみに、「収録が良いと整音が楽」は鉄則である。いいマイクやインターフェイス、収録環境を用意するのも大事だ。

Windowsでの整音を受け入れる場合、あなたが音楽家、あるいはサウンドエンジニアでないならば、Cakewalkを使うのが一番良いと私は思う。 Cakewalk by Bandlab. は無償で入手でき、SONARでいうところのPLATINUM相当、つまりフル機能を利用できる。 まるで夢のようだ。 他にも無料のDAWは色々あるが、その機能は比較にならないほど強力だ。

CakewalkにはPro Channelが備わっていて、Pro Channelにはディエッサー(Style Dial FXのSMOOTHER)とコンプ(PC4K S-Type Bus Compressor, PC76 U-Type Compressorのふたつ)、ゲート(Style Dial FXのGATER)が用意されている。 また、真空管サチュレーター3種とテープサチュレーターがあり、「声がなんかトゲトゲしてるな」というときはリバーブでぼやかすよりも効果的だったりする。

もちろんCakewalkの操作そのものになれる必要はあるが、トラックを挿したらトラックを選択し、画面左にPro Channelが出るので一番上の電源ボタンをonにし、あとは右クリックで挿したり消したりしていくだけ。個々のエフェクトは隣の▼を押して設定していけば良い。

なお、Doblerを挿して展開すると、VX-64 Vocal Stripという強力なプラグインになる。 私の環境はSONAR X3から上げてるので普通にFXとしてあるけど。

これは、「簡単に言うがそんな説明じゃ分からない」ような話であり、しかし「一回やってしまえば本当に簡単」な話でもある。

整音はちゃんとやろうとするとものすごく技術と時間が必要になるので、妥協も大事。 私はでぃじっとでは若干遊んでるけど、お仕事ではすごくコンサバな整音にしている。 リバーブかけるのは多分やりすぎ。

動画編集について

私は動画編集の知識もスキルもなく、その中で目的を達成するために手段を選んでいる形なので、参考にするなか他の人を参考にしたほうがいい。

画像素材について

私の動画は基本的に素材を作りやすい構成になっており、画像編集に関する高度なテクニックは必要としない。

ただし、ある程度は学習したりしたものはある。

もちろん、イラスト部分は制作をお願いしたものである。

また、オープニングおよびエンディングはRender Forestを使用した。