ライブ配信のコメント波形指紋によるリアルタイム類似配信検出 ― 君斗りんくの追憶のきらめき

1.解決したい課題

ライブ配信を追っているとき、視聴者には次のような瞬間がある:

「あ、これあの神回みたいな盛り上がり方してる」
「いつもの中だるみゾーンに入ったかも」
「立ち上がりは過去の○○配信に似てるけど、後半どうなるんだろう」

こうした「過去配信との形の類似」は、視聴者・配信者・分析者にとって価値のあるシグナルだが、これを定量的にリアルタイムで判定する手段は意外と整備されていない。同接数の絶対値で並べてもダメ（神回と凡庸回で同接が同じだと混ざる）、コメ数の絶対値でもダメ（長時間配信と短時間配信が比較できない）。

必要なのは「配信時間も総コメ数も違う配信どうしを、波形（盛り上がりの形）として比較できる」軽量な指標である。

2.手法の概要

本手法では、ライブ配信を 1 本のコメント発生時刻列 として捉え、それを以下の手順で固定次元の指紋ベクトルに変換する:

時刻の正規化: 配信内のすべてのコメント timestamp を、最初のコメント時刻 = 0 / 最後のコメント時刻 = 1 となるよう線形変換する。
等分ヒストグラム化: [0, 1] を N 等分（既定 N = 16）し、各ビンに含まれるコメント数を数える。
peak normalization: 全ビンの中の最大カウントで各ビンを割り、[0, 1] のベクトルに揃える。

このベクトルが配信のコメント波形指紋（fingerprint）となる。配信どうしを比較するには、それぞれの指紋ベクトル間のコサイン類似度を計算する。

類似度は -1 ～ 1 の値（実用上は 0 ～ 1）で出力され、1 に近いほど「形が似ている」配信と判断される。

3.アルゴリズム詳細

3-1. 入力データ

各コメントについて、最低限必要なフィールドは発生時刻のみ:

// コメント 1 件あたりに必要な最低限のフィールド
{
  capturedAt: 1714532400000  // Unix エポックミリ秒（任意の単調増加 timestamp で可）
}

テキスト本文・ユーザー ID・スタンプ等は本手法では一切使用しない。これにより、コメント本文を保存しないログ形式や、テキスト解析が困難な多言語配信にも適用できる。

3-2. ステップ A: 時刻の正規化

コメント時刻列 t₁, t₂, ..., t_n（昇順）に対し、配信全体のスパンを以下で定める:

first = min(t_i), last = max(t_i), span = max(1, last − first)

各 timestamp は次のように [0, 1] の正規化時刻に変換される:

τ_i = (t_i − first) / span

span = max(1, last − first) としているのは、配信時間が 0 や負の異常入力でも 0 除算しない安全策である。

3-3. ステップ B: 等分ヒストグラム化

正規化時刻 τ_i を N 等分のビンに割り当てる:

bin(τ_i) = clamp(⌊τ_i × N⌋, 0, N − 1)

clamp は τ_i = 1 のとき bin = N となるのを N − 1 に丸める処理。各ビンに何件のコメントがあるかを集計し、長さ N の整数配列 counts を得る。

既定 N = 16 だが、用途に応じて 8 / 32 / 64 等に調整可能。次元数が多いほど時間方向の解像度が上がるが、配信長が短い・コメ密度が低い場合はノイズに敏感になる。経験則として 16 が「配信時間 30 分～ 10 時間」の範囲で最も安定して動作する。

3-4. ステップ C: peak normalization

counts 配列の最大値 peak で全要素を割る:

vector_i = round(counts_i / peak × 1000) / 1000

これにより、ベクトルの最大値が常に 1.0 となり、ベクトルのスケール（総コメ数）が消去される。例えば「総コメ 100 件で peak 30 のヒストグラム」と「総コメ 10,000 件で peak 3,000 のヒストグラム」は、形が同じならば指紋として等価になる。

round(... × 1000) / 1000 は表示・保存時の桁数制御で、本質的な意味は持たない（精度を 3 桁に丸める）。

3-5. ステップ D: 比較（コサイン類似度）

2 つの指紋ベクトル a, b（共に長さ N）の類似度は次式で計算される:

similarity(a, b) = (a · b) / (‖a‖ × ‖b‖)

ここで a · b は内積、‖a‖ は a のノルムである。両ベクトルの形が完全に同じならば 1.0、直交ならば 0.0、対称的に逆向きならば -1.0 となる。実用上、コメント波形指紋は非負値のみなので、出力範囲は [0, 1] となる。

過去配信の指紋集合に対して順次計算し、similarity 降順でソートして上位 N 件を取り出すことで「現在の配信に最も似た過去配信」を取得できる。

4.参考実装（JavaScript / 純粋関数）

以下は本拡張機能で実際に使用している実装の抜粋である（src/lib/broadcastWaveformFingerprint.js）。Chrome / Node.js / browser 上で動作する純粋関数で、外部依存はゼロである。

/**
 * コメント時刻列から波形指紋ベクトルを生成する。
 * @param {Array<{capturedAt:number}>} comments
 * @param {{dimensions?:number}=} opts
 * @returns {{vector:number[], totalCount:number}|null}
 */
export function buildBroadcastWaveformFingerprint(comments, opts = {}) {
  const dim = (typeof opts?.dimensions === 'number' && opts.dimensions > 0)
    ? Math.floor(opts.dimensions)
    : 16;
  const list = Array.isArray(comments) ? comments : [];
  const ats = [];
  for (const c of list) {
    if (!c || typeof c !== 'object') continue;
    const at = c.capturedAt;
    if (typeof at !== 'number' || !Number.isFinite(at) || at <= 0) continue;
    ats.push(at);
  }
  if (!ats.length) return null;
  ats.sort((a, b) => a - b);

  // ステップ A: 時刻の正規化
  const first = ats[0];
  const last = ats[ats.length - 1];
  const span = Math.max(1, last - first);

  // ステップ B: 等分ヒストグラム化
  const counts = new Array(dim).fill(0);
  for (const at of ats) {
    let idx = Math.floor(((at - first) / span) * dim);
    if (idx >= dim) idx = dim - 1;
    if (idx < 0) idx = 0;
    counts[idx] += 1;
  }

  // ステップ C: peak normalization
  const peak = counts.reduce((a, b) => Math.max(a, b), 0);
  const vector = counts.map((v) =>
    peak > 0 ? Math.round((v / peak) * 1000) / 1000 : 0
  );

  return { vector, totalCount: ats.length };
}

/**
 * 2 つの指紋ベクトル間のコサイン類似度。
 * @returns {number|null}
 */
export function cosineSimilarity(a, b) {
  if (!Array.isArray(a) || !Array.isArray(b)) return null;
  if (a.length !== b.length || a.length === 0) return null;
  let dot = 0, na = 0, nb = 0;
  for (let i = 0; i < a.length; i++) {
    const av = Number(a[i]) || 0;
    const bv = Number(b[i]) || 0;
    dot += av * bv;
    na += av * av;
    nb += bv * bv;
  }
  if (na === 0 || nb === 0) return null;
  return Math.round((dot / Math.sqrt(na * nb)) * 1000) / 1000;
}

この実装は本拡張機能のリポジトリ内で MIT ライセンスのもと公開されており、自由に複製・改変・再配布できる。

5.なぜこの設計なのか

5-1. なぜ時刻の正規化が必要か

配信時間は配信ごとに違う（30 分の短い配信もあれば、10 時間の長い配信もある）。生の Unix timestamp で比較すると、絶対時刻軸上で完全に重ならないため、形の比較ができない。配信時間 [0, 1] に正規化することで、配信長に依らない波形比較が可能になる。

5-2. なぜ peak normalization なのか

同接 100 人の小規模配信と、同接 10,000 人の大型配信では、コメ数の絶対値が 100 倍違う。それぞれのヒストグラムの最大ビンで割ることで、スケールを揃えた上で形だけを比較できるようになる。

類似の手段として L2 正規化（ベクトル全体のノルムで割る）もあるが、コサイン類似度の計算過程で実質的に L2 正規化と等価な処理が入るため、peak normalization の方が「最も盛り上がった瞬間が必ず 1.0 になる」という直感的に分かりやすい指紋になる。

5-3. なぜ N = 16 が既定なのか

ライブ配信の典型的な「盛り上がり方の波」は、以下のような時間粒度の特徴を持つ:

序盤の挨拶ラッシュ（0 ～ 5 分）
本編の盛り上がりピーク（中盤）
終盤のラストスパート（直前 5 分）
挨拶・お別れ（最後 1 ～ 2 分）

30 分～数時間の配信を 16 等分すると、1 ビンあたり 2 ～ 30 分となり、上記の特徴をちょうど 1 ～ 2 ビンで捉えられる。次元数を増やしても本質的な情報量はあまり増えず、配信長が短い場合に統計ノイズが増える。

用途によっては dimensions: 32（より細かい盛り上がりピーク検出）や dimensions: 8（大局的な波の形のみで比較）も有用。

5-4. なぜコサイン類似度なのか

コサイン類似度はベクトルの「向き」だけを比較するため、peak normalization と組み合わせると形の類似度を綺麗に取り出せる。ユークリッド距離は絶対値の差に敏感すぎるため、配信規模の違いに耐えられない。

6.計算量と運用コスト

指紋生成: O(n)（n = コメント数）。1 配信あたり数百～数万件でも数ミリ秒。
指紋サイズ: 16 次元 × Float（実装上は 0.001 刻みで 4 桁）。1 配信あたり 100 バイト未満。
指紋比較: O(N) = O(16)。1 比較あたりマイクロ秒オーダー。
過去 1,000 配信との比較: 16,000 浮動小数点演算。ブラウザ上で数ミリ秒。

クライアント側（ブラウザ）でリアルタイムに動作させても全く負荷にならない軽量さである。これは Chrome 拡張のような、限られた CPU リソース下で動かす UX において重要な性質である。

過去の指紋データはあらかじめ chrome.storage.local や IndexedDB に「liveId → fingerprint vector」の形で保存しておけば、新しい配信を視聴中に随時比較が可能。

7.既知の限界と拡張可能性

7-1. 限界

コメ数が極端に少ない配信（数十件以下）では統計ノイズが支配的になり、波形が安定しない。
異常に長い無コメ区間がある配信は、その区間の前後でビン境界が偶然一致するか否かで指紋が大きく変わる場合がある。
本手法は形のみを比較するため、内容（誰が・何を喋ったか）の類似は捉えられない。

7-2. 拡張可能性

多重指紋: 同じ配信を「全体波形（N=16）」「序盤波形（N=8、最初の 30%）」「終盤波形（N=8、最後の 30%）」の 3 指紋に分解し、用途に応じて使い分ける。
同接波形との合成: コメ波形と同接数の時系列波形を別ベクトルとして持ち、加重平均で類似度を統合する。
サブイベント抽出: 指紋ベクトルの中で他配信より突出して高いビン位置を「この配信の独自盛り上がり」として抽出する。
クラスタリング: 大量の指紋を k-means 等でクラスタ化し、配信スタイルの類型を発見する。

8.関連する既知技術（先行技術）

本手法は以下のような既知技術の延長線上にある。それぞれ独立に存在する技術であるが、「ライブ配信のコメント時刻列に適用する」組み合わせとしての本手法は、本記事公開時点で公開された具体的な記述としてここに位置づける。

8-1. Audio Fingerprinting

音声信号からスペクトログラムのピーク位置を抽出してハッシュ化し、楽曲を識別する技術。Shazam の "An Industrial-Strength Audio Search Algorithm" (2003) が代表例。本手法とは「時系列信号を固定次元の指紋に変換する」という発想を共有するが、対象が音声波形ではなくコメント密度カーブである点が異なる。

8-2. Perceptual Hashing

画像やビデオの内容を低次元のハッシュに変換して類似比較する技術（pHash, dHash 等）。本手法は時系列に対する perceptual hash と見なせる。

8-3. ヒストグラム比較によるドキュメント類似度

テキスト文書の単語頻度ヒストグラムを TF-IDF ベクトル化してコサイン類似度で比較する手法は、情報検索の基本技法として広く知られている。本手法は単語の代わりに「時間ビン内のコメント発生頻度」を要素とする点が異なる。

8-4. Time-Series Subsequence Matching

時系列データ間の類似度を Dynamic Time Warping (DTW) や Symbolic Aggregate approXimation (SAX) で計算する手法。本手法は SAX に近いが、シンボル化を行わず実数ベクトルとして保持する点、配信時間軸を [0, 1] に強制正規化する点が異なる。

8-5. Twitch / YouTube Live のチャット解析ツール

Twitch / YouTube Live 上のチャットメッセージ流を可視化するサードパーティツール（Chatty, Streamlabs Chatbox 等）は数多く存在するが、それらは主に「現在のチャット流をリアルタイム表示する」「個別メッセージにフィルタを掛ける」という用途が中心であり、配信全体のコメント波形を固定次元ベクトルにして過去配信と比較する手法を実装した公知例は、本記事執筆時点で著者は確認していない。

9.本記事の位置づけ・ライセンス

本記事は、Chrome 拡張機能『君斗りんくの追憶のきらめき』内で 2026 年 4 月 30 日（バージョン 0.1.24）に投入された broadcastWaveformFingerprint.js モジュールの設計思想と実装を、2026 年 5 月 1 日付で公開するものである。

本記事と参考実装は、以下の目的で公開される:

ライブ配信解析を行う他の開発者・研究者が同じ手法を自由に応用できるようにする
本手法に関する先行技術 (prior art) として、本記事の公開日時を公的記録に残す（防御的公開／defensive publication）
既存の関連技術領域における具体的応用例として、技術コミュニティに知見を還元する

参考実装のソースコードは MIT ライセンス（opensource.org/licenses/MIT）のもとで提供される。本記事の文章部分は CC BY 4.0（creativecommons.org/licenses/by/4.0/deed.ja）のもとで自由に複製・引用してよい（出典として本ページの URL を併記してください）。

引用例: 君斗りんく「ライブ配信のコメント波形指紋によるリアルタイム類似配信検出」君斗りんくの追憶のきらめき、2026 年 5 月 1 日公開、https://tsuioku-no-kirameki.com/articles/comment-waveform-fingerprint.html