夕方の、いちばん人が薄くなる時間帯のこと。レジには店員が一人。後ろにお客様が並びはじめて、その対応で手いっぱいです。そのとき、防犯モニターの隅に、さっきから同じ棚の前を行ったり来たりしているお客様が映っています。小型で高単価の商品が並ぶ、あの一角。
経験のある人なら、この時点で「ちょっと危ないかも」と感じるはずです。でも、レジを離れられない。声をかけに行く人手がない。気づいているのに、動けない。
ここで、もしバックヤードのスタッフが、その様子をスマホの画面で見ながら、カメラ越しに一言かけられたらどうでしょう。
「いらっしゃいませ。〇〇のコーナー、何かお探しですか。在庫、奥にもございますよ」
棚の前のお客様が、はっと顔を上げて、店員のいる方を振り返る。それだけで、空気が変わります。買う気で探していた人なら「ああ、ありがとう」となるし、別の意図があった人は、たいていそのまま棚を離れていきます。
録画では、この一手は打てません。あとから「やっぱりあのとき」と確かめるための映像であって、いま棚の前の人に届く声ではない。その「届く声」が、双方向音声です。なぜ効くのか、どんな仕組みで、どこまで使えて、法律はどうなのか。少し腰を据えて、お話しします。
Contents
防犯カメラが「録って終わり」だと、なぜ被害が減らないのか
防犯カメラはもう付いている、というお店がほとんどでしょう。それでも在庫はじわじわ消えるし、レジ前のトラブルもなくならない。なぜでしょう。
録画は、起きたあとの道具だからです。万引きの瞬間がきれいに映っていても、その商品が棚から消えるのを、映像そのものは止められない。証拠は残る。でも、モノは戻らない。
「だったら自動で警告を鳴らせばいい」。そう考えて、動きを検知したら録音メッセージを自動再生する仕組みを入れているお店もあります。「いらっしゃいませ。当店は防犯カメラで撮影しております」といった、あれです。一方向の自動音声警告、と呼ばれるものですね。
これはこれで、何もしないよりは効きます。ただ、限界もはっきりしている。録音された音声は、何度か聞けば「ああ、機械が喋ってるな」と見抜かれます。同じ言葉が同じトーンで繰り返されるので、常連にも、そうでない人にも、だんだん風景の一部になっていく。
人が同じ刺激に繰り返しさらされると反応が鈍くなる。これは「馴化(じゅんか)」と呼ばれる心理のメカニズムです。たとえばパソコンのセキュリティ警告を繰り返し出すと無視されやすくなる、という研究で確かめられています。分野は違いますが、「いつも同じことを言ってくる機械の声」が効きにくくなる感覚は、現場の肌感覚とも一致するのではないでしょうか。
録画は事後。自動警告は慣れられる。じゃあ、どうするか。ここで出番になるのが、双方向音声です。
双方向音声とは何か──ふだんの道具にたとえて

「双方向音声」という言葉、なんとなく分かるようで、実はぼんやりしています。スマホから店に話しかけられること? それは半分正解で、半分足りません。足りない半分は、現場の「耳」の話です。
マイクとスピーカー=“耳と口”を現場に置く
双方向音声とは、カメラに付いた(あるいはつないだ)マイクとスピーカーを通じて、離れた場所にいるスタッフが現場の相手と会話できる機能のことです。
マイクは「耳」。現場の音や、お客様の声を拾います。スピーカーは「口」。離れた場所にいるスタッフの声を、その場に流します。この二つがそろって初めて、現場と離れた人が“会話”できる。片方だけでは成り立ちません。耳だけなら聞こえるだけ、口だけなら一方的に喋るだけです。
i-PROが2025年9月に発売した「スピーカーカメラ」(WV-S71301-F2LW)は、このマイクとスピーカーをカメラ本体に内蔵してしまった製品です。映像と音声の双方向のやりとりが、これ一台で完結する。手のひらより小さいボディで、いかにも「監視してます」という威圧感が少ないのも、あとで触れる「接客にも使う」という発想と相性がいいところです。
全二重と半二重、「電話」と「トランシーバー」の違い
双方向音声には、実は二つの“しゃべり方”があります。これを知っておくと、製品選びでつまずきません。
ひとつが半二重。トランシーバーやインターホンと同じで、片方が話している間はもう片方は聞くだけ。交互に話す方式です。「どうぞ」と言ってからしゃべる、あの感じ。設備としてはシンプルですが、相手の言葉にかぶせて返せないので、テンポのいい会話は少しやりにくい。
もうひとつが全二重。こちらは電話と同じで、お互いが同時に話せます。相手が話している途中で「あ、はい」と相づちを打てる。自然な会話に近いのは、断然こちらです。
i-PROのスピーカーカメラは、音声の伝送モードとして「受話のみ」「送話のみ」「双方向(半二重)」「双方向(全二重)」を選べます。つまり、用途に応じて「とりあえず警告だけ流す(送話のみ)」から「お客様とちゃんと会話する(全二重)」まで、切り替えて使える設計になっている、ということです。
ハウリングとエコーキャンセル “声の回り込み”をどう消すか
ここで現場の人が必ず心配することがあります。「スピーカーから流した自分の声が、すぐ横のマイクに入って、キーンとハウリングしないの?」「店内のBGMやざわめきで、声が聞き取れないんじゃないの?」
もっともな心配です。同じ場所にマイクとスピーカーがあれば、スピーカーの音がマイクに回り込むのは自然な話。放っておくと、自分の声が遅れて返ってきたり、不快な反響になったりします。
これを抑えるのがエコーキャンセルです。「いま自分のスピーカーから出した音」を装置が把握していて、マイクが拾った音からその分を差し引く。結果、相手には自分の声の反響が返らず、クリアに聞こえる。電話やWeb会議で自分の声がエコーせずに済んでいるのも、同じ仕組みです。
もうひとつがノイズリダクション。周囲の雑音を抑えて、人の声を聞き取りやすくする機能です。店内のBGM、空調の音、ざわめき。そういった背景音を削って、話したい声を前に出す。
i-PROのスピーカーカメラは、このエコーキャンセルとノイズリダクションを搭載していて、クリアな双方向通話ができるとされています(出典: 前掲 i-PRO公式ニュースルーム 2025年7月17日)。逆に言えば、双方向音声を選ぶときは、この二つが入っているかを必ず見てください。ここが弱いと「使えるけど、聞き取りづらくて結局使わない」になりがちですから。
気づいてから動くまでが速い、エッジAIの“即時性”
もうひとつ、声かけの効きを左右するのが「速さ」です。ただし、ここは誤解されやすいので丁寧に書きます。
i-PROのAI搭載カメラは、AIによる映像の分析をカメラ本体の中で行う「エッジAI」を採用しています。映像をいったんクラウドや外部サーバーに送って、向こうで解析して、結果を返してもらう……という往復をしないので、検知そのものは現場でリアルタイムに進みます。映像を自社内(オンプレミス)で管理できる、というのも国産機ならではの安心材料です。
ここで大事なのは、「エッジだから音声まで低遅延」と短絡しないこと。音声通話そのものの遅れは、回線や通信経路の品質しだいです。エッジAIが効いてくるのは、「AIが現場で異変を即座に捉えて、すぐスタッフに知らせ、間を置かずに声かけにつなげられる」という、気づきから行動までの即時性のほう。検知してから人が動くまでが速い。棚の前の数十秒という勝負どころでは、これがばかにできない差になります。
どこからでも話せる──発注の手を止めて、声だけ出す

最後に、いちばん実務的な話。声をかける側は、どこにいてもいい、という点です。
発注の手を止めて、ポケットのスマホをのぞく。「3番通路、お探しですか?」。売場に出ずに、声だけ出す。i-PROのスピーカーカメラは、内蔵のマイクとスピーカーを、パソコン・スマートフォン・タブレットといった手元の端末から操作できるとされています。専用アプリ(i-PRO Mobile APP)でカメラのライブ音声を聞く、といった使い方も案内されています。
レジに立っていても、バックヤードにいても、別のフロアにいても、店長が外出先からでも、画面で売場を見ながら、その場へ話しかけられる。声をかける人がそこにいなくても、声はかけられる。この身軽さが、人手の薄い小売の現場では効いてきます。
小売での使い道は、防犯だけじゃない──6つの場面
双方向音声を「万引き対策の道具」とだけ捉えると、宝の持ち腐れです。マイクとスピーカーが現場にあって、離れた場所から会話できる。この一点から、小売の現場ではいろいろなことができます。代表的なところを、6つ。
① 万引きの未然抑止──うろつきに、そっと一声
冒頭のシーンがこれです。AIが「同じ場所に長くとどまっている」「行ったり来たりしている」といった動きを捉えてスタッフに知らせ、映像を確認したスタッフが、棚の前のお客様に声をかける。
「いらっしゃいませ。何かお探しですか」
たったこれだけ。警視庁のデータが示すとおり、この一声が抑止のトップ要因です。買う気の人には親切な接客になり、そうでない人には「気づかれている」というサインになる。どちらに転んでも、お店にとって損はありません。
② 困っているお客様への遠隔接客──売場の質問に、すぐ応える
売場で、商品を手に取って、表示を見比べて、困った顔をしているお客様。本来なら近くのスタッフが「どうされましたか」と声をかけたいところですが、人手の薄い時間帯はそうもいきません。
双方向音声なら、離れた場所から「お困りですか。そちらの商品、左の棚に別サイズもございますよ」と声をかけられます。マイクが耳になっているので、お客様はその場から「じゃあ、大きいサイズはありますか」と聞き返せます。一方通行のアナウンスではなく、会話になる。声かけは、万引きを止めるだけでなく、買いたい人の背中を押す道具でもあるんです。
③ 人手薄・無人店舗の遠隔対応──「誰もいない」を「誰かがいる」に
早朝、深夜、あるいは少人数で回す時間帯。フロアに常時人を置けないお店は増えています。
ここで双方向音声があれば、フロアに人がいなくても、必要なときだけ遠隔のスタッフが対応できます。お客様が「すみません」と呼べば、離れた場所のスタッフが応える。海外では、無人店舗のカメラを一つの管制室に集約し、AIのアラートが上がったときだけ遠隔チームが対応する、という運用も実例として出ています。無人だけど、いざとなれば人が話せる。この安心感が、省人化を現実的にします。
④ バックヤード・別室からの遠隔指示──現場に出ずに、現場を回す
「レジ応援、3番」。事務所のマイクに一言。これだけで、手の空いたスタッフを探して売場まで呼びに行く、あの往復が消えます。広い店を3人で回している土曜の昼、この数秒がきいてくるんです。
声をかける相手は、お客様だけとは限りません。スタッフへの指示にも使えます。「インカムがあるからいらない」と思った方もいるでしょう。違うのは、話す側が映像で売場を見ながら話せること。そして、同じ仕組みがそのままお客様への声かけにも使えることです。店長が事務所にいながら、売場の品出しスタッフに「冷蔵ケースの右端、品薄になってるよ」と伝える。少人数で広い売場を回すお店ほど、この“現場に出ずに現場を動かす”使い方が効いてきます。
⑤ 多店舗を本部から一括で──エリアの全店に、同じ一言
チェーン展開しているなら、本部から複数店舗へまとめて話しかける、という使い方ができます。
エリアの全店に「本日のタイムセール、まもなく開始です」と一斉アナウンスを流す。あるいは、ある店でトラブルの兆しがモニターに映ったら、本部から直接その店の売場へ声をかける。海外のネットワーク音声では、本部のダッシュボードから複数店舗の音声(音楽・告知・警告)を一括で統一管理する運用が紹介されています。店舗ごとにバラバラだった声かけや案内を、本部の手でそろえられる。多店舗ならではのスケールメリットです。
⑥ 呼び込み・館内アナウンス──開店前後の“賑わい”をつくる
最後は、もっと日常的な使い方。開店時の「おはようございます。本日も〇〇店をよろしくお願いいたします」、閉店前の「まもなく閉店のお時間です」、特売の呼び込み。
これらは決まった文言なので、登録した音声ファイルをスケジュールやボタンで自動再生するのが向いています。i-PROのスピーカーカメラは、任意の音声ファイル(MP3/WAV)を複数登録して、手動・スケジュール・AI検知連動などで自動再生できるとされています。定型は自動で、とっさの対応は生の声で。この“使い分け”ができるのが、内蔵スピーカーを持つカメラの強みです。
導入は、思っているより身軽です
「カメラの入れ替え=営業を止めて、天井に配線を這わせる大工事」というイメージ、ありますよね。実際はもっと軽いんです。
RTCのAIカメラは、工事不要のワイヤレス対応が選べる構成があり、配線をいじらずに始められるケースが多くあります。営業を止めずに設置できて、導入は最短で2週間ほど。賃貸の物件でも原状回復しやすい。サポートは全国対応です。
多店舗のチェーンなら、本部からの一括運用も組めます。各店をVPNや閉域網でつないで、本部のダッシュボードから映像の確認も、声かけも、まとめて行う。店舗ごとにバラバラだった防犯と接客の質を、本部の手でそろえられます。
映像ソリューションで30年、3,000社以上にお使いいただいてきた実績の上で、国産のAIカメラ・監視カメラを中心にご提案しています。「うちの売場で、どこに付ければ、どう声をかけられるか」。そこは、現場ごとに変わります。具体的なところは、お気軽にご相談ください。

よくある質問(FAQ)
Q1. 防犯カメラの双方向音声って、電話やインターホンと何が違うんですか? 「映像を見ながら」話せる点です。電話は声だけ、インターホンは決まった一地点だけ。双方向音声は、カメラの映像で“誰に・どの状況で”話すかを見極めながら、その場へ声を届けられます。
Q2. 録音した自動アナウンス(一方向)でも万引きは止められるのでは? 一定の効果はありますが、繰り返すと無視されます。生の声はその点が違う。その都度内容が変わるので慣れにくく、相手に「気づかれている」と伝わります。
Q3. 声をかけると、相手を逆上させたり、善良なお客様を不快にさせたりしませんか? だからこそ、威圧ではなく接客のトーンが要点です。「何かお探しですか」「在庫ございますよ」といった、ふつうの声かけで成り立ちます。買う気の人には親切に、そうでない人には抑止に。同じ一言が両方に効きます。
Q4. バックヤードや別店舗、外出先からでも話しかけられますか? はい。手元のパソコン・スマートフォン・タブレットから、売場へ話しかける構成を組めます。多店舗なら、本部のダッシュボードから複数店舗へ一括で告知・声かけを流す運用も組めます。
Q5. AIが不審者を見つけて、自動で警告するんですか? いいえ。AIは“動き”の異変(滞留・うろつき等)に気づいてスタッフに知らせるだけで、「万引き犯」と判定はしません。声をかけるかどうか決めるのは人です。無実の方にいきなり警告を浴びせるような運用は、ご提案していません。
Q6. 店内の会話を録音・拡声するのは法的に問題ありませんか? 掲示は必要? 防犯目的の音声の取り扱いがただちに違法になるわけではありませんが、個人情報保護法の遵守は必要です。掲示は法的に必須とまでは言い切れませんが、「音声で対応する場合があります」と添えるのが望ましい運用。トイレ・更衣室・試着室での録音は避けてください。声紋認証のような使い方はしません。詳しくは自社の法務・専門家にご確認ください。
Q7. ハウリングしたり、雑音で聞き取れなかったりしませんか? それを抑えるのがエコーキャンセル(自分の声の反響を消す)とノイズリダクション(周囲の雑音を抑える)です。i-PROのスピーカーカメラは、この二つをどちらも搭載しています。
Q8. 既存の防犯カメラに後付けできますか? それとも新設が必要? 両方の選び方があります。マイク・スピーカー内蔵のスピーカーカメラを新たに設置するのが一台完結で手軽。一方、音声入出力端子を持つ既存タイプのカメラに外部スピーカー等を組み合わせる構成も可能です(別売ケーブルが必要な場合あり)。どちらが向くかは現状のカメラ次第なので、ご相談ください。
Q9. 結局「見る人・話す人」が要りますよね? その人手がないから困っているのですが 常時モニターを見張る人は要りません。AIが滞留などの動きに気づいたときだけ通知が来て、手の空いた誰かが手元の端末で映像を確かめ、一言かける。売場まで歩く時間がゼロになるので、事務所やバックヤードの作業の合間で間に合います。店内に誰も割けない時間帯は、外出中の店長や本部側で受ける形も組めます。
Q10. 導入費用はどれくらいかかりますか? 目安として月額2,500円/台からです。工事不要のワイヤレス構成なら営業を止めずに設置でき、最短2週間ほどで始められます。台数や売場の条件で変わるため、概算はお問い合わ



