2012年5月19日土曜日

レコメンドはプライバシーを侵害するか? 高木浩光氏への異論

佐賀県武雄市で図書館の運用をCCCに委託する・しないという議論の過程で、セキュリティの専門家である高木浩光氏のブログにレコメンドに関して誤解を生むような表現が散見していた。
高木氏の発言はIT関係者・プライバシーの専門家の方々に影響が大きく、このままではレコメンドに対する誤った解釈が広がってしまう恐れがあるから、私の知る限り(かつ守秘義務に違反しない範囲)で「レコメンド」についてまとめてみた。ただし、異論を唱えるのはレコメンドに関することだけで、個人情報保護法の不備といった議題については発言しない。

レコメンドには個人の特定が必要?

まず、高木浩光氏のレコメンドに対する認識を表している部分を抜粋する。NHK総合の「情報LIVEただイマ!」でクーポンサービスが次のように紹介されていたことに対して批判を行った。
(略)行動履歴とは、私達が通販サイトのどのページで、何を買ったのかという、いわば「ネット上での足跡」です。通販サイト運営側などには、私達の行動履歴が蓄積されていきます。この行動履歴を分析する事で、ユーザーが便利に感じるサービスを提供できると言うのです。(略)
ただし、(略)番組で紹介した行動履歴の分析は個人を特定出来ないようにグループ化したデータを分析しています。個人情報保護法に触れたり、個人のプライバシーを侵害する情報の分析は紹介していません。
この説明に対し、高木氏は次のように発言している。
これは言っていることがおかしい。『個人を特定出来ないようにグループ化』したというのに、いったいどうやって、その個人に届けることができるというのだろう?
その直下では、武雄市長が「個人を特定しない形でレコメンドします」と発言してことに対し、高木氏は「個人を特定できないようにしたのに、どうやってその個人にリコメンドするのか」と批判していた。

私が気になったのは上記の発言である。個人を特定しなくてもレコメンドは可能だし、むしろ個人を特定しない形のレコメンドのほうが普及している。

元祖(?)レコメンドと言える「ビールと紙おむつ」

一言で「レコメンド」といっても様々な形式が存在する。ここでは、レコメンドを紹介するときに使われる「ビールと紙おむつ」というエピソードを紹介する。
一般に「米国の大手スーパーマーケット・チェーンで販売データを分析した結果、顧客はおむつとビールを一緒に買う傾向があることが分かった。調査の結果、子供のいる家庭では母親はかさばる紙おむつを買うように父親に頼み、店に来た父親はついでに缶ビールを購入していた。そこでこの2つを並べて陳列したところ、売り上げが上昇した」という内容で知られる。(『おむつとビール - @IT情報マネジメント用語事典』)
この「紙おむつとビール」のように、過去の購買データから「相関ルール(=関係性が高い組み合わせ)」を生成し、そのルールに基づいて商品を顧客にお勧めするのが「レコメンド」の基本である。現在は多種多様なレコメンドメソッドが存在するが基本コンセプトは変わらない。

個人を特定しなくても「Aと一緒にBが購入されている」といった事実の積み上げから「ビールと紙おむつは併売されることが多い」という相関ルール」を生成し、そのルールに基づいて「ビール購入者に紙おむつをお勧め(レコメンド)」することは可能である。つまり、個人を特定しなくてもレコメンドは実現できるのであり、この1点だけを見れば、高木氏のレコメンドに対する誤解(もしくは不信感)は否めない。

この例を見て拍子抜けされた人は、レコメンドを映画「マイノリティレポート」のように「対象者をストーカーのごとく追いまわして必要・不要なアイテムを押し付けてまくること」と考えていたのだろう。
レコメンドとは街の八百屋さんが常連客に「新鮮なキャベツが入っていますよ」「大根と一緒に白菜はいかがですか?」と声をかけるのを自動化した程度のことである。その声のかけ方がしつこかったり、拒否した人に配信し続けていればスパム行為になるが、その場合に非難されるべきはスパム行為であって「だからレコメンドが悪い」と言うのは筋違いである。逆にいえば、レコメンドを使ってなくてもスパム行為は非難される。

個人の特定」と「の特定」

上記のとおり併売の事実の積み上げからレコメンドは実現できるが、その精度には限界がでる。例えば「朝にコーヒーを買って夜に弁当を買う」といった場合には、それぞれが別の購入であるため、「朝コーヒーを購入する人は、夜に弁当を買うことが多い」といった知見を得ることが不可能である。

そのため、レコメンドの精度を上げるには「の特定」が必要になってくる。非常に誤解を招きやすい部分なのだが、「個人の特定」ではない。個(ユニークネス)を特定するということは、「朝コーヒーを購入した人が、夜に弁当を買った」という判別を行うことであり、その人がどこの誰かを調べることではない。

限りなく「個人の特定」に近い「個の特定」

今まで解説したレコメンドは、ユーザーが接触したアイテムをキーとして相関のあるアイテムを紹介するといったものである。このレコメンドは「個を特定することなく、誰に対しても無差別にレコメンドを行える」というメリットがあるが、逆に「ユーザーが特定のアイテムに接触するまでレコメンドが実行できない」というデメリットがある。そのため、レコメンドを実行できる場所やタイミングが限定されてしまう。

これに対し、ユーザーが過去に接触したアイテムをキーにして相関のあるアイテムを積極的に紹介していく「パーソナライズドレコメンド」という手法がある。例えば過去に商品Aを購入したユーザがサイトを再訪問したときに「商品Aと関係があるBやCはいかがですか?」とお勧めすることである。これなら、情報提供者が好きなタイミングでレコメンドをユーザーに届けることが可能となる。

パーソナライズドレコメンドでも原則として「個人の特定」は必須ではない。ユーザーが商品を購入したタイミングで、ランダムに生成された文字列など個を特定できる情報と一緒に購入履歴を残しておけば十分である。そのCookieを別の情報(例えば会員番号など)と紐付けしていなければ、仮に情報漏えいが発生した場合でも個人を特定することは困難である。(ただし、購入の事実が第三者に知られてしまうと、そこから過去の購入履歴が芋づる式に抜き出されるため、購入履歴は隠ぺいしておくべきである。)

武雄市長への異論と提言

今まで高木氏に対して異論を唱えてきたが、では私が武雄市長に味方するかというと、そうでもない。例えば、武雄市長が次のように発言している。
僕が言っているのは、「5月6日20時40分、42歳の市内在住の男性が、「深夜特急」「下町ロケット」「善の研究」」を借りた。」ということそのものについては、個人が特定できないし、仮にこれが外部に出ても法令に照らし、全く問題がない、これが僕の見解であり、図書館の貸出履歴は、これをもとに、個人情報に当たらないって言っているんです。
「5月6日20時40分、42歳の市内在住の男性が、「深夜特急」「下町ロケット」「善の研究」」を借りた。」という事実は個人情報でないから外部に出してもよいか、と訊かれたら私はNoと答える。なぜなら、これらの情報から個人の貸出記録が漏えいする恐れがあるからだ。

まずは貸出の日時。1分間に多数の貸し出しが発生していなければ、その日時のユニーク性は非常に高い。つまり、5月6日20時40分に本を借りているところを第三者に見られたら「深夜特急」「下町ロケット」「善の研究」を借りたことが分かってしまう。

次に本のタイトル。専門性の高い書籍であれば、それを借りた人が限定させてしまう。たまたま図書館で借りた「深夜特急」を第三者にみられたら、「ああ、この人は「下町ロケット」と「善の研究」も借りたんだな」と分かってしまう。

上記の理由から、武雄市長のいう形で貸出記録を外部に公開すべきでない。ただし、個を特定しない形での単純なランキング(例:4月の児童書の貸出トップ100、など)、「Aを借りたらBを借りる確率が高い」といった相関ルール、などいわゆる「統計処理された状態」ならプライバシーの侵害に当たらないので、秘密裏に行わないのであればCCCの他事業に活用することに反対はしないし、むしろ図書館の利用実態として市民にも開示すべきであると考える。

総論

今まで説明したとおり、レコメンドそのものは「個人の特定」がなくても実現できる。武雄市がどのように図書館運営をCCCに委託するかはわからないけど、「レコメンド」ということだけで拒否反応を示すのではなく、市民の利便性向上とプライバシー保護が両立した形でレコメンドサービスが提供されるよう、本質的な議論が進められることを願っている。


1 件のコメント: