2013年12月 1日 (日)

ビッグデータのハラールについて

ハラールとは、許された、という意味のイスラム語である。

イスラム教では、禁忌とされる豚肉以外の食材でも、その解体などに一定の作法が要求されており、この作法に則って処理されなければ、食べることを許されない。しかし、一般消費者から見れば、特にイスラム圏外の場合、その食材がイスラムの戒律に従って処理されたか否かは分からない。そこで、イスラム教徒向け店舗では、食材にハラールのマークが印字されていて、安心して購入できるようになっている。ハラールを偽装した業者は厳しく罰せられるが、偽装を知らずに食しても、アラーは寛容だと、コーランに明記されている。

つまりハラールは、食の戒律と取引安全の両立を実現する、優れたイスラムの知恵である。

一方、ビッグデータとは、日々どころか毎秒ごとに生成される(Velocity)、様々な種類(Variety)の、かつ、多量(Volume)のデータであり、その統合や分析がビジネスチャンスを生むと期待されている。そのため、自ら集めたビッグデータだけでなく、他社の保有するビッグデータを流通させて自社データと融合したいという市場の要求が日々高まっている。だが、ビッグデータには往々にして個人情報が付着しており、そのまま流通させたのでは違法になってしまうから、ビッグデータは、匿名化の処理を施さなければ流通させることができない。

しかし、ここで問題が生じる。どの程度匿名化すればよいのか、分からないのだ。これには二つの理由があって、ひとつは個人情報保護法の規定の曖昧さである。しかも、政府委員会も「実質的な匿名化が必要」だの「適切な匿名化措置」などというばかりで、何が実質的で何が適切か、さっぱり分からない。もうひとつは、十分に匿名化したとしても、国民大衆の不気味感は払拭できないという点だ。この不気味感は感情の問題なので、理屈では説得できない。

いいかえると、事業者も国民大衆も、適切な匿名化とは何かという具体的基準を持たず、ましてや、適切な匿名化を施したことを確認する術を持たないので、相互不信だけが増幅されていくのである。

そこで、ビッグデータのハラール、という制度のアイデアを提案してみたい。

まず、ビッグデータを流通に置くため必要な“戒律”を定める。すなわち、データセットから削除するべき情報(たとえば、氏名や電話番号)を、あらかじめ定める。この定めは,個人情報保護法に依拠して行うが、肝心なことは、「実質的」とか「適切」などという曖昧な定めではなく、解釈の余地がないほど具体的である点だ。

次に、戒律に従って処理されたビッグデータについて、事業者は“ハラール”を付することを許される。ハラールの付されたビッグデータは、プライバシー上安全とされ、自由な取引が可能になる。事業者は、戒律を守っている限り責任を問われない。ごくまれに、他のデータとの照合などによって特定の個人が識別されてしまうことがあるかもしれないが、事業者に故意がない限り、責任は問われない。

もちろん、戒律は定期的に改訂され、情報技術の進化をフォローアップしていく。

誰が“戒律”を定めるかというと、信用に値する団体であれば、何でも良い。一番簡単なのは、産業界内に第三者機関を設けることである。類似した例としては映画倫理委員会(映倫)がある。プライバシーマークに似た制度を設けてもよいし、ISOの規格を立ち上げてもよい。

これが、“ビッグデータのハラール”である。要は、匿名化の基準を単純かつ明確に定めることと、この基準をクリアしたと宣言することの二点だけである。しかも、わが国にはすでに類似した制度がある。それなら、あとは業界が動くかどうかだけである。

…とまあ、そんな話を先日の経営法友会との会合で話した。

いうまでもなく本稿では、もののたとえとしてハラールという言葉を用いた。ハラールに近い意味の日本語に「お祓い」というのがあるけれど、「ビッグデータのお祓い」では、なんだかニュアンスが違うし、何より、ハラールと違って、「お祓い」を公示する仕組みがない。そこで、ハラールというイスラムの智恵を借用させてもらったが、イスラム教徒の感情を害するなら撤回したい。

| | コメント (0) | トラックバック (0)

2013年11月20日 (水)

利用できるパーソナルデータと、できないパーソナルデータの境目

必要があって、総務省「パーソナルデータの利用・流通に関する研究会報告書」(平成256月)を読んでいるのだが、腑に落ちない点がある。

ライフログビッグデータという言葉が示すように、個人がビジネスや生活の過程で残す足跡をデータとして集積したとき、莫大な経済的価値を生むと期待されている。他方、これらのデータはプライバシーと直結しうるから、「パーソナルデータの利活用促進」と「プライバシー保護」との調整という、やっかいな問題が生じる。そこでこの報告書は、保護されるべきパーソナルデータとは何か、という問題について、次のように述べている(下線は筆者)。

******************************

保護されるパーソナルデータの範囲については、現行個人情報保護法と同様、個人識別性を有するものとすることが、基本的には妥当である。

ただし、個人識別性は実質的に判断される必要がある。実質的個人識別性を有するパーソナルデータ以外のパーソナルデータは、保護されるパーソナルデータにあたらず、自由に利活用できる。

具体的には、PCやスマホの端末ID、購買・貸出履歴、視聴履歴、位置情報等は実質的個人識別性がある。IPアドレスやクッキーは、グレー。国の統計情報など、再識別化不可能なデータは、保護されるパーソナルデータにあたらない。連結による再識別化の可能性がある匿名化されたパーソナルデータについても、適切なセーフガードを設定すれば、実質的個人識別性はないから、保護されるパーソナルデータにあたらない。

******************************

理解できた?理解し易いようにまとめたつもりだが、本文はもっとややこしい。平たくいうと、パーソナルデータには、保護されるべきものと、されなくてよいものがある。保護されるべきものは、本人の承諾などがなければ利用できない。ここまではよい。では、保護されるべきパーソナルデータと、そうでないものは、どうやって区別されるのか?

報告書は、「実質的」に判断される必要がある、というのである。

では「実質的」とはなにか?分からない。報告書には、ここが分水嶺だとも、こういう考え方で区別すべきとも、書いていない。つまりは、総務省に聞かなければ、あるいは裁判で白黒つけなければ、分からないのである。「連結による再識別化の可能性のある匿名化されたパーソナルデータ」については、「適切なセーフガードを設定する」との条件付きで、実質的個人識別性が無くなるという。だが、「適切」とは何かについては、何も書いていない。結局のところ、「使えるデータ」と「使えないデータ」の境界は、「実質的」とか「適切」とかいうあいまいな基準で分けられており、何が実質的で何が適切かは、データを分析する側には分からないこととなっている。

これでは、データの利活用を促進するという、この報告書の目的が泣くというものであろう。データの利活用を促進するなら、利用して良いデータと、悪いデータとを区別する基準は、一般社会人の常識に照らして、容易に判断できるものである必要がある。

夙に指摘されているとおり、ビッグデータの真価は、「トライアンドエラー」を重ねて経験値を集積することにある。様々な種類のデータを、とっかえひっかえ組み合わせては試し、組み合わせては試すところに、存在意義がある。その際、利用して良いのか悪いのか、判断のつかないデータがあれば、大半の日本人は、利用しないだろう。安全か危険か判断がつかないとき、安全側を選ぶのが、日本人の特質だからだ。その結果、利用できるデータの範囲は、とても狭くなる。実際、報告書も、自由に利活用できるパーソナルデータとして、「一般に公開されている国の統計情報」を挙げるのみだ。しかし、国の統計情報程度しかないなら、わが国ではビッグデータの利用はできません、と言っているのと同じことではないのだろうか。

| | コメント (0) | トラックバック (0)