ちょっとしたメモ - セマンティック・ウェブ再訪

セマンティック・ウェブ再訪

Scientific American誌の2001年5月号に The Semantic Web が登場してからちょうど5年目のタイミングで、IEEE Intelligent Systems誌に The Semantic Web Revisited が掲載され、話題になっている。こちらもバーナーズ=リーが執筆陣に加わっており、現時点でのセマンティック・ウェブの総括といえる内容だ。

記事抄録を訳して紹介しておこう。

サイエンティフィック・アメリカンに最初のセマンティック・ウェブの記事が登場したのは2001年のこと。そこでは、主として人間が読むための文書で構成されれているウェブから、コンピュータが処理できるデータや情報を含むウェブへの発展が語られていた。セマンティック・ウェブとは、作動可能な（actionable）情報、すなわちシンボルを解釈するための意味理論を通じてデータから取り出された情報のウェブだ。しかし未だに、このシンプルなアイデアの多くの部分は実現されていない。

ショッピングロボットやオークションロボットはウェブに溢れているが、これらは本質的に特定の目的のために個別につくられたもの。異なる種類のデータや情報をやり取りする能力は備えていないのだ。大規模なエージェントベースの解決策がまだ提供されないことから、セマンティック・ウェブは失敗したとする論者もいる。私達は、エージェントは標準が十分確立されてはじめてその力を発揮できるのであり、共有する意味を表現するためのウェブ標準はこの5年間で着実に進歩してきたと言っておこう。さらに、e-サイエンス界でのオントロジーの利用は、セマンティック・ウェブの最終的な成功を予示するものだと見ることができる。ちょうど、CERNの素粒子物理学界で利用されていたHTTPが、元祖ウェブの革命的な成功につながっていったように。（この記事はAIの未来に関する特別号の一部である）

Nigel Shadbolt, Wendy Hall, and Tim Berners-Lee, The Semantic Web Revisited, IEEE Intelligence Systems May/June 2006

記事本体では、これまでのセマンティック・ウェブに関する振り返りに始まり、URIからオントロジー、推論規則に至る技術を整理した上で、今後セマンティック・ウェブがバイラルな「上昇気流に乗る」ためには何が必要かを検討している。ここで上昇気流に乗るとは、自分のものであれ他の人のものであれ、データを（偶発的に）掘り出して再利用すること（serendipitous reuse of data）が可能になる時点だ。

この検討の中で、オントロジーの役割やコストの問題と並んで、フォークソノミーが取り上げられているのが目を惹く。比較されているポイントをいくつか挙げておくと：

ウェブ規模のタグ付けは興味深く、メタデータの潜在的な基礎になりうる。フォークソノミーは情報取得のための有力な技術ではあるが、オントロジーとは目的が異なる。
オントロジーは、データ世界の各部分をより注意深く定義し、異なる形式のデータ間のマッピングや交換を可能にしようという試みである。
オントロジーに適用される推論は、論理ベースで、JOINなどを用いる。タグに適用される推論は、統計的でクラスタリングなどの手法が用いられる。

だから、フォークソノミーではオントロジーを置き換えることはできないんだというわけだが、一方で反オントロジー的な論調に対しては、オントロジーは押しつけではなく、実際に行われているデータ交換の実践を合理化したものなのだと主張している。

最後に、The next waveというセクションでは、セマンティック・ウェブを「データがよりリッチになり、付け加えられていく、リンクされた情報空間」であるとし、いくつかの課題を挙げている：巨大で分散化され規模も異なる情報源をどうやって効率的に検索するか；さまざまなオントロジーをどうやって調整しマッピングするか；巨大なRDFグラフを視覚化しナビゲーションするセマンティック・ウェブ用ブラウザをどうやって作るか；信頼とコンテンツの由来情報をどうやって確立するか。そこでは、技術面だけではなく、（現在のウェブがそうであったように）様々な社会的要因も加味した解決策が必要になっていくだろう。

全体像やコンセプトの解説なので、個別技術が具体的に紹介されているわけではないが、「microformatsや"Web 2.0"とセマンティック・ウェブがどう違うの？」と思っている向きには、根幹の考え方を知るためによい記事だろう。原文にアクセスできないときは、Harry Chenによるまとめが参考になるかも知れない。