ちょっとしたメモ

思いつき、マイナーな追加更新、実験文書などについてのちょっとしたメモです。RSS /RDFもあります。

HTML5+Microdataへの全面移行

この春頃からMicrodataを試してみたりHTML5にかかわる機会が増えてきたので、いずれ実施しようと考えていたサイト全ページの書き換えを敢行しました。スタイルシートはごく一部を除いてほとんど従来のまま。ページ自身のメタデータほかの構造化データは、Schema.org語彙を中心にして表現しています。

Microdataの記述

今回使ったMicrodataの一部を紹介しておきます。Microdataは、文書内に記述されたものごとの特徴を表す名前-値の対(プロパティ)のグループをアイテムと呼び、基本単位として扱います。

アイテムと型
Microdataの場合、まず最初にアイテムの範囲(スコープ)をitemscope属性で示します。文書のメタデータを表現したいので、html要素にこの属性を加えて全体を一つのアイテムとします(itemscope真偽値属性で属性名のみを記述しますが、XHTML構文の場合は整形式とするためにitemscope=""とします)。このときアイテムが型(RDFでいえばクラス)を持つなら、同じ要素にitemtype属性も加えます。ここではSchema.orgのWebPageを用います。
アイテムの識別子
またMicrodata仕様では、語彙がサポートする場合、アイテムはグローバル識別子をitemid属性に持つことができるとしています。Schema.orgサイトにはitemidを用いた例も掲載されていますから、利用できると考えてよいでしょう。itemidの値は絶対URIに解決することになっているので、itemid=""でウェブページ自身を表すことができます。

(例)

<html itemscope=""
      itemtype="http://schema.org/WebPage"
      itemid=""
      xmlns="http://www.w3.org/1999/xhtml">
プロパティ
アイテムの持つプロパティは子孫要素のitemprop属性で示します(子孫ではない要素をitemrefで参照することもできますが、ややこしいので割愛します)。型付きアイテムの場合は、その語彙が定めるプロパティを(通常単語の形で)用いるか、他の語彙のプロパティを完全URIで記述します。schema.orgのWebPageにはnamecreatorが定義されているので、文書タイトルと作者の記述にはこれらが利用できます。
プロパティの値
一般には、itempropを持つ要素のテキスト内容がプロパティ値となります。alinkなどhref属性を持つ要素では、その値を絶対URIに解決したものが値となります(同じ要素にitemscope属性があると、この要素を起点にした子アイテムが値=目的語となります)。nameプロパティのExpected Type(RDFでいえば値域)はTextですから、普通にtitle要素に記述します。creatorPerson型のアイテムが期待されるので、ここではlink要素のhrefを用い、addressなど別の場所に記述するPerson型アイテムのitemidと同一のURIを記述しておきます。

(例)

<head>
 <title itemprop="name">ちょっとしたメモ</title>
 <link  itemprop="creator" href="http://purl.org/net/who/kanzaki#masahide" />
 ...
</head>

アイテム型WebPageを利用する場合、Schema.orgの例がitemtypebody要素に設定しているところが気になるかも知れませんが、Microdataのitemscopeitemtypehtml要素も含めどの要素にも記述できます(これはたとえばW3CのVocabメーリングリストの記事using <html> tagでも取り上げられています)。こうすることでtitle要素をはじめとするhead要素内の情報をそのままメタデータとし、さらに本文(body要素)のマーク付の情報も同じアイテムに含めることができます。

W3CのMicrodata to RDFの手順で、上の記述から次のRDFが得られます。

(例)

@prefix schema: <http://schema.org/> .
<> a schema:WebPage;
   schema:name "ちょっとしたメモ";
   schema:creator (<http://purl.org/net/who/kanzaki#masahide>).

『セマンティックHTML/XHTML』例コードのテキストほか

『セマンティックHTML/XHTML』が発刊されたので、書籍に掲載している例コードのテキストデータを用意しました。書籍ホームページの関連情報セクションをご覧ください。また、巻末参照文献リストをリンク集の形にして掲載しました。

本書の例の多くはRDFaを用いていますが、RDFaによるデータの記述は、慣れないとどんなグラフが抽出されるのか分かりにくいかもしれません。また自分で記述してみるにしても、正しいグラフが得られるかどうかの確認が必要です。

書籍第14章ではRDFaからのグラフ抽出ツールやプログラムを紹介していますが、手軽に確認できるよう、グラフ視覚化ツールも用意しました。RDFaによるHTML文書全体を記述しなくても、HTML断片からの抽出も可能なので、書籍の例を少し書き換えながら試してみると、理解しやすいのではないかと思います。

関連メモ:

『セマンティックHTML/XHTML』立ち読み用PDFの配布

書籍の立ち読み用PDFを出版社に用意してもらいましたので、『セマンティックHTML/XHTML』目次ページにおいて公開、配布します。例セクションのデータなども追って公開する予定です。

立ち読みページには、ある程度本書の雰囲気がつかめるように、次の箇所を選びました。

  • 「1.1 メタデータの誕生」および「1.2 文書のメタデータ」(10頁)
  • 「8.3 FOAFと人のネットワーク」(8頁)
  • 「11.1 基本的なコンテンツメタデータ」(7頁)
  • 「12.4 タグと集合知」の一部(3頁)

例として記載しているHTMLやRDFのコードは、後日準備して公開します。

関連メモ:

『セマンティックHTML/XHTML』予約開始

新刊『セマンティックHTML/XHTML』の案内がマイコミの書籍セクションで公開され、アマゾンでも予約が始まりました。奥付の発行日は5月30日で、書店に並ぶのもほぼその頃になる見込みです。

なんとも絶妙のタイミグで、HTML5に「マイクロデータ」という提案が登場して議論になっていますが、さすがにもう間に合わないので、これについては今後メモなどでフォローしていきます。もっとも、マーク付けの構文は本書の内容の一部分であって、基本的な考え方はHTML5でも同様に適用できるはずなんですが。

現在、最後の念校を行なっているところで、これが完了したらあとは下版して印刷所に送り、刷り上がりを待つばかり。当サイトの書籍情報ページは、近く公開する予定です。

関連メモ:

セマンティック・マーク付け本ようやく脱稿

さて、昨年夏から格闘していたセマンティック・マーク付けに関する本の原稿をようやく書き上げ、出版社に送りました。仮タイトルは『セマンティックHTML/XHTML』で、毎日コミュニケーションズから5月下旬に刊行予定です。5年ほど前から本の企画はありながら、なかなかまとめられずにいたのですが、昨年とあるプロジェクトが没になったのを機に、集中してこの本に取り組み、何とか脱稿にこぎつけました。

セマンティック・マーク付けとは、普通のウェブ文書の中に含まれるイベントや人物などの情報を、ソフトウェア・エージェントでも扱えるように明示することで、人間が読むための文書(文書のウェブ)を、同時にコンピュータにも処理できる情報(データのウェブ)にしようという試みです。何度か取り上げたGRDDLマイクロフォーマットもその一種ですし、最近ではRDFaという仕様がW3C勧告になり、注目を集めています。この本は、そうしたマーク付けの方法を、背景から構文、具体的な語彙、利用ツールまで紹介しようというものです。

全体は3つのパート分かれており、最初に少々理論的な話とマーク付けのための構文説明、次に具体的な語彙を用いたさまざまな記述例、最後にデータの名前付けと共有、そして利用のツール紹介という構成です。

  • Part 1. 名前と関係のモデル
    • 第1章 メタデータと名前
    • 第2章 ページ構成要素の役割と名前
    • 第3章 名前の拡張とマイクロフォーマット
    • 第4章 RDF:グローバルな名前とモデル
    • 第5章 GRDDL:メタデータ抽出の標準
    • 第6章 RDFa:文書にRDFを組み込む
  • Part 2. さまざまな語彙による記述
    • 第7章 文書メタデータの記述
    • 第8章 人や組織に関する情報
    • 第9章 時間と場所の記述
    • 第10章 評価と信頼
    • 第11章 ユースケースと応用
  • Part 3. リンクするデータ
    • 第12章 タグという名前付け
    • 第13章 グローバルなデータ名
    • 第14章 メタデータの抽出、確認と検索
  • Appendix

やや馴染みのない分野も含まれているかも知れませんが、図版140点、例は400以上用意して、できるだけ分かりやすく説明したつもりです。ご期待ください。

関連メモ:

and more...

→ さらに5件さかのぼってみる