キーワードの年別出現回数Keyword-Item Frequency by Year
ジャパンサーチのアイテムタイトル(rdfs:label
)もしくは文字列値に含まれるキーワードを検索し、マッチ数を年別にグラフ化する試みです。年範囲のあるアイテムは、出現数をその範囲年数で割って各年に加算します(点線)。各年のポイントをクリックすると個別の数値を表示し、そこからその年のキーワドマッチ検索クエリを実行できます。キーワードは1つしか受け付けませんが、複数チャートを作成後、合成することができます(最初のチャートと同一年範囲のみ)。
This tool searchs a keyword in Japan Search items, and count the occurrences by year. If items have year range, those occurrences are divided by the number of years in the range. Click a point in the graph, then a link to keyword query for the year will be shown. Some interesting words would be 大相撲 (Sumo) or パソコン (Personal computer). Although only single keyword allowd, multiple charts can be combined later (as long as the same year range).
- 図書館、自動車などの一般的なキーワードはマッチ数が多くクエリの負荷が高くなるため、まず「タイトル以外も含む」のチェックは外して試してください。Very common words e.g. 図書館 (library) or 自動車 (car) would have too many hits, resulting slow query. Use "includes all texts" unchecked first.
- キーワードマッチはVirtuosoの
bif:contains
を用いており、検索漏れが生じる可能性もあります。逆に「京都」で検索すると「東京都」もヒットします。また「タイトル以外も含む」にするとローマ字読みも対象になるので、「AI」では大半が「愛」になります。Keyword match usesbif:contains
which might not be optimized for Japanese search. - ジャパンサーチ全体で、年情報(
schema:temporal
)による年別アイテム数は、下図のようになっています(β版公開時点)。マッチ数の評価は、この全体数も念頭に置いてください(マッチ数そのものでもいろいろ面白い傾向はつかめると思いますが)。The entire Japan Search items numbers by year (schema:temporal
) are shown below. When evaluate the number of hits, consider that general numbers are increasing in years.- 上図のアイテム総数は
schema:temporal
値の開始年による集計であるため、年範囲の最初に当たる年は総数が多くなっています。たとえば明治の最初1868年、昭和の最初1926年などです。Note the above items numbers are aggregated byschema:temporal/jps:start
, which means the first year of time range (e.g. 1926 is the start year of Showa) has larger number. - 逆に2001~2003年は同アイテム総数が前後の年に比べて少ないことから、多くのキーワードでこの範囲に減少が見られます。また2016~2018年も同様に減少しているため、どのキーワードでも直近年は減少する傾向があります。Also, total numbers in 2001-2003 or 2016-2018 are relatively smaller than those of the years before and after, which could affect the number of hits.
- 上図のアイテム総数は
- ジャパンサーチのデータセットの偏りによる影響も考えられます。現在のところ、図書(全国書誌)やNDLデジタルアーカイブに含まれるキーワードが大きな割合を占めることになります。また年情報を持つものに限られるので、総数の大きな標本類が含まれないことにも注意してください。Some specific types of items (e.g. Books or NDL Digital Archives) account for large portion of Japan Search, which could also cause some skew in the resulting hits.