第16回セミナー
「電子文書と漢字のゆくえ」
報告集



●漢字のゆくえ
新JIS漢字集合最終案に関するレポート

フリー校正者●小池和夫(こいけかずお)


1999年9月19日に第16回公開セミナーが行われた時点では、作業中だった「JIS X0213:2000 7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」が、10月25日の日本工業標準調査会情報部会において、JIS X 0213の規格原案が全会一致で可決され、2000年1月20日に制定されました。

第16回公開セミナーでは、メインテーマに入る前に、JCSオブザーバー委員・ 築地電子活版の小池和夫さんより、JIS X0213:2000の最終案についてレポートしていただきました。

なお、このレポートの時点では、「JIS X 0213」は予定番号であり、新JIS漢字集合または新JISという呼び方をしておりました。


■新JISの公開レビュー

JIS X 0213、新しいJISの漢字規格の形がほぼ決まりまして、今、工業技術院の情報部会のほうにかけられて、ここで通ればそのまま来年頭には規格票が出るということになりました注一。それで、その中身について簡単にご説明しようと思います。

レジュメの頭のほうに、升目の中に字がどっさりと詰まったもの注二を数ページ用意してあります。これで全部ではなくて、これは第3水準の約半分といったところです。漢字でないもの、記号の類は全てこの中で載っております。これを一つひとつ説明すると何時間あっても足りませんので、こういうものが入るのかというふうに見てもらえればよろしいかと思います。

このレジュメに使ったものも、インターネットからPDFをダウンロードして印刷したものですので、インターネットにアクセスできる方はここから取り出していただければ、文字表以外に記号の、どういうための記号であるかということとか、漢字が辞書で言うとどういう辞書の何番という文字であるかということなども情報として付け加えてあります。また、これが日本のJIS規格、文字コードの規格としてできますと同時に、国際文字コード規格のほうへも足りないものについては追加提案をしていくということになりますので、その追加提案の内容というのもこの同じサーバーに入っています。
それを見ていただくといいのですが、PDF一つが何メガかあったりするような大きなものですので、うちのインターネットではとてもそんな面倒なことはできないという方は、一つの方法は、外で売っています、今日出ました、私もちょこっと書いた本注三にこの表の漢字が全部載っているものが載せてありますので、宣伝までに。

文字コードなんですけれども、一つには、今までずっといわゆるパーソナルコンピュータで扱えたのはJIS X 0208の変形注四ばかりだったのですが、それでは字が足りないということで、1990年に補助漢字というものが5,802字決められて、ところがこれがシフトJISにはやはり載っからないために全然使われなかった。

ところが、逆に、国際的な文字コードの規格の大変革をやろうということでユニコードの16ビットのコード、あるいは32ビットの文字コードをつくるということになり、ここに補助漢字も入りまして、ユニコードではJIS X 0208、それからX 0212の補助漢字と両方使えるようにこれからなってくる。そういう時期にまた別の規格をつくるというのもちょっと不思議な話だなとは思ってはいたのですが、自分が参加しまして、要は補助漢字というのは、とにかく集めてきて意味がわからなくても使ってくれという形だったのですが、1997年のX 0208の改正の時に、この字は辞書で言うとどういう文字で実際にどういうふうに使っているのかということを明らかにしました。今度、それを拡張するのにも、実際に使っている文字を集めてきて、使っているから拡張するんだということで、漢字が約3,800字拡張されたということです。

お手元のレジュメの1、2ページあたりで下のほうに、わりときれいなフォントで漢字が並んでいるのがX 0208のもので、その記号と間の中間から入っていますちょっと大きめできたない字が並んでおりますのは、これはまだ正式なフォントができてないものですから画像で貼り付けた新JISの漢字です。

漢字は3,800ちょっと入れたのですが、記号類、非漢字に関してはほぼ今までの隙間に全部埋め込むという形で13区までががっちり埋まりました。いわゆる発音記号の類ですとか、歯科用の記号など、これまでJISで決めていなかったものを入れております。それから丸付きの数字というのも要望が多くて、だいたい機種依存文字になっていたものなんですが、この規格が実装されるようになれば、どこでも丸付きの数字が通るということになっていくのだと思います。


■漢字はどんな物が追加されたのか

どんなものが追加されたかという例として、漢字のいの一番が丈夫の「丈」という字の点が付いたもの、この間引退した辰吉一郎の「」の字というもので、この字から始まることに実は漢字に詳しい人間はこんな字がJISに入っているのはいやだなということもあるのですが、これは単なる、手書きの場合にたまたま点を打つだけの字ですから、本来は別の字として扱いたくないなという気持ちなんですが、実際に日本の中で別の字としてこの字を使う用例というのは多いんです。そういうふうにして入ってきています。
ただ、ある字について、それを多くの人数が使っているから入れたというものでもなくて、あくまでも複数の典拠があって、こういう場所でも使っている、あるいはまったく別の場所でも使っているというようなことを勘案した上で機械的に取り込んだというところがあります。

あと、もう検討するまでもなく入れると決まっていた字の中に、常用漢字表でカッコの中に入っている旧字体、いわゆる康煕字典体とかと言われているものがありますが、それを、あえてカッコの外の常用漢字の形とは別の字として入れています。

この表ですと、例えば2ページ目の左端の14区のところ、侮る、侮蔑の侮という字の中がチョンチョンとなった「」もその例です。例えばこの例で、なんかもありまして、誰か文学系の方がJISを批判して「海の中に母がある」と。フランス語だと母の中に海があって、漢字だと海の中に母があるというのに、常用漢字だと母がいなくなっちゃっているじゃないかという文句のつけ方をする方がいらっしゃったのですが、今度のJISではその母のいる「」が入りました。入っていいかどうかの是非はさておき、入りました注五

一方では、非常に関心が高かった島屋の「」というのは相変わらず入っておりません。こういうことについて、これから先、いろいろと文句をまた言われる方、あるいはとにかく自分の使いたい字が増えてよかったと思う方、いろいろあると思うのですが、これが実際に私達がパーソナルなところで使えるようになるのはいつかというのがなかなかお約束できない世界で、規格はつくってもそれを実際にものをつくって売っている方達が使ってくれないと製品になりませんので、それはまだどういう形になるかというのがよくわからないところです注六

漢字の場合で言いますと、だいたい外字としていろんなパターンで使っているものというのを集めてきまして、1万2,000字種ぐらい集まったのですが、その中から形が同じであると認めて統合したものですとか、あるいは外字として扱ってはいるけれどもこれまでのJIS漢字に包摂されているものというのが省いていかれる、あるいは字の形がどうしてもわからない、これは何か誤字ではないかなというものを排除するというような作業をやった結果がだいたい四千弱に収まるという、実際には三千数百に収まったということです。
ただ、最終的に数の縛りがありましたので、一つ使っていることが確実になって、使う漢字なんだろうけれども、もう一つどこかで使っていてくれれば入れられたのにという漢字が落ちてしまったというのがありまして、実はこれについては前にも私、ここで公開レビューをやっているよというお話をしたのですが、公開レビューをやっている間にも、データがどんどん来る。それから公開レビューに応えて、うちのほうではこういう外字を使っているというのが来るということで、どんどん変わってきまして、実は公開レビューで、やっぱりPDFでお見せした字と、今回決まった字の間にかなり出入りがあります。


■公開レビュー後に追加された漢字

必ずしも公開レビューにあったから新JISに入ったわけでもなければ、公開レビューの時には全然、影も形もなかったのになぜか入ったというような字もあります。これはやっぱりかなり大きなデータ、Microsoftの「エンカルタ」ですとか小学館の「ブックシェルフ」ですとか、こういったCD-ROM系の辞典本なんかのデータが公開レビュー後に解析が済んだというようなことがあって、その他にもかなり大きなデータが公開レビュー後にようやくきっちりマージできたという、これはもう作業上の問題でしかなかったのですが、そういうことがあって実際のところかなり大きく変わっている部分というのがございます。

ただ、公開レビューの時からJISに対する批判として、新聞でしか使わないような拡張新字体を入れるんじゃないという方がおられたのですが、これについてはもうJIS側としては新聞だろうが何だろうが使っているものは全部入れるという、べつにこちらは辞書をつくっているというか権威を出しているわけではなくて、使っているものをただそのつかっている通り使えるようにするというだけです。

新聞の場合も、例えば朝日新聞だけ使っている字というのは、これは落ちました。朝日でも産経でも使っているとか、産経でも毎日でも使っているというような文字については拡張新字体であるかどうかということではなくて使っている字として入れるというようなことをしています。ここでご覧になれる第3水準のところには意外とそういう字が入っていなくて、だいたいそういう字は第4水準のほうにいっているのですが、そういうことがあります。


■JIS X 0213の実装の問題

ここには、上のところにPlane 1 というふうに書いてあって、実はPlane 2 というのもありまして、第4水準というのがPlane 2なんです。面というのは何かというと、要は1から94までが縦横にある升目の板、それが1面という格好で、区が94、点が94、94×94だけ文字にコードが付けられるという形でそれの第1面、第4水準を使う場合にはそれなりの信号のやり取りをして第2面を使うよという形で使うという、そういう文字コードの構造になっています。

実はシフトJISというのはそういうことをしないでいきなりやっているわけでして、シフトJISの場合には94区どころか95区、96区、97区というのが理論上あって、詳しい数を忘れましたが8,800ぐらいの字が入るというようなふうになっています。今回の拡張では、シフトJISのやり方でも使えるよという制限を設けて拡張したのですが、実際に集めてみてもその制限で十分入ることがわかりました。

この第3水準、第4水準というのが、実際にどういうふうに我々が使うことになるのだろうかというのを考えてみた時に、今、たいていのパソコンの中でシフトJISで文字を扱っていると思うのですが、シフトJISへこの第3水準、第4水準が入るというのはちょっと望み薄じゃないかと思っています。

というのは、いわゆるWindows外字といいますか、IBM特殊漢字なんかが使えなくなってしまう。あるいは、Macintoshの場合、それまで空いていた場所へ縦書きの点とかカッコとかというのをはめ込んで、コードを入れ替えて使っていた、ここの場所へも漢字が入ってきちゃうのでややこしくなるというようなことがあって、今、シフトJISで動いているところを新JISの漢字に置き換えるということはなかなか難しくてやってくれないんじゃないかなという心配があります。

おそらく現状のシフトJISに新JISを取り入れるといった場合には、可能性としては第3水準だけとか、せめて記号の部分だけは揃えるとか、というようなことが対応としてあると思うのですが、そういう漢字の部分については、特に第4水準まで含んだ漢字の部分についてシフトJIS化がされるかどうかというのはまだちょっとわかりません。これは実際にベンダーさんのほうでどういうふうに配慮してくれるかなということ次第だと思います。

もう一つの使い方としては、先ほども国際提案していると申し上げましたとおり、ユニコードにもISO/IECにも提案を出しておりますので、ユニコードのバージョンアップの際にここにある全ての漢字がコード付けされるということになります。ユニコードでパソコン内部も動かすということになってきますと、そこの中にこの新JISの漢字記号類が入ってくるという形があり得ると思います。注七

それから、シフトJISではなくてインターネットで扱っている2022の変形のような形ですと、エスケープシーケンスの切り替えによって新JISの文字というのを扱うということが可能です。この場合は何らかの方法で相互のコンピュータが新しい新JISの文字フォントを持っていなくてはいけないわけですが、基本的にはインターネットへはそれほど技術的な問題なく入り込めるはずだということはあります。注八

あと、UNIXで使っているEUCなんかでもフォントさえあれば問題なく動かせます。そうするためにかなりややこしい拡張の仕方をしています。その実態というのは第4水準のところを見るとよくわかるのですが、第4水準は1区1点から始めないで、なんか不思議にぽこぽこと、上のほうが空いていて下のほうが詰まっているという不思議な詰め方をしているのですが、これは全てシフトJIS、EUCその他へ配慮して、今の資源でも転換できるように配慮したという形です。ただ、結局、そこまでやっても使ってくれるかどうかはベンダーさん任せということだけは変わりません、ということになります。


■JISに足りない字とは何だったのか

ここでいわゆるJISに足りない字と言われていたようなものというと、皆さん、言われてみるとさて何があったかなかなか思いつかないだろうと思います。

非常によく言われていたのは、例えば香港の近くになんとか工業特別区というのがありまして、土偏に川と書く「」という字ですけれども、その字は当然、入っております。用例がたくさん出てきていますから。それから里見(とん)という作家がいますがそういう人の名前の「」とか『(ぼく)東綺譚』の「」であるとか、といったものが入っています。

人名では、NTTの電話帳データというのがかなり前から入っていまして、それをもとに作業をしましたので、今まで特殊な人名で出なかったものというもののおそらく3分の2以上は出るようになったのではないかと思います。電話帳には載っているけれども訳がわからない、本当にこの字でいいのだろうかという字がありまして、そして辞書にも載っていない字で、しかもいろいろと考えた結果、普通によく目にする字を何か自己流にくずした字であるというようなものについては、これは文字として流通はできないのではないかということでお引き取り願ったような字もなくはないのですが、基本的にはあっと驚くぐらい変わった字も入るようになっています。

見ていきますと、実はなんでこんなものまで入れなくてはならなかったかなという字まで入っていまして、そういうのは第4水準に多いのですが、ここへは出てこなかったのですが、白土三平さんの劇画の本のタイトルで『いしみつ』と漢字四つ組み合わせてタイトルがついているんです。これがCD-ROMの辞典にもあり、国会図書館のデータにもあって、つまり相互に違う2カ所から入ってきたので、その四つの漢字のうち二つはそれとはまったく別の意味としても使った字ということで既に入っていたのですが、2文字は誰もそれ以外で使ったことがない、なんだこれは忍者文字なんじゃないかとかと言いながら、ただ、マンガの字だから権威的に差別するという理由がないので、論理の行き着くところ、そういう字が入りました。

先ほども言いましたように、島屋の「」が入らないですとか、内田百の「」というか、間のお日様のところがお月様になっている字というのは、その前の段階で包摂規準というのがつくってあって、なんとか偏に間だとかなんとか偏に高という字などは全てパターンとしてははしごになったり月になったりとかあるんですが、あっても文字の意味が変わるわけではない、同じ字として通用しているということで出来上がっている包摂規準ですので、それを壊すことができなかった。


■包摂規準との鬩ぎ合い

包摂規準があるにもかかわらずどうしても入れたという文字というのは、さっきも言いました常用漢字表で見せている字というもので、これはもう一つ、根拠としては、法務省のほうで人名用漢字許容字体というおふれを出しておりまして、子どもの名前にも旧字体で付けていいよという一覧表があるわけです。子どもの名前として旧字を付けたのにJISがそれを包摂してしまっているから旧字だか新字だか見分けがつかないと、この文句についてはJISとしては法務省や文部省にたてをつく気は全然ないということで入れました。そのために包摂規準が一部、その部分については適用除外になってしまったということがあります。

包摂規準というのは、これは規格票の一部なんですが、こういう形で、完全に目に見える字の形で、こういう形とこういう形とこういう形は同じ字の部分として使われているから同じものとして扱うよというのを目に見えるように示したものということなんです。ですから、それまでの文字コードというのは、一つ字を示して、これと同じ字のコードはこれだよとだけ言う。異体字の取り扱いは字体差の小さいものは一つにまとめて、字体差の大きいものは別コードをふったと書いてあるけれども、字体差が大きいか小さいかといっても人の考え方次第で全然違う。みんながいろいろ判断して、これは規格票の字と違うから外字だというふうに外字をつくってきた。それをなるべく避けるために、こういう形とこういう形は同じとして扱っているからそのコードでやりとりしてくれということを目に見えるように出したものが包摂規準です。

ただ、包摂規準はそうやって目に見えるようにしてしまったせいで少々、堅苦しいといいますか、実際、自縄自縛になってしまうようなこともなくはなかったのですが、私もオブザーバーですけども委員として参加して、実際の日本人の常識として、昔はいざ知らず今は島屋の「」なんか別の字としてみんな扱っているのではないだろうかと。

先ほど、辰吉一郎の「」が入ったと言ったのは包摂規準がないからなんです。犬と大きいというのを区別しないなんてやってしまうわけにはいかないのと同じで、右肩に点が付いた付かないということが包摂できるわけではないものですから、包摂規準がない。じゃあ、入ると。島屋の「」は包摂規準がある。いくら使っていても入らないということなので、それは常識のほうから考えるとおかしいのではないかという異論を唱える委員がかなりいて、かなり最後まで意見の対立があったのですが、結局のところ、権威がべつにあるわけではなくて、この字はこう使いなさいと押しつけるものでもない。ただ、この字があってその字を向こう側に送りたい時にこのコードを付けて、このコードで送ってもらえばそちら側に届きますということだけのための規格ですから、その間に問題が起こらないためには常識という曖昧さではなくて、全部、目に見える形でやろうと。
97年JISの考え方がそれでしたので、それの上に立った拡張ということで、「高」のはしごになったり、なべぶたに口になったりしているのが別であるとすればそれを含む字はみんな別になるのかというようなことを、「」一字の場合だけは除外するということを決める根拠というのがどこにあるのかということが非常に問題になりまして、結局、日本の法例等に根拠を持つものだけに限ろうということになりました。それで内田百の「」とか島屋の「」は入らなかったという経緯があります。


■文字コードはいったい何を決めているのか

実はいちばん話したかったことというのが、私もこの委員会に入ってみるまではっきりしなかったことというのがあって、文字コードというのがいったい何を決めているのか、なんでこんなに混乱しちゃうのかというのが非常に不思議だったのですが、だんだんに薄々見えてきました。それで、実はまた一つ、他人の本の宣伝をするのですが、外で売っています、京大電算機センターの安岡さんの『文字コードの世界』という本。この間出たばっかりで、読んでみたのですが、ヨーロッパの文字コード、アジアの文字コードをそれぞれ例に挙げて、文字コードの仕組みというのがどういうもので、その結果、どういうふうに歴史的に混乱を起こしてきたのかというのが非常にわかりやすく書いてありましたので、漢字がどうこうということと文字コードがどうこうということをすっきりした頭で分けて考えるのにはいい本だなと思いました。
ということで、実際に空き時間にでもこの文字表を見ていただいて、なんでこういう字が入ったのか、これはどういう意味の字なんだということについては後のご質問の時間、もしくは二次会等で、一応、漢字の意味が全部わかるアンチョコは持っておりますので、そういう時間でお答えしようと思います。ありがとうございました。

注一10月25日の日本工業標準調査会情報部会において、JIS X 0213の規格原案が全会一致で可決され、2000年1月20日に施行されることとなりました。
注二1998年11月6日から1999年2月28日間で行われた、「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」最終案公開レビューの資料です。
注三『漢字問題と文字コード』大田出版刊
注四後で述べているように、現実には様々な文字コードの実装が行われていて、JISで規定している符号化方式はほとんど用いられていない。規格原案では三種類の実装について、符号拡張の方式を規定したが、情報部会での修正で、これらは「参考であって規定ではない」ことになりました。
注五これらの「いわゆる康煕字典体」は、常用漢字表では、「過去の字体とのつながりを示す」ために掲げられたもので、使用することを推奨するものではありません。一方、人名用漢字許容字体は「新字」「旧字」を区別して用いることを許容しているわけで、漢字に関しての行政の不統一が混乱を生んでいるわけです。さらには、「字体の差が大きい」とする根拠について、当用漢字や78JISに深く関わった林大氏が「画数で二画以上違う」ことを基準に置いたのに対して、常用漢字表では「一画違えば違う」という基準になったことが齟齬をきたしたとも言えます。
注六情報部会では、日本電気と日本アイビーエムの委員が、規格原案に強く反対し、結果として「規定」を「参考」に修正したわけですから、この二社は少なくとも実装を行うことはないでしょう。
注七情報部会でも、今後わが国の文字コード体系はISO2022系からUCS系に移行することで意見が一致したそうですから、ユニコードの勝利はほぼ確定したといえるでしょう。
注八これも「参考」となってしまったため、インターネットですぐに使えるようにはなりそうもありません。近い将来、ユニコードでメールをやり取りすることになり、それが拡張されるというコースをたどるのでしょう。


●電子文書
XMLの進化と現実について

株式会社デジタルコミュニケーションズ
代表取締役
●福重 青史(ふくしげ はるひと)


■はじめに
 ご紹介いただきましたデジタルコミュニケーションズの福重です。きょうは、皆さんにSGMLの現実をお話ししながら、SGMLとは何かということをわかっていただこうと思います。
 SGMLが日本に紹介されて既に十数年が経ちますが、皆さんからは、何か透明ガラスの向こうにSGMLがあるというふうに見えていた、つまり、SGMLってどうやって手をつけたらいいのかわからないという状態が続いていたと思います。ところが、去年からXMLというものが出てきて、今までかなり日陰のもので、変わった人間だけが手がけるという印象のあったSGMLが、初めて情報界のメインに浮かび上がってきたわけです。
 きょう、ここにご参加の皆さんは、組版ということに関して非常に高い関心をお持ちの方ですので、構造化文書とか文書の構造化ということにも多分、たいへん関心があるところなんだろうと思います。そこでまず、構造化文書と組版のことから入ります。

■SGMLは組版と情報処理を結びつける素晴らしい仕組みだ
 SGMLがいちばん最初に出てきた時に、非常に素晴らしい道具だ、夢のような道具だというふうに私は思いました。ところが、SGMLはまず、日本の出版界の皆さん達からいきなり拒否されました。それはなぜかといいますと、文書というのは一律一様なものではない、だからSGMLは適用できないというふうに、まず最初に言われたわけです。一律一様のものでないものの中にも、全て構造というのは存在するということをあえて声を大にして訴えたい思いでした。どのような文書でも、ペーパーとして表現されているものには何らかの構造が存在します。全ての文書はSGMLの対象になるということをテーマに考えてきたということです。
 さらに、これはちょっと大げさな言い方ですが、SGMLで組版の問題全てが解決するというふうにも確信しました。私も1980年ぐらいから実は電算写植のオペレーターとして仕事をしてきましたが、コンピュータを使って電算と名乗っている以上、何らかの情報処理、例えば索引や目次の自動生成などは当然できてしかるべきという問題意識があったわけです。そういう意味での組版の問題点を解決する道具としてSGMLが使えるはずだ、というふうに確信をしたということです。それの実現までには少し時間がかかりましたが、そういう問題意識でSGMLに取り組んできたということです。つまり、組版と情報処理の問題を解決する手段としてSGMLを位置づけたわけです。
 この後、1986年になって、私の知る限りではこの種のものとして日本で初めての雑誌「BUG NEWS」か出まして、この中でDTPだとかTeXだとかSGMLの紹介がいよいよ始まったわけです。今でも私はこれを自分のバイブルみたいな気持ちで思っていますけれども、ハイパーメディアといいますか、そういったものの観点が、この雑誌の上で非常に真面目に展開されていました。これが出発点です。ですから80年から86年までの間というのは、本当に何もわからないまま手探りで、しかし問題意識だけは持ち続けながらやっていたわけです。

■歴史概観、SGMLからHTML、そしてXMLへ
SGMLは、IBMが自分の会社のコンピュータのマニュアルを効率的につくるために開発したGMLが前身ですが、その後、これをスタンダードにしようという話になり、ANSIというアメリカの規格協会で標準化の検討が始まります。同時に、それを実践的に使うという目的で、83年にアメリカ国防総省が、自分達の軍に納入される調達物資のマニュアルについては基本的に電子文書、SGML化して収めるということをやり始めました。
 これはSGMLの話をする時にいつも引き合いに出される有名な話ですが、例えば戦闘機1台のマニュアルが戦艦1台分に相当する。そこでこれをCD-ROM1枚に納めたことにより、年間の軍の印刷物の調達に関わる費用が50億ドルも削減ができたというこがを言われています。この数字はちょっとあてになりませんが、アメリカでは、軍がSGMLを採用することによって非常に大きな成果を収めたことは事実です。あわせてその成果を受けて、86年には、ISO 8879として国際標準に定められるという流れになっています。
 このあたりから日本でもSGMLが知られるようになってきましたが、90年には通産省が、日本でのSGML利用を推進しようということでSGML懇談会という団体をつくっています。私も端のほうに小さくなってこの懇談会に参加しておりましたが、当時、大手のコンピュータ会社が一生懸命これに参加して、それなりの成果を収めています。この懇談会では、SGMLがどういうものなのかを掴むためには、あるいはSGMLを実用化するためには、少なくともフォーマッタとかパーザーとかそういったツールを出さなくてはいけないという話になりました。そして、ボランティアで『実践SGML』という本をみんなの力で翻訳し、出版するというところまでこぎつけたわけです。このSGML懇談会は、93年か94年には、一応その歴史的使命を果たしたということで廃止されました。
 さてその後、日本にもインターネットブラウザーが紹介されるわけですが、94年にこのHTMLを使ったブラウザーというのをみて、世界を結んだ電子会議みたいなデモを見た時に、私は非常にショックを受けました。これで時代は変わるなというふうに思ったものです。95年の暮れから突然、爆発的にインターネットブームが起きて、96年はインターネットばか騒ぎと言ってもいいような時代だったというふうに思います。そういう中で、ますますSGMLの役割というものが見えなくなってくるというのがあります。
 ところが、インターネットのHTMLがどんどんどんどん普及していくと、実はものすごい情報の海の中に投げ込まれていきます。しかし、それが非常にだめな情報だということに気付き始めて、このHTMLの規格を決めた3WCでは、やはりこれをきちっと整理した構造化文書として扱える規格を決めなくてはいけないということになったわけです。こうやってXMLが登場するわけですが、これはもう極めてSGMLそのものです。98年にXMLの規格が発表されて、どうでしょうか、今年に入って日本ではXML狂想曲といったような状況を呈しているのではないかというふうに思います。
 ビジネスとしてどういう状況になっているかといいますと、最初のSGMLの概念として、当時はあくまで社内の版下利用という目的であったと思います。しかし、95年にデータベース出版ブームと言われるものが起きます。日本では結局、マルチメディアのエンターテイメント系のCD-ROMはなかなか成功しませんでしたが、それに代わって、データベースものの出版というのが流行ったわけです。これはお金がとれますから、つくる側にとってはリスクがないということです。そして96年にインターネットブームということになり、バブル崩壊後の出口の見えない日本の企業としては、この情報技術を使わなくてはいけない。ITブームと言っていいと思いますが、そういうような状況が起きているということになります。

■何のためのSGMLか
 SGMLを、組版の道具だとか、あるいは何か情報処理をするための道具だというふうに思って見ているとわからなくなります。SGMLは、自分で勝手に決めたルールに従って書かれた単なるテキストデータのかたまりでしかないんです。大事なことは、それを使って何をしたいのか、どんなことをしたいのかという夢が、皆さん達にまず描かれているかどうかということです。「検索・抽出」だとか「スタイル規定」だとかということを実現するための道具をつくらなければ、SGMLだけは何も表現されないんです。SGMLは、自分では何もしないもので、ただそこに待っています。つまり、SGML、それを実現するためのプログラム、そして表現結果という三つの手順を踏まえ、最後に皆さんが手に入れるのは表現の結果そのものということです。
 ただ、それだったら単純に組版をすればいいじゃないかという話になります。しかしSGMLを使うと、その表現がどんなに複雑になっても対応できますし、あるいは以前に使った情報からさらにまた次の表現を生み出していくことが可能となります。コンピュータを使って我々が情報を利用する時に、さまざまな利用の仕方、考えているさまざまな夢があるはずなんです。それをここで描ききれていないと、SGMLを使う意味がないわけです。ところが日本ではこの10年、結局、例えば出版社で言うと「うちは版下だけもらえればいいので何もSGMLにする必要はない」というような非常に乏しい夢のない話だけをしてきたということです。それでSGMLが普及しなかったのです。
 今はいろんなメディアが出てきましたが、私はそれさえも非常に乏しいものだ、人間にとっては淋しいものだ、というふうに実は思っているのですが、いかにも即物的なものがあるとすぐにそれを使いたいという話になってしまうのが今の現実なんです。けれども、そうではなくてもっと新しい表現、もっと新しい利用の仕方というのを考えてもいいはずなんです。それが私も含めて何も語られていないというのが今の現実で、SGMLやXMLが持っている本当の意味がなかなか実現できないということであります。

■SGMLとデータベース
 あと一点ですが、データベースという言葉をよく使うようになりました。我々もSGMLを使う時にSGMLデータベースという言葉を使います。さて、そのデータベースについてですが、データのかたまりといいますか、データをたくさん積んであればそれもデータベースというふうに呼ぶということがあります。それで、SGMLもデータのかたまりですから、これをデータベースと呼んでも間違いではありません。データベースという言葉を使って議論をする時には、どういう概念をデータベースと呼んでいるかということを確認しないと、結構、議論が噛み合わないというふうになると思います。
 その他に、ここに書いてある「検索する」とか「抽出する」というそのアプリケーションとかあるいはデータベース言語というふうに言われていますが、そういったような情報を操る道具というのをデータベースというふうに呼んでいる人達もいます。このへんも、私はそれをあえて「データベースエンジン」というふうに呼んだほうがいいだろうというふうに思いますが、データベースという言葉はそういうふうに使われています。
 さらに、システム全体を含めてデータベースというふうに呼ばれている場合もあります。ということでSGMLを議論する時には、データベースということが常に問題になるわけです。重要なことは、データベースということを議論する場合には、データのかたまりとそれを実現するエンジンの部分というのを、概念としてきちっと分けて議論をする必要があるということだと思います。

■SGMLの実像
 少し細かい話に入りたいと思います。さて、SGML文書は「SGML宣言」「文書型定義(DTD)」および「文書インスタンス」の三つの部分から成り立っています。
 まずSGML宣言というのは、このSGMLはどんなふうなものになっているのかということを皆さんに、というよりもコンピュータにわからせるためのものです。実は、コンピュータだけではなくて、人間もこれを見ると、それが日本語の処理系なのか、あるいは英語の処理系なのかといったようなことを理解することができるわけです。そのことのルールを定めてあるのがSGMLの規格なんです。SGML宣言があれば、コンピュータも事前の了解としてそれがわかるということになるわけです。「SGMLの書き方の約束事を明示しておく」ということです。
 次に、そのシステムでやるということに決めた後に、いよいよ文書そのものを分析するということになります。文書を分析するとレイアウトとは別に、さっきも言ったように情報が持っている内容そのものがどういう構造を持っているのかということがわかります。そのわかったものをタグ付けの方法として書き表していくということになります。これを定めて記述したものが文書型定義(DTD)です。DTDの中にはタグというものがあって、そのタグの中でさらに細かいことを決めることになります。
 どういう構造になっているのかというのをまず決めてそれに名前を付けます。これは「要素名」というふうに言っています。名前の付け方は、はっきり言えば皆さん方が自由に書いても構いません。英語で書かなくてはだめだとか、日本語で書かなくてはだめだとかいろんなことを言われますが、少なくとも私の実践的な立場からは、JISの規格とかSGMLの規格とは別に、皆さん達が自分でわかる名前を日本語で付けたほうがいいというふうに思っています。付けて構わないです。それから先ほど言った、タグの親子関係とか出現する順番、出現というのはどういう順番で出てくるかとか、何回出てくるかということをDTDで決めます。
 また、文書の要素の中には、ペーパー上には表現されないものもあります。たとえば、データベースとして検索する条件などです。こういうものもDTDで定義し、SGML文書中に書き込むことができます。それはアトリビュート(属性)というふうに言われているものです。属性という用語は、皆さんが普通の表形式のデータベースを使う場合でも用いると思いますが、それと同じようなものです。
 あと、SGMLではどんな画像が扱えるかという質問をよくされます。SGML自体は、先ほども言いましたように、自分自身では何も表現しません。表現しない代わりにどんな画像でも取り扱うことができます。そう言うと変ですね。SGMLはテキストデータのかたまりです。そのテキストーデータの中にその画像ファイルの名前をどんどんどんどん書いておいてあげればいい。そうすると、それを実現する道具が、例えばGIFだったらインターネットブラウザーでも表現はできます、ということができるわけです。つまり、外部にある、SGMLのテキストとは違う外部の画像名とか図形だとか、あるいは他の何かを実現するアプリケーション名だとか、そういうのを書いておくという方法で、いわば何でも実現されるわけです。
 それからその他にももちろん使えるんですよ。いろんな使い方ができます。例えばここに「福重」という名前があった場合に、自動的に「福重青史」というフルネームに書き換えたいということがあります。そういう時に外に「福重青史」と書いたファイルを置いておいてあげると、このデータを使う時にこの「福重」という字は全部、「福重青史」という名前に換わるといったような、あるいは単純にAと書いておいて、Aという名前はこちらにある可変の名前の個人名を順次取り込めるとかいうようなことをこの中で指示することができるわけです。そういうものを、SGMLでは「実体(entity)」というふうに呼んでいます。SGMLの中身ではなく、外にある「外部実体」という言葉のほうがわかりやすいかもしれません。ですからSGMLで扱えないものは何もないというふうに言います。言いますというのは、じゃあ扱えないものは何もないけれども全部、実現できるのかというと、それは実現するためのエンジンによって決まってくるというふうになるということです。ちょっと話がわかりにくいかもしれませんが、そういうことです。

■XML、スタイルシートとDTD
 次にXMLの話を少ししたいと思います。XMLはEXtensible Markup Language ということで、これは、SGMLをインターネット用で使えるようにしようという視点と、HTMLの問題点を変えてやるにはこうするしかないということで決まったものです。SGMLの最大の弱点は、先ほど言いましたように、自分自身では何もしない、何もできない、何も表現できないものですから、皆さんに非常にわかりにくい。そしてさらにはそれを何かするものにするにはエンジンというものをお金をかけて開発をしなければいけないん。だから普及しなかったわけです。
 しかし、XMLはインターネットでそのまま使うことができるというふうに言われています。MicrosoftのIE5では確かにXMLを表示できます。ただし、表示するためには何かのスタイルシート、CSSとかXSLなどと言われるものを使って表示の方法を示す必要があります。ですから、HTMLのように簡単ではないと思いますけれども、ただCSSはもうIEの4の段階から使われていますので、皆さんも何がしか重宝して使っている道具ではあると思います。だから、スタイルシートはCSSで記述すればいいと思います。
 XMLにもう一点、特徴があります。それは、DTDのないXML文書もあるということです。ただ、このことは非常に誤解されていまして、DTDは要らないのがXMLだというふうに言われています。事実、IE5はDTDがなくても、XML文書を読み込むことができます。しかしそれは、「DTDがあったのと同じように正しいツリー構造を持っている文書である」ことが検証済みであるということが条件になっています。IEにデータを渡す時は正しい構造になっているということを事前の了解事項としておけば、DTDがなくてもいいじゃないかというだけの話です。やはり、ツリー構造があるのだからDTDがあるのと同じですよね。ということで、データベースとして使う部分ということに関して言うと、やはりDTDは必要ですという話です。ただ、立場が違うと、DTDは実は絶対にいらないというふうに言い張る人も今でもいます。それは使い方次第です。使い方次第では絶対にいらないのかもしれません。

■SGMLの利用
 実は、たくさんの実例を挙げて皆さんにゆっくりお話をしたかったのですが、時間がなくなってしまいました。すみません。
 最後に、SGMLで使う道具をまとめてあります。SGMLをやるのにはものすごく大変な設備がいるのではないかというふうに皆さん思われるわけですが、印刷側、つまり情報の加工をする側の立場から言えば、SGMLとかXMLの作業をするのに何の道具もいりません。HTMLを書くのと同じで、普通のテキストエディターを使って書いていけばまずいい。その他に処理をするものとしてスクリプト言語と言われているsedとかawkとかPerlとかですね。これはホームページをつくる方には一つの常識的な道具だと思うのですが、そのようなものを使えばいいということで、DTPのツールやインターネットのツール、それからCD-ROMのツールというのをあわせてやっていけば、SGMLのほうの作業そのものは誰でもできるという話になります。ですから、ほとんどお金はかかりません。システムを利用する側、例えば私達がある企業に提案してSGMLデータベースをつくる場合、その企業の側にはお金を払っていただかないとなかなかできませんけれどもね。
 最後のまとめになりますけれども、印刷のことと関連して言うと、オンデマンドというものを実現するためにも、SGMLのデータベースをつくっておかないと、あるデットラインを超えた時には絶対に対応できないということがあります。今、言いましたように、ワンストップとかワンツーワンというサービスをするためには、従来の印刷の方式では対応できません。道具は高い道具を提供されますけれども、中身がワンツーワンになっていなければ意味がないんです。そういったものを準備するものがSGMLです。印刷側の立場から立って考えた場合にも、オンデマンド印刷機はあってもオンデマンド印刷に使えるコンテンツはどこにあるのかということがちゃんと準備されていなければ、これは高い買い物をしただけという話になってしまうということです。それが今日の私のお話です。


Q&A
会場との
質疑応答


小形 小形といいます。小池さんに質問なんですけれども、3水・4水というか、予定番号0213がどういうふうにすれば我々実務者のレベルに落ちてくるかということ、いくつかお話を、いろんなセミナーを聞きながら、なんとなく僕なりにわかってきつつあるのですが、はたしてこの理解でいいのかどうなのかちょっとわからないのでお聞きしたいのですが。

まず、前提としてMacintoshやWindows98、WindowsNTはユニコードISO10646というか、エンコードとしてのUTF8である。それで、ユニコードにない文字を0213が持っている以上、現在の時点ではMacintosh、MacOS、あるいはWindows98、NTには実装できない。来年末にISO10646の改訂が予定されているので、それに対して国際提案活動を行っていきたい。逆に言えば、ISO10646に0213の文字が入らなければ、実装は不可能である、実装はできないという理解でよろしいのでしょうか。

小池 これは技術だけじゃなくて実は政治も絡みますので、今ここで床屋政談のようにこうだろうと言ってしまうことはちょっと辛いものがあるのですが、まず第一にISO10646に対する追加提案という形もJCSは行っています。同時に、国内実装という形では、シフトJIS、UC、あるいはインターネット上のISO2022JP、どの形ででも実装は可能であるという提示をしています。そういうことの中からどういうふうに使ってくださるかということは、これはメーカーさん、ベンダーさんの問題になってくると思います。

一つ言えるのは、上部団体、工業技術院の方からの話としては、やはり法務省でとり決めた漢字の扱い方というものを全国の行政機関がそれでもって動くものである以上、それに従った形での今度の0213の文字コード規格というものはできるだけ早くそうした期間に実装してほしいと、そういう声は出ています。

したがって、これは非関税障壁になるとか、また国際政治の問題などが絡んでくるとややこしいのですが、あくまでもそういう今回の0213のいかなる形においてでも実装が日本国内でされるべく動いてほしいということで、日本政府のほうからもある程度の圧力はかかるのではないかと思います。

そういう意味では、これはまたISOの国内機関であるJSC2なんかがどう対応するかにもかかってくるのですが、できることならばやはりUTF8でもなんとでもなるBMP(Basic Multi Language Plane)へ足りない600字ほどのものを全て入れていただくというところまで一応、最大限の提案、希望として提案するということをしています。既にもう10646の改訂というのは作業がどんどん進んでしまっていまして、そういう意味では0213の作業が少々遅れたためにBMPに入るか入らないかというところには、政治的にも技術的にも非常に厄介な問題は存在していますけれども、日本からの、できることならそうしたいという提案はあくまでもBMPに0213の文字を全て入れてほしいという提案である。

これはたとえISOのほうで手続き上無理だと、例えばユニコードコンソーシアムはBMPのどこか空いたところにこれを入れるという態度をとることは可能で、そうすると手続きを何らかとってISO10646でもBMPにその文字が入るというようなことは可能になってくると思いますので、こういうことは全て各ベンダー、メーカーのほうが、日本の行政機関への納入も視野に入れた上でどう実装するかということを考えるという、我々下働きのほうからはちょっと手の出ない、これから先の話だというふうに認識しています。

小形 BMPに入らなければどうなるんですか。

小池 これは非漢字、記号類についてはBMPに入るということで既に手続きが進められています。漢字の一部については、これは10646の改正でExtensionAというところに同じものがあると我々が認識したものについてはそこのコードポイントで申請していますから問題ないのですが、BMP外のExtensionBに現在、準備中であるところとぶつかってしまっているようなものをBMPに入れろという要求に対しては手続き上、ちょっとまだ不透明なものが残っています。

小形 もう一つなんですが、ユニコードのことはわかったということで、今、回答の中で言われたとおり、EUCであるとかISO2022-JPであるとか、シフトJISであるとかにも使えるよというふうになったところが大きな特徴だというふうに言われてますが、逆にその意味がちょっとよく僕にはわからないのですが、例えばユニコードのほうに入るように、あるいは10646に入るように頑張っていきますよというのは、さっき言ったようにWindowsやMacOSにそれは入らなければどうしようもありませんから、というのはわかるのですが、では逆に、今の現時点で、ISO2022に入るというのはインターネットに載るということでわかるのですが、EUCもUNIXに載るという御利益があるのかというのが、ちょっと僕にはよくわかってないのですが、教えていただけないでしょうか。

小池 要するに0213があくまでも0208の拡張であるという位置付けで、97年にそれまで一種ブラックボックスであったシフトJISについて規格に書くということで、こういう実装もありだということを公に工業規格の側から認めた。認めたものの拡張であるからそれにも対応するんだという、そういう建前です。

シフトJISで実装しなさいというふうにJISのほうが言うわけではないのですが、ただ配慮して、せっかくシフトJISというものも0208の時に規格の中で盛り込んだにもかかわらず、その拡張ではもうシフトJISは使えないではないかということになると話が違ってくるというのが、シフトJISの限界で文字数を決定した理由です。つまり、旧来のとてもユニコードには資産的に対応ができないような機械で新JISを搭載するということも技術的に可能であるということとしか言えないと思います。

山崎 山崎と申します。小池さんに質問なんですけれども、シンプルなんですけれども、『JIS漢字字典』といういい本を昔、お出しになられて、小池さんご自身かどうかちょっとよく存じあげないのですが、0213版は出るのでしょうかということでお願いします。

小池 私は著者ではなくて単に下働きしただけなんですけれども、0213版については著者側が、さあ、どうしようかと、今、言っています。版元の問題もありますので、『JIS漢字字典』は一部ではかなり好評をいただいたのですが、まだまだ売上的にはあまりよろしくないので、これが0213版が出てしまうと一挙にもう、おそらくつくるとしたら0208の分と0213の分を合体したものを、そういうものをつくらなければならないと思うと、元の『JIS漢字字典』は廃版になってしまうということもありますので、時期的にどうなるかというのもあります。

あと、規格票自体がおそらく相当分厚くて値段のはるものになってしまうと思いますので、そういう意味でも今のJCS委員のほうでやっぱりこれも普及版の辞典をつくって、つくれたらいいねという話だけは出ているのですが、具体的な出版計画まではまだたどりついておりません。(注記 情報部会からの要請で、規格票にはこれまでに公表した以上の情報を盛り込まないという決定がされましたので、本来解説に載せる予定のあった情報が載らなくなってしまいました。そうした情報を開示するために、「新JIS解説書」を出版しようという動きがあります)



●漢字のゆくえ・特別付録
文字と文字コードに関する話題

16回セミナー以降、約半年間の文字と文字コードに関する主な話題や書籍などを資料としてまとめました。

■JIS X0213とその他の多漢字処理
新JIS漢字規格の原案資料
http://jcs.aa.tufs.ac.jp/jcs/
「今昔文字鏡」文字鏡研究会
http://www.mojikyo.gr.jp/html/
「超漢字 漢字はもちろん、世界の文字13万字を自由に使える驚異のパソコンOS」
http://www.personal-media.com/btron/catalog/ck1.html
「Unicodeの最新動向」JAGAT
http://www.jagat.or.jp/story_memo_view.asp?StoryID=563
「e漢字」 京都大学人文科学研究所
http://www.zinbun.kyoto-u.ac.jp/~ekanji/
「GT明朝プロジェクト」
http://www.um.u-tokyo.ac.jp/DM_CD/DM_TECH/KAN_PRJ/HOME.HTM
「Unicode3.0」Unicode Home page
http://www.unicode.org/
AppleのOpenType構想
http://www.apple.co.jp/news/2000/feb/16macosx_font.html
http://www.screen.co.jp/press/NR000216.html

■論評・記事
「新JIS文字集合 最終案」を読む(福田雅史 1999年8月29日)
http://hp.vector.co.jp/authors/VA000964/html/pubrev.htm
「文字の海、ビットの舟」(小形克宏 2000年1月19日〜3月29日)
http://www.watch.impress.co.jp/internet/www/column/ogata/
「アップルに聞く−Mac OS X 日本語フォントはいかにして生まれたか」
(菊池美範 & 松尾公也,MacWIRE Online 2000年2月19日〜21日)
http://www.zdnet.co.jp/macwire/0002/19/c_outsidesp.html
http://www.zdnet.co.jp/macwire/0002/20/c_outside.html
http://www.zdnet.co.jp/macwire/0002/21/c_outside.html

情報処理学会第60回全国大会「ウェブ・リポート」(家辺勝文 2000年3月31日)
http://www.ne.jp/asahi/yabe/masafumi/suite/report001.html
「対応分析結果」のことなど---加藤弘一著『電脳社会の日本語』に触れて---
(池田証寿 2000年4月9日)
http://member.nifty.ne.jp/shikeda/taiou.htm
JIS X 0213:2000対応明朝体書体「W1基本漢字」 Windows外字
http://hp.vector.co.jp/authors/VA018031/sjis/other/program.htm
『電脳社会の日本語』サポートページ(加藤弘一)
http://www.horagai.com/www/moji/nihon/nihon000.htm

■イベント
「次世代の漢字環境」
(情報処理学会第60回全国大会パネル討論 2000年3月16日)
http://www.ipsj.or.jp/taikai/60taikai.html
「明朝体―字体・字形・書風の変遷 小宮山博史」
(築地電子活版連続セミナー第五回 2000年4月2日)
「矢作勝美 明朝活字を語る」
(朗文堂・組版工学研究会 2000年4月15日)
http://www.ops.dti.ne.jp/~robundo/YahagiKoenkai.html

■関連書籍
『文字コードの世界』
(安岡孝一・安岡素子著 東京電機大学出版局 1999年9月30日)
http://www.dendai.ac.jp/press/book_da/ISBN4-501-53060-X.html#mo_nai
『漢字問題と文字コード』
(小池和夫・府川充男・直井靖・永瀬唯 太田出版 1999年10月1日)
『明朝体活字字形一覧 1820年〜1946年 漢字字体関係参考資料集』
(文化庁文化部国語課 大蔵省印刷局 1999年9月)
http://www.gov-book.or.jp/K9909/bunka.html
http://www.monbu.go.jp/singi/kokugo/00000030/

『電脳社会の日本語』
(加藤弘一 文春新書 2000年3月20日) http://www.horagai.com/www/salon/works/denno.htm
『和文フォントガイド for Macintosh』
(玄光社 2000年3月31日)
http://www.genkosha.co.jp/ig/index.html
『人文学と情報処理 No.26「文字コード論から文字論へ」』
(勉誠出版 2000年4月)
http://www.bensey.co.jp/
『本と活字の歴史事典』
(印刷史研究会編 柏書房 2000年6月)
http://www.kashiwashobo.co.jp/

 

   
 
(16回セミナーまとめ●逆井克己+高野幸子+萩野生政)


▲トップページ