コンピューターで全漢字使用可に６万字コード化

▼ページ最下部

001 2017/12/24(日) 21:22:30 ID:YW0cZQ5VsI

日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、１つ１つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは１万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ５万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進めた結果、このほど１５年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の１つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

ＩＰＡの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
https://www3.nhk.or.jp/news/html/20171224/k1001127011...

002 2017/12/24(日) 21:41:33 ID:rL3jmbEX6s

コードの割り振りなんて単純作業だろうに
15年も掛るもんかね？

003 2017/12/24(日) 21:49:46 ID:mNU8KqblO.

一般ソフトのフォントがそれに対応するまでどれぐらいかかるのか、まぁやらんだろうな

004 2017/12/24(日) 21:54:44 ID:f0gcv3M7Dg

コンピュータってパソコンだけじゃないよな。
当然ＩＢＭのメインフレームも対応するんだよな。
ついでにシフトコードも統一してくれるのかな。
昔、ＤＯＳからホストにデータを渡すためにコード変換プログラムを書いたが、
日本のメインフレームだとＪＩＳコードを基準にコードが作られてるから
コード変換が楽だったんだけど、ＩＢＭのコードはわけわからなくて・・・
あの滅茶苦茶なコードは誰が作ったんだよ。

まぁ、今はコンピュータの世界から足を洗ったのでシステム修正の心配をする必要はないけどね。

005 2017/12/24(日) 22:13:39 ID:YW0cZQ5VsI

外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。

東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。

対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ２４０字をこうした方法で対応したということです。

手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。

一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。

ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。

006 2017/12/24(日) 22:19:15 ID:c8Njt/xTxg

Windowsは２バイトのユニコードのはずだが
そのうち３バイトになるかも知れないな
中国語は勿論、ハングルも何万文字もあるというから意外だ
英語圏の連中からするとアジアの文字の扱いは厄介なのだろな

007 2017/12/25(月) 09:35:44 ID:Q45rW3N0YY

今頃かよ。

008 2017/12/25(月) 11:30:32 ID:CiDhZoBJuQ

ワタナベもサイトウも元はひとつの漢字だったのに
誤字脱字で役所に戸籍登録したのでこんなに増えてる

009 2017/12/25(月) 12:06:08 ID:qlVDCSkil.

マジかよ
名前でしか使われていない漢字というのは
いつかの時点の誰か個人の創作に違いない
本も新聞も無い時代に日本にやってきて、うろ覚えの漢字を書いただけかも知れない
その家系には大切な漢字でも文化的に何の意味もない
文字コードを割り当てるのではなく淘汰すべき漢字だろう

010 2017/12/25(月) 17:30:10 ID:WsM3NngBJw

一般人がおもしろがってこんな漢字を使いだしたら
日本語はますます実用性を失って使いものにならなくなる

日本語の将来をまじめに考えたら
まず漢字の字体を簡略化して1個に統一し
漢字の数も厳しく制限して減らしていき
最終的に漢字を完全に廃止するべき

012 2017/12/25(月) 18:44:39 ID:o97DQiZUys

「嬲」は１万字の中に入ってるんだ

013 2017/12/25(月) 19:05:58 ID:o97DQiZUys

;

014 2017/12/25(月) 19:29:56 ID:1YJY7HLBqI

Vistaになったころに勝手に字体が変わったのは記憶に新しい。
人名を完全にするには２バイトのUnicodeでは足りない。
異体字セレクタを付けた４バイト＋２バイトが必要。
いまは一点の辻なのか二点の辻なのか、円鯖なのか、月鯖なのか、フォントによってバラバラのままだ。
さらに６万時では足りななくて、今は文字もサロゲートペアで４バイトになっている。
つまり人名のためのデータベースでは、一文字８バイトは最低必要。

015 2017/12/25(月) 22:03:16 ID:gKCvXpKdVU

今の６倍だと、変換するの面倒臭そう

016 2017/12/26(火) 10:58:25 ID:8zpgo73n1Q

30年前には実現していたのにな。　日本が四半世紀低迷した要因。

017 2017/12/26(火) 12:39:29 ID:d51nFpikqQ

昔は画面上で16×16ドットのフォントが普通だったから怪しげな略字もあったけどねぇ。
24×24ドットで印刷すると正しく印刷出来たりして。
まぁ、それでも怪しい字もあったけど。
コンピュータの進歩でやっと実現できたって感じかな。

018 2017/12/29(金) 13:52:40 ID:RuC5mIdT06

姓の漢字で、本家と分家で違う漢字にしたというのもあるからな
崎だったら、つくりの字を少し変えたり、山を上に持って行ったり

▲ページ最上部

ログサイズ：9 KB 有効レス数：17 削除レス数：1

不適切な書き込みやモラルに反する投稿を見つけた時は、書き込み右のマークをクリックしてサイト運営者までご連絡をお願いします。確認しだい削除いたします。

ニュースIT・科学掲示板に戻る全部次100 最新50

スレッドタイトル：コンピューターで全漢字使用可に６万字コード化

レス投稿