コンピューターで全漢字使用可に 6万字コード化


▼ページ最下部
001 2017/12/24(日) 21:22:30 ID:YW0cZQ5VsI
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
https://www3.nhk.or.jp/news/html/20171224/k1001127011...

返信する

002 2017/12/24(日) 21:41:33 ID:rL3jmbEX6s
コードの割り振りなんて単純作業だろうに
15年も掛るもんかね?

返信する

003 2017/12/24(日) 21:49:46 ID:mNU8KqblO.
一般ソフトのフォントがそれに対応するまでどれぐらいかかるのか、まぁやらんだろうな

返信する

004 2017/12/24(日) 21:54:44 ID:f0gcv3M7Dg
コンピュータってパソコンだけじゃないよな。
当然IBMのメインフレームも対応するんだよな。
ついでにシフトコードも統一してくれるのかな。
昔、DOSからホストにデータを渡すためにコード変換プログラムを書いたが、
日本のメインフレームだとJISコードを基準にコードが作られてるから
コード変換が楽だったんだけど、IBMのコードはわけわからなくて・・・
あの滅茶苦茶なコードは誰が作ったんだよ。

まぁ、今はコンピュータの世界から足を洗ったのでシステム修正の心配をする必要はないけどね。

返信する

005 2017/12/24(日) 22:13:39 ID:YW0cZQ5VsI
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。

東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。

対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。

手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。

一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。

ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。

返信する

006 2017/12/24(日) 22:19:15 ID:c8Njt/xTxg
Windowsは2バイトのユニコードのはずだが
そのうち3バイトになるかも知れないな
中国語は勿論、ハングルも何万文字もあるというから意外だ
英語圏の連中からするとアジアの文字の扱いは厄介なのだろな

返信する

007 2017/12/25(月) 09:35:44 ID:Q45rW3N0YY
今頃かよ。

返信する

008 2017/12/25(月) 11:30:32 ID:CiDhZoBJuQ
ワタナベもサイトウも元はひとつの漢字だったのに
誤字脱字で役所に戸籍登録したのでこんなに増えてる

返信する

009 2017/12/25(月) 12:06:08 ID:qlVDCSkil.
マジかよ
名前でしか使われていない漢字というのは
いつかの時点の誰か個人の創作に違いない
本も新聞も無い時代に日本にやってきて、うろ覚えの漢字を書いただけかも知れない
その家系には大切な漢字でも文化的に何の意味もない
文字コードを割り当てるのではなく淘汰すべき漢字だろう

返信する

010 2017/12/25(月) 17:30:10 ID:WsM3NngBJw
一般人がおもしろがってこんな漢字を使いだしたら
日本語はますます実用性を失って使いものにならなくなる

日本語の将来をまじめに考えたら
まず漢字の字体を簡略化して1個に統一し
漢字の数も厳しく制限して減らしていき
最終的に漢字を完全に廃止するべき

返信する

012 2017/12/25(月) 18:44:39 ID:o97DQiZUys
「嬲」は1万字の中に入ってるんだ

返信する

013 2017/12/25(月) 19:05:58 ID:o97DQiZUys
014 2017/12/25(月) 19:29:56 ID:1YJY7HLBqI
Vistaになったころに勝手に字体が変わったのは記憶に新しい。
人名を完全にするには2バイトのUnicodeでは足りない。
異体字セレクタを付けた4バイト+2バイトが必要。
いまは一点の辻なのか二点の辻なのか、円鯖なのか、月鯖なのか、フォントによってバラバラのままだ。
さらに6万時では足りななくて、今は文字もサロゲートペアで4バイトになっている。
つまり人名のためのデータベースでは、一文字8バイトは最低必要。

返信する

015 2017/12/25(月) 22:03:16 ID:gKCvXpKdVU
今の6倍だと、変換するの面倒臭そう

返信する

016 2017/12/26(火) 10:58:25 ID:8zpgo73n1Q
30年前には実現していたのにな。 日本が四半世紀低迷した要因。

返信する

017 2017/12/26(火) 12:39:29 ID:d51nFpikqQ
昔は画面上で16×16ドットのフォントが普通だったから怪しげな略字もあったけどねぇ。
24×24ドットで印刷すると正しく印刷出来たりして。
まぁ、それでも怪しい字もあったけど。
コンピュータの進歩でやっと実現できたって感じかな。

返信する

018 2017/12/29(金) 13:52:40 ID:RuC5mIdT06
姓の漢字で、本家と分家で違う漢字にしたというのもあるからな
崎だったら、つくりの字を少し変えたり、山を上に持って行ったり

返信する


▲ページ最上部

ログサイズ:9 KB 有効レス数:17 削除レス数:1





ニュースIT・科学掲示板に戻る 全部 次100 最新50

スレッドタイトル:コンピューターで全漢字使用可に 6万字コード化

レス投稿

未ログイン (ログイン

↑画像ファイル(jpg,gif,png)