話題のまとめニュース

ネットで話題のニュースをまとめました!

【IT】コンピューターで全漢字使用可に 6万字コード化

   

1 :みつを ★:2017/12/24(日) 22:36:10.23 ID:CAP_USER9.net
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html?utm_int=news_contents_news-main_001

12月24日 18時04分IT・ネット
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
(リンク先に続きあり)

151 :名無しさん@1周年:2017/12/24(日) 23:11:33.56 ID:7CCEiwYS0.net

塚 もフォントによっては線の繋がり方が違うけど、こんなのも別字扱いするのか?

266 :反安保・非戦派 :2017/12/24(日) 23:40:29.30 ID:UBwlKIHG0.net

momo(U+9943)

789 :名無しさん@1周年:2017/12/25(月) 10:25:35.14 ID:A0MEpPDa0.net

>>683
キラキラネームにも言えよ

キラキラネームのせいで無駄な読み方が無限に増え続けてるだろ
ハッキリ言ってキラキラネームの読み方なんか覚えたくないし
はやく規制しろよ

905 :名無しさん@1周年:2017/12/25(月) 22:38:55.28 ID:Tc4VUyrF0.net

明治生まれは殆どいなくなったけど、変体仮名は大丈夫なんだろうか

13 :名無しさん@1周年:2017/12/24(日) 22:41:55.64 ID:bmUgnDyY0.net

超漢字・・・

しかし自治体の基幹業務システムにおおむね反映されるのはいつの日やら・・・

758 :名無しさん@1周年:2017/12/25(月) 09:33:57.08 ID:bfO+qw5T0.net

名前の変な漢字はただの書き間違いでも
役所が受理しちゃったから外字作ってごまかした、とか普通にあるだろな

716 :名無しさん@1周年:2017/12/25(月) 08:51:06.76 ID:C8BeiPoV0.net

●シンガポールの例

・小学1年から授業の大半を英語と主に中国語の学習に当てている
・算数も理科も英語で教える
・言語能力には会話言語能力(日常会話ができる、道案内程度ができる程度)、
 学習言語能力(専門的な知的な会話ができること)があると言われる
・シンガポールは街にも英語があふれており小学校から英語を習っているが
 それでもバイリンガルが全然育っていない 
 セミリンガル(英語も中国も日常会話程度で専門的な会話はできない)が
 一番多くなってしまっているという結果
・中国語と英語の両方の新聞が読め理解できる若者はたった13パーセントにすぎない

■今の日本は英語も日本語も学習言語能力が身についてる人を求めているが
 そうなる人はなかなかいない。
 下手するとセミリンガル(日本語も英語も会話言語能力はあるが
 両方とも専門的な知的な会話はできない状態)のどっちつかずばっかり増えてしまう

604 :名無しさん@1周年2017/07/14(金) 22:51:28.61 ID:B/EI7s7p0
>>557
消防の頃の、普通のクラスのヤツ・36人の中で2人、
漢字書き取り50問で0点を取るようなヤツが居た
90点超は2人だけ居たけど、基本的に皆ボロボロだった
シンガポールの例を見ても思ったんだが、日本でそれをやっても、
どっちつかずで崩壊するヤツのほうが圧倒的に多くなる気しかしないな…
36人で2人ぐらいは、何か凄いものにもしかしたらなるかもしれんけど、
ならんかもしれんしね…

740名無しさん@1周年2017/08/24(木) 13:51:17.71ID:/crE5e120
>>730
成長には個人差があるから6歳から7歳の時点で完成してない人は
完全に落ちこぼれ扱いだね。
教育というよりは「生存競争させるだけ」という感じかな。
従来の日本型の教育の方がまだマシという感じだわ

770 :名無しさん@1周年:2017/12/25(月) 09:43:47.46 ID:TF9fAVad0.net

今までの分でも後ろの方のコードって「何これ」的な漢字ばかりな
正しいのか間違ってるのかすらわからない
存在そのもの宇宙人並みにあやふやなものばかりなのに
なんでこう無意味なことするかね
バカクイズ番組の影響か?
ほんとに無駄極まりない無意味コスト

115 :名無しさん@1周年:2017/12/24(日) 23:04:50.23 ID:RZ1uEZY+0.net

全漢字が文字として有るのに、デジタルでは表示出来ないというのは、甘え。

812 :名無しさん@1周年:2017/12/25(月) 12:30:37.63 ID:hELj+5ZZ0.net

似たような字ばっかり増やしても‥

907 :名無しさん@1周年:2017/12/25(月) 22:43:03.42 ID:lk1JLB/u0.net

>>903
変体かなも定義されてるけどもういいだろって思うわw

814 :名無しさん@1周年:2017/12/25(月) 12:38:03.02 ID:4ozvOocD0.net

フォントデザイナーの講演聞いたことあるけど
複数でやると書体が変わってしまうから
一人でひたすら書いてくのな
開発に数年単位かかると

6万字をひたすら作っていたとすると胸熱

445 :名無しさん@1周年:2017/12/25(月) 00:44:50.12 ID:Kbf183I80.net

>>437
読み音は実際は自由なんじゃないの?

215 :名無しさん@1周年:2017/12/24(日) 23:24:58.15 ID:VlNTfS8b0.net

仏典の正字を全て、人名漢字をすべて、康熙字典に
ある漢字をすべて、

現代版の「康熙字典」になるだろう。
それでも、どうせ間違いや収録漏れなどが後に発見
されるだろうから、何年版の漢字コードというぐあいに
なるのかな。

コードに対応する字体の配布は、SecureDNSのように
オンデマンドで表示に必要だが手持ちにない場合には
その都度ネットから拾ってくることも考えられそう。

それにしても、16ビットで表せる最大の個数6万5千強
を越えた漢字の字数になったら、どうするのだろうか。

できれば、OSなどのレベルで文字は16ビットあるいは
32ビットのものとして欲しい。
 char 型は、文字一つを表すためのビット数を含んだ
短い整数型であるべき。1バイト=8ビットを特に
表すデーター型の名前は byte などのようにすはっきり
るべき。そのような言語で文字を固定長で扱って
プログラムをすっきりしたいね。もちろん16ビットの
0が、NULL文字だよ。

873 :名無しさん@1周年:2017/12/25(月) 19:51:04.68 ID:cJ+8gric0.net


この字はjisに登録されているが
元々字としては存在しない字
なぜ登録されているのか謎

611 :名無しさん@1周年:2017/12/25(月) 05:26:25.90 ID:Y5rNJ7Mt0.net

惨い記事なのは間違いない。記者が無知すぎる。

660 :名無しさん@1周年:2017/12/25(月) 07:42:00.64 ID:O4EMZwJz0.net

行政PCからゲイツ締め出してTRONにするってことだろ

264 :名無しさん@1周年:2017/12/24(日) 23:40:04.85 ID:oiizuKBc0.net

いよいよBTRONに時代が追いついたのか

434 :名無しさん@1周年:2017/12/25(月) 00:39:19.46 ID:bLEhm+hx0.net

江戸時代にさかのぼれない家の苗字は
どうせ5代ぐらいしかたってないから字体統一でいい
ワタナベのベの字も渡辺と渡邊と渡邉の3つの中から選ばせればいい

33 :名無しさん@1周年:2017/12/24(日) 22:48:47.08 ID:giSDl/8o0.net

戸籍を整備する際の転記ミスがまったく修正されずに長年にわたって通用していたのが現況
いまさら変更は不可能になっている

147 :名無しさん@1周年:2017/12/24(日) 23:10:41.95 ID:kzjYH7ma0.net

地名や名前は常用漢字の使用を義務付ければいいのに。
社会全体として無駄コストだろ。

西洋なら52文字で済むものを

510 :名無しさん@1周年:2017/12/25(月) 01:20:59.73 ID:zRhVaexk0.net

>>504
バカとか利口とかじゃなくて単に全部受け入れてただけでしょ。
手書きベースなら別に数を制限する必要もない。

29 :名無しさん@1周年:2017/12/24(日) 22:47:57.18 ID:abBHPtUI0.net

国文学やってる奴はMacの超漢字が必須だっていうもんな。
なんぼか状況変わるのかね?
まだまだなのか。

841 :名無しさん@1周年:2017/12/25(月) 15:50:35.31 ID:qxoQc9r00.net

漢字ROM内蔵

764 :名無しさん@1周年:2017/12/25(月) 09:37:53.79 ID:C8BeiPoV0.net

287 :ココ電球 _/ o-ν ◆tIS/.aX84.2017/07/05(水) 17:59:48.28 ID:cFKO1ENw0
ちがう
多文化共生のせいで アメリカ人の語彙はどんどん減っている
いまや殆どのアメリカ人は「穀物」 grain といっても理解しないので 
仕方なく野菜と言って共通語としている。

327 :名無しさん@1周年2017/07/05(水) 18:02:51.58 ID:yF9bH6Fj0
>>287
日本語を勉強しているアメリカ人の知り合いがいるんだけど、
日本語を勉強しているうちに自国の語彙の少なさに危機感を覚え始めた、
とか言っていたんだが、そういうことか。

309 :名無しさん@1周年2017/07/06(木) 11:20:25.66 ID:8f1/IsjU0
アメリカはそんなことより

・中学生になっても四則演算がロクにできない学生がいる
・大人でも電卓無いとおつりの計算すらできない
・英語がしゃべれないティーンエジャーが増えている

を心配しろ。
特にスペイン語しか喋れないアホ増えすぎて吹くレベルだぞ。

698 :名無しさん@1周年:2017/12/25(月) 08:26:47.30 ID:xyg9vFae0.net

>>683
まじでこういう広い視点で日本語のことを考えられる人間が出てきてほしい

868 :名無しさん@1周年:2017/12/25(月) 19:24:50.97 ID:oceBdHJO0.net

資源が少なかったからさ

975 :名無しさん@1周年:2017/12/27(水) 12:10:27.95 ID:dfQ8ta+S0.net

曲がらない西が名前にある俺にとっては朗報

700 :名無しさん@1周年:2017/12/25(月) 08:31:06.07 ID:PadOWGNI0.net

>>689
愚民表音文字を使ってる某国が、使ってもいない文字にに矢鱈とリソースを食い潰したからね。
それで収録出来る漢字が減り、日本と中国は大迷惑した。

627 :名無しさん@1周年:2017/12/25(月) 06:33:30.22 ID:Jkj9LCx00.net

アルファベット26文字が、如何に効率がいいかわかるね
CIAとかICBMとか造語能力は極めてしょぼいけど




 - ニュース