コンピュータは文字コードという数値で文字を処理しています.日本語を扱う上でいつもついてまわる問題が文字コードの処理方法です. #contents * 文字コード [#f79d49a4] もともとコンピュータはアルファベットを使う国,アメリカで作られたので,日本語のようにひらがな,カタカナ,そしてたくさんの漢字を使うようには出来ていませんでした.アルファベットと数字なら1バイトあれば事足りますから. でも日本人にとって,アルファベットと数字しか使えないコンピュータなんて不便でしょうがありません.日本語のように文字の種類が多いと一文字を表すのに2バイト以上が必要になります.それにはいろいろと困難が伴うのですが,さまざまな工夫で日本人はつぎの方法を編み出しました. - JIS漢字コード - 区点コード - 7ビットJISコード - シフトJISコード - EUCコード - Unicode 詳しいことは置いておいて,現在パソコンなどで使われているものは - 7ビットJISコード - シフトJISコード - EUCコード - Unicode がメインです.シフトJISコードはWindowsやMac OSの標準コードとして,7ビットJISコードはメールなどに,EUCコードはLinux系OSで多く使われています. * 改行コード [#h3e9ae26] 改行を表すのに用いられるコードが改行コードです.違うOSでつくったテキストファイルをエディタで開くと,改行がなくて読みずらかったりします.これは日本語の問題ではなく, OSによって採用している改行コードが異なるために起こります. * 各OSで使われている文字コード [#p9eda41b] 日本語文字コードと改行コードは OS によって少し異なっており,つぎのようになっています. |OS|(主な)日本語文字コード|改行コード|改行コード(16進)|改行コード(10進)|h |Linux|EUC-JP|LF|0A|10| |Wondows|Shift_JIS|CR+LF|0D 0A|13 10| |Macintosh|Shift_JIS|CR|0D|13| 例えば Linux で作ったファイルを Windows で使う場合は,文字コードを EUC-JP から Shift-JIS に,改行コードを LF から CR+LF にすればいいことがわかります.