文字コードについて

コンピュータは文字コードという数値で文字を処理しています．日本語を扱う上でいつもついてまわる問題が文字コードの処理方法です．

文字コード †

もともとコンピュータはアルファベットを使う国，アメリカで作られたので，日本語のようにひらがな，カタカナ，そしてたくさんの漢字を使うようには出来ていませんでした．アルファベットと数字なら1バイトあれば事足りますから．

でも日本人にとって，アルファベットと数字しか使えないコンピュータなんて不便でしょうがありません．日本語のように文字の種類が多いと一文字を表すのに2バイト以上が必要になります．それにはいろいろと困難が伴うのですが，さまざまな工夫で日本人はつぎの方法を編み出しました．

詳しいことは置いておいて，現在パソコンなどで使われているものは

がメインです．シフトJISコードはWindowsやMac OSの標準コードとして，7ビットJISコードはメールなどに，EUCコードはLinux系OSで多く使われています．

改行を表すのに用いられるコードが改行コードです．違うOSでつくったテキストファイルをエディタで開くと，改行がなくて読みずらかったりします．これは日本語の問題ではなく， OSによって採用している改行コードが異なるために起こります．

日本語文字コードと改行コードは OS によって少し異なっており，つぎのようになっています．

例えば Linux で作ったファイルを Windows で使う場合は，文字コードを EUC-JP から Shift-JIS に，改行コードを LF から CR+LF にすればいいことがわかります．