文字エンコーディングはUTF8で本当に十分なのか？はfalseなのは前提では。

文字エンコーディングはUTF8で本当に十分なのか？ | スラドデベロッパー

再出した感のあるテーマです。

言語タグのような構造に焦点が大きくなっているのは今現在ならではか。今は、XMLのように構造表現も文字列上で表すことが求められる。文字列上にレイヤーが作れるようになっていないとだめで、そうなると構造表現で使用するためにASCII互換は必須になるだろう。

あと、それに関してASCII全体が構造符号用にもなるような特別視されるようになると思っている。自分が使っている範囲以外の文字体系は知らなくても、ASCII処理だけできれば構造化できる。つまり現状の流通フォーマットのように、構造文字列のフォーマットの定義内に出てくるリテラルはASCIIの範囲内というのはもう絶対なのかなと思う。FortressはUnicode全体を使っているけど、最低限構造に関する部分はASCIIマッピングが存在しているし。

自分としては、他システムの日本語環境の問題のためだけにエンコード関係の処理を利用側で増やさなくてはいけない現状は、手間以外の何者でもないと思っている。つまり、十分かよりも、楽に必要な処理が得られるかどうかのほうが重要だと見ている。どのくらいかといえば、正規表現での入れ替えできるのが、異字体に関係なくできる程度("齋籐".sub /斎/, "内")、のセマンティクスが規定されていることである。という感じなので、既存の流通している文字コードでは不十分であり、Unicode 3.0ならいいかなって思っています。