⼦ V.S. 子,同字形不同码是怎么一回事?

最近遇到一个中文乱码问题,制作成网页之后,有的电脑(Windows 7)出现乱码,经过排查发现是字符问题:

;; 这个字是客户 A 提供文档复制来的:
?⼦
;; => 12070

;; 这个字是我自己手打的:
?子
;; => 23376

问题:

1)这 2 个字外观是一样的,这怎么理解?

2)第一个 12070 是怎么打出来的?输入法的关系?

3)有没有可能自动把 12070 改成 正常的 23376?其它不少字还有同样的问题,如

?⽇ ;; => 12103
?日 ;; => 26085

康熙字典部首

手动 map

有人做过这个:

可能是 OCR 或者防爬虫机制

2 个赞