博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
写了个go语言版的chardet包
阅读量:6880 次
发布时间:2019-06-27

本文共 549 字,大约阅读时间需要 1 分钟。

hot3.png

    github.com/hydra13142/chardet

以上就是地址。支持中文编码(hz-gb2312、big5、gbk、gb18030)、韩文编码(euc-kr)、日文编码(shift-jis、euc-jp、iso-2022-jp)和unicode编码(UTF-8、UTF-16BE、UTF-16LE、UTF-32BE、UTF-32LE)的检测。

除了合法性检测之外,还会根据字符分布来进一步检测,返回得分最高的。当然这一步就不能保证准确性了,如果文本不是那种特别怪异的,大致上还是能保证检测正确的。

本包只有两个函数:

// 本函数返回文本最可能的编码格式
func Mostlike([]byte) string
// 本函数返回文本所有可能的编码格式,可能性越高越靠前
func Possible([]byte) []string

返回的字符串就是上述编码的字符串名称(小写版本)。

为啥只有这些编码可以检测?

当然是因为第一code.google.com/p/go.text包里只有这些编码格式的编解码器;第二除了中日韩还有unicode,其他几乎所有的编码格式都是单字节的,检测个毛啊……

转载于:https://my.oschina.net/liudiwu/blog/314483

你可能感兴趣的文章
python 基础 9.4 游标
查看>>
es6 modules 和commonjs
查看>>
前后台交互
查看>>
LINQ&EF任我行(二)--LinQ to Object (转)
查看>>
Python之旅.第五章.面向对象
查看>>
Unity坐标系 左手坐标系 图
查看>>
python获取昨日日期
查看>>
13.1.2 拷贝赋值运算符、析构函数、三/五法则、阻止拷贝
查看>>
2013年蓝桥杯题目与解答
查看>>
HTML5仿微信公众号界面
查看>>
海康威视 - 萤石云开放平台 js 版
查看>>
关于分销平台
查看>>
剑指offer---12-**--数值的整数次方
查看>>
PAT - L2-010. 排座位(并查集)
查看>>
HDU - 5269【SBBBBBB Trie】
查看>>
sql server 日志文件结构及误操作数据找回
查看>>
JUnit 3一个例子就懂
查看>>
Mongodb相关 (Shell命令 / mongoose)
查看>>
Web API的Log问题
查看>>
leetcode Second Highest Salary
查看>>