读书人

Unicode编码的运用心得及Unicode格式的

发布时间: 2013-02-24 17:58:56 作者: rapoo

Unicode编码的使用心得及Unicode格式的INI文件

1、引言

在软件开发过程中,尤其是界面软件的开发,面向的客户不确定,客户使用的环境更加不确定,往往由于使用的编码问题,导致软件的使用产生问题。

Microsoft从Windows 2000开始,所有的WindowsAPI的接口都是Unicode格式,但是为了开发人员方便,Microsoft提供了Ansi接口,不过Ansi接口最终调用的还是Unicode的接口,只不过中间经过了一层转换罢了。所以在Microsoft平台开发,调用Unicode接口效率比调用Ansi接口效率会有所提高,中间节省了Ansi编码到Unicode编码的转换,节省了内存的申请与释放。更有利的是,使用Unicode编码,不会再由于OS系统语言的不同,产生不必要的麻烦,才能开发出真真正正的全球化软件。

2、个人开发中遇到的问题

前段时间由于开发一个软件,需要调用别人的接口,虽然我的软件是Unicode编码,对方的模块也是Unicode编码,但是对方提供的接口却是Ansi接口,在非中文系统下,由于涉及到中文路径,导致Ansi和Unicode编码转换出现错误,转换结果不可逆转。当OS的区域语言设置为中文时,转换接口可以逆转,可以正常使用。下面图一图二展示了不同的区域语言设置产生的效果。16进制大约的字符串为转换后的Ansi字符串。

图一、系统区域语言设为中文时

Unicode编码的运用心得及Unicode格式的INI文件

图二、系统区域语言设为非中文时

Unicode编码的运用心得及Unicode格式的INI文件

测试代码:

//messagebox buffer

wchar_t wc[1000] = {0};

//

char c1[] = "新建文件夹";

wchar_t wc1[] = L"新建文件夹";

wcscat(wc,L"新建文件夹(ansi) char = ");

for(int i = 0; i <strlen(c1); ++i)

wsprintf(wc,L"%s %0X", wc, (unsignedchar)c1[i]);

wsprintf(wc,L"%s len = %d\n", wc, strlen(c1));

//ansi->unicode->ansi

wcscat(wc,L"ansi->unicode->ansi ansi = 新建文件夹\n");

//ansi to unicode

wchar_t *pwc1 = Ansi2WChar(c1);

wcscat(wc,L"ansi to unicode = ");

wsprintf(wc,L"%s%s len = %d\n", wc,pwc1,wcslen(pwc1));

//unicode to ansi

char *pc1 = WChar2Ansi(pwc1);

wcscat(wc,L"unicode to ansi = ");

for(int i = 0; i <strlen(pc1); ++i)

wsprintf(wc,L"%s %0X", wc, (unsignedchar)pc1[i]);

wsprintf(wc,L"%s len = %d\n", wc,strlen(pc1));

delete []pwc1;

delete []pc1;

//unicode->ansi->unicode

wcscat(wc,L"\n\nunicode->ansi->unicode unicode = 新建文件夹\n");

//unicode to ansi

pc1= WChar2Ansi(wc1);

wcscat(wc,L"unicode to ansi = ");

for(int i = 0; i <strlen(pc1); ++i)

wsprintf(wc,L"%s %0X", wc, (unsignedchar)pc1[i]);

wsprintf(wc,L"%s len = %d\n", wc,strlen(pc1));

//ansi to unicode

wcscat(wc,L"ansi to unicode = ");

pwc1= Ansi2WChar(pc1);

wsprintf(wc,L"%s%s len = %d\n", wc,pwc1,wcslen(pwc1));

delete []pwc1;

delete []pc1;

MessageBoxW(wc);

注意:Ansi2WChar和WChar2Ansi调用的是Windows API进行转换的,代码如下:

char * WChar2Ansi(constwchar_t * pW)

{

DWORDdwNum = WideCharToMultiByte(CP_OEMCP, NULL, pW, -1, NULL, 0, NULL, FALSE);

char *pValue = new char[dwNum + 1];

if(pValue)

{

memset(pValue,0, (dwNum + 1) * sizeof(pValue[0]));

WideCharToMultiByte(CP_OEMCP,NULL, pW, -1, pValue, dwNum, NULL, FALSE);

}

return pValue;

}

wchar_t * Ansi2WChar(constchar * pA)

{

DWORDdwNum = MultiByteToWideChar (CP_ACP, 0, pA, -1, NULL, 0);

wchar_t *pValue = newwchar_t[dwNum + 1];

if(pValue)

{

memset(pValue,0, (dwNum + 1) * sizeof(pValue[0]));

MultiByteToWideChar(CP_ACP, 0, pA, -1,pValue , dwNum);

}

return pValue;

}

3、Unicode格式的INI文件

Microsoft提供了GetPrivateProfileStringA、WritePrivateProfileStringA、GetPrivateProfileStringW和WritePrivateProfileStringW用于读写INI文件;一下分成四种情况讨论字符串内部的转换逻辑

1)、文件格式为ANSI

a、调用GetPrivateProfileStringA和WritePrivateProfileStringA接口:首先转换成GetPrivateProfileStringW和WritePrivateProfileStringW接口的调用,中间经过了ANSI字符串到Unicode字符串的转换(系统完成),然后在写文件时,又将Unicode字符串转换成Ansi字符串进行存储(系统完成),中间经过了两个不必要的转换步骤;

b、调用GetPrivateProfileStringW和WritePrivateProfileStringW接口:在写文件时,将Unicode字符串转换成Ansi字符串进行存储(系统完成),中间经过了一个不必要的转换步骤。

2)、文件格式为Unicode

a、调用GetPrivateProfileStringA和WritePrivateProfileStringA接口:首先转换成GetPrivateProfileStringW和WritePrivateProfileStringW接口的调用,中间经过了ANSI字符串到Unicode字符串的转换(系统完成),在写文件时,不再需要转换,中间经过了一个个不必要的转换步骤;

b、调用GetPrivateProfileStringW和WritePrivateProfileStringW接口:由于文件格式和调用的接口都是Unicode格式,所以不存在中间转换过程,提高了效率。

4、Unicode格式的INI文件创建

由于系统默认首次创建的文件为ANSI格式,所以需要在使用该文件之前,先用Unicode格式创建好INI文件,这样在多写时就是正常的INI文件了。目前我知道创建文件有两种格式:

1)、向文件中写入Unicode的文件头信息,具体文件写入有

FILE *fp;
fp = _tfopen(_T("e:\\sss.ini"),_T("r"));
if (fp == NULL)
{
fp=_tfopen(_T("e:\\sss.ini"), _T("w+b"));

wchar_t m_strUnicode[1];
m_strUnicode[0] = wchar_t(0XFEFF);
fputwc(*m_strUnicode,fp);
}
fclose(fp);

2)、以Unicode格式创建新文件

FILE *pFile(NULL);

if((nRet= _wfopen_s(&pFile, m_wszConfigFile, L"wt, ccs=UNICODE")) == 0)

fclose(pFile);

注意:调用读写INI文件的接口其实最后都是Unicode接口,具体写入到文件中的内容是由文件的格式决定,并非调用的接口决定。


读书人网 >编程

热点推荐