大家在JSP的開(kāi)發(fā)過(guò)程中,經(jīng)常出現(xiàn)中文亂碼的問(wèn)題,可能一至困擾著大家,現(xiàn)把JSP開(kāi)發(fā)中遇到的中文亂碼的問(wèn)題及解決辦法寫(xiě)出來(lái)供大家參考。
首先了解一下Java中文問(wèn)題的由來(lái):Java的內(nèi)核和class文件是基于unicode的,這使Java程序具有良好的跨平臺(tái)性,但也帶來(lái)了一些中文亂碼問(wèn)題的麻煩。原因主要有兩方面,Java和JSP文件本身編譯時(shí)產(chǎn)生的亂碼問(wèn)題和Java程序與其他媒介交互產(chǎn)生的亂碼問(wèn)題。首先Java(包括JSP)源文件中很可能包含有中文,而Java和JSP源文件的保存方式是基于字節(jié)流的,如果Java和JSP編譯成class文件過(guò)程中,使用的編碼方式與源文件的編碼不一致,就會(huì)出現(xiàn)亂碼。基于這種亂碼,建議在Java文件中盡量不要寫(xiě)中文(注釋部分不參與編譯,寫(xiě)中文沒(méi)關(guān)系),如果必須寫(xiě)的話(huà),盡量手動(dòng)帶參數(shù)-ecoding GBK或-ecoding gb2312或-ecoding UTF-8編譯;對(duì)于JSP,在文件頭加上<%@ page contentType="text/html;charset=GBK"%>基本上就能解決這類(lèi)亂碼問(wèn)題。
JSP頁(yè)面亂碼##
這種亂碼問(wèn)題比較簡(jiǎn)單,一般是頁(yè)面編碼不一致導(dǎo)致的亂碼,一般新手容易出現(xiàn)這樣的問(wèn)題,具體分以下兩種情況:
未指定使用字符集編碼###
下面的顯示頁(yè)面(display.jsp)就出現(xiàn)亂碼:
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html charset=gb2312">
</head>
<body>
<%out.print("JSP的中文處理");%>
</body>
</html>
這種亂碼的原因是沒(méi)有在頁(yè)面里指定使用的字符集編碼,JSP頁(yè)面中出現(xiàn)了中文字符,而默認(rèn)的ISO-8859-1字符集中無(wú)中文字符,解決方法:只要在頁(yè)面開(kāi)始地方用下面代碼指定字符集編碼即可,在JSP頁(yè)面中指定編碼方式(gb2312),和瀏覽器解碼方式設(shè)置相同,即在頁(yè)面的第一行加上:<%@ page contentType="text/html; charset=gb2312"%>,就可以消除亂碼了。完整頁(yè)面如下:
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html charset=gb2312">
</head>
<body>
<%out.print("JSP的中文處理");%>
</body>
</html>
編碼字符集設(shè)置不一致###
下面的顯示頁(yè)面(display.jsp)就出現(xiàn)亂碼:
<%@ page language="java" pageEncoding="gb2312"%>
<%@ page contentType="text/html;charset=iso8859-1"%>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html charset=gb2312">
</head>
<body>
<%out.print("JSP的中文處理");%>
</body>
</html>
這個(gè)出現(xiàn)亂碼原因是由于頁(yè)面編碼不一致導(dǎo)致的亂碼,在這個(gè)例子中我們可以看到有三處設(shè)置字符集的地方,下面分別了解一下這三處設(shè)置具體含義:
第一處<%@ page language="java" pageEncoding="gb2312"%>的編碼格式為jsp文件的存儲(chǔ)格式。Eclipse會(huì)根據(jù)這個(gè)編碼格式保存文件。并編譯jsp文件,包括里面的漢字。
第二處<%@ page contentType="text/html;charset=iso8859-1"%>的編碼為解碼格式。因?yàn)榇鏋間b2312的文件被解碼為iso8859-1,這樣如有中文肯定出亂碼。也就是必須一致。而第二處所在的這一行,可以沒(méi)有。缺省也是使用iso8859-1的編碼格式。所以如果沒(méi)有這一行的話(huà),也會(huì)出現(xiàn)亂碼。必須一致才可以。
第三處<meta http-equiv="Content-Type" content="text/html charset=gb2312">的編碼為控制瀏覽器的解碼方式。如果前面的解碼都一致并且無(wú)誤的話(huà),這個(gè)編碼格式用不用設(shè)置都可以。有的網(wǎng)頁(yè)出現(xiàn)亂碼,就是因?yàn)闉g覽器不能確定使用哪種編碼格式。因?yàn)轫?yè)面有時(shí)候會(huì)嵌入頁(yè)面,導(dǎo)致瀏覽器混淆了編碼格式出現(xiàn)了亂碼。
完整解決代碼如下:
<%@ page language="java" pageEncoding="gb2312"%>
<%@ page contentType="text/html;charset= gb2312"%>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html charset=gb2312">
</head>
<body>
<%out.print("JSP的中文處理");%>
</body>
</html>
表單提交中文時(shí)出現(xiàn)亂碼##
下面是一個(gè)提交頁(yè)面(submit.jsp),代碼如下:
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head><title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<form name="form1" method="post/get" action="process.jsp">
<div align="center">
<input type="text" name="name">
<input type="submit" name="Submit" value="Submit">
</div>
</form>
</body>
</html>
下面是處理頁(yè)面(process.jsp)代碼:
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<%=request.getParameter("name")%>
</body>
</html>
如果submit.jsp提交英文字符能正確顯示,如果提交中文時(shí)就會(huì)出現(xiàn)亂碼。原因:瀏覽器默認(rèn)使用UTF-8編碼方式來(lái)發(fā)送請(qǐng)求,而UTF- 8和GB2312編碼方式表示字符時(shí)不一樣,這樣就出現(xiàn)了不能識(shí)別字符。
POST提交方式###
解決辦法:(A)接受參數(shù)時(shí)進(jìn)行編碼轉(zhuǎn)換
String s=new String(request.getParameter("name").getBytes("ISO-8859-1"),"gb2312") ;
修改后的process.jsp代碼如下:
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<%
String s=new String(request.getParameter("name").getBytes("ISO-8859-1"),"gb2312") ;
out.print(s);
%>
</body>
</html>
如果使用該方法的話(huà),每一個(gè)參數(shù)都必須這樣進(jìn)行轉(zhuǎn)碼。很麻煩。但確實(shí)可以拿到漢字。
解決辦法:(B)通過(guò)request.seCharacterEncoding ("gb2312")對(duì)請(qǐng)求進(jìn)行統(tǒng)一編碼,就實(shí)現(xiàn)了中文的正常顯示,修改后的process.jsp代碼如下:
<%@ page contentType="text/html; charset=gb2312"%>
<%request.seCharacterEncoding("gb2312");%>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<%=request.getParameter("name")%>
</body>
</html>
如果使用該方法接受此參數(shù)的頁(yè)面就不必在轉(zhuǎn)碼了,即可得到漢字參數(shù)。但每頁(yè)都需要執(zhí)行這句話(huà)。
解決辦法:(C)為了避免每頁(yè)都要寫(xiě)request.setCharacterEncoding("gb2312"),可以使用過(guò)濾器對(duì)所有jsp進(jìn)行編碼處理。就是使用Servlet規(guī)范中的過(guò)慮器指定編碼,主要代碼如下:
import java.io.*;
import javax.servlet.Filter;
import javax.servlet.FilterChain;
import javax.servlet.FilterConfig;
import javax.servlet.ServletException;
import javax.servlet.ServletRequest;
import javax.servlet.ServletResponse;
public class SetCharacterEncodingFilter implements Filter {
protected String encoding = null;
public void destroy(){
this.encoding = null;
}
public void init(FilterConfig filterConfig) throws ServletException {
this.encoding = filterConfig.getInitParameter("encoding");
}
public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException {
request.setCharacterEncoding(encoding);
response.setContentType("text/html;charset="+encoding);
chain.doFilter(request, response);
}
}
過(guò)濾器在web.xml中的配置如下:
<filter>
<filter-name>SetCharacterEncodingFilter</filter-name>
<filter-class>SetCharacterEncodingFilter</filter-class>
<init-param>
<param-name>encoding</param-name>
<param-value>gb2312</param-value>
</init-param>
</filter>
<filter-mapping>
<filter-name>SetCharacterEncodingFilter</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>
修改后的process.jsp代碼如下:
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文處理</title>
</head>
<body>
<%=request.getParameter("name")%>
</body>
</html>
以上方法只對(duì)POST方式提交有效果。
GET提交方式###
如果使用get方式提交中文,接受參數(shù)的頁(yè)面也會(huì)出現(xiàn)亂碼,這個(gè)亂碼的原因也是tomcat的內(nèi)部編碼格式iso8859-1導(dǎo)致。Tomcat會(huì)以get的缺省編碼方式iso8859-1對(duì)漢字進(jìn)行編碼,編碼后追加到url,導(dǎo)致接受頁(yè)面得到的參數(shù)為亂碼。
解決辦法:
(A)使用POST提交方式解決辦法的第一種方式,對(duì)接受到的字符進(jìn)行解碼,再轉(zhuǎn)碼。
(B)首先配置tomcat下server.xml的Connector節(jié)點(diǎn)增加
useBodyEncodingForURI="true"屬性配置,然后在JSP頁(yè)面中加入**<%request.seCharacterEncoding("gb2312");%>**所設(shè)置的編碼格式進(jìn)行編碼。
(1)Tomcat中server.xml配置如下:
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
useBodyEncodingForURI="true" />
<Connector port="8080" protocol="HTTP/1.1"
URIEncoding="gb2312"
connectionTimeout="20000"
redirectPort="8443" />
(2)修改后的process.jsp代碼如下:
<%@ page contentType="text/html; charset=gb2312"%>
<% request.seCharacterEncoding("gb2312"); %>
<html>
<head>
<title>JSP的中文處理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<%=request.getParameter("name")%>
</body>
</html>
數(shù)據(jù)庫(kù)連接出現(xiàn)亂碼##
這種亂碼會(huì)使你插入數(shù)據(jù)庫(kù)的中文變成亂碼,或者讀出顯示時(shí)也是亂碼,解決方法如下:在數(shù)據(jù)庫(kù)連接字符串中加入編碼字符集:
String Url=" jdbc:sqlserver://localhost:1433;DataBaseName=mydb;user=sa&password=sa&useUnicode=true&characterEncoding=GB2312";
并在JSP頁(yè)面中使用如下代碼:
response.setContentType("text/html;charset=gb2312");
request.setCharacterEncoding("gb2312");
JSP頁(yè)面通過(guò)URL傳遞中文參數(shù)的亂碼問(wèn)題##
在項(xiàng)目中,我們經(jīng)常遇到需要在jsp頁(yè)面切換中傳遞中文字符。例如:http://website/test1.jsp?act=add&type=蘋(píng)果。
一般來(lái)說(shuō)我們很少直接在URL里面把參數(shù)寫(xiě)成中文,如例子中的"type=蘋(píng)果"這樣傳遞。如果出現(xiàn)這種情況,在我們的接收參數(shù)的頁(yè)面我們只需要做個(gè)簡(jiǎn)單的轉(zhuǎn)換就可以了。代碼test1.jsp:
<%@ page language="java" import="java.util.*" pageEncoding="gb2312"%>
<%
String type = request.getParameter("type");
String result = new String(type.getBytes("iso-8859-1"), "gb2312");
out.println(result);
%>
更普遍的做法,就是對(duì)url中的中文字符進(jìn)行編碼,變成類(lèi)似type=%20D%20B這樣的字符。代碼MyJsp1.jsp:
<%@ page language="java" import="java.util.*" pageEncoding="gb2312"%>
<%@ page import="java.net.*" %>
<a href='./MyJsp2.jsp?act=<%=URLEncoder.encode("中國(guó)人 非常好")%>'>test</a>
代碼MyJsp2.jsp:
<%@ page language="java" import="java.util.*" pageEncoding="gb2312"%>
<%@ page import="java.net.*" %>
<%
String tempVal = URLDecoder.decode(request.getParameter("act"));
out.println(new String(tempVal.getBytes("ISO-8859-1"), "gb2312"));
%>
jsp include html 亂碼問(wèn)題##
在使用<%@ include page=""%>指令包含一個(gè)html頁(yè)面(b.html)時(shí)中文亂碼:
其一,首先想到的就是這兩個(gè)文件編碼是否統(tǒng)一。
其二,兩個(gè)文件的pageEncoding和contentType中的編碼是否統(tǒng)一。
下面我們分析下pageEncoding和contentType兩種屬性的區(qū)別:
(1)pageEncoding是jsp文件本身的編碼;
(2)contentType的charset是指服務(wù)器發(fā)送給客戶(hù)端時(shí)的內(nèi)容編碼;
JSP從用戶(hù)發(fā)送請(qǐng)求到相應(yīng)給用戶(hù)中間要經(jīng)歷三個(gè)階段:
(1)jsp編譯成.java,它會(huì)根據(jù)pageEncoding的設(shè)定編碼讀取jsp,結(jié)果是由指定的編碼方案翻譯成統(tǒng)一的UTF-8 JAVA源碼(即.java),如果pageEncoding設(shè)定錯(cuò)了,或沒(méi)有設(shè)定,出來(lái)的就是中文亂碼。
(2)由JAVAC的JAVA源碼至java byteCode的編譯,不論JSP編寫(xiě)時(shí)候用的是什么編碼方案,經(jīng)過(guò)這個(gè)階段的結(jié)果全部是UTF-8的encoding的java源碼。JAVAC用UTF-8的encoding讀取java源碼,編譯成UTF-8 encoding的二進(jìn)制碼(即.class),這是JVM對(duì)常數(shù)字串在二進(jìn)制碼(java encoding)內(nèi)表達(dá)的規(guī)范。
(3)Tomcat(或其的application container)載入和執(zhí)行階段二得來(lái)的JAVA二進(jìn)制碼,輸出的結(jié)果,也就是在客戶(hù)端見(jiàn)到的,這時(shí)隱藏在階段一和階段二的參數(shù)contentType就發(fā)揮了功效。
而include指令就是在第一階段之前執(zhí)行的,注意這個(gè)是在第一階段之前,所以,如果包含文件和被包含文件的文件編碼不一致,那么,該指令就會(huì)工作不太正常,不能正確的把被包含的文件從原來(lái)編碼轉(zhuǎn)換為包含文件的編碼,就會(huì)出現(xiàn)亂碼現(xiàn)象。
所以這時(shí)候得指定html頁(yè)面的pageEncoding 屬性 雖能html文件不識(shí)別這個(gè)屬性 但是最后include到j(luò)sp文件中他會(huì)發(fā)揮作用的。
還有一種方法 就是修改項(xiàng)目的web.xml 文件 在web-app標(biāo)簽中加入如下內(nèi)容:
<jsp-config>
<jsp-property-group>
<description>html encoding example</description>
<display-name>JSPConfiguration</display-name>
<url-pattern>*.html</url-pattern>
<el-ignored>true</el-ignored>
<page-encoding>UTF-8</page-encoding>
<scripting-invalid>false</scripting-invalid>
<include-prelude></include-prelude>
<include-coda></include-coda>
</jsp-property-group>
</jsp-config>
重新部署下項(xiàng)目就好了。其實(shí)仔細(xì)觀察代碼 他也是設(shè)置include的html/jsp頁(yè)面的編碼。思路是一樣的。