DocumentBuilderで日本語のパスを渡すとエラーになる不具合

下記のようなファイルをxpathで読もうとします。

id01car1id02car2

読み込むソースは下記です。

import javax.xml.parsers.*
import javax.xml.xpath.*
import org.w3c.dom.*

// documentの作成
def path = "C:\\englishpass\\car.txt"
DocumentBuilderFactory f = DocumentBuilderFactory.newInstance()
f.setNamespaceAware(true)
DocumentBuilder b= f.newDocumentBuilder()
Document doc = b.parse(path)

// xpathの作成
XPathFactory xf = XPathFactory.newInstance()
XPathxpath = xf.newXPath()
XPathExpression exp = xpath.compile("/cars/car/name/text()")

// 読み込み
Object ret = exp.evaluate(doc, XPathConstants.NODESET)
NodeList nodes = (NodeList) ret
nodes.each{
println it.getNodeValue()
}

パスがasciiのみの場合は正常に結果が取得されます。

car1
car2

DocumentBuilderのparseメソッドに渡すパスに日本語が含まれている場合、エラーが発生しました。

def path = "C:\\日本語のパス\\car.txt

xercesのパーサが日本語に対応していないのが原因らしいです。
なので、パス文字列でなく入力ストリームをparseメソッドに渡す方法に変更。

def path = "C:\\日本語のパス\\car.txt"
// FileInputStreamのインスタンスを作成
def f = new FileInputStream(path)
DocumentBuilderFactory f= DocumentBuilderFactory.newInstance()
f.setNamespaceAware(true)
DocumentBuilder b= f.newDocumentBuilder()
// parseメソッドにFileInputStreamを渡す
Document doc = b.parse(f)

これで日本語のパスを含むファイルを解析できました。
もしくはparse(new File(path))でもOKなようです。
中身が日本語の場合大丈夫なのかというと、UTF-8の場合はそのまま使えました。
Shift_JISの場合はXMLファイルの頭に

<?xml version="1.0" encoding="Shift_JIS" ?>

のような指定をしておけばプログラム的には何もしなくても読めました。
文字コードを明示的に指定する場合は、InputSourceを利用できます。

import org.xml.sax.InputSource

def f = new FileInputStream(path)
def s = new InputSource(f)
s.setEncoding("Shift_JIS")
// ...
Document doc = b.parse(s)

この場合、XMLファイル先頭の文字コード指定は不要となります。

DocumentBuilderで日本語のパスを渡すとエラーになる不具合

Trending Articles

自宅警備員2　-灰原家の血族-　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

YAMAHA CA-2000を聴く。

手話で１５０万円脅し取る　聴覚障害者の組員ら逮捕

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？

漢詩「白山を望む（望白山）」と作者の江川淡斎に関する資料が見たい。(石川県立図書館)

カラテドリームフェスティバル2023全国大会トーナメント発表

串本町の空き家で窃盗容疑の男逮捕　盗品運搬容疑の男も

[転載]駐禁除外標章の偽造横行、暴力団資金源　　　公文書偽造

第216回東北地方会プログラム－第3会場

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

高島屋

RealLifeCam (RLC) - Madison, Florence, Dianoria, Veronica, Karina - Backyard

架空の手形５００万円詐取　容疑の３人逮捕

2017年2月3日号　多摩信用金庫（1月4日付）

[1080p]回復術士のやり直し 11 完全《回復》ver.

パスワード変更時のエラーメッセージについて

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

レアル・マドリードアンセム「Hala Madrid y Nada Más」カナ歌詞と和訳とPV（デシマイムノ）

【ポケカ雑談】オリジナルカードを作ろう