來源自 這裡
Preface:
BOM (byte-order mark) 是被用來當做標示檔案是以UTF-8、UTF-16或UTF-32編碼的記號. 在 UTF-8 文件的BOM中,長度為3個字節,BOM的用意就是告訴編輯器當前文件採用何種編碼,方便編輯器識別。但是在Eclipse中,帶有BOM的java源碼生成javadoc時卻會出現如下錯誤:
一個個修改是個辦法,但是面對幾百上幾千個的源文件,一個個去修改決不是程序員的作風.
Solution:
下面代碼,能夠批量移除UTF-8的BOM,其實質就是刪除帶有BOM信息的UTF-8文件的前三字節,代碼如下:
在這個類中能把指定文件夾中指定後綴名的文件統一去除BOM,而整個程序源碼中沒有看到用遞歸算法,而是使用了
apache commons-io ,其實遞歸算法就在DirectoryWalker 類中,實現者無需關心算法,而是關注於業務。同時,這裡給一個提醒,commons-io最新版是2.0,修改了1.4中的一些bug,其中有一處就是DirectoryWalker 類,因此建議使用最新版的commons-io.
Supplement:
* [ Java 代碼範本 ] 判斷檔案編碼 - java.nio.charset.CharsetDecoder
Preface:
BOM (byte-order mark) 是被用來當做標示檔案是以UTF-8、UTF-16或UTF-32編碼的記號. 在 UTF-8 文件的BOM中,長度為3個字節,BOM的用意就是告訴編輯器當前文件採用何種編碼,方便編輯器識別。但是在Eclipse中,帶有BOM的java源碼生成javadoc時卻會出現如下錯誤:
一個個修改是個辦法,但是面對幾百上幾千個的源文件,一個個去修改決不是程序員的作風.
Solution:
下面代碼,能夠批量移除UTF-8的BOM,其實質就是刪除帶有BOM信息的UTF-8文件的前三字節,代碼如下:
- import java.io.File;
- import java.io.IOException;
- import java.util.Collection;
- import org.apache.commons.io.DirectoryWalker;
- import org.apache.commons.io.FileUtils;
- import org.apache.commons.io.FilenameUtils;
- @SuppressWarnings ( "rawtypes" )
- public class Utf8BomRemover extends DirectoryWalker {
- public static void main(String[] args) throws IOException {
- //刪除指定文件夾下(含子文件夾)所有java文件的BOM,若構造器中參數為null則刪除所有文件頭部BOM
- new Utf8BomRemover( "java" ).start( new File( "E:/workspace/Test/src" ));
- }
- private String extension = null ;
- public Utf8BomRemover(String extension) {
- super ();
- this .extension = extension;
- }
- /** 啟動對某個文件夾的篩選 */
- @SuppressWarnings ( "unchecked" )
- public void start(File rootDir) throws IOException {
- walk(rootDir, null );
- }
- protected void handleFile(File file, int depth, Collection results) throws IOException {
- if (extension == null
- || extension.equalsIgnoreCase(FilenameUtils.getExtension(file.toString()))) {
- //調用具體業務邏輯,其實這裡不僅可以實現刪除BOM,還可以做很多想幹的事情。
- remove(file);
- }
- }
- /** 移除UTF-8的BOM */
- private void remove(File file) throws IOException {
- byte [] bs = FileUtils.readFileToByteArray(file);
- if (bs[ 0 ] == - 17 && bs[ 1 ] == - 69 && bs[ 2 ] == - 65 ) {
- byte [] nbs = new byte [bs.length - 3 ];
- System.arraycopy(bs, 3 , nbs, 0 , nbs.length);
- FileUtils.writeByteArrayToFile(file, nbs);
- System.out.println( "Remove BOM: " + file);
- }
- }
- }
Supplement:
* [ Java 代碼範本 ] 判斷檔案編碼 - java.nio.charset.CharsetDecoder
This message was edited 3 times. Last update was at 03/01/2013 13:
沒有留言:
張貼留言