13 Jul 2011

Java Source Code Whitespace Insensitivity atau String Sanitizer

Proses Whitespace Insensitivity merupakan sejumlah teks yang mengandung huruf kapital dijadikan ignore case, dan pembuangan tanda baca, spasi, dan karakter-karakter yang tidak relevan lainnya (@, #, $, %, ^, &, *, dan lain-lain). Tipe karakter yang diseleksi yaitu karakter berupa digit (numerik) dan letter (teks string), kemudian pada tahap akhir dijadikan lower case yaitu mengubah seluruh karakter yang mengandung huruf menjadi huruf kecil semua.



Flowchart Whitespace Insensitivity:



Source code pembersihan karakter-karakter yang tidak relevan (whitespace insensitivity):
public class WhitespaceInsensitivity {
    public String stringSanitizer(String text) {
        StringBuffer sb = new StringBuffer();
        char[] chars = text.toCharArray();
        for (Character c : chars) {
            if (Character.isDigit(c) || Character.isLetter(c)) {
                sb.append(c);
            }
        }
        return text = sb.toString().toLowerCase();
    }

    public static void main(String[] args) {
        WhitespaceInsensitivity wi = new WhitespaceInsensitivity();
        String text = "dhafiq-san.blogspot.com merupakan blog yang berisi tentang teknologi informasi";
        System.out.println(wi.stringSanitizer(text));
    }
}


Dapat anda lihat, pada mulanya text:
dhafiq-san.blogspot.com merupakan blog yang berisi tentang teknologi informasi

menjadi

dhafiqsanblogspotcommerupakanblogyangberisitentangteknologiinformasi

1 komentar: