LANG SELRCT

コードを書く場所についてはこちら

2018年7月25日水曜日

テキストを漢字、ひらがな、カタカナ、半角カタカナ、半角英数、全角英数に分割したい


"遊んで食べて寝る"

というテキストを

 [遊, んで, 食, べて, 寝, る]

に分解するコードを書き残しておきます



コード.gs
function split_text() {
  var str = "遊んで食べて寝る";
  var pattern = /[々〆〇〻㐂-頻]+|[ぁ-ゟー]+|[゠-ヿ]+|[ヲ-゚]+|[a-zA-Z0-9]+|[a-zA-Z0-9]+/g;
  var result = str.match(pattern);
  Logger.log(result);
}
意訳
この機能がやること
テキストを用意して
どの単位で区切るか指定して
区切って
ログに出す




補足

ここで書いた正規表現は
漢字、ひらがな、カタカナ、半角カタカナ、半角英数、全角英数
の単位で分割するのでそれぞれどうなるか試すために

"漢字ひらがなカタカナカタカナabc123ABC123"

というテキストをstrに入れると


コード.gs
function split_text() {
  var str = "漢字ひらがなカタカナカタカナabc123ABC123";
  var pattern = /[々〆〇〻㐂-頻]+|[ぁ-ゟー]+|[゠-ヿ]+|[ヲ-゚]+|[a-zA-Z0-9]+|[a-zA-Z0-9]+/g;
  var result = str.match(pattern);
  Logger.log(result);
}


こうなります


関連記事

漢字、ひらがな、カタカナ、英数字を正規表現で区切る