Google Apps Script試行錯誤 Blog: 正規表現

ラベル 正規表現 の投稿を表示しています。すべての投稿を表示

2024年4月10日水曜日

英文から不要な記号を削除したい(正規表現)

今回やること

Hello, how's it going?

から不要な , と ? を削除して

Hello how's it going

にする。

2021年2月7日日曜日

正規表現でAND検索を試してみる3

正規表現でAND検索を試してみる2

のパターンを動的に作る方法を分解したコード。

"文字列1", "文字列2"を配列で渡して

こういう結果を得たくて書いたコードです。

^(?=.*文字列1)(?=.*文字列2)

コード.gs

function myFunction() {
  var values = ["文字列1", "文字列2"];
  var pattern = createAndSearchPattern(values);
  Logger.log(pattern);
}

function createAndSearchPattern(values) {
  var pattern = "^";
  for(var i = 0; i < values.length; i++) {
    pattern += "(?=.*" + values[i] + ")";
  }
  return pattern;
}

2019年12月19日木曜日

文章中にひらがなを含むかどうかを判定したい

matchとtestで試してみる

ひらがなの正規表現は
正規表現で文章からひらがなだけを抜き出したい /[ぁ-ゟー]+/g

matchで一致した文字列を返す
一致しなければnullを返す

コード.gs

function judgeIncudeHiraMatch() {
  var str = 'カタカナ漢字とeisu';
  var pattern = /.*[ぁ-ゟー].*/g;
  var result = str.match(pattern);
  Logger.log(result);
}

実行結果
「と」が含まれるので/.*[ぁ-ゟー].*/gに一致した文字列（前後の文字列を含む）を返す

testで一致したらtrue
一致しなければfalseを返す

コード.gs

function judgeIncudeHiraTest() {
  var str = 'カタカナ漢字eisu';
  var pattern = /.*[ぁ-ゟー].*/g;
  var result = pattern.test(str);
  Logger.log(result);
}

実行結果
ひらがな/.*[ぁ-ゟー].*/gに一致した文字列がないのでfalseを返す

関連記事

正規表現で文章からひらがなだけを抜き出したい /[ぁ-ゟー]+/g

2019年12月8日日曜日

左のテキストエリアに以下のようなテキストを貼り付けると
右のテキストエリアに一文ずつ改行して表示される。

Practice makes the impossible possible. Strike while the iron is hot.

Nothing comes of nothing.

デモ
https://script.google.com/macros/s/AKfycbxxqRidOTAUssCiWZBr-SxBriaB80i2MkLWEECL87ZtlsPVVRun/exec

今回書いた正規表現

var pattern = /.*?(?=[.!?] ).|[^。！？\n]*.|.*$/g;

コード.gs

function doGet() {
  return HtmlService.createHtmlOutputFromFile("index");
}

意訳

この機能がやること
指定したHTMLファイルを表示する

index.html

<!DOCTYPE html>
<html>
  <head>
    <style>
      textarea {
        width: 40vw;
        height: 80vh;
      }
    </style>
  </head>
  <body>
    <textarea id="ta"></textarea>
    <textarea id="ta2"></textarea>
    <script>
      elem("ta").onkeyup = taKeyup;
      
      function elem(id) {
        return document.getElementById(id);
      }
      
      function taKeyup() {
        var taStr = elem("ta").value;
        var singleSenteceArray = splitToSingleSentece(taStr);
        console.log(singleSenteceArray);
        elem("ta2").value = singleSenteceArray
      }
      
      function splitToSingleSentece(str) {
        var pattern = /.*?(?=[.!?] ).|[^。！？\n]*.|.*$/g;
        var sentences = str.match(pattern);
        var singleSentences = '';
        for(var i = 0; i < sentences.length; i++) {
          var sentence = sentences[i].trim();
          singleSentences += sentence + '\n';
        }
        return singleSentences
      }
    </script>
  </body>
</html>

備忘録

試しながら書いた正規表現

最初はこんな感じのを書いて、試しながらやってみた（これだと全然だめ）

var pattern = /.*\. *?.|.*\! *?.|.*\。*?.|.*\！ *？.|.*/g;

.!?以外でいけそうな気がしたけれど、
3.14などの小数点やA.M.などのピリオドでも改行してしまう

var pattern = /[^.!?]*./g;

2019年11月16日土曜日

正規表現を使って、漢字+ひらがな1文字で区切りたい

デモ文章
正規表現を使って、漢字+ひらがな1文字で区切ってみたくなった。

上記文章を以下のように区切りたくて

正規表現を,使っ,漢字,文字で,区切っ

作った正規表現がこちら

/[々〆〇〻㐂-頻]+[ぁ-ゟー]|[々〆〇〻㐂-頻]+/g

2019年10月13日日曜日

複数の文章を文章ごとに分けたい（正規表現）

複数の文章を各文章ごとに分けたくて書いた正規表現

var pattern = /。\n+|。|\.\n+|\. |\n+/g;

こういう複数の文章を
var value = '句点と改行で分割する。\n句点で分割する。Split by period. Split by period with newline.\n複数改行でも分割する。\n\n最後の文';

文章単位で配列に入れたい
[句点と改行で分割する, 句点で分割する, Split by period, Split by period with newline, 複数改行でも分割する, 最後の文]

コード.gs

function myFunction() {
  var value = '句点と改行で分割する。\n句点で分割する。Split by period. Split by period with newline.\n複数改行でも分割する。\n\n最後の文';
  var pattern = /。\n+|。|\.\n+|\. |\n+/g;
  
  var sentences = value.split(pattern);
  Logger.log(sentences);
  
  for(var i = 0; i < sentences.length; i++) {
    var sentence = sentences[i];
    Logger.log(sentence);
  }
}

意訳

この機能がやること
複数の文章
句点と改行 or 句点 or ピリオドと改行 or ピリオドと半角スペース or 改行
  
valueをpatternで分割する
ログに出す
  
文章の数だけ繰り返す
文章ごとに
ログに出す

実行結果

こういうログが出ます。

[19-10-12 19:15:05:900 PDT] [句点と改行で分割する, 句点で分割する, Split by period, Split by period with newline, 複数改行でも分割する, 最後の文]
[19-10-12 19:15:05:901 PDT] 句点と改行で分割する
[19-10-12 19:15:05:901 PDT] 句点で分割する
[19-10-12 19:15:05:902 PDT] Split by period
[19-10-12 19:15:05:902 PDT] Split by period with newline
[19-10-12 19:15:05:903 PDT] 複数改行でも分割する
[19-10-12 19:15:05:903 PDT] 最後の文

2019年6月24日月曜日

オブジェクトの中から条件に一致する要素を抜き出す(AND検索)

以下のようなオブジェクトのプロパティ名 ja 中で「う」と「お」の両方含む値を取得したい

コード.gs

var obj = [
  {"en": "Aries", "ja": "おひつじ座"},
  {"en": "Taurus", "ja": "おうし座"},
  {"en": "Gemini", "ja": "ふたご座"},
  {"en": "Cancer", "ja": "かに座"},
  {"en": "Leo", "ja": "しし座"},
  {"en": "Virgo", "ja": "おとめ座"},
  {"en": "Libra", "ja": "てんびん座"},
  {"en": "Scorpius", "ja": "さそり座"},
  {"en": "Sagittarius", "ja": "いて座"},
  {"en": "Capriconus", "ja": "やぎ座"},
  {"en": "Aquarius", "ja": "みずがめ座"},
  {"en": "Pisces", "ja": "うお座"}
]

var pattern;
function filter_obj() {
  var values = ['う', 'お'];
  pattern = getAndPattern(values);
  var filtered = obj.filter(judge);
  var result = get_result(filtered);
  Logger.log(result);
}

function judge(items) {
  var regexp = new RegExp(pattern);
  var judged = regexp.test(items["ja"]);
  return judged;
}

function get_result(filtered) {
  var result = [];
  for (var i = 0; i < filtered.length; i++) {
    result.push([filtered[i]["en"], filtered[i]["ja"]]);
  }
  return result;
}

function getAndPattern(values) {
  var pattern = '^';
  for(var i = 0; i < values.length; i++) {
    pattern += '(?=.*' + values[i] + ')';
  }
  return pattern;
}

実行結果

[[Taurus, おうし座], [Pisces, うお座]]

正規表現でAND検索を試してみる2

正規表現でAND検索を試してみる1
でやったことをもっと効率的な

/^(?=.*文字列1)(?=.*文字列2)/

で試してみます

ABO に AとOが両方含まれるか

コード.gs

function getAndConditional() {
  var str = 'ABO';
  var regexp = /^(?=.*A)(?=.*O)/;
  var result = regexp.test(str);
  Logger.log(result);
}

実行結果は true

パターンを動的に作りたい

コード2.gs

function getAndConditional2() {
  var str = 'ABO';
  var values = ['A', 'O'];
  var pattern = '^';
  for(var i = 0; i < values.length; i++) {
    pattern += '(?=.*' + values[i] + ')';
  }
  Logger.log(pattern);
  var regexp = new RegExp(pattern);
  var result = regexp.test(str);
  Logger.log(result);
}

実行結果

参考

正規表現はこちらの記事を参考にさせていただきました
正規表現で論理積（AND）を実現する
https://qiita.com/n4o847/items/dbcd0b8af3781d221424

正規表現

https://developer.mozilla.org/ja/docs/Web/JavaScript/Guide/Regular_Expressions

正規表現パターンの記述

https://developer.mozilla.org/ja/docs/Web/JavaScript/Guide/Writing_a_Regular_Expression_Pattern

正規表現でAND検索を試してみる1

対象の文字列の中に指定した文字がすべて存在するか知りたい

対象の文字列がABOで

指定文字がAとOの場合：

ABOの中にAが存在するかを見る
存在しなければfalseを返す
存在すればOが存在するか見る
存在しなければfalseを返す
存在すればtrueを返す

結果、5まで実行してABOの中にAとOは存在するのでtrueを返す

指定文字がACの場合：

ABOの中にAが存在するかを見る
存在しなければfalseを返す
存在すればCが存在するか見る
存在しなければfalseを返す
存在すればtrueを返す

結果、4まで実行してABOの中にAは存在するが、Cは存在しないのでfalseを返す

コード.gs

function myFunction() {
  var str = 'ABO';
  var target = 'AO';
  var conjunction = getAndConditional(str, target);
  Logger.log(conjunction);
}

function getAndConditional(str, target) {
  var values = target.split('');
  for(var i = 0; i < values.length; i++) {
    var regexp = new RegExp(values[i]);
    if(regexp.test(str) === false) {
      return false;
    }
  }
  return true;
}

意訳

この機能がやること
対象の文字列
探したい文字列
対象の文字列の中に、探したい文字列がすべて含まれるか判定して
ログにtrue, falseで出力する


この機能がやること
targetの文字列を一つずつ分けて
文字数の数だけ繰り返す
/A/のパターンを作って
strの中に含まれなければ
falseを返す


最後までfalseが返らなければtrueを返す

ちょっと書き換えて、valuesを配列にして渡す
var values = ['A', 'O'];

コード2.gs

function myFunction() {
  var str = 'ABO';
  var values = ['A', 'O'];
  var conjunction = getAndConditional(str, values);
  Logger.log(conjunction);
}

function getAndConditional(str, values) {
  for(var i = 0; i < values.length; i++) {
    var regexp = new RegExp(values[i]);
    if(regexp.test(str) === false) {
      return false;
    }
  }
  return true;
}

補足

ABO の中に A があるかどうかは

function myFunction() {
  var str = 'ABO';
  var result = /A/.test(str);
  Logger.log(result);
}

上記のように書けるので
同じように B があるか、Oがあるかを繰り返し見ていく
ということをコード1, 2でやっています

関連記事

正規表現でAND検索を試してみる2

2019年5月10日金曜日

正規表現でOR(または)を使いたい

AまたはB を正規表現で表すと

A|B

AまたはBがstrに存在するかどうかをtrue, falseで返すと

/A|B/.test(str)

var str = 'ABCDEFG' なら true が返ってくる
var str = 'HIJKLMN' なら false が返ってくる

AまたはBがstrに存在するかしないかで処理を分けてみると

var str = '対象の文字列';

if(/A|B/.test(str)) {
ある場合の処理
} else {
ない場合の処理
}

コード.gs

function myFunction() {
  var str = '今日の天気';
  if(/今日|明日/.test(str)) {
    Logger.log('ある');
  } else {
    Logger.log('ない');
  }
}

意訳

この機能がやること
対象の文字列を用意する
strにあるかどうか調べたい文字列を|で区切る
見つかったときのメッセージをログに出す
ない場合は
見つからなかったときのメッセージをログに出す

var str = '今日の天気'; → ある
var str = '明日の天気'; → ある
var str = '昨日の天気'; → ない

関連記事

match, exec, test, searchの違いを知りたい

2019年4月30日火曜日

正規表現で英数以外のテキストの間にある半角スペースを削除したい

今回試した正規表現

/(?<![a-zA-Z0-9!?])[\s　](?![a-zA-Z0-9])/g

Good morning! おはよ！

を

Good morning! おはよ！

にする

コード.gs

function doGet() {
  return HtmlService.createHtmlOutputFromFile("index");
}

意訳

この機能がやること
指定したHTMLファイルを表示する

index.html

<!DOCTYPE html>
<html>
<body>
<script>
myFunction();
function myFunction() {
  var text = 'Good morning! お は よ！';
  text = text.replace(/(?<![a-zA-Z0-9!?])[\s　](?![a-zA-Z0-9!?])/g, "");
  console.log(text);
}
</script>
</body>
</html>

補足

.gs側では「SyntaxError: 量指定子 ? は無効です。」と出て ? は使えないようなので、.htmlでやっています。

テキスト画像をOCR化したときに改行が半角スペースになることがあり、その半角スペースを消したくて書きました。

var text = 'Good morning! おはよ！';
text = text.replace(/(?<![a-zA-Z0-9])[\s　](?![a-zA-Z0-9])/g, "");

=> Good morning!おはよ！

これだと ! のあとの半角スペースも消えるので

!と?も対象にして

/(?<![a-zA-Z0-9!?])[\s　](?![a-zA-Z0-9])/g,

としたのが今回試した正規表現です。

2018年6月9日土曜日

テキストエリア内の空行を削除したい

コード.gs

function doGet() {
  return HtmlService.createHtmlOutputFromFile("index");
}

意訳

この機能がやること
指定したHTMLファイルを表示する

index.html

<!DOCTYPE html>
<html>
  <body>
    <textarea id="ta" style="height:120px"></textarea>
    <button id="bt">空行削除</button>
    <script>
    var ta = document.getElementById("ta");
    ta.value = "\n\n一行目\n二行目\n\n\n三行目";
    var bt = document.getElementById("bt");
    bt.onclick = remove_blank_line;
    
    function remove_blank_line(){
      ta.value = ta.value.replace(/^\n/gm, "");
    }
    </script>
  </body>
</html>

意訳

　


テキストエリア
ボタン

idがtaの要素を取得
taにテキストを入れる
idがbtの要素を取得
btがクリックされたらremove_blank_lineを実行する

この機能がやること
ta内で先頭に改行がある場合はすべて複数行でも消す

2018年5月2日水曜日

文字列の中から漢字を抽出する正規表現を考えてみる /[々〆〇〻㐂-頻]+/g

本文がちょっと込み入っているので、まずは結果から書きます

今回書いた漢字を抽出する正規表現はこれ

/[々〆〇〻㐂-頻]+/g

調べてみると漢字の範囲は奥が深い

ひらがなやカタカナのように「ここからここまで」という始まりと終わりの文字がよくわからない

ひらがな：「あ」〜「ん」
カタカナ：「ア」〜「ン」
漢字：「？」〜「？」

今回調べて知ったこと・わかったこと等

常用漢字やJIS第1水準〜第4水準の漢字を文化庁のホームページやwikipediaで知った
（なんとなく知ってはいたが改めて調べて知った）
Unicodeは世界中の文字を1文字2バイトで65536字で表そうとしていた

でも65536字では足りないことに気づいた

65536字では足りないので4バイトで1文字を表すサロゲートペアが作られた
常用漢字の中で唯一のサロゲートペアは「𠮟」

ちなみに別の文字の「叱」は常用漢字ではないがJIS第1水準漢字

今回書いた [㐂-頻] はJIS第1水準〜第4水準の漢字だけを絞っているわけではない

それ以外の漢字も範囲に含まれる
この範囲は個人的に絞ったものなので一般的ではない

今回書いた正規表現で一致させたい漢字

㐂-頻の範囲に含まれるすべての漢字

注意点としてはJIS第1水準〜第4水準の漢字だけではないということ
JIS第1水準〜第4水準の漢字を数値に置き換えて昇順に並び替えると先頭が㐂で末尾が頻ですが、その範囲内には第1〜第4に含まれない漢字も含まれる
サロゲートペアも含まれる

個人的に一覧表を作ってみた

々：上記の範囲に含まれないため直接追加
〆：「しめ」「閉め」「締め」「絞め」「占め」などを表す
〇：漢字のゼロ
〻：現在は「々」で代用されることもある（上字の訓を繰り返す）

※JIS第1水準〜第4水準の漢字だけを抽出するにはこの正規表現では不十分です

Unicode 10.0 Character Code Charts
http://www.unicode.org/charts/ を見ると

2018/01/29現在以下のような種類があり今後ExtensionG以降も増えそう

CJK Unified Ideographs (Han)　Range: 4E00–9FEA　統一漢字
CJK Extension-A　Range: 3400–4DB5　拡張A
CJK Extension B　Range: 20000–2A6D6　拡張B
CJK Extension C　Range: 2A700–2B734　拡張C
CJK Extension D　Range: 2B740–2B81D　拡張D
CJK Extension E　Range: 2B820–2CEA1　拡張E
CJK Extension F　Range: 2CEB0–2EBE0　拡張F
CJK Compatibility Ideographs　Range: F900–FAFF　互換漢字
CJK Compatibility Ideographs Supplement　Range: 2F800–2FA1F　互換漢字補足
CJK Radicals / KangXi Radicals　Range: 2F00–2FDF　部首
CJK Radicals Supplement　Range: 2E80–2EFF　部首補足
CJK Strokes　Range: 31C0–31EF　おそらく一画ごとの表
Ideographic Description Characters　Range: 2FF0–2FFF　おそらく配置

CJKはChinese Japanese Koreanの頭文字

wikipediaでCJK統合漢字を見てみるとだいぶ複雑な歴史を経ている

16進数で表してみる

/[々〆〇〻㐂-頻]+/g

を

16進数で表す場合は、おそらくこのようになる

/[\u3005\u3006\u3007\u303b\u3402-\uFA6A\uD840-\uD869\uDC02-\uDFFF]+/g

それぞれの16進数が意味している文字は

3005：々
3006：〆
3007：〇
303B：〻
3402：㐂
FA6A：頻
D840：𠀋の上位サロゲート（範囲内のサロゲートペアの上位サロゲートで一番小さい）
D869：𪚲の上位サロゲート（範囲内のサロゲートペアの上位サロゲートで一番大きい）
DC02：𦐂の下位サロゲート（範囲内のサロゲートペアの下位サロゲートで一番小さい）
DFFF：𣟿の下位サロゲート（範囲内のサロゲートペアの下位サロゲートで一番大きい）

今回書いた正規表現を使って漢字を抽出してみる

コード.gs

function get_kanji(){
  var str = "abcABC123ａｂｃＡＢＣ１２３かなカナｶﾅ仮名ひらがなカタカナｶﾀｶﾅ漢字";
  var pattern = /[々〆〇〻㐂-頻]+/g;
  var result = str.match(pattern);
  Logger.log(result);
}

意訳

この機能がやること
探索対象の文字列を用意しておく
今回書いた漢字のパターン
一致するものを探して
ログに出す

実行結果

参考

Unicode 10.0 Character Code Charts
http://www.unicode.org/charts/

wikipedia
CJK統合漢字
https://ja.wikipedia.org/wiki/CJK%E7%B5%B1%E5%90%88%E6%BC%A2%E5%AD%97

常用漢字一覧
https://ja.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E6%BC%A2%E5%AD%97%E4%B8%80%E8%A6%A7

漢字
https://ja.wikipedia.org/wiki/%E6%BC%A2%E5%AD%97

常用漢字表（平成22年内閣告示第2号）
http://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kijun/naikaku/kanji/

日本漢字能力検定
級別漢字表
http://www.kanken.or.jp/kanken/outline/data/outline_degree_national_list.pdf

正規表現を書いてmatchで抽出する

正規表現を変数にして一致する文字を出力するUIを作ってみる

デモ

この文字列の中から一致する文字列を探したい

.match( / / )

一致する文字列

コード.gs

function doGet() {
  return HtmlService.createHtmlOutputFromFile("index");
}

意訳

この機能がやること
指定したHTMLファイルを表示する

index.html

<!DOCTYPE html>
<html>
  <head>
    <style>
    .ta {
      width: 360px;
      height: 120px;
    }
    
    .flag {
      width: 60px;
    }
    
    .text_dimgray {
      color: dimgray;
    }
    
    .text_orange {
      color: darkorange;
      font-weight: bold;
      font-size: 16px;
    }

    .regexp {
      font-size: 16px;
    }
    </style>
  </head>
  <body>
    <label class="text_dimgray">この文字列の中から一致する文字列を探したい</label>
    <br>
    <textarea id="input" class="ta"></textarea>
    <br>
    <div class="regexp">.match(
      <label class="text_orange">/
        <input type="text" id="tb" class="text_orange" placeholder="一致させたい文字列">/ 
        <input type="text" id="tb_flag" class="flag text_orange" placeholder="g,i,m等">
      </label>) 
    </div>
    <br>
    <label class="text_dimgray">一致する文字列</label>
    <br>
    <textarea id="output" class="ta"></textarea>
    <script>
    var tb = document.getElementById("tb");
    var tb_flag = document.getElementById("tb_flag");
    var input = document.getElementById("input");
    var output = document.getElementById("output");
    
    tb.onkeyup = get_result;
    tb_flag.onkeyup = get_result;
    
    function get_result() {
      var target = tb.value;
      var flag = tb_flag.value;
      var pattern = new RegExp(target, flag);
      output.value = input.value.match(pattern);
    }
    </script>
  </body>
</html>

意訳

 



taのスタイル
幅
高さ


flagのスタイル
幅


text_dimgrayのスタイル
文字色


text_orangeのスタイル
文字色
文字の太さ
文字サイズ


regexpのスタイル
文字サイズ




ラベル

インプットエリア

正規表現を入力するエリア






ラベル

出力エリア

idがtbの要素を取得
idがtb_flagの要素を取得
idがinputの要素を取得
idがoutputの要素を取得

tbでキーが上がったらget_resultを実行する
tb_flagでキーが上がったらget_resultを実行する

この機能がやること
tbのvalue（正規表現）を取得して
tb_flagのvalue（フラグ）を取得して
正規表現のオブジェクトを作成して
output（出力エリア）に一致する文字列を出力する

2018年4月1日日曜日