はじまり#

135ml

バックアップは大事です。

リサちゃん

意味深か？

ツールの概要#

ツールの概要をざっと紹介します。

僕はGoogleドライブの所定のフォルダに今まで書いたブログの記事の下書きを管理しているのですが、たまに下書きを書かずにWordPress上で公開まで行ってしまう記事があります。（例えば、この記事は「20211103」のIDが付いているのですが、その記事の下書きはありません。）

その際にこのツールが実行されると、Googleスプレッドシートで管理している台帳で公開済みになっている記事の内容を読み取って、Googleドキュメントとして出力してくれます。

ツールのソース#

ツールのソースはこんな感じです。

1
var draftFolderId = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX';
2

3
function getAlreadyPostedList(postedList) {
4
  // declare for prepare.
5
  var alreadyPostedList = [], alreadyPostedChr = '済';
6

7
  // get list of aticle already posted.
8
  postedList.forEach(function(value) {
9
    if(value[1] == alreadyPostedChr) {
10
      alreadyPostedList.push([value[0], value[2]]);
11
    }
12
  });
13

14
  return alreadyPostedList;
15
}
16

17
function readGssColumns() {
18
  // declare for prepare.
19
  var ss,
20
    sheetName = 'ブログ_記事',
21
    sheet,
22
    postedNumber,
23
    row_for_postedNumber = 6,
24
    column_for_postedNumber = 13;
25
  ss = SpreadsheetApp.getActive();
26
  sheet = ss.getSheetByName(sheetName);
27
  postedNumber = Number(sheet.getRange(row_for_postedNumber, column_for_postedNumber).getValue());
28

29
  // declare for get list from GSS.
30
  var dateList   = [],
31
    dateList_formated = [],
32
    permalinkList   = [],
33
    permalinkList_formated = [],
34
    postedList = [],
35
    i = 2, // index of row to start reading sheet.
36
    column_for_date      = 3, // index of 「起票日」column.
37
    column_for_posted    = 6, // index og 「投稿済」column.
38
    column_for_permalink = 7, // index of 「パーマリンク」column.
39
    returnList = [];
40

41
  // get dateList and cleansing.
42
  dateList   = sheet.getRange(i, column_for_date, postedNumber, 1).getValues();
43
  for (let j = 0; j < postedNumber; j++) {
44
    dateList_formated.push(Utilities.formatDate(dateList[j][0], 'JST', 'yyyyMMdd'));
45
  }
46

47
  // get permalinkList and cleansing.
48
  permalinkList   = sheet.getRange(i, column_for_permalink, postedNumber, 1).getValues();
49
  for (let j = 0; j < postedNumber; j++) {
50
    permalinkList_formated.push(permalinkList[j][0]);
51
  }
52

53
  // get postedList.
54
  postedList = sheet.getRange(i, column_for_posted, postedNumber, 1).getValues();
55

56
  // create returnList
57
  for (let k = 0; k < postedNumber; k++) {
58
    returnList.push([dateList_formated[k], postedList[k][0], permalinkList_formated[k]]);
59
  }
60

61
  return returnList;
62
}
63

64
function readYetReadArticles(postedList) {
65
  // declare for prepare.
66
  var alreadyPostedList = getAlreadyPostedList(postedList);
67

68
  // declare for prepare.
69
  var yetReadList = getYetReadList(alreadyPostedList);
70

71
  return yetReadList;
72
}
73

74
function exportYetReadArticles(yetReadArticlesList) {
75
  // declare.
76
  var targetUrl = 'https://www.endorphinbath.com/',
77
    getUrl,
78
    html,
79
    articleTitle,
80
    articleText,
81
    editFile,
82
    editFileId,
83
    docFile,
84
    body_docFile,
85
    docFileName,
86
    endOfText = '<p>以上になります！</p>\n      </div>',
87
    errorDocFile,
88
    body_errorDocFile,
89
    today = new Date();;
90

91
  // テンプレートファイル（「yyyyMMdd(E)」）
92
  var templateFile = DriveApp.getFileById('YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY');
93
  // 出力先フォルダ
94
  var outputFolder = DriveApp.getFolderById(draftFolderId);
95

96
  // 「ErrorLog_Batch」Docファイル
97
  errorDocFile = DocumentApp.openById('ZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZ');
98
  body_errorDocFile = errorDocFile.getBody();
99
  var paragraph = body_errorDocFile.appendParagraph(Utilities.formatDate(today, 'JST', 'yyyyMMdd') + '---ErrorLog---\n');
100

101
  // Read articles not read yet and which draft is nothing.
102
  yetReadArticlesList.some(function(value) {
103
    getUrl = targetUrl + value[1];
104
    html = UrlFetchApp.fetch(getUrl).getContentText('UTF-8');
105

106
    // Get articleTitle and cleansing.
107
    articleTitle = String(Parser.data(html).from('<h1 class="entry-title" itemprop="headline">').to('</h1>').iterate());
108
    articleTitle = articleTitle.replace(/\n          /g, '');
109
    articleTitle = articleTitle.replace(/        /g, '');
110

111
    // Get articleText and cleansing.
112
    articleText = String(Parser.data(html).from('<div class="entry-content cf" itemprop="mainEntityOfPage">').to(endOfText).iterate());
113
    articleText = articleText.replace(/p>\n\n\n\n<p>/g, 'p>\n<p>');
114

115
    // Check whether scraping is correctly.
116
    docFileName = value[0] + '_' + articleTitle;
117
    if (articleText.indexOf('<h2><span id="toc1">はじまり</span></h2>') != -1) {
118
      // Copy document with articleTitle.
119
      editFile = templateFile.makeCopy(docFileName, outputFolder);
120
      editFileId = editFile.getId();
121
      docFile = DocumentApp.openById(editFileId);
122
      body_docFile = docFile.getBody();
123

124
      // And write articleText.
125
      body_docFile.clear(); // 全消去
126
      var paragraph = body_docFile.appendParagraph(articleText);
127
      console.log(editFileId);
128
    }else{
129
      var paragraph = body_errorDocFile.appendParagraph(docFileName + '\n');
130
    }
131
  });
132
  var paragraph = body_errorDocFile.appendParagraph('\n\n');
133
}
134

135
function getYetReadList(alreadyPostedList) {
136
  // declare for prepare.
137
  var yetReadList = [];
138

139
  // declare for prepare.
140
  var folder_id = draftFolderId, // Folder ID of draft for article.
141
    folder,
142
    files,
143
    file_now,
144
    date_format_8 = "yyyyMMdd";
145

146
  // get list of folders.
147
  folder = DriveApp.getFolderById(folder_id);
148

149
  // get list of aticle not read yet.
150
  alreadyPostedList.forEach(function(value) {
151
    files = folder.getFiles();
152
    while(files.hasNext()) {
153
      file_now = files.next();
154
      // If draft of article exitsts, break while loop.
155
      if (value[0] == file_now.getName().substring(0, date_format_8.length)) {
156
        break;
157
      }
158

159
      // If draft of article is nothing, ...
160
      if (files.hasNext() == false) {
161
        // If Permalink is not null, ...
162
        if (value[1] != "") {
163
          // Push Article into list.
164
          yetReadList.push([value[0], value[1]]);
165
        }
166
      }
167
    }
168
  });
169

170
  return yetReadList;
171
}
172

173
function exportPostedArticles()  {
174
  // declare for execute.
175
  var postedList;
176
  postedList = readGssColumns();
177
  yetReadArticlesList = readYetReadArticles(postedList);
178
  exportYetReadArticles(yetReadArticlesList);
179
}

ツール作成時のハイライト#

1.　iteratorの初期化を忘れてハマった。#

実際にハマった部分がここです。

1
// .... (abbreviate) ....
2

3
  files = folder.getFiles();
4
  // get list of aticle not read yet.
5
  alreadyPostedList.forEach(function(value) {
6

7
    while(files.hasNext()) {
8
      file_now = files.next();
9
      // If draft of article exitsts, break while loop.
10
      if (value[0] == file_now.getName().substring(0, date_format_8.length)) {
11
        break;
12
      }
13

14
      // If draft of article is nothing, ...
15
      if (files.hasNext() == false) {
16
        // If Permalink is not null, ...
17
        if (value[1] != "") {
18
          // Push Article into list.
19
          yetReadList.push([value[0], value[1]]);
20
        }
21
      }
22
    }
23
  });
24

25
  return yetReadList;

return yetReadList;でどう足掻いても要素が１つしか出力されず、その解析に時間が掛かりました・・・。

原因は、filesがwhile文の中のiteratorの役割になっていますが、そのiteratorをforEach文の外で代入していたのが、そのバグの原因でした。そのせいで、for文が２回目に入る時に、iteratorが再代入されなかったのです。

先程貼った全ソースの中では、iteratorの代入文をforEachループの中に入れたので、解決しています。

2.　ParserをGAS上のライブラリに追加する。#

今回、GASで初めてスクレイピングを導入して、GAS上の「ライブラリ」という部分を初めて触りました。

「ファイル」「コード.gs」「ライブラリ」「サービス」と項目が並んでいるので、その右側の「＋」ボタンをクリックして、ライブラリの追加をしました。スクリプトIDは「1Mc8BthYthXx6CoIz90-JiSzSafVnT6U3t0z_W3hLTAX5ek4w0G_EIrNw」で、検索するとこんな風に表示されるのでその状態で「追加」をクリックします。

おしまい#

135ml

おーし、網羅できたぞー。とりあえず、下書き云々カンヌンを気にせずに執筆できるようになりましたとさ。

リサちゃん

以上になります！

135ml

おい！やめろ！！スクレイピングに使ってる識別文字列の一部を無闇に使うんじゃねえ！！

リサちゃん

へっ？

以上になります！

音楽

音楽

はじまり#

ツールの概要#

ツールのソース#

ツール作成時のハイライト#

1.　iteratorの初期化を忘れてハマった。#

2.　ParserをGAS上のライブラリに追加する。#

おしまい#

記事を共有

音楽

目次

音楽

音楽

【GAS、Google Spreadsheet】自分がブログで書いた記事のURLからスクレイピングしてドキュメントに出力する

はじまり#

ツールの概要#

ツールのソース#

ツール作成時のハイライト#

1. iteratorの初期化を忘れてハマった。#

2. ParserをGAS上のライブラリに追加する。#

おしまい#

記事を共有

音楽

目次

1.　iteratorの初期化を忘れてハマった。#

2.　ParserをGAS上のライブラリに追加する。#