blog.monophile.net

コンピュータのこととかのメモ。

山本 一彰 | Takaaki Yamamoto

東京工業大学において計算機科学と応用数学を学び、 情報科学芸術大学院大学[IAMAS]においてメディア表現を専攻し修了。 2015年にコンビネータ論理を基に計算完備な計算手法 "論理珠算"を開発し、 それを含む体系である"算道"を構成した。 その成果により、 第19回 文化庁メディア芸術祭 アート部門 新人賞 (文部科学大臣賞) を2016年に受賞。 digitiminimi inc.において、インフラエンジニアとして生計をたててている。 現在、転職活動中。

技術

各種システムの設計/構築/運用を承ります。

Configuration Management Ansible, Terraform, cloud-init
Cloud Platform AWS, Azure, GCP, Openstack
Openstack Keystone, Glance, Cinder(Ceph), Neutron(VLAN), Nova(QEMU), Horizon
Virtualization QEMU+KVM, LXD/LXC, Docker
OS Ubuntu, Debian GNU/Linux, CentOS, ...
Storage Ceph, GlusterFS, ZFS, btrfs, ...
Networks Tunnel(IPSec, L2TP, VXLAN, GRE), WirelessAP, ...
DB MySQL, MariaDB(Galera Cluster), MongoDB
Mail postfix, dovecot
WebApps WordPress, GitLab, MatterMost, Redmine, RainLoop, ...
Monitoring Nagios, Munin
Misc certbot, dnsmasq, ...

技術(習得中)

Orchestration Kubernetes
Openstack swift, manila, trove
OS CoreOS(Container Linux), Vyatta(VyOS), ...
Networks IPv6, BGP(quagga, calico), flannel, fan, ...
DB/KVS Redis, etcd
Monitoring Prometheus, Zabbix
DNS CoreDNS, PowerDNS
Misc MAAS, Blockchain

投稿

nodejsで簡単なDOM処理

いきさつ

Webページの再構築中で、HTMLファイルの分割をしています。 最初はPythonでやっていたのですが、やっぱりWebから生まれたjavascriptで処理するのが適切かと思いnodejsでやってみました。

HTMLファイルの分割

標準入力からHTMLを表すテキストファイルを読み込み、div要素をid.txtというファイル名で書き出します。 なお、行頭の空白文字を削除する処理も行っています。

install

nodejsとnpmをMacPortsからインストールし、npmでjsdomをインストールします。

$ sudo port install nodejs npm
$ npm install jsdom

code.js

var fs = require('fs');
var jsdom = require('jsdom').jsdom;

var stdin = fs.readFileSync('/dev/stdin', 'utf8');
var document = jsdom(stdin);
var divs = document.getElementsByTagName("div");
for (var i = 0; i < divs.length; i++) {
  var d = divs[i];
  var id = d.getAttribute("id");
  var filename = id + ".txt"
  var output = d.innerHTML.replace(/^\s*/gm,"")
  fs.writeFile(filename, output)
}

input.html

<html>
<body>
  <div id="00">
    <h1>title00</h1>
    <p>paragraph00.</p>
  </div>
  <div id="01">
    <h1>title01</h1>
    <p>paragraph01.</p>
  </div>
  <div id="02">
    <h1>title02</h1>
    <p>paragraph02.</p>
  </div>
</body>
</html>

exec

実行は次のコマンドで。

$ cat input.html | nodejs code.js

ちゃんとファイルに分割できました。

00.txt

<h1>title00</h1>
<p>paragraph00.</p>

01.txt

<h1>title01</h1>
<p>paragraph01.</p>

02.txt

<h1>title02</h1>
<p>paragraph02.</p>