バッチ処理(バッチしょり)はバッチ単位でおこなわれる処理である。特に以下の2つの意味で用いられる。
バッチ処理(コンピュータ)
データ処理におけるバッチ処理(バッチしょり)は、ひとまとまりのデータを一括して処理する方式である[1]。逐次生み出されるデータを一定期間・一定量集めたものをバッチといい、このバッチ単位で処理をおこなう方式がバッチ処理である。
比較される方式として、逐次生み出されるデータをストリームとして捉え到着したデータを順次扱うストリーム処理がある[2][3]。データをキューイングせず即時処理するリアルタイム処理とも比較される。
バッチ処理を直列につなぎパイプライン処理をおこなう(パイプラインを構築する)ことがしばしばおこなわれる。
「バッチ (batch)」という言葉は、プログラマがプログラミングをする際、紙にコードを書き、紙テープか80カラム仕様のパンチカードにパンチしていった時代の言葉。カードまたは紙テープはシステムオペレーターに渡され、オペレーターはタスクのスケジューリングをし、コンピュータにカードまたは紙テープを投入していった。スケジューリングされたタスクは直ちにシステムに入れられたのではなく、一緒にまとめて投入されたので(バッチとは、複数の似ているものを1つのグループとして生産、処理すること、または一緒に集めて1つのユニットとして扱うこと。en:Batch processingより)、これらのタスクの集まりを「バッチジョブ」と呼ぶようになった。
バッチジョブは一度設定されると人間の手を煩わせることなく動作する。そのため入力データもスクリプトやコマンド行パラメータを通して予め用意される。この点でユーザーの入力を必要とする対話型プログラムとは対極にある。
バッチジョブは相互対話式の思想に基づく処理の仕組みではないが、IBM の CICS のようなトランザクション処理システムもテクニカルな視点から見ればバッチジョブとして動いている。もっとも、その部分はユーザーから隠れて見えない部分である。
バッチ処理は歴史的にはメインフレームと同義だった。このクラスのコンピュータは非常に高価であるため、上述したような理由でバッチ処理が行われた。また、初期のコンピュータでは端末からの対話的利用はほとんど行われなかった。
NECの情報管理ソフトの中にDataBooster((データブースター))という製品がある。これは通常夜間行われる日次月次のバッチ処理を高速化しようというもので、数十GB単位の大量のメモリーと専用の処理アルゴリズムによって、時間のかかる中間ファイルの生成を行わないところに特徴がある。
システム利用者が少ない・あるいはサービス提供時間外でシステム負荷が低い夜間に実行されるバッチ処理は「夜間バッチ」と呼ばれる。何らかの事情で夜間バッチが事前の想定時刻までに処理を完了できなかった場合は「突き抜け」と呼ばれる場合がある。[1]
利点
バッチ処理には以下のような利点がある。
- 多くのユーザーがコンピュータのリソースを共有できる。
- 処理をコンピュータのリソースがあまり忙しくない時間帯(多くは夜間、休日)にシフトできる。
- 人間がついていなくてもコンピュータのリソースが暇にならないように最大限有効活用できる。
- 高価なコンピュータをフルに活用することで費用対効果の効率向上に寄与する。
- サービスを停止して行うバッチ処理の場合、データの整合性を保つことが容易となる。
欠点
- 即時性が必要な処理には向かない。
- 夜間バッチを使用して「突き抜け」が発生した場合、本来のサービスと合わせて負荷がかかり大規模なシステム障害を引き起こす可能性がある。
バッチ管理システム
- (Spring Batch)[※ 1]
- (Java Batch System)[※ 2] - 現在β版
- (blancoBatchProcess)[※ 3] - Excelから生成
- SUNBATCH - サントリーシステムテクノロジー
- ParallelFrame - メディア情報開発
- オブジェクトワークス/BT JobManager - NRI
- TERASOLUNA Batch Framework for Java - NTTデータ
- Web Solid Framework - ワイ・エス・ピー
- WebSphere Extended Deployment - IBM
- Batch Execution and Control Environment for Java (JBeX) - 日本IBM
- (Quartz Enterprise Job Scheduler)[※ 4]
- Real timeFramework Architecture - フューチャーアーキテクト
- Batch.dart[※ 5][※ 6]