[ORACLE] 점검 목록

매일매일 출근하자마자 시스템의 장애를 사전에 방지하기 위한 일일점검을 하여 팀장 및 부장에게 보고하는 체계가 마련되야 한다.

크게 분류하자면..

파일시스템, 데이터베이스, 관련 Applications 조회등을 점검하는 것이 좋다.

== 일일점검(Daily) ==

파일시스템

데이터베이스 관련된 파일시스템이 얼마나 사용하고 있는지 등을 체크한다.

예를 들어 평상시 사용율이 50% 미만이였다면.. 체크할 기준을 50%로 잡고 점검한다.

그러다가 어느날 60%가 넘었다면.. 그 전날 무슨 작업이 있었는지를 반드시 확인한다.

데이터베이스

㉮ alertSID.log ,trace file을 매일 체크

-.장애의 원인은 보통 trace file이나 오라클의 alertSID.log파일에 기록되는데 이 파일을 근거로 하여 장애의 원인을 파악할 수 있는 환경이 되어야 함

-.이 화일의 내용은 무한히 늘어나므로 스크립트를 이용하여 일자별 파일을 생성하고 이전 날짜 파일들은 다른 디렉토리나 파일시스템으로 옮기거나 백업받아서 파일시스템이 FULL나는것을 방지해야함.

㉯ *_dump_dest의 free space여부를 매일 확인

InitSID.ora이나 configSID.ora에 *_dump_dest가 설정되어 있다.

㉰ 각 테이블스페이스에 free space의 fragmentation이 일어났는지 확인

-.매일 테이블스페이스의 사용율을 체크하여 테이블스페이스가 Full날것을 미리 방지

(현재 저희회사는 90%를 기준으로 체크함-반드시 이력을 남길 것)

-.Fragmentation이 많이 일어나고 Free space는 많이 존재하지 않는다면 하나의 Data file을 첨가

-.Fraementation도 높고 Free space와 Disk space가 거의 존재하지 않는다면 Table들과 free space를 각각 연속적으로 연결이 되도록 backup/export를 받은 후 다시 drop/import를 하고 재구성

CONTROL FILE

㉮ 매일 매일 Hot Backup

Online Redo Log File

㉮ 상태가 Invalid한 것을 체크(V$LOG 사용)

select * from v$logfile;

-.INVALID log file error는 I/O error로서 alert.log에 기록되지 않으며 alert.log file을 분석함으로써 탐지가 가능

-.STALE은 shutdown abort 전에 쓰여지고 있는 log가 완전하지 않거나 그 log에 대해 걸려있는 write 상태가 알 수 없는 것일 때에 생성됨(alert.log 화일에 기록되지 않음)

㉯ Log Switch Interval 체크

select thread#,sequence#,time,archive_name

from v$log_history;

-.Log Switch interval은 위의 time의 차이를 계산하면 알 수 있음.

-.Log Switch가 너무 자주 발생하면 혹시 hot backup 상태로 두고 있는 화일이 있는지 확인

select file#,status

from v$backup;

㉰ Checkpoint 간격 체크.

-.잦은 Checkpoint는 Crash Recovery의 기간은 줄여줌

-.Dirty Buffers를 자주 쓰는 것과 File Headers를 자주 Update시 오버헤드 발생

Rollback Segment tablespace

㉮ Rollback Segment가 online이 되어있는지 체크

select segment_name,status

from dba_rollback_segs;

-.Rollback Segment가 Offline이 되어있을 수 있음

(Rollback segment를 가진 datafile에 문제가 발생시)

㉯ ORA-1555 에러가 생성되는지 여부를 체크

-.데이터베이스는 여전히 사용가능하며 application error가 일어날 수도 있음

㉰ ORA-1538,1551,1552,1553,1554,1555,1556,1557,1558,1559,1562를 체크

-.위의 error는 extent를 할당할 수 없거나 tablespace fragmentation이 일어나는 경우에

나타남

Archived Redo Logs

㉮ Archive File이 생성되는 파일시스템(또는 디렉토리)에 여유 공간이 있는지 체크

-.Disk에 여유공간이 없어 archive log를 write할 수 없어서 DB가 hang이 걸림

㉯ Archived log file을 특정 threshold에 도달할 때마다 backup을 받음.

(저희는 매일 백업 받으며 Tape에 한달 보관하고 있음)

㉰ Archived redo log file의 sequence #가 순차적인지 확인

㉱ ARCH process가 움직이는지를 체크

-.ARCH process가 움직이지 않아서 DB가 hang이 걸리는 문제를 막을 수 있음

㉲ alert.log에 Archive log들에 관한 error가 있는지 체크

-.initSID.ora(parameter file)내의 *_dump_dest방향을 참조함

OS detection

㉮ Disk failure나 controller의 이상이 있는지 체크

㉯ OS mirroring이 되고 있는지 체크

기타

㉮ SQL*NET 상태를 체크

-.SQL*NET V2의 경우에는 listener의 process가 runnung인지 확인

$lsnrctl service

== 매주점검(Weekly) ==

㉮ 악성쿼리와 악성트램잭션에 대한 응답시간 체크

-. 갑자기 performance가 떨어지는 경우에 어떤 원인인지 알아내서 그 원인 추적을 할 필요가 있음

㉯ Temporary tablespace와 rollback segment tablespace에서 object들이 생성되지 않았는지 체크

-.Object들이 생성되었을 경우 충분히 삭제되어질 가능성이 큼

㉰ AUD$가 비워지는지 확인한다.

-.Aud$는 auditing 할 경우에 데이터량이 많기 때문에 export 받고 테이블은 비워야 함

㉱ Rollback segment tablespace에 충분한 공간이 있는지 체크

-.Full 방지

-.Fragmentation이 일어나지 않도록 주의

㉲ Data Dictionary Tables과 System Rollback Segment만이 존재해 함

㉳ OFFLINE Full backup을 받는다.

-.24/365시스템이 아니라면 가동되는 database는 Offline Full Backup을 받아야함

(경우에 따라 월단위 Offline Full Backup 받음)

㉴ OS의 운영 상태를 확인할 수 있는 통계를 만든다.

(위 경우는 SP 역할임)

== 매월점검(Monthly) ==

㉮ 주기적으로 recovery test를 한다.

(저희는 1년에 한번씩 테스트합니다)

㉯ V$rollstat를 이용해서 Rollback segment 상태 체크

㉰ 월간운영 현황 보고서 작성

-.버퍼, 트랜잭션 현황, 데이터 및 인덱스 현황등을 파악하여 월별 데이터를 확보

[출처] 오라클 운영시 일일점검 체크리스트|작성자 허접마님

'ORACLE' 카테고리의 다른 글

[oracle] 모니터링 sql (0)	2010.05.10
테이블스페이스의 단편화 현상 점검 (0)	2010.04.14
[ORACLE] 시작과 종료 (0)	2010.04.14
[ORACLE] 오라클 포렌직에 필요한 것들 (0)	2010.04.13
[oracle] 락 걸린 테이블 확인하고 세션죽이기 (0)	2010.04.12

막퍼

[ORACLE] 점검 목록

'ORACLE' 카테고리의 다른 글

티스토리툴바

[ORACLE] 점검 목록

'ORACLE' 카테고리의 다른 글

'ORACLE' Related Articles

티스토리툴바