이진 탐색 (Binary Search)

주어진 배열에서 특정한 요소(target) 을 찾아내는 상황을 가정해 봅시다. 가장 쉬운 방법은 각각의 배열 요소와 target 값을 같은지 순차적으로 모두 비교하는 것입니다. 만약 배열의 크기가 n이라고 했을때, 이 알고리즘의 시간복잡도를 Big-O notation을 이용해 나타낸다면 **O(n)**이 될 것 입니다.
그러나 더 효율적이고 빠르게 target 을 찾아내는 방법이 있습니다. 이 방법은 매 탐색마다 target을 찾기위한 배열의 크기를 절반으로 줄여가면서 탐색을 하는 것입니다. 정확히는 기존의 배열은 유지하지만 탐색해야하는 범위를 계속 절반으로 줄이는 것입니다. 이런식으로 탐색하는 방법이 바로 이진 탐색(Binary Search) 알고리즘입니다. 다만 이진 탐색 알고리즘은 순차 탐색과는 달리 배열의 데이터들이 정렬된 상태에서만 적용할 수 있다는 특징이 있습니다. 정렬이 되지 않은 데이터는 이진 탐색을 적용할 수 없습니다.
쉽게 생각해보면 만약 배열의 요소들이 정렬되지 않은 상태라면, 매 탐색마다 target을 찾기 위해 검사해야하는 배열의 범위를 줄이지 못할 것입니다. (정렬되어 있다 라는 기준이 없기 때문에 탐색해야 하는 배열의 시작과 끝 범위를 정할 수 있는 근거가 없기 때문입니다.)

이진 탐색 절차

크기가 n인 리스트 data에서 target 이라는 특정 요소를 찾아낸다고 가정했을 때, 이진 탐색의 절차는 다음과 같습니다. (리스트는 오름차순으로 정렬되어 있습니다.)

  1. begin = 0, end = n − 1 로 초기화 합니다.
  2. mid 는 (begin + end) 를 2 로 나눈 몫으로 결정합니다.
  3. data[mid] 와 target 이 서로 같으면 목적을 달성했으므로 탐색을 종료합니다.
  4. 만약 target < data[mid] 이면 end = mid-1 로 업데이트 한 후, 2번으로 돌아갑니다. 만약 target > data[mid] 라면 begin = mid+1 로 업데이트 한 후, 2번으로 돌아갑니다.

위 과정에서 begin, end, mid는 리스트의 index를 의미합니다. 또한 target과 data[mid]의 대소관계에 따라 다음 탐색 방향을 선택하게 됩니다. 이 과정은 리스트의 요소가 오름차순인지 내림차순인지에 따라 다르게 구현됩니다.

먼저 코드를 작성하기 전에 그림과 함께 과정을 살펴보겠습니다.


위의 리스트에서 15라는 데이터를 탐색하겠습니다. 먼저 첫번째 과정으로 데이터 집합의 중앙 요소를 선택합니다.


두번째 과정으로는 중앙 요소의 값과 찾으려는 값을 서로 비교하게 되는데, 만약 찾으려는 값이 중앙 요소의 값보다 작다면 중앙 요소의 왼편에서 중앙 요소를 다시 선택하고, 반대로 찾으려는 값이 중앙 요소의 값보다 크다면 오른편에서 중앙 요소를 다시 선택합니다. 그리고 다시 이 과정을 반복하는 것입니다. 위의 경우에는 찾으려는 값인 15가 중앙값 9보다 크기 때문에 중앙값 왼편은 탐색할 필요가 없습니다. 따라서 중앙 요소의 오른편에서 다시 중앙값을 선택합니다.


이제는 중앙값이 17입니다. 중앙값이 찾고자 하는 값인 15보다 크기 때문에 중앙값 왼편에서 다시 테이터를 탐색합니다.


왼편에서 중앙값을 택합니다. 이제 중앙값과 찾고자 하는 데이터가 같기 때문에 탐색을 종료합니다.

이진 탐색 성능

이진 탐색은 한번 비교를 할때마다, 탐색의 범위가 반으로 줄어듭니다. 데이터 리스트의 크기를 n이라 하고, 반복 횟수를 k라고 한다면 다음과 같은 수식이 만들어 집니다.

위는 데이터 리스트의 크기인 n을 2로 몇번을 나누어야 1이 되는지 말해주는 식으로, 위 수식을 정리하면 k=log2(n)이 되는 것입니다. 위 수식을 통해 데이터 리스트의 크기가 500만개라면 최대 22회, 1000만개라면 최대 23회의 탐색으로 데이터를 찾아낼 수 있다는 것입니다.

의사 코드 (수도 코드)

먼저 의사 코드를 살펴보겠습니다.

1
2
3
4
5
6
7
8
9
10
11
12
BinarySearch(A[0...N-1], target, begin, end) {
if (begin > end)
return -1 // not found
mid = (begin + end) / 2
if (A[mid] < target)
return BinarySearch(A, target, mid+1, end)
else if (A[mid] > target)
return BinarySearch(A, target, begin, mid-1)
else
return mid // found
}

출처 : 위키백과 - 이진 검색 알고리즘

C++ 코드

위의 의사 코드를 C++ 코드로 다시 작성하면 다음과 같습니다.

1
2
3
4
5
6
7
8
9
10
11
int BinarySearch(int A[], int target, int begin, int end) {
if (begin > end)
return -1;
mid = (begin + end) / 2;
if (A[mid] < target)
return BinarySearch(A, target, mid + 1, end);
else if (A[mid] > target)
return BinarySearch(A, target, begin, mid + 1);
else
return mid;
}