아호-코라식 (Aho-Corasick)#

사실 근시일 내로 도전할 일이 없을 줄 알았지만, 우테코에서 이러한 기회를 준 것에 대해 감사하게 도전
아호-코라식은 우테코에서 ‘고난도 문제’를 제시하였기 때문에 이러한 주제를 진행함
ACPC에서 뼈도 못추린 ‘아호-코라식’은 분명 넘어야 할 벽 중 하나
이는 도전해야할 목록 중 하나에 있었고 이번 기회에 도전하게 되었음

아호 코라식이란?#

현재 광범위하게 알려진 거의 유일한 일대다 패터매칭 알고리즘

KMP의 확장 버전이며, ‘트라이’와 ‘KMP’의 선행 지식이 요구

선행 지식#

트라이 (Trie)#

트라이는 여러 개의 문자열을 효율적으로 저장하고 ‘접두사’를 빠르게 찾기 위한 자료구조
예로 ‘바보’, ‘바1보’, ‘바bo’와 같이 ‘공통된 접두사’를 가진 단어가 많을 때 큰 효율을 가져옴

핵심 구조#

트라이는 ‘트라이 노드(TrieNode)‘와 ‘루트 노드(root)’ 2가지가 핵심 요소
- 트라이 노드는 ‘자식 노드’의 맵(Map)을 가지고 있으며, 이는 경로(간선) 정보
- 단어의 끝에는 isEndOfWord 끝이라는 표시가 있음
  - 예로 ‘car’, ‘card’를 저장하면, ‘r’과 ‘d’에 true
  - 이외 c와 a는 노드는 false
- 루트 노드는 모든 검색과 삽입이 시작되는 ‘출발점’
  - 해당 root 노드에는 아무 글자도 의미하지 않는 빈 노드를 가지고 있음
동작 구조는 다음과 같음
1. ‘car’ 삽입 시
  1. root 에서 시작
  2. root에 ‘c’가 있는 지 확인 (없음)
    - c 노드를 새로 만들고 'c'와 연결
  3. ‘c’ 노드로 이동
  4. ‘c’에 ‘a’가 있는 지 확인 (없음)
    - a 노드를 새로 만들고 'a'와 연결
  5. ‘a’ 노드로 이동
  6. ‘a’에 ‘r’가 있는 지 확인 (없음)
    - r 노드를 새로 만들고 'r'와 연결
  7. ‘r’ 노드로 이동
  8. ‘car’ 단어 완료 ‘r’에 inEndOfWord = true로 설정
2. ‘cat’ 삽입 시
  1. root 에서 시작
  2. root에 ‘c’가 있는 지 확인 (있음)
  3. ‘c’ 노드로 이동
  4. ‘c’에 ‘a’가 있는 지 확인 (있음)
  5. ‘a’ 노드로 이동
  6. ‘a’에 ‘t’가 있는 지 확인 (없음)
    - t 노드를 새로 만들고 't'와 연결
  7. ‘t’ 노드로 이동
  8. ‘cat’ 단어 완료 ‘t’에 inEndOfWord = true로 설정

시간 복잡도#

`Trie`의 모든 연산은 찾으려는 단어 길이에만 의존#

L = 찾으려는 단어의 길이
N = Trie에 이미 저장된 총 단어의 개수

삽입#

1
- 시간 복잡도 : O(L)
2
- 단어의 길이 L 만큼만 노드를 따라가거나 생성

검색#

1
- 시간 복잡도 : O(L)
2
- 단어의 길이 L 만큼만 노드를 따라가거나 생성

접두사 검색#

1
- 시간 복잡도 : O(L)

공간 복잡도#

O(N X L_avg) (N: 총 단어 수, L_avg: 평균 단어 길이)
Trie에 생성되는 총 노드의 개수에 비례
공동 접두사가 많으면 메모리가 절약되지만 그렇지 않다면 상당한 낭비가 될 수 있음

Source Code#

1
import java.util.HashMap;
2
import java.util.Map;
3

4
/**
5
 * 트라이의 개별 노드를 나타내는 클래스
6
 */
7
class TrieNode {
8

9
    /**
10
     * 자식 노드들을 저장하는 맵
11
     * key: 문자 (Character)
12
     * value: 해당 문자에 해당하는 자식 노드 (TrieNode)
13
     */
14
    private final Map<Character, TrieNode> children = new HashMap<>();
15

16
    /**
17
     * 이 노드에서 끝나는 단어가 있는지 여부를 표시하는 깃발
18
     */
19
    private boolean isEndOfWord;
20

21
    Map<Character, TrieNode> getChildren() {
22
        return children;
23
    }
24

25
    boolean isEndOfWord() {
26
        return isEndOfWord;
27
    }
28

29
    void setEndOfWord(boolean endOfWord) {
30
        isEndOfWord = endOfWord;
31
    }
32
}
33

34
/**
35
 * 트라이 (Trie) 자료구조 클래스
36
 */
37
public class Trie {
38

39
    private final TrieNode root;
40

41
    /**
42
     * Trie 생성자. 루트 노드를 초기화
43
     */
44
    public Trie() {
45
        root = new TrieNode();
46
    }
47

48
    /**
49
     * 트라이에 새로운 단어를 삽입
50
     * 시간 복잡도: O(L) - L은 단어의 길이
51
     *
52
     * @param word 삽입할 단어
53
     */
54
    public void insert(String word) {
55
        TrieNode current = root;
56

57
        for (char ch : word.toCharArray()) {
58
            current = current.getChildren()
59
                             .computeIfAbsent(ch, c -> new TrieNode());
60
        }
61

62
        current.setEndOfWord(true);
63
    }
64

65
    /**
66
     * 트라이에서 특정 단어가 '완전히' 일치하는지 검색
67
     * 시간 복잡도: O(L) - L은 단어의 길이
68
     *
69
     * @param word 검색할 단어
70
     * @return 단어가 존재하고, 해당 노드가 '단어의 끝'이면 true, 아니면 false
71
     */
72
    public boolean search(String word) {
73

74
        TrieNode node = findNode(word);
75

76
        return node != null && node.isEndOfWord();
77
    }
78

79
    /**
80
     * 트라이에서 특정 '접두사'로 시작하는 단어가 있는지 검색
81
     * 시간 복잡도: O(L) - L은 접두사의 길이
82
     *
83
     * @param prefix 검색할 접두사
84
     * @return 접두사에 해당하는 노드 경로가 존재하면 true, 아니면 false
85
     */
86
    public boolean startsWith(String prefix) {
87
        return findNode(prefix) != null;
88
    }
89

90
    /**
91
     * 문자열을 따라 트라이를 탐색하여 마지막 노드를 찾는 내부 헬퍼 메서드
92
     *
93
     * @param str 검색할 문자열 (단어 또는 접두사)
94
     * @return 문자열의 마지막 문자에 해당하는 노드. 경로가 없으면 null 반환
95
     */
96
    private TrieNode findNode(String str) {
97
        TrieNode current = root;
98
        for (char ch : str.toCharArray()) {
99
            TrieNode node = current.getChildren().get(ch);
100

101
            if (node == null) {
102
                return null;
103
            }
104
            current = node;
105
        }
106
        return current;
107
    }
108

109
    public static void main(String[] args) {
110
        Trie trie = new Trie();
111

112
        // 1. 삽입
113
        trie.insert("apple");
114
        trie.insert("apply");
115
        trie.insert("banana");
116
        trie.insert("bat");
117

118
        // 2. 검색
119
        System.out.println("trie.search(\"apple\"): " + trie.search("apple"));   // true
120
        System.out.println("trie.search(\"app\"): " + trie.search("app"));     // false ("app" 자체는 삽입 안 함)
121
        System.out.println("trie.search(\"apply\"): " + trie.search("apply"));   // true
122
        System.out.println("trie.search(\"batman\"): " + trie.search("batman")); // false
123

124
        // 3. 접두사 검색
125
        System.out.println("trie.startsWith(\"app\"): " + trie.startsWith("app"));   // true ("apple", "apply")
126
        System.out.println("trie.startsWith(\"ban\"): " + trie.startsWith("ban"));   // true ("banana")
127
        System.out.println("trie.startsWith(\"cat\"): " + trie.startsWith("cat"));   // false
128
    }
129
}

KMP#

KMP는 하나의 긴 텍스트에서 ‘하나의 특정 패턴’을 매우 빠르게 찾는 알고리즘
검색에 실패했을 때, 텍스트 포인터는 절대 뒤로 돌리지 않고 ‘패턴 포인터’만 점프시킴

핵심 구조#

KMP의 핵심 요소는 pi배열(실패 함수)
- pi 배열은 패턴 문자열 자신을 미리 분석하여 만드는 ‘점프 맵(Map)’
- 이 배열은 검색 중 i + 1에서 실패하면 다음엔 pi[i]번째부터 이어서 비교를 진행함
pi[i]는 패턴의 ‘0’부터 ‘i’번째까지의 부분 문자열에서 ‘접두사와 접미사’가 일치하는 최대 길이
- 예로 ‘ABAB’의 접두사 (‘A’, ‘AB’, ‘ABA’)와 접미사 (‘B’, ‘AB’, ‘BAB’)가 일치하는 최대 길이는 ‘AB’이므로, pi[3] = 2가 됨

동작 구조는 다음과 같음

pi 배열 생성 (전처리)
- 패턴 ‘ABABC’의 pi배열을 계산
- i=0 “A”: 항상 0
  - pi[0] = 0
- i=1 “AB”: 접두사 ‘A’와, 접미사 ‘B’ -> 일치 없음
  - pi[1] = 0
- i=2 “ABA”: 접두사(‘A’, ‘AB’)와, 접미사(‘A’, ‘BA’) -> ‘A’ 일치
  - pi[2] = 1
- i=3 “ABAB”: 접두사(‘A’,‘AB’,‘ABA’)와, 접미사(‘B’,‘AB’,‘BAB’) -> ‘AB’ 일치
  - pi[3] = 2
- i=4 “ABABC”: 접두와와 접미사 일치 없음
  - pi[4] = 0
- “ABABC”의 pi 배열 = [0, 0, 1, 2, 0]
검색
- 텍스트: ABABDABABC…
- 패턴: ABABC
- i(텍스트 포인터), j(패턴 포인터)

i	j	일치 여부	이동
0	0	’A’ 일치	`i++`, `j++`
1	1	’B’ 일치	`i++`, `j++`
2	2	’A’ 일치	`i++`, `j++`
3	3	’B’ 일치	`i++`, `j++`
4	4	’D’ != ‘C’ 불일치	i는 4 고정, j는 `pi[j-1]`로 이동 / `j = pi[4-1] = pi[3] = 2`
4	2	’D’와 ‘A’의 비교 불일치	j를 `pi[j-1]`로 이동 / `j = pi[2-1] = pi[1] = 0`
4	0	`D`와 `A`의 비교 불일치	j가 0이므로 `i++`
5	0	’A’ 일치	`i++`, `j++`

시간 복잡도#

N = 텍스트의 길이
M = 패턴의 길이

배열 생성 (전처리)#

1
- 시간 복잡도 : 0(M)
2
- 패턴의 길이 'M' 만큼 1번 순회하여 'pi' 배열 생성

검색#

1
- 시간 복잡도 O(M)
2
- 텍스트의 길이 'N' 만큼만 1번 순회

총 시간 복잡도#

1
- O(N + M)

공간 복잡도#

O(M) (패턴의 길이)
오직 pi 배열을 저장할 공간이 필요
KMP는 하나의 패턴을 찾는 데 엄청난 속도를 보여주지만, K개의 패턴을 찾으려면 O(N + M) 연산을 K번 반복해야 함

Source Code#

1
import java.util.ArrayList;
2
import java.util.List;
3

4
public class KMP {
5

6
    /**
7
     * KMP의 핵심인 'pi' 배열 (실패 함수)을 생성
8
     * pi[i] = pattern[0...i]의 접두사==접미사 최대 길이
9
     *
10
     * @param pattern 검색할 패턴 문자열
11
     * @return 계산된 pi 배열
12
     */
13
    private int[] getPi(String pattern) {
14
        int m = pattern.length();
15
        int[] pi = new int[m];
16

17
        int j = 0;
18

19
        for (int i = 1; i < m; i++) {
20
            while (j > 0 && pattern.charAt(i) != pattern.charAt(j)) {
21
                j = pi[j - 1];
22
            }
23

24
            if (pattern.charAt(i) == pattern.charAt(j)) {
25
                pi[i] = ++j;
26
            }
27
        }
28
        return pi;
29
    }
30

31
    /**
32
     * KMP 알고리즘을 사용해 텍스트에서 패턴을 검색
33
     *
34
     * @param text    전체 텍스트
35
     * @param pattern 찾을 패턴
36
     * @return 패턴이 시작되는 모든 인덱스의 리스트
37
     */
38
    public List<Integer> search(String text, String pattern) {
39
        List<Integer> foundIndices = new ArrayList<>();
40
        int[] pi = getPi(pattern);
41

42
        int n = text.length();
43
        int m = pattern.length();
44

45
        int j = 0;
46

47
        for (int i = 0; i < n; i++) {
48
            while (j > 0 && text.charAt(i) != pattern.charAt(j)) {
49
                j = pi[j - 1];
50
            }
51

52
            if (text.charAt(i) == pattern.charAt(j)) {
53
                if (j == m - 1) {
54
                    foundIndices.add(i - m + 1);
55
                    j = pi[j];
56
                } else {
57
                    j++;
58
                }
59
            }
60
        }
61
        return foundIndices;
62
    }
63

64
    public static void main(String[] args) {
65
        KMP kmp = new KMP();
66
        String text = "ABABCABABCDA";
67
        String pattern = "ABABC";
68

69
        List<Integer> result = kmp.search(text, pattern);
70
        System.out.println("패턴 발견 위치: " + result); // [0, 5]
71

72
        text = "AAAAABAAABA";
73
        pattern = "AAAA";
74
        result = kmp.search(text, pattern);
75
        System.out.println("패턴 발견 위치: " + result); // [0, 1, 7]
76
    }
77
}

아호-코라식#

여러 개의 패턴을 하나의 긴 텍스트에서 단 한번의 순회로 모두 찾아내는 알고리즘
Trie는 여러 패턴을 저장
KMP는 일치하지 않을 때 점프하고 찾아가는 역활

핵심 구조#

아호-코라식은 Trie 구조를 그대로 사용하되, TrieNode에 KMP의 점프 기능을 사용
TrieNode의 추가 요소
- Failure Link
  - KMP의 pi 배열 역할
  - 현재 노드에서 다음 글자로 가는 길이 없을 때, 대신 탐색을 이어갈 “가장 가능성이 높은 다른 노드”
  - “가장 가능성이 높은 다른 노드”는 “현재까지 일치한 문자열의 가장 긴 접미사” 이면서 “다른 패턴의 접두사”인 노드
- Output Link
  - 현재 노드에서 실패 링크를 타고 갔을 때, 단어의 끝을 만난다면 그 노드를 가리킴
  - 예로 she를 찾았을 때, e 노드를 타고 가면 he의 e노드 isEndOfWord를 만날 수 있으며, 이러면 숨겨진 일치를 빠르게 찾을 수 있음

동작 구조#

아호-코라식은 전처리와 검색 둘로 나눠서 진행해야 함

전처리#

-Trie를 만든 후, BFS를 이용해 모든 노드의 Failure Link를 설정

패턴 삽입 : 모든 금지어를 Trie에 삽입
실패 링크 구축 (BFS)
- root 노드에 큐를 넣음
  - root의 실패 링크는 null 혹은 자기 자신
  - BFS를 돌면서 큐에서 노드 P를 꺼냄
  - P의 모든 자식 노드 C의 경우
    - 실패 링크를 가리키는 노드 F로 점프
    - F에도 x의 자식이 있는가?
      - 있는 경우 : C의 실패 링크를 F의 x 자식 노드로 설정
      - 없는 경우 : F의 실패 링크를 타고 F'로 다시 점프를 2번 반복
      - 최종 실패 : root까지 갔는데 x 자식이 없다면 C의 실패 링크는 root를 가리킴
    - C를 큐에 넣음

검색#

게시글 텍스트를 한번 탐색하면서 완성된 ‘전처리’ 엔진을 사용
- EX) 텍스트: “나는 바보이고 멍청하다”
  - currentNode = root에서 시작
  - ‘나’: root에 ‘나’ 자식이 X. currentNode = root 유지
  - ‘는’: root에 ‘는’ 자식이 X. currentNode = root 유지
  - ‘바’: root에 ‘바’ 자식이 O currentNode를 ‘바’ 노드로 이동
  - ‘보’: ‘바’ 노드에 ‘보’ 자식이 O currentNode를 ‘보’ 노드로 이동
  - (일치) ‘보’ 노드는 isEndOfWord=true -> “바보” 찾음
  - ‘이’: ‘보’ 노드에 ‘이’ 자식이 X
  - (KMP 점프!) ‘보’ 노드의 **‘실패 링크’**를 따라 점프 (root)
  - root에 ‘이’ 자식이 X currentNode = root 유지
  - ‘멍’: root에 ‘멍’ 자식이 O currentNode를 ‘멍’ 노드로 이동
  - ‘청’: ‘멍’ 노드에 ‘청’ 자식이 O
  - ‘청’ 노드는 isEndOfWord=true
  - …

시간 복잡도#

N : 텍스트의 길이
L : 모든 패턴의 길이
M : 텍스트에서 발견된 총 매칭 횟수

전처리#

1
- 시간 복잡도: O(L)
2
- `Trie` 생성(O(L)) + `Failure Link` 생성 (O(L))
3
- 서버 시작 시 최초 1회 수행

검색#

1
- 시간 복잡도: O(N + M)
2
- 텍스트 포인터는 KMP처럼 뒤로가지 않고 N번 전진함. 실패 링크를 따라 점프하는 횟수는 텍스트 전진 횟수를 넘을 수 없음
3
- M은 발견된 결과를 기록하는 시간

공간 복잡도#

1
- O(L) : 모든 패턴의 총 길이
2
- `Trie`를 저장할 공간만 필요

Source Code#

1
import java.util.*;
2

3
public class AhoCorasick {
4

5
    /**
6
     * 아호-코라식은 기본 트라이 노드에 '실패 링크'와 '출력 셋'을 추가
7
     */
8
    static class TrieNode {
9
        Map<Character, TrieNode> children = new HashMap<>();
10

11
        TrieNode failureLink = null;
12
        Set<String> output = new HashSet<>();
13

14
        public TrieNode getChild(char ch) {
15
            return children.get(ch);
16
        }
17
    }
18

19
    private final TrieNode root = new TrieNode();
20

21
    /**
22
     * 트라이에 패턴(금지어)을 삽입
23
     *
24
     * @param pattern 삽입할 패턴 문자열
25
     */
26
    public void insert(String pattern) {
27
        TrieNode current = root;
28
        for (char ch : pattern.toCharArray()) {
29
            current = current.children.computeIfAbsent(ch, c -> new TrieNode());
30
        }
31
        current.output.add(pattern);
32
    }
33

34
    /**
35
     * 실패 링크(Failure Links)를 구축
36
     * * 이 작업은 서버 시작 시 1회만 수행
37
     */
38
    public void buildFailureLinks() {
39
        Queue<TrieNode> queue = new LinkedList<>();
40

41
        for (TrieNode child : root.children.values()) {
42
            child.failureLink = root;
43
            queue.add(child);
44
        }
45

46
        while (!queue.isEmpty()) {
47
            TrieNode parent = queue.poll();
48

49
            for (Map.Entry<Character, TrieNode> entry : parent.children.entrySet()) {
50
                char ch = entry.getKey();
51
                TrieNode child = entry.getValue();
52

53
                queue.add(child);
54

55
                TrieNode fail = parent.failureLink;
56

57
                while (fail != null && !fail.children.containsKey(ch)) {
58
                    fail = fail.failureLink;
59
                }
60

61
                if (fail == null) {
62
                    child.failureLink = root;
63
                } else {
64
                    child.failureLink = fail.children.get(ch);
65
                }
66

67
                child.output.addAll(child.failureLink.output);
68
            }
69
        }
70
    }
71

72
    /**
73
     * 텍스트를 순회하며 모든 패턴을 검색
74
     *
75
     * @param text 검색 대상이 되는 전체 텍스트
76
     * @return 찾은 패턴과, 해당 패턴이 시작된 인덱스 목록
77
     */
78
    public Map<String, List<Integer>> search(String text) {
79
        Map<String, List<Integer>> results = new HashMap<>();
80
        TrieNode current = root;
81

82
        for (int i = 0; i < text.length(); i++) {
83
            char ch = text.charAt(i);
84

85
            while (current != null && !current.children.containsKey(ch)) {
86
                current = current.failureLink;
87
            }
88

89
            if (current == null) {
90
                current = root;
91
                continue;
92
            }
93

94
            current = current.children.get(ch);
95

96
            if (!current.output.isEmpty()) {
97
                for (String pattern : current.output) {
98
                    results.computeIfAbsent(pattern, k -> new ArrayList<>())
99
                           .add(i - pattern.length() + 1);
100
                }
101
            }
102
        }
103
        return results;
104
    }
105

106

107
    public static void main(String[] args) {
108
        AhoCorasick ac = new AhoCorasick();
109

110
        String[] patterns = {"he", "she", "his", "hers"};
111
        for (String p : patterns) {
112
            ac.insert(p);
113
        }
114

115
        ac.buildFailureLinks();
116

117
        String text = "ushers";
118
        Map<String, List<Integer>> results = ac.search(text);
119

120
        results.forEach((pattern, indices) ->
121
                System.out.println("패턴 \"" + pattern + "\" 발견 위치: " + indices));
122

123
        /*
124
         출력 결과:
125
         패턴 "she" 발견 위치: [1]
126
         패턴 "he" 발견 위치: [2]
127
         패N "hers" 발견 위치: [2]
128
         */
129
    }
130
}

아호-코라식 (Aho-Corasick)#

아호 코라식이란?#

선행 지식#

트라이 (Trie)#

핵심 구조#

시간 복잡도#

Trie의 모든 연산은 찾으려는 단어 길이에만 의존#

삽입#

검색#

접두사 검색#

공간 복잡도#

Source Code#

KMP#

핵심 구조#

시간 복잡도#

배열 생성 (전처리)#

검색#

총 시간 복잡도#

공간 복잡도#

Source Code#

아호-코라식#

핵심 구조#

동작 구조#

전처리#

검색#

시간 복잡도#

전처리#

검색#

공간 복잡도#

Source Code#

`Trie`의 모든 연산은 찾으려는 단어 길이에만 의존#