[2021 카카오] 순위 검색

  • 2021 카카오 블라인드 공채 코딩테스트 순위 검색 문제 풀이입니다.
  • 본 문제는 프로그래머스 홈페이지에서 직접 풀어볼 수 있습니다.

순위 검색 문제 설명

[본 문제는 정확성과 효율성 테스트 각각 점수가 있는 문제입니다.]

카카오는 하반기 경력 개발자 공개채용을 진행 중에 있으며 현재 지원서 접수와 코딩테스트가 종료되었습니다. 이번 채용에서 지원자는 지원서 작성 시 아래와 같이 4가지 항목을 반드시 선택하도록 하였습니다.

  • 코딩테스트 참여 개발언어 항목에 cpp, java, python 중 하나를 선택해야 합니다.
  • 지원 직군 항목에 backend와 frontend 중 하나를 선택해야 합니다.
  • 지원 경력구분 항목에 junior와 senior 중 하나를 선택해야 합니다.
  • 선호하는 소울푸드로 chicken과 pizza 중 하나를 선택해야 합니다.

인재영입팀에 근무하고 있는 니니즈는 코딩테스트 결과를 분석하여 채용에 참여한 개발팀들에 제공하기 위해 지원자들의 지원 조건을 선택하면 해당 조건에 맞는 지원자가 몇 명인 지 쉽게 알 수 있는 도구를 만들고 있습니다.

예를 들어, 개발팀에서 궁금해하는 문의사항은 다음과 같은 형태가 될 수 있습니다.

코딩테스트에 java로 참여했으며, backend 직군을 선택했고, junior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 50점 이상 받은 지원자는 몇 명인가?

물론 이 외에도 각 개발팀의 상황에 따라 아래와 같이 다양한 형태의 문의가 있을 수 있습니다.

  • 코딩테스트에 python으로 참여했으며, frontend 직군을 선택했고, senior 경력이면서, 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
  • 코딩테스트에 cpp로 참여했으며, senior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
  • backend 직군을 선택했고, senior 경력이면서 코딩테스트 점수를 200점 이상 받은 사람은 모두 몇 명인가?
  • 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 250점 이상 받은 사람은 모두 몇 명인가?
  • 코딩테스트 점수를 150점 이상 받은 사람은 모두 몇 명인가?

즉, 개발팀에서 궁금해하는 내용은 다음과 같은 형태를 갖습니다.

* [조건]을 만족하는 사람 중 코딩테스트 점수를 X점 이상 받은 사람은 모두 몇 명인가?

[문제]

지원자가 지원서에 입력한 4가지의 정보와 획득한 코딩테스트 점수를 하나의 문자열로 구성한 값의 배열 info, 개발팀이 궁금해하는 문의조건이 문자열 형태로 담긴 배열 query가 매개변수로 주어질 때,

각 문의조건에 해당하는 사람들의 숫자를 순서대로 배열에 담아 return 하도록 solution 함수를 완성해 주세요.

[제한사항]

  • info 배열의 크기는 1 이상 50,000 이하입니다.

  • info 배열 각 원소의 값은 지원자가 지원서에 입력한 4가지 값과 코딩테스트 점수를 합친 “개발언어 직군 경력 소울푸드 점수” 형식입니다.

    • 개발언어는 cpp, java, python 중 하나입니다.
    • 직군은 backend, frontend 중 하나입니다.
    • 경력은 junior, senior 중 하나입니다.
    • 소울푸드는 chicken, pizza 중 하나입니다.
    • 점수는 코딩테스트 점수를 의미하며, 1 이상 100,000 이하인 자연수입니다.
    • 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
  • query 배열의 크기는 1 이상 100,000 이하입니다.

  • query의 각 문자열은 “[조건] X” 형식입니다.

    • [조건]은 “개발언어 and 직군 and 경력 and 소울푸드” 형식의 문자열입니다.
    • 언어는 cpp, java, python, - 중 하나입니다.
    • 직군은 backend, frontend, - 중 하나입니다.
    • 경력은 junior, senior, - 중 하나입니다.
    • 소울푸드는 chicken, pizza, - 중 하나입니다.
    • ‘-’ 표시는 해당 조건을 고려하지 않겠다는 의미입니다.
    • X는 코딩테스트 점수를 의미하며 조건을 만족하는 사람 중 X점 이상 받은 사람은 모두 몇 명인 지를 의미합니다.
    • 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
    • 예를 들면, “cpp and - and senior and pizza 500"은 “cpp로 코딩테스트를 봤으며, 경력은 senior 이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 500점 이상 받은 사람은 모두 몇 명인가?“를 의미합니다.

[입출력 예]

infoqueryresult
[“java backend junior pizza 150”,“python frontend senior chicken 210”,“python frontend senior chicken 150”,“cpp backend senior pizza 260”,“java backend junior chicken 80”,“python backend senior chicken 50”][“java and backend and junior and pizza 100”,“python and frontend and senior and chicken 200”,“cpp and - and senior and pizza 250”,"- and backend and senior and - 150”,"- and - and - and chicken 100”,"- and - and - and - 150”][1,1,1,1,2,4]

입출력 예에 대한 설명

지원자 정보를 표로 나타내면 다음과 같습니다.

언어직군경력소울 푸드점수
javabackendjuniorpizza150
pythonfrontendseniorchicken210
pythonfrontendseniorchicken150
cppbackendseniorpizza260
javabackendjuniorchicken80
pythonbackendseniorchicken50
  • "java and backend and junior and pizza 100" : java로 코딩테스트를 봤으며, backend 직군을 선택했고 junior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 100점 이상 받은 지원자는 1명 입니다.
  • "python and frontend and senior and chicken 200" : python으로 코딩테스트를 봤으며, frontend 직군을 선택했고, senior 경력이면서 소울 푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 200점 이상 받은 지원자는 1명 입니다.
  • "cpp and - and senior and pizza 250" : cpp로 코딩테스트를 봤으며, senior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 250점 이상 받은 지원자는 1명 입니다.
  • "- and backend and senior and - 150" : backend 직군을 선택했고, senior 경력인 지원자 중 코딩테스트 점수를 150점 이상 받은 지원자는 1명 입니다.
  • "- and - and - and chicken 100" : 소울푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 100점 이상을 받은 지원자는 2명 입니다.
  • "- and - and - and - 150" : 코딩테스트 점수를 150점 이상 받은 지원자는 4명 입니다.

순위 검색 문제 풀이

  • 문제의 정답뿐만 아니라 계산의 효율성도 고려해야 하는 문제입니다.
  • 단순한 방법으로 문제의 정답을 맞출 순 있지만, 효율적인 방법을 생각해야 합니다.
    • 문제의 정답만을 고려한다면 for loop를 중첩하여 하나씩 비교하는 방법으로 정답을 맞출 수 있습니다.
    • 하지만 이런 방법은 효율성 테스트를 통과하지 못합니다.
  • 문제 해결 방법의 두 가지 트릭은 다음과 같습니다.
    • 개발언어, 직군, 경력, 소울푸드의 종류가 정해져 있습니다.
    • dict() 테이블을 만들어 계산 효율을 높이는 방법입니다. (dict()은 hash 기반이라 매우 빠릅니다. 반대로 list()는 사용하기 힘들 정도로 느린 컨테이너입니다.)
    • 한 가지 함정으로 -의 존재가 있는데요. info 정보와 -을 조합하여 가능한 경우의 수를 만들어 테이블의 value 값을 list()로 만들어 목록에 추가합니다.
    • 여기까지 진행이 되면 query 문자열을 파싱한 것만으로 테이블에 바로 접근이 가능합니다.
  • 두 번째 아이디어는 다음과 같습니다.
    • 테이블의 접근이 매우 빠르게 수행된다고 하여도 value의 자료구조가 list()이기 때문에 점수를 순차적으로 하나씩 비교하는 방법은 역시 매우 느립니다.
    • 만일, 테이블의 value정렬되어 있는 상태라면, 이진 탐색(Binary Search)와 같은 방법을 사용하여 해당 점수보다 높은 사람의 수를 계산할 수 있습니다.
    • 여기서는 리스트에서 특정 점수보다 크거나 같은 숫자가 처음 나타나는 위치를 찾아야 하므로 Lower Bound 알고리즘을 사용합니다.
import bisect

def solution(info, query):
    answer = []

    language = ['cpp', 'java', 'python', '-']
    position = ['backend', 'frontend', '-']
    career = ['junior', 'senior', '-']
    food = ['chicken', 'pizza', '-']

    tables = {}
    for lang in language:
        for posi in position:
            for ca in career:
                for fo in food:
                    string = lang + posi + ca + fo
                    tables[string] = []

    for candidate in info:
        string = candidate.split(' ')
        language = [string[0], '-']
        position = [string[1], '-']
        career = [string[2], '-']
        food = [string[3], '-']

        for lang in language:
            for posi in position:
                for ca in career:
                    for fo in food:
                        key = lang + posi + ca + fo
                        tables[key].append(int(string[4]))

    for key, value in tables.items():
        tables[key] = sorted(value)

    for candidate in query:
        member = 0
        candi, score = candidate.replace(' and ', '').split(' ')
        score = int(score)
        size = len(tables[candi])
        num = size - bisect.bisect_left(tables[candi], score, lo=0, hi=size)

        answer.append(num)

    return answer
  • 정확도를 100% 맞추는 것은 어렵지 않은데, 효율성 부분에서 꽤 애를 먹었습니다. 아래와 같은 방법들을 시도해보았는데요…
    • 언어, 직군, 경력, 소울 푸드, 점수를 info 정보와 query 정보의 for loop 2 중첩으로 시도 -> 효율성 실패
    • for loop를 리스트 컴프리헨션(List Comprehension)으로 교체 -> 효율성 실패
    • dict()로 교체 + 순차적 비교 -> 효율성 실패
    • dict() + 이진 탐색(BS) -> 같은 점수인 경우 첫 시작점을 계산하기 어려움
    • dict() + Lower Bound 직접 구현 -> 효율성이 만족스럽지 않음, 몇 개 문제 정확도 실패
  • 만약 오프라인 코딩테스트에 인터넷 검색이 안 된다면 꽤 힘들었을 것 같은 문제였습니다.