• 제목/요약/키워드: IDEA algorithm

검색결과 580건 처리시간 0.023초

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

카테고리 연관 규칙 마이닝을 활용한 추천 정확도 향상 기법 (A Study on the Improvement of Recommendation Accuracy by Using Category Association Rule Mining)

  • 이동원
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.27-42
    • /
    • 2020
  • 인터넷이라는 가상 공간을 활용함으로써 물리적 공간의 제약을 갖는 오프라인 쇼핑의 한계를 넘어선 온라인 쇼핑은 다양한 기호를 가진 소비자를 만족시킬 수 있는 수많은 상품을 진열할 수 있게 되었다. 그러나, 이는 역설적으로 소비자가 구매의사결정 과정에서 너무 많은 대안을 비교 평가해야 하는 어려움을 겪게 함으로써 오히려 상품 선택을 방해하는 원인이 되기도 한다. 이런 부작용을 해소하기 위한 노력으로서, 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 구매의사결정 과정 중 정보탐색 및 대안평가에 소요되는 시간과 노력을 줄여주고 이탈을 방지하며 판매자의 매출 증대에 기여할 수 있다. 연관 상품 추천에 사용되는 연관 규칙 마이닝 기법은 통계적 방법을 통해 주문과 같은 거래 데이터로부터 서로 연관성 높은 상품을 효과적으로 발견할 수 있다. 하지만, 이 기법은 거래 건수를 기반으로 하므로, 잠재적으로 판매 가능성이 높을지라도 충분한 거래 건수가 확보되지 못한 상품은 추천 목록에서 누락될 수 있다. 이렇게 추천 시 제외된 상품은 소비자에게 구매될 수 있는 충분한 기회를 확보하지 못할 수 있으며, 또 다시 다른 상품에 비해 상대적으로 낮은 추천 기회를 얻는 악순환을 겪을 수도 있다. 본 연구는 구매의사결정이 결국 상품이 지닌 속성에 대한 사용자의 평가를 기반으로 한다는 점에 착안하여, 추천 시 상품의 속성을 반영하면 소비자가 특정 상품을 선택할 확률을 좀더 정확하게 예측할 수 있다는 점을 추천 시스템에 반영하기 위한 목적으로 수행되었다. 즉, 어떤 상품 페이지를 방문한 소비자는 그 상품이 지닌 속성들에 어느 정도 관심을 보인 것이며 추천 시스템은 이런 속성들을 기반으로 연관성을 지닌 상품을 더 정교하게 찾을 수 있다는 것이다. 상품의 주요 속성의 하나로서, 카테고리는 두 상품 간에 아직 드러나지 않은 잠재적인 연관성을 찾기에 적합한 대상이 될 수 있다고 판단하였다. 본 연구는 연관 상품 추천에 상품 간의 연관성뿐만 아니라 카테고리 간의 연관성을 추가로 반영함으로써 추천의 정확도를 높일 수 있는 예측모형을 개발하였고, 온라인 쇼핑몰로부터 수집된 주문 데이터를 활용하여 이루어진 실험은 기존 모형에 비해 추천 성능이 개선됨을 보였다. 실무적인 관점에서 볼 때, 본 연구는 소비자의 구매 만족도를 향상시키고 판매자의 매출을 증가시키는 데에 기여할 수 있을 것으로 기대된다.

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.

사례기반추론을 이용한 사무지식 추천시스템 (A Study on the Design of Case-based Reasoning Office Knowledge Recommender System for Office Professionals)

  • 김명옥;나정아
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.131-146
    • /
    • 2011
  • 오늘의 글로벌 네트워크 비즈니스 환경에서 비서직 종사자들에게 신속 정확한 정보수집 능력과 올바른 판단력은 그 어느 때보다 필요한 역량으로 중시되고 있다. 비서직 업무 수행에 필요한 대부분의 지식은 체험지 혹은 경험지이기 때문에 비서가 주어진 문제를 해결하기 위해서 과거의 비슷한 사례를 참고하는 방법은 매우 타당한 것이며, 경험이나 선례를 적용함으로서 실패할 요인을 줄이고 문제 해결의 질을 높이는 동시에 시간을 단축시킬 수 있다. 본 연구에서는 비서 업무 수행 시 특정 문제 해결에 필요한 정보를 사례기반 추론에 근거하여 현재 문제와 가장 유사한 과거의 사례를 추천하는 시스템(COKRS : Case-based reasoning Office Knowledge Recommender System, 이하 COKRS)을 설계하고 프로토타입을 구축함을 목적으로 한다. 본 연구 결과인 COKRS는 비서직에서 뿐만 아니라 일반 사무영역에서의 지식관리 목적으로도 확대 이용 될 수 있을 것이다.

정위방사선치료 시 독립턱 부분폐쇄를 이용하는 선량분포개선 방법 (Beam Shaping by Independent Jaw Closure in Steveotactic Radiotherapy)

  • 안용찬;조병철;최동락;김대용;허승재;오도훈;배훈식;여인환;고영은
    • Radiation Oncology Journal
    • /
    • 제18권2호
    • /
    • pp.150-156
    • /
    • 2000
  • 서론 :정위방사선치료는 높은 정밀도로 크기가 작고 구형인 병변에 국한하여 방사선을 조사할 수 있는 기술이지만 병변의 모양이 구형이 아닌 경우에는 병변 주변의 정상조직에 고선량의 방사선이 조사될 수 있다. 본 연구는 독립턱을 부분적으로 폐쇄하여 방사선량 분포를 개선하는 방법, 선량계산과 선량분포의 도시방법을 보고하고자 한다. 방법 :정위방사선치료 시의 호의 궤적상 병변은 방사선조사영역 내에 포함하면서 주변 정상조직을 최대한 차폐하도록 원형 콜리메이터와 독립턱 부분페쇄를 적절히 조합하였다. 물 펜톰과 마이크로 전리함을 이용하여 출력인자와 조직최대선량비를 측정하여 이론적 계산치와 비교하였다. 필름선량측정계를 이용하여 5 cm 깊이에서의 심부선량분포를 측정하여 계산치와 비교하였다. 이와 같은 측정자료를 자가 개발한 치료계획 프로그램에 반영하여 뇌전이 환자의 정위 방사선치료 선량계산과 도시에 적용하여 원형 콜리메이터만을 이용하였을 경우와 독립턱 부분폐쇄를 추가하였을 경우의 병변과 정상 뇌의 선량체적표를 각각 비교하였다. 결과 : 5.0 cm 직경의 원형 콜리메이터를 사용하고 한 쪽 독립턱을 중심축으로부터 30 mm, 15.5 mm, 8.6 mm, 0 mm 까지 열었을 때 측정한 출력인자와 조직최대선량비는 계산치와 각각 0.5%와 0.3%의 오차범위로 잘 부합하였다. 필름선량계로 얻은 5 cm 깊이의 심부선량분포도 역시 계산치와 잘 부합하였다. 자가 개발한 치료계획 프로그램으로 병변과 정상 뇌의 선량체적표를의 상호 비교를 통하여 독립턱 부분폐쇄를 적용한 경우에 있어서 보다 개선된 선량분포를 얻을 수 있음을 확인하였다. 결론 : 정위방사선치료에 있어서 독립턱의 부분폐쇄를 적용함으로써 보다 개선된 선량분포계획을 얻을 수 있으며 이를 적용하여 비교적 크기가 크고 모양이 불규칙한 병변에 대하여도 정위방사선치료를 확대 적용할 수 있겠다.

  • PDF

국내 휴대폰의 진화패턴 규명을 위한 텍스트 마이닝 방안 제안 및 사례 연구 (A Case Study of a Text Mining Method for Discovering Evolutionary Patterns of Mobile Phone in Korea)

  • 온병원
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.29-45
    • /
    • 2015
  • 생물의 진화패턴과 원리는 지난 200년간 학문적인 영역에서 활발히 연구되어 왔으며 생명의 진화에 대한 체계적인 이론, 개념 및 방법론이 제시되었다. 그리고 진화경제학, 진화심리학, 진화언어학 등 다양한 분야에 적용되어 큰 연구 성과를 거두고 있다. 이와 더불어 진화생물학 논리를 인간이 만든 제품에 적용하려는 시도도 병행되어 왔다. 기존 연구들이 생물진화 논리를 인공물에 그대로 적용하거나 해당 분야 전문가의 직관에 근거하여 진화 모형을 구축하는 것이어서 진화 모형에 대한 일반화를 시키기에는 한계를 가진다. 또한 생물과 달리 인공물은 인간 의지의 상상력이 반영되기 때문에 생물진화 이론을 곧바로 적용할 수 없다고 알려져 왔다. 따라서 본 논문에서는 특정인의 주관에 벗어나 일반 대중들의 생각을 엿보고 이를 바탕으로 진화 모형을 구축하는 것을 목표로 한다. 이를 위해, 인공물을 계통적으로 분류할 수 있는 체계적인 틀을 제시하는 텍스트 마이닝 방안과 그 결과물을 효과적으로 보여줄 수 있는 시각화 방안을 차례로 제안한다. 특히, 제안방안을 바탕으로 최근 혁신의 아이콘으로 떠오르고 있는 휴대폰과 스마트폰에 대한 사례 연구를 집중적으로 수행한다. 지난 10년간 국내에서 출시된 휴대폰과 스마트폰에 대한 리뷰 포스트들을 수집하고 분석하여, 진화패턴을 발견하고 요약해서 보여주며 그 결과에 대해서 자세히 토의한다. 더욱이 이러한 작업은 소수의 전문가들이 방대한 문헌과 자료를 조사 정리하여, 오랜 시간에 걸쳐 진화계통도를 그리게 되는 매우 지난한 작업이다. 하지만 본 논문에서 제안한 방안은 반자동(semi-automatic) 마이닝 알고리즘으로 인간의 노력을 최소화할 수 있어 그 효용 가치가 높다. 이러한 연구를 통해 인간의 창의력과 상상력이 구현되는 방식을 이해하고 휴대폰의 미래 모습을 전망하는데 있어 유관기업들에게 큰 도움을 줄 것이다.

캐시 메모리의 유용성을 높이는 동적 선인출 필터링 기법 (A Dynamic Prefetch Filtering Schemes to Enhance Usefulness Of Cache Memory)

  • 전영숙;이병권;이춘희;김석일;전중남
    • 정보처리학회논문지A
    • /
    • 제13A권2호
    • /
    • pp.123-136
    • /
    • 2006
  • 캐시 선인출 기법은 메모리 참조에 따른 지연시간을 줄이는 효과적인 방법이다. 그러나 너무 적극적으로 선인출할 경우에 캐시 오염을 유발시켜 선인출에 의한 장점을 상쇄시킬 뿐만 아니라 버스 트래픽을 증가시켜 전체 성능의 저하를 가져 올 수 있다. 본 연구에서는 선인출로 인한 캐시의 오염을 줄이기 위해 필터 테이블을 참조하여 선인출 명령을 수행할 지의 여부를 동적으로 판단하는 선인출 필터링 기법을 제시한다. 본 논문에서는 먼저 기존 연구에서의 문제점을 분석하기 위해 선인출 해싱 테이블 lbitSC 기법을 보였는데, 이 기법은 기존 연구와 같이 N:1 매핑을 사용하는 반면, 각 엔트리의 값을 1비트로 하여 두 가지 상태값을 갖도록 하였다. 비교 연구를 위해 완전 블록주소 테이블 기법을 제시하여 비교 기준으로 사용하였다. 마지막으로 본 논문의 주 아이디어인 정교한 필터링을 위한 선인출 블록주소 참조 테이블 기법을 제안하였다. 이 구조는 선인출 해싱 테이블 1bitSC기법과 같은 테이블 길이를 가지며, 각 엔트리의 내용은 완전 블록주소 테이블 기법과 같은 항목을 가지도록 하여 최근에 미 사용된 데이터의 블록주소가 필터 테이블의 하나의 엔트리와 대응되도록 1:1 매핑을 하였다. 일반적으로 많이 사용되는 선인출 기법과, 일반 벤치마크 프로그램과 멀티미디어 벤치마크 프로그램들에 대하여 캐시의 매개변수들을 변화시켜가면서 실험을 하였다. PBALT기법은 필터링 하지 않은 경우에 비해 최대 22% 향상된 결과를 보이고, 기존 PHT2bSC 기법과 비교하여 캐시 미스율이 7.9% 감소하였다. 메모리 참조 지연 시간(MADT)은 제안하는 PBALT 기법이 기존 연구에 비해 6.1% 감소하여 전체 수행 시간에 있어서 성능이 향상되었다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

구인구직사이트의 구인정보 기반 지능형 직무분류체계의 구축 (Development of Intelligent Job Classification System based on Job Posting on Job Sites)

  • 이정승
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.123-139
    • /
    • 2019
  • 주요 구인구직사이트의 직무분류체계가 사이트마다 상이하고 SW분야에서 제안한 'SQF(Sectoral Qualifications Framework)'의 직무분류체계와도 달라 SW산업에서 SW기업, SW구직자, 구인구직사이트가 모두 납득할 수 있는 새로운 직무분류체계가 필요하다. 본 연구의 목적은 주요 구인구직사이트의 구인정보와 'NCS(National Competaency Standars)'에 기반을 둔 SQF를 분석하여 시장 수요를 반영한 표준 직무분류체계를 구축하는 것이다. 이를 위해 주요 구인구직사이트의 직종 간 연관분석과 SQF와 직종 간 연관분석을 실시하여 직종 간 연관규칙을 도출하고자 한다. 이 연관규칙을 이용하여 주요 구인구직사이트의 직무분류체계를 맵핑하고 SQF와 직무 분류체계를 맵핑함으로써 데이터 기반의 지능형 직무분류체계를 제안하였다. 연구 결과 국내 주요 구인구직사이트인 '워크넷,' '잡코리아,' '사람인'에서 3만여 건의 구인정보를 open API를 이용하여 XML 형태로 수집하여 데이터베이스에 저장했다. 이 중 복수의 구인구직사이트에 동시 게시된 구인정보 900여 건을 필터링한 후 빈발 패턴 마이닝(frequent pattern mining)인 Apriori 알고리즘을 적용하여 800여 개의 연관규칙을 도출하였다. 800여 개의 연관규칙을 바탕으로 워크넷, 잡코리아, 사람인의 직무분류체계와 SQF의 직무분류체계를 맵핑하여 1~4차로 분류하되 분류의 단계가 유연한 표준 직무분류체계를 새롭게 구축했다. 본 연구는 일부 전문가의 직관이 아닌 직종 간 연관분석을 통해 데이터를 기반으로 직종 간 맵핑을 시도함으로써 시장 수요를 반영하는 새로운 직무분류체계를 제안했다는데 의의가 있다. 다만 본 연구는 데이터 수집 시점이 일시적이기 때문에 시간의 흐름에 따라 변화하는 시장의 수요를 충분히 반영하지 못하는 한계가 있다. 계절적 요인과 주요 공채 시기 등 시간에 따라 시장의 요구하는 변해갈 것이기에 더욱 정확한 매칭을 얻기 위해서는 지속적인 데이터 모니터링과 반복적인 실험이 필요하다. 본 연구 결과는 향후 SW산업 분야에서 SQF의 개선방향을 제시하는데 활용될 수 있고, SW산업 분야에서 성공을 경험삼아 타 산업으로 확장 이전될 수 있을 것으로 기대한다.