• 제목/요약/키워드: 자연어 처리 연구

검색결과 640건 처리시간 0.026초

NATM 터널 공정리스크 데이터베이스 구축 및 리스크 분류체계 개발 (Establishment of Risk Database and Development of Risk Classification System for NATM Tunnel)

  • 김현비;바타갈래 위누리 키만디가 가루나라내;김병수
    • 한국건설관리학회논문집
    • /
    • 제25권1호
    • /
    • pp.32-41
    • /
    • 2024
  • 건설산업은 안전사고뿐 아니라 공기지연, 원가상승, 환경오염 등의 여러 복합적인 리스크가 발생하며 이를 해결하기 위한 관리기술이 필요하다. 그 중에서 프로젝트에 직접적인 영향을 미치는 공정리스크의 관리는 그 중요성에 비해 관련정보가 부족한 실정이다. 본 연구는 각 프로젝트마다 상이한 분류체계 사용으로 인한 리스크 정보검색의 어려움을 해소하기 위하여 MATM 터널 공정리스크분류체계를 개발하고자 하였다. 리스크수집은 기존 문헌검토와 Experience Mining 기법을 사용하였고 DB구축은 자연어처리 개념을 활용하였다. 분류체계의 구조는 자료의 호환성을 고려하여 기존 WBS 구조를 채택하였고, WBS의 공종과 연결된 RBS를 구축하였다. 연구결과 공종별 리스크를 쉽게 파악하고 리스크에 연결된 리스크특성과 리스크요인이 직관적으로 드러나는 리스크분류체계가 완성되었다. 구축된 분류체계의 활용성 검증결과 사용자의 키워드 입력으로 공종별 리스크와 리스크요인이 쉽게 식별되어 분류체계는 유효한 것으로 나타났다. 본 연구를 통해 NATM터널 계획 및 설계 시 작업공종에 따르는 리스크를 미리 식별하고 그 요인에 맞는 대응방안을 수립하여 비용과 공사기간의 증가를 방지하는데 기여할 수 있을 것으로 기대된다.

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

군(軍) 보고서 등장 문장과 관련 법령 간 비교 시스템 구축 방안 연구 (A Study on the Establishment of Comparison System between the Statement of Military Reports and Related Laws)

  • 정지인;김민태;김우주
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.109-125
    • /
    • 2020
  • 군(軍)에서 방위력개선사업(이하 방위사업)은 매우 투명하고 효율적으로 이루어져야 함에도, 방위사업 관련 법 및 규정의 과도한 다양화로 많은 실무자들이 원활한 방위사업 추진에 어려움을 겪고 있다. 한편, 방위사업 관련 실무자들이 각종 문서에서 다루는 법령 문장은 문장 내에서 표현 하나만 잘못되더라도 심각한 문제를 유발하는 특징을 가지고 있으나, 이를 실시간으로 바로잡기 위한 문장 비교 시스템 구축에 대한 노력은 미미했다. 따라서 본 논문에서는 Siamese Network 기반의 자연어 처리(NLP) 분야 인공 신경망 모델을 이용하여 군(軍)의 방위사업 관련 문서에서 등장할 가능성이 높은 문장과 이와 관련된 법령 조항의 유사도를 비교하여 위법 위험 여부를 판단·분류하고, 그 결과를 사용자에게 인지시켜 주는 '군(軍) 보고서 등장 문장과 관련 법령 간 비교 시스템' 구축 방안을 제안하려고 한다. 직접 제작한 데이터 셋인 모(母)문장(실제 법령에 등장하는 문장)과 자(子)문장(모(母)문장에서 파생시킨 변형 문장) 3,442쌍을 사용하여 다양한 인공 신경망 모델(Bi-LSTM, Self-Attention, D_Bi-LSTM)을 학습시켰으며 1 : 1 문장 유사도 비교 실험을 통해 성능 평가를 수행한 결과, 상당히 높은 정확도로 자(子)문장의 모(母)문장 대비 위법 위험 여부를 분류할 수 있었다. 또한, 모델 학습에 사용한 자(子)문장 데이터는 법령 문장을 일정 규칙에 따라 변형한 형태이기 때문에 모(母)·자(子)문장 데이터만으로 학습시킨 모델이 실제 군(軍) 보고서에 등장하는 문장을 효과적으로 분류한다고 판단하기에는 제한된다는 단점을 보완하기 위해, 실제 군(軍) 보고서에 등장하는 형태에 보다 더 가깝고 모(母)문장과 연관된 새로운 문장 120문장을 추가로 작성하여 모델의 성능을 평가해본 결과, 모(母)·자(子)문장 데이터만으로 학습시킨 모델로도 일정 수준 이상의 성능을 확인 할 수 있었다. 결과적으로 본 연구를 통해 방위사업 관련 군(軍) 보고서에서 등장하는 여러 특정 문장들이 각각 어느 관련 법령의 어느 조항과 가장 유사한지 살펴보고, 해당 조항과의 유사도 비교를 통해 위법 위험 여부를 판단하는 '실시간 군(軍) 문서와 관련 법령 간 자동화 비교 시스템'의 구축 가능성을 확인할 수 있었다.

상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소 (Homonym Disambiguation based on Mutual Information and Sense-Tagged Compound Noun Dictionary)

  • 허정;서희철;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1073-1089
    • /
    • 2006
  • 자연언어처리의 목적은 컴퓨터가 자연어를 이해할 수 있도록 하여, 인간에게 다양한 정보를 정확하고 빠르게 전달할 수 있도록 하고자 하는 것이다. 이를 위해서는 언어의 의미를 정확히 파악하여야 하는데, 어휘 의미 중의성 해소가 필수적인 기술이다. 본 연구는 상호정보량과 기 분석된 복합명사 의미사전에 기반한 동음이의어 의미 중의성 해소를 위한 기술을 소개한다. 사전 뜻풀이를 이용하는 기존 기술들은 어휘들간의 정확한 매칭에 의존하기 때문에 자료 부족 현상이 심각하였다. 그러나, 본 연구에서는 어휘들간의 연관계수인 상호정보량을 이용함으로써 이 문제를 완화시켰다. 또한, 언어적인 특징을 반영하기 위해서 상호정보량을 가지는 어휘 쌍의 비율 가중치, 의미 별 비율 가중치와 뜻풀이의 길이 가중치를 사용하였다. 그리고, 복합명사를 구성하는 단일명사들은 서로의 의미를 제약한다는 것에 기반하여 고빈도 복합명사에 대해서 의미를 부착한 의미사전을 구축하였고, 이를 동음이의어 중의성 해소에 활용하였다. 본 시스템의 평가를 위해 질의응답 평가셋의 200 여 개의 질의와 정답단락을 대상으로 동음이의어 의미 중의성 해소 평가셋을 구축하였다. 평가셋에 기반하여 네 유형의 실험을 수행하였다. 실험 결과는 상호 정보량만을 이용하였을 때 65.06%의 정확률을 보였고, 가중치를 활용하였을 때 85.35%의 정확률을 보였다. 또한, 복합명사 의미분석 사전을 활용하였을 때는 88.82%의 정확률을 보였다.

한국어 장소 리뷰를 이용한 공간 감성어 사전 구축 방법 (Method for Spatial Sentiment Lexicon Construction using Korean Place Reviews)

  • 이영민;권필;유기윤;김지영
    • 대한공간정보학회지
    • /
    • 제25권2호
    • /
    • pp.3-12
    • /
    • 2017
  • 위치 기반 서비스를 이용하여 자신이 방문한 장소에 대한 긍정 혹은 부정적 의견을 리뷰로 남기는 것이 일상화되고 있다. 실제 방문자가 작성한 장소 리뷰에 대한 감성분석 결과는 잠재적 소비자뿐 아니라 기업에게도 유용한 정보를 제공할 수 있다. 장소에 대한 감성분석을 실시하기 위해서는 감성분석의 기준이 되는 어휘에 대한 사전이 필요하다. 그러나 현재까지 장소를 표현하는 공간 감성어에 대한 사전이 구축된 바 없다. 이에 본 연구는 실제 방문자가 한국어로 작성한 장소 리뷰 데이터를 분석하여 공간 감성어 사전을 구축하는 방법을 제안하며, 여러 장소 카테고리 중 테마공원을 대상으로 공간 감성어 사전을 구축하였다. 이를 위해 자연어 처리 기법과 통계적 기법을 활용하였으며, 사전에 포함되는 공간 감성어는 감성의 극성에 대한 정보와 극성의 정도에 대한 확률점수를 포함하고 있다. 본 연구에서 구축한 공간 감성어 사전은 3개의 테이블(SSLex_SS, SSLex_single, SSLex_combi)로 구성되며, 총 219개의 어휘를 포함한다. 이를 바탕으로 트위터에서 테마공원에 대해 작성된 글을 대상으로 감성분석을 실시하였으며, 감성의 극성 분류에 대한 전체 정확도가 0.714로 산출됨에 따라 사전의 유효성을 확인할 수 있었다.

한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구 (A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks)

  • 김진성;김경민;손준영;박정배;임희석
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.39-47
    • /
    • 2021
  • 효과적인 분절을 통한 양질의 입력 자질 구성은 언어모델의 문장 이해력을 향상하기 위한 필수적인 단계이다. 입력 자질의 품질 제고는 세부 태스크의 성능과 직결된다. 본 논문은 단어와 문장 분류 관점에서 한국어의 언어적 특징을 효과적으로 반영하는 분절 전략을 비교 연구한다. 분절 유형은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 분류하며, RoBERTa 모델 구조를 활용하여 사전학습을 진행한다. 각 세부 태스크를 분류 단위에 따라 문장 분류 그룹과 단어 분류 그룹으로 구분 지어 실험함으로써, 그룹 내 경향성 및 그룹 간 차이에 대한 분석을 진행한다. 실험 결과에 따르면, 문장 분류에서는 단위의 언어학적 분절 전략을 적용한 모델이 타 분절 전략 대비 최대 NSMC: +0.62%, KorNLI: +2.38%, KorSTS: +2.41% 높은 성능을, 단어 분류에서는 음절 단위의 분절 전략이 최대 NER: +0.7%, SRL: +0.61% 높은 성능을 보임으로써, 각 분류 그룹에서의 효과성을 보여준다.

도서관의 인공지능(AI) 서비스 현황 및 서비스 제공 방안에 관한 연구 (A Study on the Current State of the Library's AI Service and the Service Provision Plan)

  • 곽우정;노영희
    • 한국도서관정보학회지
    • /
    • 제52권1호
    • /
    • pp.155-178
    • /
    • 2021
  • 4차산업혁명 시대에서 공공도서관은 인공지능과 같은 외부 환경 변화에 능동적으로 대응하기 위하여 도서관 지능형서비스 추진 전략이 필요하다. 따라서 본 연구에서는 인공지능의 개념과 국내외 인공지능 관련 동향 및 정책, 사례 등의 분석 내용을 기반으로 도서관에서의 향후 인공지능 서비스 도입 및 발전 방향성에 대해 제안하였다. 현재 도서관에서는 딥러닝, 자연어처리 등 인공지능 기술 도입을 통해 자동으로 답변을 제공하는 참고정보서비스를 운영하며, 빅데이터 기반 AI 도서 추천 및 자동 도서 점검 시스템을 개발하여 업무 활용도를 높이고, 이용자 맞춤형 서비스를 제공하고 있다. 기업 및 산업 분야에서는 국내외를 막론하고, 사용자 개인 맞춤형 등을 기반으로 한 기술을 개발하여 서비스하고 있으며, 딥러닝을 사용하여 정보를 스스로 학습하여 최적의 결과를 제공하는 식의 형태로 개발하고 있다. 이에 따라 향후 도서관에서 인공지능을 활용하여, 이용자의 이용 기록을 기반으로 한 개인 맞춤형 도서 추천, 독서·문화 프로그램 추천, 도서 택배 서비스 시 자율주행 드론·자동차 등 운송수단을 통한 실시간 배송 서비스 도입 등 다양한 서비스 개발을 도모해야 한다.

Cross-Lingual Post-Training (XPT)을 위한 한국어 및 다국어 언어모델 연구 (Korean and Multilingual Language Models Study for Cross-Lingual Post-Training (XPT))

  • 손수현;박찬준;이정섭;심미단;이찬희;박기남;임희석
    • 한국융합학회논문지
    • /
    • 제13권3호
    • /
    • pp.77-89
    • /
    • 2022
  • 대용량의 코퍼스로 학습한 사전학습 언어모델이 다양한 자연어처리 태스크에서 성능 향상에 도움을 주는 것은 많은 연구를 통해 증명되었다. 하지만 자원이 부족한 언어 환경에서 사전학습 언어모델 학습을 위한 대용량의 코퍼스를 구축하는데는 한계가 있다. 이러한 한계를 극복할 수 있는 Cross-lingual Post-Training (XPT) 방법론을 사용하여 비교적 자원이 부족한 한국어에서 해당 방법론의 효율성을 분석한다. XPT 방법론은 자원이 풍부한 영어의 사전학습 언어모델의 파라미터를 필요에 따라 선택적으로 재활용하여 사용하며 두 언어 사이의 관계를 학습하기 위해 적응계층을 사용한다. 이를 통해 관계추출 태스크에서 적은 양의 목표 언어 데이터셋만으로도 원시언어의 사전학습 모델보다 우수한 성능을 보이는 것을 확인한다. 더불어, 국내외 학계와 기업에서 공개한 한국어 사전학습 언어모델 및 한국어 multilingual 사전학습 모델에 대한 조사를 통해 각 모델의 특징을 분석한다

언어모델을 활용한 콘텐츠 메타 데이터 기반 유사 콘텐츠 추천 모델 (Similar Contents Recommendation Model Based On Contents Meta Data Using Language Model)

  • 김동환
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.27-40
    • /
    • 2023
  • 스마트 기기의 보급률 증가와 더불어 코로나의 영향으로 스마트 기기를 통한 미디어 콘텐츠의 소비가 크게 늘어나고 있다. 이러한 추세와 더불어 OTT 플랫폼을 통한 미디어 콘텐츠의 시청과 콘텐츠의 양이 늘어나고 있어서 해당 플랫폼에서의 콘텐츠 추천이 중요해지고 있다. 콘텐츠 기반 추천 관련 기존 연구들은 콘텐츠의 특징을 가리키는 메타 데이터를 활용하는 경우가 대부분이었고 콘텐츠 자체의 내용적인 메타 데이터를 활용하는 경우는 부족한 상황이다. 이에 따라 본 논문은 콘텐츠의 내용적인 부분을 설명하는 제목과 시놉시스를 포함한 다양한 텍스트 데이터를 바탕으로 유사한 콘텐츠를 추천하고자 하였다. 텍스트 데이터를 학습하기 위한 모델은 한국어 언어모델 중에 성능이 우수한 KLUE-RoBERTa-large를 활용하였다. 학습 데이터는 콘텐츠 제목, 시놉시스, 복합 장르, 감독, 배우, 해시 태그 정보를 포함하는 2만여건의 콘텐츠 메타 데이터를 사용하였으며 정형 데이터로 구분되어 있는 여러 텍스트 피처를 입력하기 위해 해당 피처를 가리키는 스페셜 토큰으로 텍스트 피처들을 이어붙여서 언어모델에 입력하였다. 콘텐츠들 간에 3자 비교를 하는 방식과 테스트셋 레이블링에 다중 검수를 적용하여 모델의 유사도 분류 능력을 점검하는 테스트셋의 상대성과 객관성을 도모하였다. 콘텐츠 메타 텍스트 데이터에 대한 임베딩을 파인튜닝 학습하기 위해 장르 분류와 해시태그 분류 예측 태스크로 실험하였다. 결과적으로 해시태그 분류 모델이 유사도 테스트셋 기준으로 90%이상의 정확도를 보였고 기본 언어모델 대비 9% 이상 향상되었다. 해시태그 분류 학습을 통해 언어모델의 유사 콘텐츠 분류 능력이 향상됨을 알 수 있었고 콘텐츠 기반 필터링을 위한 언어모델의 활용 가치를 보여주었다.

A Study on Deep Learning Model for Discrimination of Illegal Financial Advertisements on the Internet

  • Kil-Sang Yoo; Jin-Hee Jang;Seong-Ju Kim;Kwang-Yong Gim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.21-30
    • /
    • 2023
  • 인터넷 불법금융광고는 인터넷 카페, 블로그 등을 통해 통장매매, 신용카드·휴대폰결제현금화 및 개인신용정보매매 등 불법금융행위를 목적으로 한다. 금융감독당국의 노력에도 불구하고 불법금융행위는 줄어들지 않고 있다. 본 연구는 인터넷 불법금융광고 게시글에 파이썬 딥러닝 기반 텍스트 분류기법을 적용해 불법여부를 탐지하는 모델을 제안한다. 텍스트 분류기법으로 주로 사용되는 합성곱 신경망(CNN: Convolutional Neural Network), 순환 신경망(RNN: Recurrent Neural Network), 장단기 메모리(LSTM: Long-Short Term Memory) 및 게이트 순환 유닛(GRU: Gated Recurrent Unit)을 활용한다. 그동안 수작업으로 심사한 불법확인 결과를 기초 데이터로 이용한다. 한국어 자연어처리와 딥러닝 모델의 하이퍼파라미터 조절을 통해 최적의 성능을 보이는 모델을 완성하였다. 본 연구는 그동안 이뤄지지 않았던 인터넷 불법금융광고 판별을 위한 딥러닝 모델을 제시하였다는데 큰 의미가 있다. 또한 딥러닝 모델에서 91.3~93.4% 수준의 정확도를 보임으로써 불법금융광고 탐지에 딥러닝 모델을 실제 적용하여 불법금융광고 근절에 기여할 수 있기를 기대해 본다.