• 제목/요약/키워드: Natural language process

검색결과 241건 처리시간 0.031초

대화형 질의 처리 에이전트를 이용한 지능형 정보검색 (Intelligent Information Retrieval Using Interactive Query Processing Agent)

  • 이현영;이기오;한용기
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.901-910
    • /
    • 2003
  • 대부분의 상업용 정보검색 시스템은 사용자의 질의 형태로 불리언 질의를 채용했다. 불리언 질의는 빠른 검색을 필요로 하는 검색엔진에는 유용할지라도 불리언 연산자로 사용자의 요구를 정확하게 표현하기는 어렵다. 따라서 사용자에게 편리한 자연어 질의를 이용하는 검색 엔진에 대한 연구가 있어왔다 문서를 검색하기 위해서 사용자는 자신의 요구를 정확하게 표현해야 하며 사용자의 요구도 적절해야 한다. 따라서 본 논문에서는 자연어를 이용한 대화형 질의 처리 에이전트를 제안한다. 이 에이전트는 사용자와 점진적인 대화를 통해 사용자의 요구를 정확하게 표현한다. 사용자가 자연어 질의를 입력하면 에이전트는 질의를 분석하고 적절한 키워드를 추출하여 불리언 질의어를 생성한다. 추출된 키워드가 동의어이거나 다의어이면 사용자와 대화를 통해서 키워드를 한정하거나 확장한다. 이렇게 함으로써 사용자의 요구를 보다 구체적으로 표현하여 시스템의 성능을 향상시킨다. 따라서 본 시스템은 정보검색에서 정확률을 향상시킬 수 있다.

  • PDF

트랜스포머 기반 효율적인 자연어 처리 방안 연구 (A Study on Efficient Natural Language Processing Method based on Transformer)

  • 임승철;윤성구
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.115-119
    • /
    • 2023
  • 현재의 인공지능에서 사용되는 자연어 처리 모델은 거대하여 실시간으로 데이터를 처리하고 분석하는 것은 여러가지 어려움들을 야기하고 있다. 이런 어려움을 해결하기 위한 방법으로 메모리를 적게 사용해 처리의 효율성을 개선하는 방법을 제안하고 제안된 모델의 성능을 확인하였다. 본 논문에서 제안한 모델의 성능평가를 위해 적용한 기법은 BERT[1] 모델의 어텐션 헤드 개수와 임베딩 크기를 작게 조절해 큰 말뭉치를 나눠서 분할 처리 후 출력값의 평균을 통해 결과를 산출하였다. 이 과정에서 입력 데이터의 다양성을 주기위해 매 에폭마다 임의의 오프셋을 문장에 부여하였다. 그리고 모델을 분류가 가능하도록 미세 조정하였다. 말뭉치를 분할 처리한 모델은 그렇지 않은 모델 대비 정확도가 12% 정도 낮았으나, 모델의 파라미터 개수는 56% 정도 절감되는 것을 확인하였다.

머신 러닝을 활용한 과학 논변 구성 요소 코딩 자동화 가능성 탐색 연구 (Exploratory Research on Automating the Analysis of Scientific Argumentation Using Machine Learning)

  • 이경건;하희수;홍훈기;김희백
    • 한국과학교육학회지
    • /
    • 제38권2호
    • /
    • pp.219-234
    • /
    • 2018
  • 본 연구에서는 국내 교육학 연구에서 거의 사용되지 않던 머신 러닝 기술을 과학 교육 연구에 접목하여, 학생들의 과학 논변 활동에서 나타나는 논변의 구성 요소를 분석하는 과정을 자동화할 수 있는 가능성을 탐색해보았다. 학습 데이터로는 Toulmin이 제안하였던 틀에 따라 학생들의 과학 논변 구성 요소를 코딩한 국내 선행 문헌 18건을 수합하고 정리하여 990개의 문장을 추출하였으며, 테스트 데이터로는 실제 교실 환경에서 발화된 과학 논변 전사 데이터를 사용하여 483개의 문장을 추출하고 연구자들이 사전 코딩을 수행하였다. Python의 'KoNLPy' 패키지와 '꼬꼬마(Kkma)' 모듈을 사용한 한국어 자연어 처리(Natural Language Processing, NLP)를 통해 개별 논변을 구성하는 단어와 형태소를 분석하였으며, 연구자 2인과 국어교육 석사학위 소지자 1인의 검토 과정을 거쳤다. 총 1,473개의 문장에 대한 논변-형태소:품사 행렬을 만든 후에 다섯 가지 방법으로 머신 러닝을 수행하고 생성된 예측 모델과 연구자의 사전 코딩을 비교한 결과, 개별 문장의 형태소만을 고려하였을 때에는 k-최근접 이웃 알고리즘(KNN)이 약 54%의 일치도(${\kappa}=0.22$)를 보임으로써 가장 우수하였다. 직전 문장이 어떻게 코딩되어 있는지에 관한 정보가 주어졌을 때, k-최근접 이웃 알고리즘(KNN)이 약 55%의 일치도(${\kappa}=0.24$)를 보였으며 다른 머신 러닝 기법에서도 전반적으로 일치도가 상승하였다. 더 나아가, 본 연구의 결과는 과학 논변 활동의 분석에서 개별문장을 고려하는 단순한 방법이 어느 정도 유용함과 동시에, 담화의 맥락을 고려하는 것 또한 필요함을 데이터에 기반하여 보여주었다. 또한 머신 러닝을 통해 교실에서 한국어로 이루어진 과학 논변 활동을 분석하여 연구자와 교사들에게 유용하게 사용될 수 있는 가능성을 보여준다.

텍스트 마이닝 통합 애플리케이션 개발: KoALA (Application Development for Text Mining: KoALA)

  • 전병진;최윤진;김희웅
    • 경영정보학연구
    • /
    • 제21권2호
    • /
    • pp.117-137
    • /
    • 2019
  • 빅데이터 시대를 맞아 다양한 도메인에서 수없이 많은 데이터들이 생산되면서 데이터 사이언스가 대중화 되었고, 데이터의 힘이 곧 경쟁력인 시대가 되었다. 특히 전 세계 데이터의 80% 이상을 차지하는 비정형 데이터에 대한 관심이 부각되고 있다. 소셜 미디어의 발전과 더불어 비정형 데이터의 대부분은 텍스트 데이터의 형태로 발생하고 있으며, 마케팅, 금융, 유통 등 다양한 분야에서 중요한 역할을 하고 있다. 하지만 이러한 소셜 미디어를 활용한 텍스트 마이닝은 수치형 데이터를 활용한 데이터 마이닝 분야에 비해 접근이 어렵고 복잡해 기대에 비해 그 활용도가 높지 못한 실정이다. 이에 본 연구는 프로그래밍 언어나 고사양 하드웨어나 솔루션에 의존하지 않고, 쉽고 간편한 소셜 미디어 텍스트 마이닝을 위한 통합 애플리케이션으로 Korean Natural Language Application(KoALA)을 개발하고자 한다. KoALA는 소셜 미디어 텍스트 마이닝에 특화된 애플리케이션으로, 한글, 영문을 가리지 않고 분석 가능한 통합 애플리케이션이다. 데이터 수집에서 전처리, 분석, 그리고 시각화에 이르는 전 과정을 처리해준다. 본 논문에서는 디자인 사이언스(design science) 방법론을 활용해 KoALA 애플리케이션을 디자인, 구현, 적용하는 과정에 대해서 다룬다. 마지막으로 블록체인 비즈니스 관련 사례를 들어 KoALA의 실제 활용방안에 대해서 다룬다. 본 논문을 통해 소셜 미디어 텍스트 마이닝의 대중화와 다양한 도메인에서 텍스트 마이닝의 실무적, 학술적 활용을 기대해 본다.

자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안 (A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing)

  • 송치호
    • 한국기록관리학회지
    • /
    • 제24권2호
    • /
    • pp.65-88
    • /
    • 2024
  • 본 연구는 인공지능의 하위분야인 자연어 처리(NLP)의 개체명 인식(NER)을 통하여 기록에 내재된 메타데이터 값과 기술 정보를 추출하는 방안에 대한 시험적 연구이다. 연구 대상은 1960~1970년대에 생산된 구로공단 수기 기록물(약 1,200 쪽, 8만여 단어)을 대상으로 하였다. 디지털화를 포함하는 전처리 과정과 함께 기록 텍스트에 대해서 구글의 BERT 언어모델에 기반하여 구현되어 공개된 언어 API를 사용하여 개체명을 인식하였다. 그 결과로 구로공단의 과거 기록에 포함된 173개의 인명과 314개의 조직 및 기관 개체명을 추출할 수 있었고, 이는 기록의 내용에 대한 직접적인 검색어로 사용될 수 있다고 기대된다. 그리고 자연어 처리의 이론적 방법론을 반·비정형의 텍스트로 이루어진 실제 기록물에 적용할 때 발생하는 문제점을 파악하여 해결 방안과 고려해야 할 시사점을 제시했다.

MATLAB 언어를 이용한 구조해석 프로그램 개발에 관한 연구 (A Study on the Development of Structural Analysis Program using MATLAB Language)

  • 배동명;강상중
    • 수산해양기술연구
    • /
    • 제36권4호
    • /
    • pp.347-353
    • /
    • 2000
  • The construction and ability of CAE program are presented. The merit and ability of MATLAB which is widely using in the field of recently engineering and natural science are also introduced. Also, analysis program of frame structure used the MATLAB language which is divide in 4th generation language is presented. In this paper, the proposed program using MATLB language to be based upon the composition of general CAE program is composed to preprocess, solver and post-process procedure. And it is able to carried out the static and eigenvalue analysis of truss structure and two dimensional frame structure. Also, for the sample pre-processing and post-processing, it is used the characteristic of input window and plot window to be made of the various GUI function. Each finite elements to be required for analysis is formulated by the Galerkin's method, as a kind of weighted residual method. For check of the results of calculation for program used in this paper, the results to be calculated using program to be developed by the author was compared with its of ANSYS code for general structural analysis about two dimensional truss and frame structure.

  • PDF

국제 음소 기술에 의한 언어에 독립적인 발음사전 생성에 관한 연구 (A Study on the Language Independent Dictionary Creation Using International Phoneticizing Engine Technology)

  • 신좌철;우인성;강흥순;황인수;김석동
    • The Journal of the Acoustical Society of Korea
    • /
    • 제26권1E호
    • /
    • pp.1-7
    • /
    • 2007
  • One result of the trend towards globalization is an increased number of projects that focus on natural language processing. Automatic speech recognition (ASR) technologies, for example, hold great promise in facilitating global communications and collaborations. Unfortunately, to date, most research projects focus on single widely spoken languages. Therefore, the cost to adapt a particular ASR tool for use with other languages is often prohibitive. This work takes a more general approach. We propose an International Phoneticizing Engine (IPE) that interprets input files supplied in our Phonetic Language Identity (PLI) format to build a dictionary. IPE is language independent and rule based. It operates by decomposing the dictionary creation process into a set of well-defined steps. These steps reduce rule conflicts, allow for rule creation by people without linguistics training, and optimize run-time efficiency. Dictionaries created by the IPE can be used with the Sphinx speech recognition system. IPE defines an easy-to-use systematic approach that can lead to internationalization of automatic speech recognition systems.

An Efficient Machine Learning-based Text Summarization in the Malayalam Language

  • P Haroon, Rosna;Gafur M, Abdul;Nisha U, Barakkath
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1778-1799
    • /
    • 2022
  • Automatic text summarization is a procedure that packs enormous content into a more limited book that incorporates significant data. Malayalam is one of the toughest languages utilized in certain areas of India, most normally in Kerala and in Lakshadweep. Natural language processing in the Malayalam language is relatively low due to the complexity of the language as well as the scarcity of available resources. In this paper, a way is proposed to deal with the text summarization process in Malayalam documents by training a model based on the Support Vector Machine classification algorithm. Different features of the text are taken into account for training the machine so that the system can output the most important data from the input text. The classifier can classify the most important, important, average, and least significant sentences into separate classes and based on this, the machine will be able to create a summary of the input document. The user can select a compression ratio so that the system will output that much fraction of the summary. The model performance is measured by using different genres of Malayalam documents as well as documents from the same domain. The model is evaluated by considering content evaluation measures precision, recall, F score, and relative utility. Obtained precision and recall value shows that the model is trustable and found to be more relevant compared to the other summarizers.

동화책에서의 삽화 자동 생성 -삽화를 위한 사건 표현 (On the Automatic Generation of Illustrations for Events in Storybooks: Representation of Illustrative Events)

  • 백승철;이희진;박종철
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.390-396
    • /
    • 2008
  • 여러 출판물, 특히 아동을 위한 출판문에는 삽화가 포함된다. 동화책 출판 과정에 삽화가 자동으로 생성된다면, 출판과정의 편의성이 더욱 높아질 것이다. 본 논문에서는 삽화를 생성하는 과정에서 객체들을 적절하게 배치하는 방법에 대하여 논의한다. 객체들을 적절하게 배치하기 위해서는 객체들이 불필요하게 겹치는 현상을 줄이고 글에 기술된 공간 상의 관계들을 만족하도록 해야 한다. 본 논문에서는 이러한 공간 상의 관계가 표현되도록 삽화로 생성하고자 하는 자연언어문장을 트리 및 술어-논항 구조를 이용하여 나타내는 방법을 제안한다. 이어서 이로부터 트리구조의 단일화, 영역 연결 계산을 이용하여 삽화를 생성하는 과정을 논의한다.

  • PDF

학생 답안 분석과 정답 템플릿 생성에 의한 한국어 서답형 문항의 자동채점 시스템 (Automatic Scoring System for Korean Short Answers by Student Answer Analysis and Answer Template Construction)

  • 강승식;장은서
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권5호
    • /
    • pp.218-224
    • /
    • 2016
  • 본 논문은 컴퓨터 기반의 자동 채점 시스템을 실용적으로 활용할 수 있도록 자연어 처리 기술을 이용하여 채점 기준표 작성 과정을 쉽게 하고 수작업 채점 비용의 절감 및 채점 기간을 단축시키는 방법을 제안한다. 자동 채점의 기준이 되는 정답 템플릿은 학생들이 작성한 답안들로부터 쉽고 편리하게 작성할 수 있도록 하였으며, 채점 정확도를 향상시키고 채점 오류를 최소화하여 신뢰도를 높이고자 하였다. 수작업 채점 대신에 자동채점 시스템을 도입하였을 때 그 효용성을 검증하기 위하여 2014년도 국가수준 학업성취도 평가의 사회과목 답안에 대해 자동 채점을 수행하였다.