• 제목/요약/키워드: natural language process

검색결과 249건 처리시간 0.024초

고전언어에서의 어휘 의미망 구축을 위한 전문용어 추출 자동화 방안 (Automated Approaches for Extracting Specialized Terminology in Building Semantic Networks for Classical Languages)

  • 백영윤;박용범
    • Journal of Platform Technology
    • /
    • 제12권1호
    • /
    • pp.85-90
    • /
    • 2024
  • 지식이나 정보를 찾는 경우 아날로그적인 인쇄된 책이나 출판물 등등의 종이로 기록된 매체보다는 디지털적으로 구현되는 웹을 이용하는 방법이 증가하고 있다. 이러한 현상은 고전적인 종이 사전 보다 디지털 사전을 사용하는 것이 더 효과적이고 시간을 절약할 수 있다는 인식이 증가되고 있다. 따라서 이러한 어휘를 구성하는 어휘 의미망 구축은 언어학계와 전산언어학, 자연어 처리 전공자들에게 있어서 중요한 문제로 떠오르고 있다. 이를 위해 언어학자들은 어휘의 의미와 개념을 구조화하여 분류할 수 있는 방법을 찾기 위해 수많은 연구가 진행되었다. 이러한 연구에서 어휘 의미망을 구성하기 위한 전문용어는 일반어와 같이 중요한 요소이다. 하지만 이러한 과정에서 전문용어를 찾고 축적하는 과정에서 여전히 종이로 된 사전 문서나 디지털로 된 방대한 자료를 사람이 직접 확인하고 그 중에서 전문용어를 추출하고 정리하는 과정을 수작업으로 거치고 있다. 본 논문에서는 이러한 인적 작업의 오류를 보완하기 위해서 디지털로 된 자료에서 사용자가 원하는 전문용어를 추출할 수 있는 자동화된 프로그램을 제안한다.

  • PDF

반도체 공정을 고려한 유한요소해석에 의한 MEMS 압전 작동기의 동특성 해석 (Development of Finite Element Model for Dynamic Characteristics of MEMS Piezo Actuator in Consideration of Semiconductor Process)

  • 김동운;송종형;안승도;우기석
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2013년도 춘계학술대회 논문집
    • /
    • pp.454-459
    • /
    • 2013
  • For the purpose of rapid development and superior design quality assurance, sophisticated finite element model for SOM(Spatial Optical Modulator) piezo actuator of MOEMS device has been developed and evaluated for the accuracy of dynamics and residual stress analysis. Parametric finite element model is constructed using ANSYS APDL language to increase the design and analysis performance. Geometric dimensions, mechanical material properties for each thin film layer are input parameters of FE model and residual stresses in all thin film layers are simulated by thermal expansion method with psedu process temperature. $6^{th}$ mask design samples are manufactured and $1^{st}$ natural frequency and 10V PZT driving displacement are measured with LDV. The results of experiment are compared with those of the simulation and validate the good agreement in $1^{st}$ natural frequency within 5% error. But large error over 30% occurred in 10V PZT driving displacement because of insufficient PZT constant $d_{31}$ measurement technology.

  • PDF

European Integration Processes for the Development of Future Foreign Language Specialists in the Information Society

  • Lazarenko, Natalia;Zadorozhna, Olga;Prybora, Tetiana;Shevchuk, Аndrii;Sulym, Volodymyr;Rudnytska, Nataliya
    • International Journal of Computer Science & Network Security
    • /
    • 제21권12spc호
    • /
    • pp.427-436
    • /
    • 2021
  • The article reveals and theoretically substantiates the trends of foreign language teachers' professional training in universities of Ukraine in terms of European integration, which are systematized in three areas: macro-level (system of education), meso-level (universities) and micro-level (subjects of educational process). The article aims to substantiate the trends of foreign language teacher training in the context of European integration and the main directions of creative use of constructive ideas of European experience in the innovative development of education. The article lights up the system for improving foreign language teacher training in universities, which is based on updated goals, content and approaches to the implementation of basic concepts, principles and features of teacher training in European experience, enable us to improve the quality of teacher training, its competitiveness in the European labor market. In the article developed the conceptual model of strategic development of the university in the conditions of European integration. It is emphasized that information technologies provide great opportunities for the development of professional skills and intellectual potential of future professionals. At present, the computerization of the educational process in higher education institutions is considered as one of the first and most promising areas for improving the quality of education. The article offered directions of internationalization of educational activity of university in the conditions of European integration. Diagnostic tools for the development of the university in terms of integration into the European educational space, individual rating and ranking of structural units of the university have been developed; main directions of activity of the laboratory of the skill of the teacher of higher school and methodical recommendations on the creation and the organization of work of scientific laboratories.

대화형 질의 처리 에이전트를 이용한 지능형 정보검색 (Intelligent Information Retrieval Using Interactive Query Processing Agent)

  • 이현영;이기오;한용기
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.901-910
    • /
    • 2003
  • 대부분의 상업용 정보검색 시스템은 사용자의 질의 형태로 불리언 질의를 채용했다. 불리언 질의는 빠른 검색을 필요로 하는 검색엔진에는 유용할지라도 불리언 연산자로 사용자의 요구를 정확하게 표현하기는 어렵다. 따라서 사용자에게 편리한 자연어 질의를 이용하는 검색 엔진에 대한 연구가 있어왔다 문서를 검색하기 위해서 사용자는 자신의 요구를 정확하게 표현해야 하며 사용자의 요구도 적절해야 한다. 따라서 본 논문에서는 자연어를 이용한 대화형 질의 처리 에이전트를 제안한다. 이 에이전트는 사용자와 점진적인 대화를 통해 사용자의 요구를 정확하게 표현한다. 사용자가 자연어 질의를 입력하면 에이전트는 질의를 분석하고 적절한 키워드를 추출하여 불리언 질의어를 생성한다. 추출된 키워드가 동의어이거나 다의어이면 사용자와 대화를 통해서 키워드를 한정하거나 확장한다. 이렇게 함으로써 사용자의 요구를 보다 구체적으로 표현하여 시스템의 성능을 향상시킨다. 따라서 본 시스템은 정보검색에서 정확률을 향상시킬 수 있다.

  • PDF

트랜스포머 기반 효율적인 자연어 처리 방안 연구 (A Study on Efficient Natural Language Processing Method based on Transformer)

  • 임승철;윤성구
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.115-119
    • /
    • 2023
  • 현재의 인공지능에서 사용되는 자연어 처리 모델은 거대하여 실시간으로 데이터를 처리하고 분석하는 것은 여러가지 어려움들을 야기하고 있다. 이런 어려움을 해결하기 위한 방법으로 메모리를 적게 사용해 처리의 효율성을 개선하는 방법을 제안하고 제안된 모델의 성능을 확인하였다. 본 논문에서 제안한 모델의 성능평가를 위해 적용한 기법은 BERT[1] 모델의 어텐션 헤드 개수와 임베딩 크기를 작게 조절해 큰 말뭉치를 나눠서 분할 처리 후 출력값의 평균을 통해 결과를 산출하였다. 이 과정에서 입력 데이터의 다양성을 주기위해 매 에폭마다 임의의 오프셋을 문장에 부여하였다. 그리고 모델을 분류가 가능하도록 미세 조정하였다. 말뭉치를 분할 처리한 모델은 그렇지 않은 모델 대비 정확도가 12% 정도 낮았으나, 모델의 파라미터 개수는 56% 정도 절감되는 것을 확인하였다.

머신 러닝을 활용한 과학 논변 구성 요소 코딩 자동화 가능성 탐색 연구 (Exploratory Research on Automating the Analysis of Scientific Argumentation Using Machine Learning)

  • 이경건;하희수;홍훈기;김희백
    • 한국과학교육학회지
    • /
    • 제38권2호
    • /
    • pp.219-234
    • /
    • 2018
  • 본 연구에서는 국내 교육학 연구에서 거의 사용되지 않던 머신 러닝 기술을 과학 교육 연구에 접목하여, 학생들의 과학 논변 활동에서 나타나는 논변의 구성 요소를 분석하는 과정을 자동화할 수 있는 가능성을 탐색해보았다. 학습 데이터로는 Toulmin이 제안하였던 틀에 따라 학생들의 과학 논변 구성 요소를 코딩한 국내 선행 문헌 18건을 수합하고 정리하여 990개의 문장을 추출하였으며, 테스트 데이터로는 실제 교실 환경에서 발화된 과학 논변 전사 데이터를 사용하여 483개의 문장을 추출하고 연구자들이 사전 코딩을 수행하였다. Python의 'KoNLPy' 패키지와 '꼬꼬마(Kkma)' 모듈을 사용한 한국어 자연어 처리(Natural Language Processing, NLP)를 통해 개별 논변을 구성하는 단어와 형태소를 분석하였으며, 연구자 2인과 국어교육 석사학위 소지자 1인의 검토 과정을 거쳤다. 총 1,473개의 문장에 대한 논변-형태소:품사 행렬을 만든 후에 다섯 가지 방법으로 머신 러닝을 수행하고 생성된 예측 모델과 연구자의 사전 코딩을 비교한 결과, 개별 문장의 형태소만을 고려하였을 때에는 k-최근접 이웃 알고리즘(KNN)이 약 54%의 일치도(${\kappa}=0.22$)를 보임으로써 가장 우수하였다. 직전 문장이 어떻게 코딩되어 있는지에 관한 정보가 주어졌을 때, k-최근접 이웃 알고리즘(KNN)이 약 55%의 일치도(${\kappa}=0.24$)를 보였으며 다른 머신 러닝 기법에서도 전반적으로 일치도가 상승하였다. 더 나아가, 본 연구의 결과는 과학 논변 활동의 분석에서 개별문장을 고려하는 단순한 방법이 어느 정도 유용함과 동시에, 담화의 맥락을 고려하는 것 또한 필요함을 데이터에 기반하여 보여주었다. 또한 머신 러닝을 통해 교실에서 한국어로 이루어진 과학 논변 활동을 분석하여 연구자와 교사들에게 유용하게 사용될 수 있는 가능성을 보여준다.

텍스트 마이닝 통합 애플리케이션 개발: KoALA (Application Development for Text Mining: KoALA)

  • 전병진;최윤진;김희웅
    • 경영정보학연구
    • /
    • 제21권2호
    • /
    • pp.117-137
    • /
    • 2019
  • 빅데이터 시대를 맞아 다양한 도메인에서 수없이 많은 데이터들이 생산되면서 데이터 사이언스가 대중화 되었고, 데이터의 힘이 곧 경쟁력인 시대가 되었다. 특히 전 세계 데이터의 80% 이상을 차지하는 비정형 데이터에 대한 관심이 부각되고 있다. 소셜 미디어의 발전과 더불어 비정형 데이터의 대부분은 텍스트 데이터의 형태로 발생하고 있으며, 마케팅, 금융, 유통 등 다양한 분야에서 중요한 역할을 하고 있다. 하지만 이러한 소셜 미디어를 활용한 텍스트 마이닝은 수치형 데이터를 활용한 데이터 마이닝 분야에 비해 접근이 어렵고 복잡해 기대에 비해 그 활용도가 높지 못한 실정이다. 이에 본 연구는 프로그래밍 언어나 고사양 하드웨어나 솔루션에 의존하지 않고, 쉽고 간편한 소셜 미디어 텍스트 마이닝을 위한 통합 애플리케이션으로 Korean Natural Language Application(KoALA)을 개발하고자 한다. KoALA는 소셜 미디어 텍스트 마이닝에 특화된 애플리케이션으로, 한글, 영문을 가리지 않고 분석 가능한 통합 애플리케이션이다. 데이터 수집에서 전처리, 분석, 그리고 시각화에 이르는 전 과정을 처리해준다. 본 논문에서는 디자인 사이언스(design science) 방법론을 활용해 KoALA 애플리케이션을 디자인, 구현, 적용하는 과정에 대해서 다룬다. 마지막으로 블록체인 비즈니스 관련 사례를 들어 KoALA의 실제 활용방안에 대해서 다룬다. 본 논문을 통해 소셜 미디어 텍스트 마이닝의 대중화와 다양한 도메인에서 텍스트 마이닝의 실무적, 학술적 활용을 기대해 본다.

자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안 (A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing)

  • 송치호
    • 한국기록관리학회지
    • /
    • 제24권2호
    • /
    • pp.65-88
    • /
    • 2024
  • 본 연구는 인공지능의 하위분야인 자연어 처리(NLP)의 개체명 인식(NER)을 통하여 기록에 내재된 메타데이터 값과 기술 정보를 추출하는 방안에 대한 시험적 연구이다. 연구 대상은 1960~1970년대에 생산된 구로공단 수기 기록물(약 1,200 쪽, 8만여 단어)을 대상으로 하였다. 디지털화를 포함하는 전처리 과정과 함께 기록 텍스트에 대해서 구글의 BERT 언어모델에 기반하여 구현되어 공개된 언어 API를 사용하여 개체명을 인식하였다. 그 결과로 구로공단의 과거 기록에 포함된 173개의 인명과 314개의 조직 및 기관 개체명을 추출할 수 있었고, 이는 기록의 내용에 대한 직접적인 검색어로 사용될 수 있다고 기대된다. 그리고 자연어 처리의 이론적 방법론을 반·비정형의 텍스트로 이루어진 실제 기록물에 적용할 때 발생하는 문제점을 파악하여 해결 방안과 고려해야 할 시사점을 제시했다.

한국어 생의학 개체명 인식 성능 비교와 오류 분석 (Performance Comparison and Error Analysis of Korean Bio-medical Named Entity Recognition)

  • 이재홍
    • 한국전자통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.701-708
    • /
    • 2024
  • 딥러닝 분야에서 트랜스포머 아키텍쳐의 출현은 자연어 처리 연구가 획기적인 발전을 가져왔다. 개체명 인식은 자연어 처리의 한 분야로 정보 검색과 같은 태스크에 중요한 연구 분야이다. 생의학 분야에서도 그 중요성이 강조되나 학습용 한국어 생의학 말뭉치의 부족으로 AI를 활용한 한국어 임상 연구 발전에 제약이 되고 있다. 본 연구에서는 한국어 생의학 개체명 인식을 위해 새로운 생의학 말뭉치를 구축하고 대용량 한국어 말뭉치로 사전 학습된 언어 모델들을 선정하여 전이 학습시켰다. F1-score로 선정된 언어 모델의 개체명 인식 성능과 태그별 인식률을 비교하고 오류 분석을 하였다. 인식 성능에서는 KlueRoBERTa가 상대적인 좋은 성능을 보였다. 태깅 과정의 오류 분석 결과 Disease의 인식 성능은 우수하나 상대적으로 Body와 Treatment는 낮았다. 이는 문맥에 기반하여 제대로 개체명을 분류하지 못하는 과분할과 미분할로 인한 것으로, 잘못된 태깅들을 보완하기 위해서는 보다 정밀한 형태소 분석기와 풍부한 어휘사전 구축이 선행되어야 할 것이다.

MATLAB 언어를 이용한 구조해석 프로그램 개발에 관한 연구 (A Study on the Development of Structural Analysis Program using MATLAB Language)

  • 배동명;강상중
    • 수산해양기술연구
    • /
    • 제36권4호
    • /
    • pp.347-353
    • /
    • 2000
  • The construction and ability of CAE program are presented. The merit and ability of MATLAB which is widely using in the field of recently engineering and natural science are also introduced. Also, analysis program of frame structure used the MATLAB language which is divide in 4th generation language is presented. In this paper, the proposed program using MATLB language to be based upon the composition of general CAE program is composed to preprocess, solver and post-process procedure. And it is able to carried out the static and eigenvalue analysis of truss structure and two dimensional frame structure. Also, for the sample pre-processing and post-processing, it is used the characteristic of input window and plot window to be made of the various GUI function. Each finite elements to be required for analysis is formulated by the Galerkin's method, as a kind of weighted residual method. For check of the results of calculation for program used in this paper, the results to be calculated using program to be developed by the author was compared with its of ANSYS code for general structural analysis about two dimensional truss and frame structure.

  • PDF