• 제목/요약/키워드: Morpheme Analysis

검색결과 122건 처리시간 0.028초

Keyword Analysis Based Document Compression System

  • Cao, Kerang;Lee, Jongwon;Jung, Hoekyung
    • Journal of information and communication convergence engineering
    • /
    • 제16권1호
    • /
    • pp.48-51
    • /
    • 2018
  • The traditional documents analysis was centered on words based system was implemented using a morpheme analyzer. These traditional systems can classify used words in the document but, cannot help to user's document understanding or analysis. In this problem solved, System needs extract for most valuable paragraphs what can help to user understanding documents. In this paper, we propose system extracts paragraphs of normalized XML document. User insert to system what filename when wants for analyze XML document. Then, system is search for keyword of the document. And system shows results searched keyword. When user choice and inserts keyword for user wants then, extracting for paragraph including keyword. After extracting paragraph, system operating maintenance paragraph sequence and check duplication. If exist duplication then, system deletes paragraph of duplication. And system informs result to user what counting each keyword frequency and weight to user, sorted paragraphs.

심리학적 언어분석 프로그램 개발을 위한 융합연구: 기존 프로그램의 비교와 관련 문헌의 동향 분석 (A Convergence Study for Development of Psychological Language Analysis Program: Comparison of Existing Programs and Trend Analysis of Related Literature)

  • 김영준;최원일;김태훈
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.1-18
    • /
    • 2021
  • 내용어 기반 빈도 분석은 의도적 기만이나 반어적 표현에 분명한 한계가 있지만, 많이 사용되는 한국어 분석 프로그램인 KLIWC는 기능어 분석을, KrKwic는 동시출현빈도를 시각화하는 방법으로 발전했다. 하지만 개발된 지 십수 년이 지나 여러 문제점으로 개선이 필요한 상황이다. 그래서 KLIWC와 KrKwic를 분석하여 새 심리학적 언어분석 프로그램을 개발하고자 하였다. 첫째로 두 프로그램의 특징을 분석하였다. 특히, 기능어 분석기능 제고를 위해서 KLIWC와 한국어 형태소 분석기의 형태소 분류를 비교하였고, 심리적 분석의 강화를 위해 심리사전의 구조와 체계를 분석하였다. 분석 결과 한나눔 품사 분석기가 가장 세분화되었지만, 인칭대명사에서는 KLIWC가, 어미와 어말어미에서는 KKMA의 품사 분류가 더 세분화되어 있어, 기능어 분석 강화를 위해 여러 품사 분석기의 통합적 사용을 제안하였다. 둘째로 이 프로그램들로 텍스트를 분석한 연구들의 연구동향을 분석하였다. 분석 결과 두 프로그램이 복합학 분야 등 다양한 학술분야에서 사용되고 있었다. 특히 논문과 보고서의 분석에는 KrKwic가 많이 사용되었고, 글쓴이의 생각, 정서, 성격 비교 연구에는 KLIWC가 많이 사용되었다. 이 결과를 바탕으로 새로운 심리학적 언어분석 프로그램의 필요성과 개발 방향에 대해 제언하였다.

복식의 도해적 분석 -언어학 이론을 적용하여- (A Diagrammatic Analysis of Dress)

  • 한명숙
    • 복식문화연구
    • /
    • 제2권2호
    • /
    • pp.317-335
    • /
    • 1994
  • The purpose of this thesis is to analyze the relation of the mentalistics linguistics and costume, and to clarify the relationship between language as psychological expressions and costume to understand the phenomena of human costume behavior more deeply and comprehensively. As for the analysis of he costume phenomena, Noam Chomsky's psychological linguistic theory were applied to costume system. In this respect, particularly, by means of Chomsky's later theory(1965), the costume behavior were analyzed. The followings are the findings of the analysis : 1. The Syntactic Component: (※ See Full-Text) 2. The Semantic Component. The costme behavior is similar to a language system. Just as one morpheme or a phrase and phrases make different sentences, so various methods wearing costume make different sentences, so various methods wearing costume make different forms is costume. Language and costume have dictionary entry showing the meaning of vocabulary, and rules combining the individual meaning of the dictionary entry to complete the sentence.

  • PDF

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

한국학술지인용색인(KCI)의 인문학, 사회과학, 예술체육 분야 저자키워드의 의미적, 형태적 분석에 의한 개념범주 텍사노미 연구 (A Study on a Conceptual Taxonomy of Author Keywords of Humanities, Social Sciences, and Art and Sport in the Korea Citation Index (KCI) by Analysis of its Meaning and Lexical Morpheme)

  • 고영만;김비연;민혜령
    • 한국문헌정보학회지
    • /
    • 제48권4호
    • /
    • pp.297-322
    • /
    • 2014
  • 본 연구의 목적은 KCI의 인문학, 사회과학, 예술체육 분야 저자키워드를 대상으로 의미적, 형태적 분석을 통해 기존에 연구된 개념범주 텍사노미의 적합성을 확인하고 실용적인 개선 방안을 제시하는 것이다. 연구를 통해 '실체, 추상, 일반/공통, 개체'의 네 개 최상위수준의 개념범주를 보다 구체적이고 핵심 개념이 반영된 일곱 개의 범주 '개체, 활동/기능, 특성, 이론/방법, 형식/틀, 일반/공통, 인스턴스'로 변경하였다. 중위범주와 하위범주의 경우 신설, 세분화, 통합, 삭제, 이동 등의 방법으로 개념범주의 계층 구조를 단순화시키고 범주 간 용어분포의 불균형을 개선하였다. 구조적학술용어사전(STNet)을 테스트베드로 삼아 수정된 개념범주 텍사노미를 적용한 결과 용어의 분포가 균형적으로 이루어지고, 용어의 속성 표현이 상세화되는 효과를 보이는 것으로 나타났다.

단어통사론을 위한 계산 모형 (A Computational Model for the Word-Syntax)

  • 김동주;김한우
    • 전자공학회논문지CI
    • /
    • 제39권6호
    • /
    • pp.11-23
    • /
    • 2002
  • 한국어 형태론에 대한 기존의 전산모형은 선형적인 것들로 단어 내부구조 분석보다 형태소 분리 문제에만 관심을 두고 있다. 이러한 선형적 전산모형을 구문 분석 과정과 통합적으로 고려할 경우, 구문 단위 요소의 형성을 위해 형태소 분석 결과를 묶어야만 하는 추가적인 과정이 필요할 뿐만 아니라 의미적 직관성을 얻기도 어려웠다. 본 논문에서는 형태소 분리와 구문 요소 형성뿐만 아니라 단어의 구조 분석까지도 통합적으로 다룰 수 있는 단어통사론적 시각에 따른 전산 모형을 제안한다. 먼저 형태소 분리와 변형 문제를 다루기 위해 2단계형태론의 형식화를 도입하고, 품사 문맥을 반영하기 위해 기능성 구분문자를 제안한다. 그리고 형태소의 통사적 결합 검사를 위해 GLR에 기반한 변형 알고리즘을 제안한다.

한글 문서 검색에서 n-Gram 색인방법의 성능 분석 (Performance Analysis of n-Gram Indexing Methods for Korean text Retrieval)

  • 이준규;심수정;박혁로
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.145-148
    • /
    • 2003
  • The agglutinative nature of Korean language makes the problem of automatic indexing of Korean much different from that of Indo-Eroupean languages. Especially, indexing with compound nouns in Korean is very problematic because of the exponential number of possible analysis and the existence of unknown words. To deal with this compound noun indexing problem, we propose a new indexing methods which combines the merits of the morpheme-based indexing methods and the n-gram based indexing methods. Through the experiments, we also find that the best performance of n-gram indexing methods can be achieved with 1.75-gram which is never considered in the previous researches.

  • PDF

형태소 분석을 활용한 웹 데이터 기반의 여행지 추천 사이트의 설계 및 구현 (Design and Implementation of Recommendation Sites Based on Web Data using Morphological Analysis)

  • 윤경섭;임동욱
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.311-314
    • /
    • 2018
  • 매 년 여행에 대한 관심이 증가함에 따라 여행지에 대한 정보를 찾는 사용자들의 수요가 많아지게 되었다. 현재 존재하는 여행 정보 사이트들은 사이트 회원들의 좋아요 수를 활용하여 여행지를 추천해 주기 때문에 사이트의 사용자가 많지 않을 경우 실제로 인기 있는 여행지인지 확인할 수 없어 추천 정보의 신뢰도가 떨어진다는 단점이 존재한다. 본 논문에서 제안하는 시스템은 웹상에 산재되어 있는 여행 관련 데이터들을 수집한 후 실제로 각 여행지들이 웹 사이트에서 얼마나 언급 되었는지 분석하여 언급 수로 여행지를 추천하는 시스템으로써 사이트의 사용자수에 구애받지 않는 보다 신뢰도 높은 여행지 추천에 도움을 주고자 한다.

  • PDF

시제 해석 규칙 (Temporal Interpretation Rules)

  • 정소우
    • 한국언어정보학회지:언어와정보
    • /
    • 제3권1호
    • /
    • pp.1-20
    • /
    • 1999
  • The purpose of this paper is to expand Stowell (1993), Stowell (1995), Stowell (1996)'s syntactic analysis of tense in English. Stowell treats Tense as a dyadic predicate of temporal ordering which takes those two time-denoting phrases as its arguments. He further argues that those two morphemes 'resent' and 'past' are polarity-sensitive elements encoding an LF-scope relation with respect to true PAST tense. This paper proposes that English future 'will' should be treated as a true tense and that its future morpheme is an anti-PAST polarity item. It also provides a syntactic interpretation of a peculiar morphological aspect of English that it has no future form of the verb. To this end, Stowell's analysis is incorporated into the Minimalist program of Chomsky(1995). It is proposed that, unlike in other languages like French and Spanish, FUTURE in English is of an affix. This provides an intuitively correct description of why English verbs do not have a future form like other languages. The last but not least point which this paper will discuss is that Ogihara (1995a)'s claim that the referential theory of tensed sentences is inadequate is untenable.

  • PDF

NLP 기계 학습을 사용한 한글 요구사항 문서에서의 요구사항 자동 생성 프로세스 (Process for Automatic Requirement Generation in Korean Requirements Documents using NLP Machine Learning)

  • 백영윤;박수진;박용범
    • 반도체디스플레이기술학회지
    • /
    • 제22권1호
    • /
    • pp.88-93
    • /
    • 2023
  • In software engineering, requirement analysis is an important task throughout the process and takes up a high proportion. However, factors that fail to analyze requirements include communication failure, different understanding of the meaning of requirements, and failure to perform requirements normally. To solve this problem, we derived actors and behaviors using morpheme analysis and BERT algorithms in the Korean requirement document and constructed them as ontologies. A chatbot system with ontology data is constructed to derive a final system event list through Q&A with users. The chatbot system generates the derived system event list as a requirement diagram and a requirement specification and provides it to the user. Through the above system, diagrams and specifications with a level of coverage complied with Korean requirement documents were created.

  • PDF