• 제목/요약/키워드: 어휘사용빈도

검색결과 104건 처리시간 0.022초

질의생성 모델을 이용한 전자우편 질의응답 시스템 (An E-Mail Question Answering System using Question Generation Model)

  • 장정선;김상범;서희철;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.176-183
    • /
    • 2002
  • 전자우편과 같이 일정한 질의 형식을 가지고 있는 긴 자연어 질의에 대해서 사용자 질의 단어에 가중치를 부과하는 방법과 질의에 대한 정답을 기존의 질의응답 집합에서 유사한 질의를 검색하여 그 정답을 사용자에게 제공하는 전자우편 질의응답 시스템을 제안한다. 사용자의 긴 자연어 질의가 주어지면 질의의 범주와 문장의 중요도 정보를 이용하여 질의에서 사용된 단어가 주제어로 쓰였을 확률을 계산하고, 계산된 확률에 기반하여 중요도를 할당하는 질의생성 모델을 제안한다. 또한 사용자 질의와 기존에 문의되어진 전자우편 질의의 유사도를 단어의 빈도를 고려한 어휘유사도, 한글 시소러스(Thesaurus)를 이용한 의미유사도와 본 논문에서 제안한 질의생성 모델을 이용한 주제 유사도를 이용하여 계산한다. 실험을 위하여 실세계에서 사용 중인 질의응답 집합을 이용하여 실험을 하였으며 각 유사도 계산 방법의 기여도를 비교 평가하고 제안한 질의생성모델이 성능향상에 미치는 영향을 평가하였다.

  • PDF

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템 (Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network)

  • 이용훈;옥철영;이응봉
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.63-76
    • /
    • 2012
  • 본 논문에서는 통계기반의 복합명사 분해 방법과 어휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안한다. 본 시스템은 크게 복합명사 분해, 의미제약, 그리고 의미 태깅의 세 가지 부분으로 이루어진다. 분해과정은 세종말뭉치에서 추출한 위치별명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행한다. 의미범위 제약과정은 유사도 비교의 계산량을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의미를 선 제약한다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행한다. 본 시스템의 성능 평가를 위해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 의미 태깅된 테스트 셋을 구축하였다. 이를 이용한 실험에서 99.26%의 분해 정확도를 보였으며, 95.38%의 의미 분석 정확도를 보였다.

외국인을 위한 한글맞춤법 시안 연구 (A Study on Hangeul Orthography Guidelines for Foreigners)

  • 한재영
    • 한국어교육
    • /
    • 제28권4호
    • /
    • pp.273-296
    • /
    • 2017
  • This study focuses on a review of Hangeul orthography guidelines in Korean language regulations. It is indispensable to revise the guidelines thoroughly because it has been more than 80 years since a unified plan of Korean orthography was established in 1933, which the current orthography is based on. Also, it has been approximately 30 years since 1989, when the current guidelines were issued and promulgated. The viewpoint towards this review reflects the requirements by education fields of Korean as a foreign language and modern Korean users. Hangeul orthography consists of six clauses, along with an appendix regarding punctuation marks: 1) general rules, 2) consonants and vowels, 3) related to sounds, 4) about forms, 5) spacing between words, and 6) miscellaneous. This paper examined individual clauses and specific usages of the clauses, in terms of Korean as a foreign language. Based on the review, this paper suggests the following tasks in order to establish a draft of Hangeul orthography for foreigners. A. Among the individual clauses, some clauses that embody vocabulary education aspects should be addressed in a Korean dictionary, and deleted in Hangeul orthography guidelines. B. The clauses of Hangeul orthography guidelines should be edited for revision and substitution where necessary. C. The usage of individual clauses should be replaced with more appropriate examples aligned with everyday conversation. D. In order to establish 'Hangeul orthography for foreigners', linguists should continuously review several chapters and the appendix of Hangeul orthography, such as components about forms, spacing between words, miscellaneous, and punctuation marks. The purpose of this review is to pursue the simplicity of Hangeul orthography guidelines and the practicality in terms of reflecting more realistic examples. This review contributes to facilitate Korean language usage not only for non-native learners, but also native users.

감정형용사 유의어 결합 연구 -[[감정형용사 + '-고'] + 감정형용사] 구성- (Synonym Emotional Adjectives in Coordination: Analyzing [Emotional Adjective + '-ko(and)'] + Emotional Adjective] Structures in Korean)

  • 박진아;정용호
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.565-577
    • /
    • 2024
  • 본 논의는 [[감정형용사+-고]+감정형용사] 형식으로 감정형용사가 연결되는 양상을 살펴보았다. 이로써 한국어에서 감정을 표현할 때 두 개 이상의 감정형용사를 접속하여 표현하는 사례가 적지 않음을 확인할 수 있었다. 이는 해당 구성으로 어울려 사용하는 감정형용사를 파악함으로써 한국어 학습자가 감정형용사의 개별 어휘 의미를 보다 분명하게 이해하고 표현하는 데 도움을 줄 수 있다. 한국어 학습자가 한국어로 감정을 표현할 때 복합적인 감정을 표현하거나, 풍부한 감정 표현을 만드는 데 도움을 줄 수 있다고 보았다. 본 논의에서 보인 [[감정형용사+-고]+감정형용사] 용례 및 빈도가 한국어 감정 어휘 교수-학습에 작게나마 도움이 되기를 기대해 본다.

포스트 코로나 시대 알베르 카뮈의 『페스트』에 관한 탐색적 빅데이터 분석 (Exploratory Big Data Analysis of Albert Camus's La Peste in Post Corona era)

  • 민진영
    • 문화기술의 융합
    • /
    • 제7권1호
    • /
    • pp.432-438
    • /
    • 2021
  • 이 글은 2000년에 들어 알베르 카뮈의 『페스트』가 한국 사회에서 갑작스럽게 인기를 끄는 것을 확인해보고 작품의 내용이 포스트 코로나 시대에 던져주는 시사점을 증명하기 위해서 4차 산업혁명 시대의 주요도구인 빅데이터로 접근한 논문이다. 언론 기사 검색을 통해 『페스트』의 인기를 확인하는 빅데이터 분석에서부터 시작하여 330여 페이지 분량에 해당하는 작품 자체에 대한 어휘 빈도수 분석까지 다양한 분석 도구를 활용하여 이 텍스트가 포스트 코로나 시대에 시사하는 바를 분석하였다. 분석도구로는 한국언론진흥재단의 빅카인즈와 프랑스어판 워드클라우드를 사용하였다. 지난 30여 년 동안 카뮈는 소설 『이방인』으로 한국 사회에 알려진 작가였다. 그러나 코로나바이러스의 창궐 이후 카뮈는 『페스트』의 작가로 한국의 독자들에게 적극적인 관심을 불러일으켰다. 합리적이지 못한 세계의 부조리에 대해 권태로 반항하는 인간상을 그린 『이방인』에 비해, 『페스트』는 연대를 통한 저항의 힘이 얼마나 중요한지 깨우쳐 주는 작품이다. 카뮈의 『페스트』는 포스트 코로나 시대에 전 지구적 공동체가 함께 고민하며 대처해 나아가야 할 문제를 보여줌으로써 하나의 트렌드로 자리 잡았다. 『페스트』에는 도시폐쇄와 격리로 인해 고통을 겪는 오랑시 시민들의 절절한 재난 상황을 보여주는 한편, 보건대를 조직하여 페스트에 정면으로 저항하는 인물들을 보여줌으로써 희망의 메시지를 전해준다. 『페스트』는 포스트 코로나 시대를 살아가는 한국 독자들에게 작가 카뮈를 새롭게 인식하게 해 준 작품이다.

한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축 (Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis)

  • 이수선;박현재;우요섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

학생들의 관계성 파악을 위한 빅-데이터 분석에 관한 연구 (A study of Big-data analysis for relationship between students)

  • 황득영;김진묵
    • 융합보안논문지
    • /
    • 제15권4호
    • /
    • pp.113-119
    • /
    • 2015
  • 최근 학교 사이버 폭력 문제가 심각하게 발생하여 문제의 심각성이 날로 급증하고 있다. 그 중에서도 스마트폰을 이용한 사이버 폭력의 심각성이 매우 높아서 사회적으로 큰 문제로 인식되고 있다. 언어적인 사이버폭력은 물리적인 폭력보다 영향 범위가 넓고 지속 시간이 길어서 학생들과 같이 미숙한 존재에게는 그 피해정도가 매우 심각하다. 그러므로 본 논문에서는 학생들이 사용하는 언어와 학급에서의 관계성을 분석해서 학급 내의 친구들 사이에서 발생할 수 있는 사이버폭력의 징후를 사전에 파악한다. 그리고 파악된 사이버폭력의 위험성에 대해서 학부모나 학급 교사, 학교 안전지킴이 등에게 미리 알려주어 사이버폭력 사고를 미연에 방지할 수 있도록 하고자 한다. 이를 위해서 학생들이 사이버 학급에서 사용하는 메신저를 설계 및 구현하고자 한다. 구현한 메신저에서 학생들이 사용한 어휘들을 빅-데이터 분석기법 중에 하나인 텍스트 마이닝을 사용해 금지어 사전을 작성하고, 학생별, 학급별 금지어 사용빈도와 친구관계를 분석할 수 있다.

검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구 (A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search)

  • 정소나;정지나
    • 한국산학기술학회논문지
    • /
    • 제18권5호
    • /
    • pp.596-607
    • /
    • 2017
  • 의학학술문헌에는 해부학적 조직이나 기관명이 종양, 질환 또는 감염 용어들과 서로 조합하여 사용되는 언어적 특성을 가지고 있다. 의학학술문헌을 검색할 때 데이터베이스가 제공하는 통제어휘도구인 Medical Subject Headings (MeSH)를 활용하면 합성어, 동의어, 그리고 관련어를 추가로 검색할 수 있어 검색효율이 높다. 본 연구에서는 위암(Stomach Neoplasms) 어휘군을 검색용 필터로 추가하는 방법과 동시출현용어의 거리를 측정하여 단어인접탐색 기법으로 검색효율성을 향상시키는 연구를 수행하였다. 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험데이터로 PubMed에서 중심주제어가 "Stomach Neoplasms"인 2007년~2016년 논문 8,625편을 내려 받아 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석하였다. 검색효율성은 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 "Stomach Neoplasms"가 MeSH로 색인되어 있는 277편으로 검증하였는데 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 "Stomach Neoplasms" 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 "Stomach Neoplasms"의 매칭여부를 비교하였다. 가장 출현빈도가 높은 용어는 "Gastric Cancer"로 2,780회 출현하였다. "Gastric Adenocarcinoma", "Gastric MALT Lymphoma" 등과 같이 "Stomach" 용어와 "Neoplasms" 관련 조직학적 용어가 조합된 경우는 7,376개(88.51%)였다. 동시출현 거리가 2단어인 용어는 "Stomach"와 "Neoplasms"의 합성어로 5,234개(70.95%)였다. 연구 결과 MeSH용어를 제외하고 973개의 용어를 후보어휘군으로 선정하였다. MEDLINE MeSH와 KoreaMed MeSH Indexer의 MeSH 매칭률은 209편(75.5%)이었는데 검색필터를 적용한 결과 263편(94.9%)으로, 동시출현 용어의 13단어 단어인접탐색 기법을 적용한 경우 268편(96.7%)으로 매칭률이 향상되었다. 본 연구를 통해 자연어 검색에 있어서 검색효율을 향상시키는 수단으로 검색용 시소러스를 사용하면 색인비용에 대한 부담이 적고, 통제어의 망라적 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 증명하였다. 또한 불리안 검색보다는 단어인접탐색 기법을 활용하면 정확률을 높일 수 있어 검색 효율성이 향상됨을 알 수 있었다.

한글 파닉스 교육을 위한 초등 1-2학년 교과서 어휘 자소분석 (Textbook vocabulary analysis for Korean phonics program of 1st and 2nd graders)

  • 이다은;김혜지;신가영;설아영;배소영;김미배
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.226-230
    • /
    • 2016
  • 본 연구는 초등 저학년 읽기부진아동을 위한 한글 파닉스 교육의 기반을 확립하고자 1-2학년 교과서 고빈도 어절 531개를 기반으로 자소 및 음운규칙을 분석하였다. 연구결과, 자소-음소 일치 어절을 기반으로 하였을 때 초성에서 50번 이상 나타난 자소는 /ㄱ/, /ㄹ/, /ㄴ/, /ㅅ/, /ㅎ/, /ㅈ/이다. 중성에서 50번 이상 나타난 자소는 /ㅏ/, /ㅣ/, /ㅗ/, /ㅡ/, /ㅜ/이다. 종성에서 50번 이상 나타난 자소는 /ㄹ/, /ㄴ/, /ㅇ/이다. 자소와 음소가 불일치 된 어절을 기반으로 하였을 때 가장 많이 출현하는 음운규칙은 연음화 규칙이었다. 본 연구결과를 바탕으로 교과서를 기반으로 한 한글 파닉스 교육에 유용하게 사용될 수 있을 것이다.

  • PDF

Q&A 문서의 검색 결과 요약을 활용한 질의응답 시스템 (Question and Answering System through Search Result Summarization of Q&A Documents)

  • 유동현;이현아
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권4호
    • /
    • pp.149-154
    • /
    • 2014
  • 지식iN과 같은 사용자 참여 질의응답 커뮤니티에서 원하는 질문에 대한 답을 찾기 위해서는 검색 결과로 제공되는 다양한 문서를 일일이 확인하여 판단하는 과정이 필요하다. 만일 사용자가 원하는 답변을 자동으로 정제하여 제시할 수 있다면, 질의응답의 사용성이 크게 향상될 수 있다. 본 논문에서는 질의응답 데이터 분석을 통해 사용자의 질문의 유형을 단어, 목록, 도표, 글의 4가지 유형으로 분류하고, 문서 내 통계적 특성을 활용하여 각 분류별 답변을 자동으로 제시하기 위한 방식을 제안한다. 단어, 목록, 글 유형은 질의어에 대해 검색된 질문을 군집화하고, 군집 내 빈도와 질의어에 대한 근접도, 답변 신뢰도 등으로 계산된 답변 내 어휘의 적합도를 활용하여 요약한 답변을 사용자에게 제시한다. 도표형은 답변들에서 사용자의 의견 정보를 추출하여 의견 통계를 도표로 제시한다.