• 제목/요약/키워드: 어휘분석

검색결과 863건 처리시간 0.027초

의미 분석과 형태소 분석을 이용한 핵심어 인식 시스템 (Key-word Recognition System using Signification Analysis and Morphological Analysis)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권11호
    • /
    • pp.1586-1593
    • /
    • 2010
  • 확률적 패턴 매칭과 동적 패턴 매칭의 어휘 인식 오류 보정 방법에서는 핵심어를 기반으로 문장을 의미론적으로 분석하므로 형태론적 변형에 따른 핵심어 분석이 어려운 문제점을 가지고 있다. 이를 해결하기 위해 본 연구에서는 음절 복원 알고리즘에서 형태소 분석을 이용하여 인식된 음소 열을 의미 분석 과정을 통해 음소의 의미를 파악하고 형태론적 분석으로 문장을 복원하여 어휘 오인식률을 감소하였다. 시스템 분석을 위해 음소 유사률과 신뢰도를 이용하여 오류 보정률을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 에러 패턴 학습을 이용한 방법과 오류 패턴 매칭 기반 방법, 어휘 의미 패턴 기반 방법의 성능 평가 결과 2.0%의 인식 향상률을 보였다.

교과서 분석 기반 수학교육용 어휘 선정 연구: 초등학교 1~2학년을 중심으로 (Textbooks Analysis to Select Vocabulary for Mathematics Education: Focusing on 1st and 2nd Graders in the Elementary School)

  • 권미선
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제37권4호
    • /
    • pp.675-695
    • /
    • 2023
  • 어휘에 대한 이해는 효과적인 수학 학습을 위한 필수적인 요소이다. 이에 수학을 학습할 때 자주 사용되는 어휘를 수학교육용 어휘로 선정하고자 2009 개정 1~2학년 수학 교과서와 2015 개정 1~2학년 수학 교과서에서 공통적으로 사용된 고빈도 어휘를 추출하고 어휘 난이도와 유형에 따라 분류하였다. 이때 학교 현장에서 효과적으로 사용하기 위하여 학년 공통 어휘와 학기별 집중 어휘로 구분하여 제시하였다. 분석 결과, 1학년 공통 어휘는 수, 몇, 알아보다, 읽다, 모양, 쓰다, 만들다, 말하다, 나타내다, 덧셈, 뺄셈 등이 있으며, 2학년 공통 어휘는 수, 알아보다, 몇, 모형, 나타내다, 길이, 방법, 만들다, 모양, 모두 등이 있다. 2009 개정 수학 교과서와 2015 개정 수학 교과서의 고빈도 어휘는 유사한 경향을 보였으며, 이를 통해 수학교육용 어휘 선정에 실효성을 엿볼 수 있었다. 선정된 어휘는 1~5등급까지 난이도가 다양하였으며, 어휘 유형 중 사고도구어의 비중은 점차 증가하였으나 수학 전문어의 비중은 2학년 1학기 때 가장 높은 것으로 나타났다. 어휘에 대한 이해는 수학 학습에 많은 영향을 미치나 지금까지 수학교육용 어휘 목록은 제시된 바가 없다. 이 연구에서 제시된 수학교육용 어휘를 바탕으로 수학교육을 위한 다양한 어휘 자료가 개발 될 수 있을 것이다.

한글 인식에선 표의와 표음의 이중성

  • 이양;김정오
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-227
    • /
    • 1995
  • 본 연구는 한글 어휘의 지각과정을 분석하여 한글이 표의와 표음의 이중성을 갖고 있다는 것을 밝히고자 하였다. 먼저 문자로 쓰여진 어휘들이 표음심도에 따라서 그 지각과정이 달라진다는 표음심도가설의 한계를 확인하고 다음에 어휘들의 지각과정에 표음심도와 독립적으로 표의강도가 영향을 미친다는 것을 검증하고자 했다. 실험 1은 칠종성어휘와 비칠종성어휘를 대비시킴으로써 표음심도를 조작하였지만 그 어휘들의 지각과정이 달라지지 않았으므로 표음심도가설의 한계가 드러났다. 실험 2는 의성-의태어와 일반어를 대비시킴으로써 표의강도를 조작하여 그 효과를 얻었다. 두 실험을 종합하면 어휘의 지각에 표의성과 표음성이 독립적으로 영향을 미치고 한글의 어휘는 표음적이면서 표의적이라는 것을 결론지을 수 있었다. 본 연구는 어휘의 지각을 바탕으로 표음이 아니면 표의라는 배타적 분류의 한계를 지적하고 표의와 표음의 이차원적 분류를 제안한다.

  • PDF

EAP 전문 코퍼스를 활용한 유아교육 전문 어휘 추출 (Extracting Technical Vocabulary List for Early Childhood Education Using EAP Specialized Corpus)

  • 이제영;안종기;이지은
    • 한국콘텐츠학회논문지
    • /
    • 제17권1호
    • /
    • pp.475-484
    • /
    • 2017
  • 본 연구는 EAP 전문 코퍼스 구축과 분석을 통해 유아교육 전문 어휘 목록을 개발하는 것을 목적으로 하고 있다. 이를 위해 유아교육 전문가 2인과의 협의를 통해 선정된 7권의 유아교육 관련 영어 전공 서적을 기초로 50만 단어 수준의 전문 코퍼스를 구축하였다. 유아교육 전문 코퍼스의 어휘적 분포를 분석한 결과 기본 어휘에 해당하는 GSL[1]은 81.86%, 학술어휘에 해당하는 AWL[2]은 9.78%로 타 분야의 학술적 텍스트와 유사한 분포를 나타냈다. 한편 어휘의 다양성을 살펴보기 위해 TTR을 산출한 결과 3.18로 타 코퍼스의 결과와 비교할 때 낮은 수치, 즉 동일한 어휘의 반복이 비교적 많다는 특징을 보여 주었다. 다음으로 빈도와 출현 범위 등을 기준으로 유아교육 분야의 전문 어휘를 추출한 결과 총 224개의 어휘가 선정되었다. 이 어휘 목록은 영어로 유아교육을 가르치기 위한 목적으로 활용될 수 있을 것이며, 특히 영어로 쓰인 유아 교육 분야의 전공서적을 읽기 위한 기초 자료서로 유용성을 지닐 것으로 기대된다.

한국어 어휘 중의성 해소에서 어휘 확률에 대한 효과적인 평가 방법 (An Effective Estimation method for Lexical Probabilities in Korean Lexical Disambiguation)

  • 이하규
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1588-1597
    • /
    • 1996
  • 본 논문은 한국어 어휘 중의성 해소(lexical disambiguation)에서 어휘 확률 (lexical probability) 평가방법에 대해 기술하고 있다. 통계적 접근 방법의 어휘 중 의성 해소에서는 일반적으로 말뭉치(corpus)로부터 추출된 통계 자료에 기초하여 어 휘 확률과 문맥 확률(contextual probability)을 평가한다. 한국어는 어절별로 띄어 쓰기가 이루어지므로 어절 단위로 어휘 확률을 적용하는 것이 바람직하다. 하지만 한 국어는 어절의 다양성이 심하기 때문에 상당히 큰 말뭉치를 사용하더라도 어절 단위 로는 어휘 확률을 직접 평가할 수 없는 경우가 다소 있다. 이러한 문제점을 극복하기 위해 본 연구에서는 어휘 분석 측면에서 어절의 유사성을 정의하고 이에 기반을 둔 한국어 어휘 확률 평가 방법을 제안한다. 이 방법에서는 어떤 어절에 대해 어휘 확률 을 직접 평가할 수 없는 경우 이와 어휘 분석이 유사한 어절들을 통해 간접적으로 평 가한다. 실험결과 제안된 접근방법이 한국어 어휘 중의성 해소에 효과적인 것으로 나 타나고 있다.

  • PDF

한국어에서 Attention 모델과 Naïve Bayes 모델 기반의 어휘 말뭉치 구축 및 응용에 관한 연구 (Attention and Naïve Bayes Models based Lexicon Corpus and Applications for Korean)

  • 윤주성;김현철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-16
    • /
    • 2017
  • 감성 분석에서 어휘 말뭉치는 기존의 전통적인 기계학습 방법에서 중요한 특징으로 사용되었다. 최근 딥러닝의 발달로 hand-craft feature를 사용하지 않아도 되는 End-to-End 방식의 학습이 등장했다. 하지만 모델의 성능을 높이기 위해서는 여전히 어휘말뭉치와 같은 특징이 모델의 성능을 개선하는데 중요한 역할을 하고 있다. 본 논문에서는 이러한 어휘 말뭉치를 Attention 모델과 Naïve bayes 모델을 기반으로 구축하는 방법에 대해 소개하며 구축된 어휘 말뭉치가 성능에 끼치는 영향에 대해서 Hierarchical Attention Network 모델을 통해 분석하였다.

  • PDF

한국어에서 Attention 모델과 Naïve Bayes 모델 기반의 어휘 말뭉치 구축 및 응용에 관한 연구 (Attention and Naïve Bayes Models based Lexicon Corpus and Applications for Korean)

  • 윤주성;김현철
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.13-16
    • /
    • 2017
  • 감성 분석에서 어휘 말뭉치는 기존의 전통적인 기계학습 방법에서 중요한 특징으로 사용되었다. 최근 딥러닝의 발달로 hand-craft feature를 사용하지 않아도 되는 End-to-End 방식의 학습이 등장했다. 하지만 모델의 성능을 높이기 위해서는 여전히 어휘말뭉치와 같은 특징이 모델의 성능을 개선하는데 중요한 역할을 하고 있다. 본 논문에서는 이러한 어휘 말뭉치를 Attention 모델과 $Na{\ddot{i}}ve$ bayes 모델을 기반으로 구축하는 방법에 대해 소개하며 구축된 어휘 말뭉치가 성능에 끼치는 영향에 대해서 Hierarchical Attention Network 모델을 통해 분석하였다.

  • PDF

감성 어휘 기반 인재검색을 위한 이미지 스케일과 감성 어휘 분류 체계 (Image Scaling and Emotional Vocabulary Classification System for Talent Retrieval Based on Emotional Vocabulary)

  • 김용우;박석천;홍석우;김태엽
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1030-1033
    • /
    • 2013
  • 면접자나 면접관이나 인재들이 해당 조직에서 일을 해보지 않고서는 조직문화와 직무에 적합한지에 대해 확신 할 수 없고 만약 적합하지 않다면 면접자나 조직이나 서로 피해를 입는 상황이 발생한다. 이러한 상황들을 개선하기 위해 감성 어휘를 기반으로 한 이미지 스케일과 감성어휘 분류 시스템을 분석한다. 또한 면접자들의 이력서와 자기소개서에 있는 단어들을 분석하여 조직문화와 해당 직무에 적합한 인재 선발에 참고 자료를 제공할 수 있는 감성 어휘를 기반으로 한 인재 검색 시스템에 기초가 되는 이미지 스케일과 감성 어휘 분류체계에 대해 연구한다.

본용언과 보조용언의 의미 처리에 관한 연구 : 일반인과 실어증 환자를 대상으로 (Lexical Status of Main and Supportive Verbs in Mental Lexicon)

  • 문영선;김동휘;편성범;황유미;정재범;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.447-454
    • /
    • 1999
  • 본 연구에서는 국어의 본용언과 보조용언이 어떠한 방식으로 처리되는지에 대해 알아보는 것이 목적이다. 영어와 달리 국어는 보조용언이 조동사의 역할을 담당하여 화자의 심리적인 상태나 상(想)을 나타내는 기능을 한다. 따라서 같은 어휘가 본용언으로 쓰일 때와 보조용언으로 쓰일 때 그 의미적 차이는 뚜렷하다. 특히 보조용언으로 쓰일 때는 어휘적 의미가 대부분 사라지고 추상적 의미만 남기 때문에 본용언과의 관련성을 따져보는 것도 중요한 연구과제이다. 또한 우리의 심성어휘집(mental lexicon)에서 본용언과 보조용언이 동일한 영역에서 처리되는지도 알아볼 필요가 있다. 만일 동일한 심성어휘집을 사용한다면 보조용언으로 쓰인 환경에서도 본용언의 어휘적 의미가 활성화될 것이다. 이에 대해 본 연구에서는 정상인 피험자와 실어증환자를 대상으로 실험을 하였다. 정상인 피험자를 대상으로는 SOA가 짧은 조건과 긴 조건에서 각각 보조용언을 어떻게 처리하는 지 살펴보았고, 실어증환자를 대상으로는 정상인 피험자와 비교해서 어떤 양상으로 보조용언을 처리하는 지 살펴보았다. 그 결과 정상인 피험자는 SOA가 짧은 조건에서는 본용언과 보조용언을 모두 동일한 방식으로 의미처리하였다. 즉 보조용언의 어휘적 의미가 본용언과 마찬가지로 SOA가 짧을 때는 활성화되었다. 그러나 SOA가 길어지면 보조용언은 문맥 정보로 인해 어휘적 의미가 억제되어 본용언과 다른 의미로 해석된다는 결론을 얻었다. 이런 정상인 피험자와 비교해 보았을 때, 실어증 환자는 두 가지 양상이 나타났다. 명칭성 실어증환자의 경우, 정상인과 비슷한 결과가 나왔으나 보조용언으로 쓰일 때, 본용언보다 어휘적 의미가 다소 불안정하게 활성화됨을 보였다. 그러나 이해성 실어증환자의 경우, 보조용언으로 쓰일 때 어휘적 의미가 전혀 활성화되지 않아 정상인과는 다른 언어처리를 하고 있음이 밝혀졌다.류의 의미가 모두 활성화되는 것을 보여 주었다. 즉, "먹은"과 간은 어절 이해는 구성 형태소로의 분석과 구성 형태소 어휘 접근을 통해 어절 이해가 이루어진다는 가설을 지지하고 있다. 실험 2에서는 실험 1과 다르게 한 뜻으로만 안일 수밖에 없는 "쥐어"와 같은 어절을 사용하여 이런 경우에도(즉, 어절의 문맥이 특정 뜻으로 한정하는 경우) 구성 형태소로의 분석 과정이 일어나는지를 조사하였다. 실험 2의 결과는 실험 1의 결과와는 다르게 어간의 한가지 의미와 관련된 조건만 촉진적 점화 효과가 나타나는 것을 보여주었다. 특히, 실험 2에서 SOA가 1000msec일 경우, 두 의미의 활성화가 나타나는 것을 보여주었는데, 이 같은 결과는 어절 문맥이 특정한 의미로 한정시킬 경우는 심성어휘집에 활용형태로 들어있다는 것이다. 또한 명칭성 실어증 환자의 경우에는 즉시적 점화과제에서는 일반인과 같은 형태소 처리과정을 보였으나, 그이후의 처리과정이 일반인과 다른 형태를 보였다. 실험 1과 실험 2의 결과는 한국어 어절 분석이 구문분석 또는 활용형태를 통해 어휘 접근되는 가설을 지지하고 있다. 또 명칭성 실어증 환자의 경우에는 지연된 점화과제에서 형태소 처리가 일반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에 따라 단백질(蛋白質) 함량(含量)도 증가(增加)하였다. 7. CHS-13 균주(菌株)의 RNA 함량(含量)은 $4.92{\times}10^{-2 }\;mg/m{\ell}$이었으며 yeast ext

  • PDF

고성능 비어휘정보 한국어 구문분석 (Accurate Unlexicalized Korean Parsing)

  • 오진영;차정원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.295-298
    • /
    • 2010
  • 본 논문에서는 어휘정보를 사용하는 한국어 구문분석 성능과 거의 비슷한 성능을 내는 비어휘정보 한국어 의존 구문분석에 대해서 설명한다. 본 논문에서는 어휘정보를 대신해서 품사정보와 어절 구문태그 정보를 사용하고 CRFs를 사용하여 레이블링 방법으로 구문분석 한다. 자질을 변경하여 어절 처음에 나타나는 용어 정보와 뒤 어절의 용언 정보를 추가하였다. 본 논문에서 제시하는 실험 결과(어절:85.73%, 문장:43.86%)는 현재 최고의 성능을 내는 어휘정보 사용 한국어 구문분석과 비슷하다. 본 논문에서 제안한 비어휘정보 구문분석 방법은 어휘정보 구문분석에 비해 모델 사이즈가 작고 처리방법이 간단하여 쉽게 다른 도메인에 적용이 가능할 것으로 기대한다.

  • PDF