• 제목/요약/키워드: 어휘 난이도

검색결과 24건 처리시간 0.022초

시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구 (A Study on the Identification and Classification of Relation Between Biotechnology Terms Using Semantic Parse Tree Kernel)

  • 최성필;정창후;전홍우;조현양
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.251-275
    • /
    • 2011
  • 본 논문에서는 단백질 간 상호작용 자동 추출을 위해서 기존에 연구되어 높은 성능을 나타낸 구문 트리 커널을 확장한 시맨틱 구문 트리 커널을 제안한다. 기존 구문 트리 커널의 문제점은 구문 트리의 단말 노드를 구성하는 개별 어휘에 대한 단순 외형적 비교로 인해, 실제 의미적으로는 유사한 두 구문 트리의 커널 값이 상대적으로 낮아지는 현상이며 결국 상호작용 자동 추출의 전체 성능에 악영향을 줄 수 있다는 점이다. 본 논문에서는 두 구문 트리의 구문적 유사도(syntactic similarity)와 어휘 의미적 유사도(lexical semantic similarity)를 동시에 효과적으로 계산하여 이를 결합하는 새로운 커널을 고안하였다. 어휘 의미적 유사도 계산을 위해서 문맥 및 워드넷 기반의 어휘 중의성 해소 시스템과 이 시스템의 출력으로 도출되는 어휘 개념(WordNet synset)의 추상화를 통한 기존 커널의 확장을 시도하였다. 실험에서는 단백질 간 상호작용 추출(PPII, PPIC) 성능의 심층적 최적화를 위해서 기존의 SVM에서 지원되던 정규화 매개변수 외에 구문 트리 커널의 소멸인자와 시맨틱 구문 트리 커널의 어휘 추상화 인자를 새롭게 도입하였다. 이를 통해 구문 트리 커널을 적용함에 있어서 소멸인자 역할의 중요성을 확인할 수 있었고, 시맨틱 구문 트리 커널이 기존 시스템의 성능향상에 도움을 줄 수 있음을 실험적으로 보여주었다. 특히 단백질 간 상호작용식별 문제보다도 비교적 난이도가 높은 상호작용 분류에 더욱 효과적임을 알 수 있었다.

학교폭력과 자살사고를 예방하기 위한 감성분석 시스템의 설계 (Design of a Sentiment Analysis System to Prevent School Violence and Student's Suicide)

  • 김영택
    • 컴퓨터교육학회논문지
    • /
    • 제17권6호
    • /
    • pp.115-122
    • /
    • 2014
  • 현 청소년들의 학교내 생활환경에서 문제점으로 대두되는 폭력 및 자살사고 발생률 증가에 대한 예방차원의 빅 데이터 처리 분석 시스템을 목표로 연구하였고 설계의 경제성과 용이성, 적용의 신속성 등을 고려해서 많은 이용률을 가지고 있는 오픈 소스인, 하둡 시스템(Hadoop system)의 맵리듀스(MapReduce) 알고리즘과 분산 병렬 환경을 위한 HDFS(Hadoop Distibuted File System) 구성을 사용하여 실험하였다. 연구에서 사용된 분석기법은 기존의 통계적인 분석기법들이 가지는 난이도를 피하기 위해 상업적인 사회 망의 비정형 대화 자료를 이용해서 폭력성 어휘에 대한 단어 수(word count) 분석을 적용하여 폭행, 자살사고를 사전에 감지하여 예방하는 감성분석(sentiment analysis) 시스템을 텍스트 마이닝 관점에서 제안하여 실험하였다.

  • PDF

창의적 이야기 작문용 세 그림의 동형 조사: 'Dog Owners,' 'Lost Dog,' 'Overslept' (An Investigation into the Equivalence of Three Pictures for Creative Story Writing: 'Dog Owners', 'Lost Dog', and 'Overslept')

  • 서희정;배정옥
    • 영재교육연구
    • /
    • 제26권4호
    • /
    • pp.699-719
    • /
    • 2016
  • 창의적 사고와 언어기술을 평가하는데 동형검사로 판명된 대체 그림들이 절실히 요구되고 있다. 본 연구는 창의적 쓰기 과제용으로 최근 개발된 세 그림(이름: 'Dog Owners,' 'Lost Dog,' 'Overslept')이 동형 검사지가 되는지 조사하였다. 183명의 중학생들이 무작위로 배분된 세 그림 중 하나에 의거하여 영어로 이야기를 작성하였다. 작문은 네 가지 쓰기요소(유창성, 어휘 다양성, 구조 복잡성, 그리고 시간성)에 대해 Coh-Metrix와 MANCOVA로 분석되었다. 이 세 그림은 변별력에 있어 대체로 위 모든 요소에 대해 비슷하였다. 그러나 이들의 난이도는 요소별로 볼 때 반드시 같지는 않았다. Dog Owners와 Lost Dog 그림은 변별력과 난이도에 있어 동형으로 판명되었다. 그러므로 이 두 그림은 반복 측정에서 타당한 동형 검사지로 추천된다. Overslept 그림은 다양한 어휘와 시간 연결사들을 유발시키는 데에 다른 두 그림 보다 용이하였다. 그림의 난이도가 다를 수 있다는 결과는 반복시험에서 대체 그림을 사용할 시 이들 그림이 동형 검정을 거치지 않고서는 그 타당성이 의심스러울 수 있음을 환기시켜 준다.

소설텍스트의 난이도 조정 방안 연구 -이효석의 「메밀꽃 필 무렵」을 중심으로- (This study revises Lee Hyo-seok's The Buckwheat Season, utilizing Novel Corpus, intermediate learners' level)

  • 황혜란
    • 한국어교육
    • /
    • 제29권4호
    • /
    • pp.255-294
    • /
    • 2018
  • The Buckwheat Season, evaluated as the best of Lee Hyo-seok's literature, is one of the short stories that represent Korean literature. However, vivid literary expressions such as lyrical and beautiful depictions, figurative expressions and dialects, which show the Korean beauty, rather make learners have difficulty and become a factor that fails in reading comprehension. Thus, it is necessary to revise and present the text modified for the learners' language level. The methods of revising a literary text include the revision of linguistic elements such as cryptic vocabulary or sentence structure and the revision of the composition of the text, e.g. suggestion of characters or plot, or insertion of illustration. The methods of revising the language of the text can be divided into methods of simplification and detailing. However, in the process of revising the text, many depend on the adapter's subjective perception, not revising it with objective criteria. This paper revised the text, utilizing by the Academy of Korean Studies, , and the by the National Institute of Korean Language to secure objectivity in revising the text.

의미적 연결 관계에 기반한 전자 카탈로그 검색용 유사도 척도 (A New Similarity Measure for e-Catalog Retrieval Based on Semantic Relationship)

  • 서광훈;이상구
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.554-563
    • /
    • 2007
  • 전자 상거래의 발달과 함께 B2B Market Place의 등장과 통합으로 전자 상거래의 중심 단위인 전자 카탈로그의 양도 급증하고 있다. 이러한 전자 카탈로그의 정보의 질적, 양적 증가는 상품 정보 검색의 난이도를 높이고 있다. 특히, 대량 거래를 하는 상품 전문가의 의사 결정을 위해 단일 분류 체계가 아닌 다양한 분류체계 내에서의 상품 정보 검색을 지원하는 시스템의 필요성이 증가하고 있다. 하지만 기존의 검색 시스템은 일반 문서 검색 시스템이 대다수이며, 이러한 전자 카탈로그의 특성을 반영하지 못하고 있어 이를 지원하기에는 한계가 있다. 따라서 본 논문에서는 전자 카탈로그가 지니고 있는 속성적, 어휘적인 특성을 반영하고 의미적 연결관계에 기반한 검색을 통하여 해당 요구 사항을 충족시킬 수 있는 시스템의 토대를 마련하고자 하였다. 이를 위해, 전자 카탈로그의 특징을 반영한 전자 카탈로그 기본 모델을 제시하고, 검색을 결과 제시를 위한 유사도 평가 요소를 도출하였으며, 정확성 향상을 위해 이를 어휘적 특성을 고려한 데이타 확장 모델 및 어휘 기반 유사도 평가 요소로 확장하였다. 그리고 제시한 모델을 통해 의미적 연결 관계에 기반한 전자 카탈로그 유사도 평가 함수를 제시하고 이를 전자 카탈로그 정보 검색시스템으로 구현하고 검증하였다.

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

통계 언어모델 기반 객관식 빈칸 채우기 문제 생성 (Automatic Generation of Multiple-Choice Questions Based on Statistical Language Model)

  • 박영기
    • 정보교육학회논문지
    • /
    • 제20권2호
    • /
    • pp.197-206
    • /
    • 2016
  • 빈칸 채우기 문제는 학생들이 학습 내용을 제대로 이해했는지 확인하기 위해 널리 사용되어 왔다. 이런 유형의 문제를 컴퓨터 알고리즘에 의해 자동으로 생성하는 많은 방법들이 제안되어 왔지만, 대부분 어떤 부분을 빈칸으로 만들면 좋을지에 대해 집중했기 때문에 적절한 보기를 자동으로 생성하는 연구는 미흡했다. 본 논문에서는 빈칸이 주어졌다고 가정하고, 이에 어울리는 보기를 자동 생성하는 알고리즘을 제안한다. 본 알고리즘은 통계 언어 모델에 기반하여 보기를 생성하기 때문에, 사람이 생성하는 경우보다 출제자에 편향되지 않은 보기를 제공할 수 있다. 또, 확률값에 기반하여 난이도를 자동으로 조절하는 것이 가능하기 때문에, 직접 사람이 문제를 만드는 것에 비해 상당한 비용 절감 효과가 있다. TEPS 문법, 어휘 시험에 대해 적용하여 실험한 결과, 사람과 유사한 결과를 생성함을 확인하였다. 향후 스마트 교육 분야에서 높은 활용도를 보일 것으로 기대한다.

딥 러닝을 이용한 한국어 형태소의 원형 복원 오류 수정 (Error Correction in Korean Morpheme Recovery using Deep Learning)

  • 황현선;이창기
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1452-1458
    • /
    • 2015
  • 한국어 형태소 분석은 교착어 특성상 난이도가 높은 작업이다. 그 중에서 형태소의 원형 복원 작업은 규칙이나 기분석 사전 정보 등을 활용하는 방법이 주로 연구되었다. 그러나 이러한 방법들은 어휘 수준의 문맥 정보를 보지 못하기 때문에 원형 복원에 한계가 있다. 본 논문에서는 최근 자연어처리에 연구되고 있는 기계학습 방법인 딥 러닝(deep learning)을 사용하여 형태소의 원형 복원 문제의 해결을 시도하였다. 문맥 정보를 보기 위해 단어 표현(word embedding)을 사용하여 기존의 방법들 보다 높은 성능을 보였다. 실험 결과, '들/VV'과 '듣/VV'의 복원 문제에 대해서 97.97%로 기존의 자연어처리에 쓰이는 기계학습 방법 중 하나인 SVM(Support Vector Machine)의 96.22% 보다 1.75% 높은 성능을 보였다.

지지 벡터 기계를 이용한 질의 유형 분류기 (A Question Type Classifier Using a Support Vector Machine)

  • 안영훈;김학수;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

코퍼스 지표를 활용한 모의 토익시험의 유용성 검증 : 난이도와 변별도 분석을 중심으로 (Verification of the Usefulness of the Mock TOEIC Test using Corpus Indices : Focusing on the Analysis of Difficulty and Discrimination)

  • 이예나
    • 한국콘텐츠학회논문지
    • /
    • 제21권10호
    • /
    • pp.576-593
    • /
    • 2021
  • 본 연구에서는 토익 시험의 정답률과 변별도에 영향을 미치는 구조적인 요인이 무엇인지 분석하기 위하여 문항 분석에서 도출된 각 파트별 코퍼스 지표들을 분석하였다. 이를 위하여 모의 토익 시험의 정답률과 변별도에 대한 코퍼스 요인들의 회귀 분석을 실시하였고, 분석 결과는 다음과 같다. 정답률에 대해서는 기초산출치중에서 word_length, no_word_sentence1, sentence_length, 정합성 지표들 중에서는 LSA_overlap_adjacent_sentences, 어휘 다양성 지표들 중에서는 MTLD_VOCD, 접속사 지표들 중에서는 All_logical_causal_connectives_incidence, 상황모형 지표들 중에서는 casual_particles_causal_verbs_Ratio, 통사적복잡성 지표들 중에서는 Minimal_Edit_Distance1, Left_embeddedness, 통사적 패턴밀도 지표들 중에서는 Infinitive_density, Preposition_phrase_density 등이 음의 영향을 미치는 것으로 나타났다. 이러한 코퍼스 요인들은 토익의 정답률을 낮추는 효과가 있기 때문에 하위 레벨의 학습자들이 단기적인 학습효과를 향상시킬 수 있는 중요한 정보들을 제공해 줄 수 있을 것이다. 변별도에 대해서는 어휘 다양성 지표들 중에서 MTLD_VOCD, 접속사 지표들 중에서는 All_logical_causal_connectives_incidence, Additive_connectives_incidence, 통사적 패턴밀도 지표들 중에서는 Infinitive_density, 어휘정보 지표들 중에서는 person1_2_pronoun_incidence 등이 정의 영향을 미치는 것으로 나타났다. 이러한 코퍼스 요인들은 변별도 증가에 영향을 주기 때문에 영어 능력 하위 그룹에 필요한 학습 프로그램을 개발하는 데 있어서 활용될 수 있을 것이다.