• 제목/요약/키워드: 오류 어휘

검색결과 107건 처리시간 0.023초

인간언어공학에의 활용을 위한 이종 개념체계 간 사상 - 세종의미부류와 KorLexNoun 1.5 - (Mapping Heterogenous Ontologies for the HLP Applications - Sejong Semantic Classes and KorLexNoun 1.5 -)

  • 배선미;임경업;윤애선
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.95-126
    • /
    • 2010
  • 본 연구에서는 인간언어공학에서의 활용을 위해 매우 이질적인 세종전자사전의 의미부류(SJSC)와 KorLexNoun 1.5(KLN)의 상위노드 간의 사상을 목표로, '의미 입자(sense grain)가 작은 개념체계(fine-grained ontology)' 간 귀납적이며 상향적인 수동 사상 방법론을 제안하였다. 동시에 이종 자원 간의 사상에 있어 각 의미체계의 이질성 때문에 발생하는 여러 가지 문제점을 살펴보고, 그 해결방안도 제안하였다. 두 이종 개념체계 간의 사상 방법은 SJSC의 단말 노드와 KLN의 Least Upper Bound(LUB)를 기본단위로 하여, 첫째, 어휘 분포를 이용하여 사상 후보군을 결정하고, 둘째, 계층 관계와 정의문과 용례를 이용하여 후보군들 간의 정확한 의미구분을 하며, 셋째, 상 하위-자매노드에 SJSC의 적정술어 및 정의문을 적용하여 LUB의 단계를 결정하고, 넷째, 양 의미체계의 계층관계를 비교함으로써 SJSC의 단말 노드와의 사상 여부를 판단하며, 마지막으로 KLN의 오류 및 전문용어 후보군은 사상에서 제외하였다. 이와같이 본 연구에서는 단계별 사상 준거의 설정에 있어 각 의미체계에 기술되어 있는 다양한 언어정보를 적극 이용하였는데, 이는 세밀한 수동 사상의 장점이라 할 수 있다. 본 연구에서 제안한 방법으로 사상한 결과, SJSC의 474개의 단말 및 비단말 노드와 KLN의 신셋(synset) 간에는 중복을 제외하고 6,487개의 LUB가 사상되었으며, 각 LUB의 하위노드를 포함해서는 모두 88,255개의 KLN 신셋이 사상되어 전체적으로는 97.91%가 사상되었다. 본 연구의 결과는 정교한 한국어 통사 및 의미 분석에 활용될 수 있을 것이다.

  • PDF

DTV 콘텐츠 검증 시스템을 위한 Java 컴파일러의 개발 (Development of a Java Compiler for Verification System of DTV Contents)

  • 손민성;박진기;이양선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.1487-1490
    • /
    • 2007
  • 디지털 위성방송의 시작과 더불어 본격적인 데이터 방송의 시대가 열렸다. 데이터방송이 시작 되면서 데이터방송용 양방향 콘텐츠에 대한 수요가 급속하게 증가하고 있다. 하지만 양방향 콘텐츠 개발에 필요한 저작 도구 및 검증 시스템은 아주 초보적인 수준에 머물러 있는 것이 현실이다. 그러나 방송의 특성상 콘텐츠 상에서의 오류는 방송 사고에까지 이를 수 있는 심각한 상황이 연출 될 수 있다. 본 연구 팀은 이러한 DTV 콘텐츠 개발 요구에 부응하여, 개발자의 콘텐츠 개발 및 사업자 또는 기관에서의 콘텐츠 검증이 원활이 이루어 질수 있도록 하는 양방향 콘텐츠 검증 시스템을 개발 중이다. 양방향 콘텐츠 검증 시스템은 Java 컴파일러, 디버거, 미들웨어, 가상머신, 그리고 IDE 등으로 구성된다. 본 논문에서 제시한 자바 컴파일러는 양방향 콘텐츠 검증 시스템에서 데이터 방송용 자바 애플리케이션(Xlet)을 컴파일하여 에뮬레이팅 하거나 런타임 상에서 디버깅이 가능하도록 하는 바이너리형태의 class 파일을 생성한다. 이를 위해 Java 컴파일러는 *.java 파일을 입력으로 받아 어휘 분석과 구문 분석 과정을 거친 후 SDT(syntax-directed translation)에 의해 AST(Abstract Syntax Tree)를 생성한다. 클래스링커는 생성된 AST를 탐색하여 동적으로 로딩 되는 파일들을 연결하여 AST를 확장한다. 의미 분석과정에서는 확장된 AST를 입력으로 받아 참조된 명칭의 사용이 타당한지 등을 검사하고 코드 생성이 용이하도록 AST를 변형하고 부가적인 정보를 삽입하여 ST(Semantic Tree)를 생성한다. 코드 생성 단계에서는 ST를 입력으로 받아 이미 정해 놓은 패턴에 맞추어 Bytecode를 출력한다.ovoids에서도 각각의 점들에 대한 선량을 측정하였다. SAS와 SSAS의 직장에 미치는 선량차이는 실제 임상에서의 관심 점들과 가장 가까운 25 mm(R2)와 30 mm(R3)거리에서 각각 8.0% 6.0%였고 SAS와 FWAS의 직장에 미치는 선량차이는 25 mm(R2) 와 30 mm(R3)거리에서 각각 25.0% 23.0%로 나타났다. SAS와 SSAS의 방광에 미치는 선량차이는 20 m(Bl)와 30 mm(B2)거리에서 각각 8.0% 3.0%였고 SAS와 FWAS의 방광에 미치는 선량차이는 20 mm(Bl)와 30 mm(B2)거리에서 각각 23.0%, 17.0%로 나타났다. SAS를 SSAS나 FWAS로 대체하였을 때 직장에 미치는 선량은 SSAS는 최대 8.0 %, FWAS는 최대 26.0 %까지 감소되고 방광에 미치는 선량은 SSAS는 최대 8.0 % FWAS는 최대 23.0%까지 감소됨을 알 수 있었고 FWAS가 SSAS 보다 차폐효과가 더 좋은 것으로 나타났으며 이 두 종류의 shielded applicator set는 부인암의 근접치료시 직장과 방광으로 가는 선량을 감소시켜 환자치료의 최적화를 이룰 수 있을 것으로 생각된다.)한 항균(抗菌) 효과(效果)를 나타내었다. 이상(以上)의 결과(結果)로 보아 선방활명음(仙方活命飮)의 항균(抗菌) 효능(效能)은 군약(君藥)인 대황(大黃)의 성분(成分) 중(中)의 하나인 stilbene 계열(系列)의 화합물(化合物)인 Rhapontigenin과 Rhaponticin의 작용(作用)에 의(依)한 것이며, 이는 한의학(韓醫學) 방제(方劑) 원리(原理)인 군신좌사(君臣佐使) 이론(理論)에서 군약(君藥)이 주증(主症)에 주(主)로 작용(作用)하는 약물(藥物)이라는 것을 밝혀주는 것이라고

  • PDF

대화체 연속음성 인식을 위한 한국어 대화음성 특성 분석 (Analysis of Korean Spontaneous Speech Characteristics for Spoken Dialogue Recognition)

  • 박영희;정민화
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.330-338
    • /
    • 2002
  • 대화체 연속음성은 자연스러운 발화로 낭독체 문장에 비해 잡음, 간투어와 같은 비문법적인 요소가 많고, 발음의 변이가 심하다. 이런 이유로 대화체 연속음성을 인식하기 위해서는 대화 현상을 분석하고 그 특징을 반영하여야 한다. 본 논문에서는 실제 대화음성에 빈번히 나타나는 대화 현상들을 분류하고 각 현상들을 모델링하여 대화체 연속음성 인식을 위한 기본 베이스라인을 구축하였다. 대화 현상을 묵음 구간과 잡음, 간투어, 반복/수정 발화의 디스풀루언시 (disfluencies), 표준전사와 다른 발음을 갖는 발음변이 현상으로 나누었다. 발음변이 현상은 다시 양성음의 음성음화, 음운축약/탈락현상, 패턴화된 발음변이, 발화오류로 세분화하였다. 대화체 음성인식을 위해서 빈번히 나타나는 묵음구간을 고려한 학습과 잡음, 간투어 처리를 위한 음향모델을 각각 추가하였다. 발음변이 현상에 대해서는 출현빈도수가 높은 것들만을 대상으로 발음사전에 다중 발음열을 추가하였다. 대화현상을 고려하지 않고 낭독체 스타일로 음성인식을 수행하였을 때 형태소 에러율 (MER: Morpheme Error Rate)은 31.65%였다. 이에 대한 형태소 에러율의 절대값 감소는 묵음 모델과 잡음 모델을 적용했을 때 2.08%, 간투어 모델을 적용했을 때 0.73%, 발음변이 현상을 반영했을때 0.92%였으며, 최종적으로 27.92%의 형태소 에러율을 얻었다. 본 연구는 대화체 연속음성 인식을 위한 기초 연구로 음향모델과 어휘모델, 언어모델 각각에 대한 베이스라인으로 삼고자 한다.

초등 수학 교사용지도서의 학습장애 학생 및 학습부진학생을 위한 증거기반교수 요인 포함수준 분석 - 수와 연산 영역을 중심으로 (Examine the Features of Evidence Based Instruction in Elementary Mathematics Teacher's Guidebook For Students with Math Learning Disabilities and Students with Underachievement - Only about Number and Operations)

  • 김병룡
    • 한국초등수학교육학회지
    • /
    • 제20권2호
    • /
    • pp.353-370
    • /
    • 2016
  • 본 연구는 초등 수학 교사용지도서의 '수와 연산' 영역이 학습장애 학생과 학습부진 학생을 위한 증거기반교수 요인을 얼마나 포함하고 있는지 분석하였다. 분석은 선행연구를 기초로 제작된 분석기준을 활용하여 초등교사 3명이 실시하였다. 분석결과는 다음과 같다. 첫째, 초등 수학 교사용지도서의 학습장애 학생 및 학습부진학생을 위한 증거기반교수 요인 포함수준은 전반적으로 중간정도였고, 학년별로 분석해본 결과 1~4학년 수학교사용지도서의 포함수준은 중간정도 5, 6학년 수학교사용지도서의 포함수준은 낮은 것으로 나타났다. 둘째, 증거기반 교수의 특징별로 분석해본 결과, '명확한 목표의 제시, 단일한 핵심개념 및 기술의 지도, 구체적 조작물과 반구체물의 사용, 명시적 교수, 관련된 예들의 제공, 충분한 독립적 연습기회의 제공 그리고 학생 진보의 확인'과 같은 요인들의 포함수준은 중간정도로 나타났고, '선수 수학 개념들 및 기술들의 복습, 오류 수정 및 교정적 피드백의 제공, 핵심어휘의 지도 그리고 전략들의 지도'와 같은 요인들의 포함수준은 낮은 것으로 나타났다. 셋째, 학년과 증거기반 교수특징의 포함수준 사이에 부적상관관계 (r= -.343)가 나타났다. 이러한 결과를 바탕으로 연구의 시사점을 논의하였다.

한국어 학습 모델별 한국어 쓰기 답안지 점수 구간 예측 성능 비교 (Comparison of Korean Classification Models' Korean Essay Score Range Prediction Performance)

  • 조희련;임현열;이유미;차준우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.133-140
    • /
    • 2022
  • 우리는 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 문제에서 세 개의 딥러닝 기반 한국어 언어모델의 예측 성능을 조사한다. 이를 위해 총 304편의 답안지로 구성된 실험 데이터 세트를 구축하였는데, 답안지의 주제는 직업 선택의 기준('직업'), 행복한 삶의 조건('행복'), 돈과 행복('경제'), 성공의 정의('성공')로 다양하다. 이들 답안지는 네 개의 점수 구간으로 구분되어 평어 레이블(A, B, C, D)이 매겨졌고, 총 11건의 점수 구간 예측 실험이 시행되었다. 구체적으로는 5개의 '직업' 답안지 점수 구간(평어) 예측 실험, 5개의 '행복' 답안지 점수 구간 예측 실험, 1개의 혼합 답안지 점수 구간 예측 실험이 시행되었다. 이들 실험에서 세 개의 딥러닝 기반 한국어 언어모델(KoBERT, KcBERT, KR-BERT)이 다양한 훈련 데이터로 미세조정되었다. 또 두 개의 전통적인 확률적 기계학습 분류기(나이브 베이즈와 로지스틱 회귀)도 그 성능이 분석되었다. 실험 결과 딥러닝 기반 한국어 언어모델이 전통적인 기계학습 분류기보다 우수한 성능을 보였으며, 특히 KR-BERT는 전반적인 평균 예측 정확도가 55.83%로 가장 우수한 성능을 보였다. 그 다음은 KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었다. 나이브 베이즈와 로지스틱 회귀 분류기의 성능은 각각 52.52%와 50.28%였다. 학습된 분류기 모두 훈련 데이터의 부족과 데이터 분포의 불균형 때문에 예측 성능이 별로 높지 않았고, 분류기의 어휘가 글쓰기 답안지의 오류를 제대로 포착하지 못하는 한계가 있었다. 이 두 가지 한계를 극복하면 분류기의 성능이 향상될 것으로 보인다.

학문 목적 한국어 학습자의 한국어 능력과 학업 적응에 관한 연구 (The narrative inquiry on Korean Language Learners' Korean proficiency and Academic adjustment in College Life)

  • 정연숙
    • 국제교류와 융합교육
    • /
    • 제4권1호
    • /
    • pp.57-83
    • /
    • 2024
  • 이 연구는 외국인 유학생들의 한국어 능력 시험(TOPIK) 등급이 학업 적응에 미치는 영향을 알아보고자 하였다. IRB의 승인을 거쳐 모집한 학생은 모두 7명으로 이들의 면담 내용은 실용적 절충주의에 기초한 포괄적 분석절차 (이동성, 김영천, 2014)의 6단계를 활용해 분석했으며 그 결과 학문 목적 한국어 학습자의 학업 적응에 영향을 미치는 요인을 학업, 생활, 심리·정서의 범주로 나눌 수 있었다. 학업적 측면에서 인터뷰 대상자들은 적응하기 힘들었던 전공 용어와 전공 공부를 지적하였고, 한자 및 한자어에 큰 어려움을 경험했다. 다음으로 생활 측면에서는 고급 수준의 토픽 등급 소지자인 연구 참여자들도 대학 생활 적응에 어려움이 있었고 한국 생활에 제대로 적응하기 위해서는 실용적인 표현과 풍부한 어휘 지식이 필요함을 토로했다. 마지막으로 심리·정서적인 범주에서는 이들이 한국인들과의 대화나 발표에 상당한 스트레스를 받고 있음을 파악할 수 있었다. 사회 문화 및 일상 생활 문화에 관한 지식도 부족했기 때문에 한국어를 잘하더라도 화용적인 면에서 실수나 오류를 범하기도 했고 이것이 심리·정서적인 어려움에 처하는 요인이 되기도 했다. 이러한 이야기들을 근거로 한국어 학습자의 학업 적응을 촉진하기 위해서는 한국어 학습의 다양한 기회 부여라는 목표를 기반으로 학습자의 전공 관련 학업 능력 강화, 한국어 숙달도 향상, 학내 관계 형성에 도움을 주어야 한다는 결론을 내렸다. 그리고 연구자는 이를 위한 해결 방안으로 외국인 학습자들을 위한 다양한 비교과 활동을 계획·설계하여 시도해 볼 것을 제안했다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.