• 제목/요약/키워드: 최소단어

검색결과 56건 처리시간 0.032초

한-영 교차언어 정보검색에서 상호정보를 이용한 질의 변환 모호성 해소 및 가중치 부여 방법 (A Disambiguation and Weighting Method using Mutual Information for Query Translation in Korean-to-English Cross-Language IR)

  • 장명길;맹성현;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-62
    • /
    • 1999
  • 교차언어 문서검색에서는 단일언어 문서 상황을 만들기 위하여 질의나 문서를 다른 언어로 변환하게 되는데, 일반적으로 간단하면서도 실용적인 질의 변환의 방법을 주로 사용하고 있다. 하지만 단순한 대역 사전을 사용한 질의 변환의 경우에 변환 모호성 때문에 40% 이상의 검색 효과의 감소를 가져온다. 본 논문에서는 이러한 변환 모호성을 해결하기 위하여 대역 코퍼스로부터 추출한 상호 정보를 이용하는 단순하지만 효과적인 사전 기반 질의 변환 방법을 제안한다. 본 연구에서는 변환 모호성으로 발생한 다수의 후보들에서 가장 좋은 후보를 선택하는 모호성 해소 뿐 아니라 후보 단어들에 적절히 가중치를 부여하는 방법을 사용한다. 본 질의 변환 방법은 단순히 가장 큰 상호 정보의 단어를 선택하여 모호성 해소만을 적용하는 방법과 Krushall의 최소 스패닝 트리 구성과 유사한 방법으로 상호 정보가 큰 순서대로 간선들을 연결하여 모호성 해소와 가중치 부여를 적용하는 방법들과 질의 변환의 검색 효과를 비교한다. 본 질의 변환 방법은 TREC-6 교차언어 문서검색 환경의 실험에서 단일 언어 문서검색의 경우의 85%, 수작업 모호성 해소의 경우의 96%에 도달하는 성능을 얻었다.

  • PDF

Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구 (Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece)

  • 박진우;민재옥;심우철;노한성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

영어 모음사이 자음의 인지와 발화에서 철자의 영향: 파일럿 연구 (Orthographic Influence in the Perception and Production of English Intervocalic Consonants: A Pilot Study)

  • 초미희;정주연
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.459-466
    • /
    • 2009
  • 한국어에서는 모음사이에서 겹자음이 나타날 수 있으나 영어에서는 이것이 불가능하므로 영어를 배우는 한국 학생들이 $su\underline{mm}er$와 같이 겹자음 철자를 포함하는 단어들을 발음할 때 철자의 겹자음을 모두 발음하는 오류를 흔히 범한다. 따라서 본 파일럿 연구에서는 한국 학생들이 영어 겹자음 철자를 어떻게 발음하고 인지하는지 살펴보기 위해서 영어 겹자음과 단자음의 (유사) 최소변별쌍으로 구성된 36개의 실제어를 20명의 대학생이 듣고 발음하는 인지와 발화 실험을 실행하였다. 실험 결과 한국 학생들은 철자의 영향으로 영어 단자음 철자 단어를 발음할 때보다 겹자음 철자 단어를 발음할 때 이중으로 길게 발음하는 오류를 더 흔히 범해서 겹자음 철자 단어의 정확율보다 단자음의 정확율이 크게 높았으며, 인지의 경우에도 마찬가지로 단자음 철자 단어의 인지 정확율이 겹자음 철자보다 확연하게 높았다. 덧붙여, 한국 학생들의 영어 유성 파열음의 발화 오류율이 낮은 이유를 한국어 음운 체계의 전이로 설명하였다. 끝으로, 한국학생들의 발화를 스펙트로그램을 통해서 분석함으로써 영어 단자음 철자보다는 겹자음 철자에서 더 많은 발화오류를 일으키는 것도 보여주었고 또한 교육적인 함축점도 제안하였다.

음소인지에 관한 시각적 연구 (A Visual Study of the Phonemic Awareness)

  • 박희석
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권2호
    • /
    • pp.219-225
    • /
    • 2015
  • 본 연구는 최소짝을 이용하여 한국인 피 실험자들의 영어자모음과 반모음의 음소구별능력을 살펴본 실험적 연구이다. 음소구별능력을 알아보는 실험의 방법으로는 청해시험을 활용하였으며, 거기에서 얻어진 결과를 통해 다음의 세 가지를 확인할 수 있었다. 첫째, 피 실험자들이 영어자음음소의 구별에 비해 영어모음음소의 구별에 상대적인 어려움을 겪고 있다는 점이다. 둘째, 영어모음음소 중에서도/ə:/와 /ɔ:/의 구별에 심각한 어려움을 겪고 있음을 확인할 수 있었다. 셋째로, 반모음/w/음의 유무에 따른 구별능력에서는 피 실험자 전원이 어려움 없이 구별해내고 있었는데, 이는 반모음/w/의 유무를 단어의 발음에서 쉽게 구별하고 있음을 보여주는 증거이다. 이러한 실험의 데이터 분석을 시각화함으로써 실험결과를 영어교육현장에서 활용할 수 있도록 스펙트로그램의 그림분석을 병행하였다.

음성인식을 위한 Dynamic Time Warp 소자의 설계 (Design of Dynamic Time Warp Element for Speech Recognition)

  • 최규훈;김종민
    • 한국통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.543-552
    • /
    • 1994
  • 음성 인식에서의 dynamic time warp (DTW)은 반복적 계산을 필요로 하며, 이 계산을 수행하기에 합당한 PE cell의 설계는 매우 중요하다. 따라서 이 연구에서는 실시간 어휘 인식을 가능하게 하는 대사전 규모의 대어휘 고립단어인식용 DTW알고리즘을 하드웨어로 구현하기위한 PE(Processing Element)소자의 설계에 주안점을 두었다. 이 DTW용 PE 소자를 크게 세가지의 블록으로 대별된다. 즉, “MIN" block, "ADD" block 그리고 ”ABS" block인데, “MIN"은 축적 최소거리를 계산하기 위한 블록이고, ”ADD"는 이들 최소거리들의 합을 계산하는 블록, 그리고 “ABS"는 이러한 합에 의한 국부거리를 절대값을 구하기 위한 블록이다. 본 연구에서는 이들 세가지 전체 블록회로의 설계 및 검증을 행하였으며, 1.2 m CMOS N-well 설계 규칙에 EK라 전체블록에 대한 레이아웃을 행한 후 설계 규칙 검사(DRC)를 마쳤다.에 대한 레이아웃을 행한 후 설계 규칙 검사(DRC)를 마쳤다.

  • PDF

클러스터 기반 키워드 랭킹 기법 (Cluster-based keyword Ranking Technique)

  • 유한묵;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.529-532
    • /
    • 2016
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 ClusterTextRank 기법을 제안한다. 제안 기법은 k-means 군집화 알고리즘을 이용하여 문서들을 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최소신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 13% 가량 개선됨을 보인다.

빅데이터 분석을 이용한 이러닝 수강 후기 분석 (e-Learning Course Reviews Analysis based on Big Data Analytics)

  • 김장영;박은혜
    • 한국정보통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.423-428
    • /
    • 2017
  • 인터넷과 스마트 기기의 사용량 증가로 인해 다양한 교육정보와 많은 양의 데이터가 생성되어 빠르게 확산되고 있다. 최근 이러닝 이용률이 증가하면서 발생하는 빅데이터를 활용하여 학습자들의 교육 성과와 교육 시스템의 효과성을 극대화 하는 것을 목표로 하는 교육 데이터 관련 연구 분야에 대한 관심이 높아지고 있으며 온라인에서 학습자들이 학습한 수많은 기록과 데이터들이 정보로 쌓이게 된다. 이에 본 논문에서는 이러닝 학습자들이 시스템에 남긴 수강 기록을 기반으로 학습자 현황에 대해 객관적으로 파악할 수 있도록 신경망 알고리즘인 Word2Vec을 적용하여 단어 간 유사도를 구하고 클러스터링 알고리즘을 이용하여 군집화 하였다. Word2vec을 이용하여 학습을 시키면 연관된 의미의 단어가 나타나게 되고 학습을 반복해 나가는 과정에서 점차 가까운 벡터를 지니게 된다. 또한 클러스터 알고리즘을 이용하여 명사, 동사, 형용사, 부사가 중심점에서 최소의 거리를 두고 같은 거리에 위치해 있음을 실험 검증하였다.

영어 발음 교육

  • 이영길
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1997년도 7월 학술대회지
    • /
    • pp.258-259
    • /
    • 1997
  • 1. 외국어로서의 영어 교육에 있어서 발음 지도는 어느 정도의 영어 수준에 도달하기를 기다릴 필요없이 가능한 한 저학년에서부터 직접 지도되어야 한다. 즉 영어 교육은 영어 발음 교육부터 시작되는 것이 가장 바람직하다. 어느 정도의 수준 높은 문법 이론을 알고 있는 (대)학생들이라도 발음에 관한 한 많은 연습이 요구되는 경우가 흔히 있다. 바꿔 말하면 이러한 학생들은 그들이 갖고 있는 문법 지식만큼 발음에 대한 적극적인 구사력도 당연히 발휘할 수 있어야할 것이다. 영어 교육을 강조할 때 문장 구조와 어휘 교육이 중요시된다면 발음 또한 조기 교육 단계부터 영어 교육 프로그램의 필수불가결한 요소로 인식되어야 한다. 그렇다면 제일 처음 무엇을 어떻게 시작 해야할 것인가\ulcorner 흔히 음소(phoneme)라는 말의 최소 단위부터 시작하여 자음군(consonant cluster)과 같은 음 결합체를 가르친 다음 단어 강세(word stress)를 다루며, 마지막으로 문장 강세(sentence stress), 리듬(rhythm), 억양(intonation) 등을 포함함 이음말(connected speech)을 가르치는 순서가 될 수 있을 것이다. 그러나 이러한 방법이 이론상 논리적이긴 하지만 실제로 영어를 외국어로 배우는 우리 학생들에게는 얼마나 효과를 거둘 수 있는지 매우 의심스렵다. 오히려 가장 유익한 순서는 기본 억양 과 같은 적절한 표현과 함께 주어진 화맥 속에서의 의미 있는 문장 강세를 가르치고 그 다음에 그에 수반되는 중요한 소리의 발음을 지적해 주는 것이다. 예를 들면 Give it to him과 같은 구조를 교사가 구두로 제시할 때 단어 하나 하나를 강조한 나머지 너무 천천히 말하게 되면 전체 문장의 발음을 오히려 어렵게 만들어버린다. 중요한 것 은 기본 의사소통에 필요한 부분에 초점을 맞추는 일이다. 개별 단어에 부수되는 문제점은 '보충 지도'(remedial teaching)로 교정이 가능하다. 2. 우리의 초등학교 영어 교육의 현황을 고려할 때 비록 발음 지도가 쉬운 일은 아니지만 미래 지향적 결과를 기대할 때 우선 두 가지를 생각할 수 있다. 첫째로 현재의 교육대학교의 교사양성에 있어서 영어교육의 교과과정을 염두에 두지 않을 수 없다. 1981년도부터 교육대학교가 4년제가 명실공히 영어과로 운영되기는 수년밖에 되지 않는 실정이다. 현재의 교과과정도 현장에서 영어교육을 담당하기에는 불충분할 뿐만 아니라 영어발음에 관한 뚜렷한 과정이 없는 실정이다. 혼히 외국인 강사가 담당하는 이른바 영어회화 시간이 곧 발음 시간도 될 수 있다고 생각하기 쉬우나 이것은 전적으로 별개의 문제이다. 따라서 체계적인 발음 교육을 할 수 있는 교과과정이 되기를 바란다. 3. 앞에서 언급했듯이 4년제 이전에 졸업한 현직 교사들은 재학 중 영어 발음에 관한 지도를 받아본 적이 없다. 여기서 중요한 것은 이들 교사들에게 적절하고도 충분한 발음 교육을 시켜야 하는 연수 과정이다. 소리로 듣고 말해야 하는 초둥 영어 교육에 서 교사의 발음에 관한 지식은 그 중요성을 아무리 과대평가해도 지나치지 않을 것이다. 문제는 연수 내용이다. 적어도 현재까지 실시되어 온 초둥영어교육 담당자 연수 교과목 내용은 핵심을 찾기 힘들 정도로 교파목이 다양하고 산만하다. 따라서 예를 들면 영어발음 지도에 관한 과목도 마지못해 끼워 넣는 식의 과목 배정이다. 여기에 고작 할당된 시간은 많아야 4시간 정도이다. 대학에서 한 학기에도 부족한 영어 발음을 아 무런 배경 지식도 없는 초등 교사들에게 4시간 동안 무엇을 어떻게 가르칠 것인가\ulcorner

  • PDF

단어그룹 확장 기법을 활용한 순환신경망 알고리즘 성능개선 연구 (A Study on Performance Improvement of Recurrent Neural Networks Algorithm using Word Group Expansion Technique)

  • 박대승;성열우;김정길
    • 산업융합연구
    • /
    • 제20권4호
    • /
    • pp.23-30
    • /
    • 2022
  • 최근 인공지능(AI)과 딥러닝 발전으로 대화형 인공지능 챗봇의 중요성이 부각되고 있으며 다양한 분야에서 연구가 진행되고 있다. 챗봇을 만들기 위해서 직접 개발해 사용하기도 하지만 개발의 용이성을 위해 오픈소스 플랫폼이나 상업용 플랫폼을 활용하여 개발한다. 이러한 챗봇 플랫폼은 주로 RNN (Recurrent Neural Network)과 응용 알고리즘을 사용하며, 빠른 학습속도와 모니터링 및 검증의 용이성 그리고 좋은 추론 성능의 장점을 가지고 있다. 본 논문에서는 RNN과 응용 알고리즘의 추론 성능 향상방법을 연구하였다. 제안 방법은 RNN과 응용 알고리즘 적용 시 각 문장에 대한 핵심단어의 단어그룹에 대해 확장학습을 통해 데이터에 내재된 의미를 넓히는 기법을 사용하였다. 본 연구의 결과는 순환 구조를 갖는 RNN, GRU (Gated Recurrent Unit), LSTM (Long-short Term Memory) 세 알고리즘에서 최소 0.37%에서 최대 1.25% 추론 성능향상을 달성하였다. 본 연구를 통해 얻은 연구결과는 관련 산업에서 인공지능 챗봇 도입을 가속하고 다양한 RNN 응용 알고리즘을 활용하도록 하는데 기여할 수 있다. 향후 연구에서는 다양한 활성 함수들이 인공신경망 알고리즘의 성능 향상에 미치는 영향에 관한 연구가 필요할 것이다.

최소가공 과일의 갈변저해를 위한 저해제의 탐색

  • 박연주;최소영;김영언;문광덕
    • 한국식품저장유통학회:학술대회논문집
    • /
    • 한국식품저장유통학회 2003년도 춘계총회 및 제22차 학술발표회
    • /
    • pp.119.1-119
    • /
    • 2003
  • 단체 급식의 증가와 더불어 편의식품을 선호하는 소비 경향에 맞추어 최소가공한 과일의 갈변저해를 위한 저해제를 탐색하였다. 실험에 사용한 과일은 배와 감으로 각각 박피하여 속심을 제거한 후 배는 8조각으로 절단하고 감은 1~2cm 두께로 slice 하였다. 저해제는 1% ascorbic acid, citric acid, NaCl, MgCl$_2$, CaCl$_2$, oxalic acid, EDTA, raffinose, salicylic acit, sporix를 사용하였다. 또한 열수 추출한 오약, 계피, 황기, 당기, 건칡, 진피, 천궁, 감초 등도 저해제로 사용하였다. 최소가공한 과일은 저해제에 3분간 침지한 후 물기를 제거하고 tray에 포장하여 실온에서 저장하면서 colorimeter를 이용하여 갈변도의 변화를 측정하였다. 갈변 정도를 나타내는 $\Delta$E 는 시간의 경과에 따라 점차 감소하는 경향을 보였으나 배의 경우 변화 정도가 크지 않았다. NaCl, MgCl$_2$, CaCl$_2$를 처리한 배의 갈변 정도가 가장 적었다. cysteine을 처리한 구에서는 황화합물 냄새가 났다. 또한 oxalic acid를 처리한 구에서는 연화가 빠르게 일어났으며 저장 시간이 경과함에 따라 수분이 용출되었다. 한약재는 자체 색으로 인해 배의 색변화를 증가시켰으며 이취가 발생했다. 또한 저장 시간이 경과함에 따라 건조가 빠르게 일어나 관능적으로도 좋지 않은 결과를 나타냈다. 감에서는 CaCl$_2$, MgCl$_2$를 처리한 구에서 색의 변화가 가장 적었으며 cysteine은 색변화는 적었으나 배의 경우과 같이 이취가 발생하였다. 한약제는 계피와 진피를 처리한 감에서 색의 변화를 저해하는 효과를 보였다.를 처리하였을 경우 당귀, 천문동을 처리한 구에서 효과를 보였다. oxalic acid는 갈변저해에는 효과적이었으나 시간이 경과함에 따라 수분의 용출이 증가하였으며 물성의 변화도 컸다. 또한 ZnCl$_2$를 처리한 구에서는 이취 발생과 수분 용출이 컸으며 색의 변화도 컸다.내었다. 고온 단시간 처리구의 경우 저온 장시간 처리구와는 달리 저장 1일 후부터 그 농도가 다소 상승되었다가 다시 감소는 경향을 보였다. 한편 열처리하여 냉각시킨 직후 및 저장1주 후 사과의 pH, 산도, 당도, 경도, 과육의 갈변도 등을 조사하였던 바 대조구 및 처리구간에 일부 항목에 있어서는 약간의 차이를 나타내었다. 대치할 수 있을 것이라고 사료된다. 수분함량은 기계적 검사보다 관능검사와 더욱 높은 상관관계를 나타냈다.내었다. 항균활성이 우수한 생약재를 농도별로 활성을 조사한 결과, 물 추출물과 10% Ethanol 추출물 모두 낮은 농도에서도 우수한 항균활성을 나타내었다.취와 함께 점질성 갈변물질이 생성되었다. 이와 같은 결과로 볼 때, BAAG의 처리는 BAAC의 경우보다 가격은 저렴하면서도 항균력은 우수한 천연 항균복합제재로써 농산물 식품원료에 적용하여 선도유지 기간을 연장할 수 있는 효과를 기대할 수 있었다. 과일 등의 포장제로서 이용할 가능성을 확인하였다.로 [-wh] 겹의문사는 복수 의미를 지닐 수 없 다. 그러면 단수 의미는 어떻게 생성되는가\ulcorner 본 논문에서는 표면적 형태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minimal $X^{0}$ elements)로 가정한다. 즉, [+wh] 의미의 겹의문사는 동일한 구성요 소를 지닌 병렬적 합성어([$[W1]_{XO-}$ $[W1]_{XO}$ ]

  • PDF