• 제목/요약/키워드: 어휘집

검색결과 67건 처리시간 0.028초

한글 필기 행동의 연구(II): 정보처리적 접근 (A study on Hangul writing behavior(II): an information processing approach)

  • 이광오
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.461-468
    • /
    • 1993
  • 이광오[1]의 연구를 바탕으로 한글 필기 행동의 설명을 시도하였다. 한글 필기에 나타나는 실수에는 예기, 지속, 부가, 생략 등의 유형이 있었으며, 실수에 개입되는 단위로는 단어, 글자, 자모가 인정되었다. 필기에 필요한 기본단위로 글자표상을 가정하고, 심성어휘집에서의 부분적 표기정보 인출과 음소-자모 변환에 의해 글자표상이 생성되는 필기행동 모형에 대해 고찰하였다.

  • PDF

우리말 시소러스 작성(作成)에 관한 연구(硏究) (A Study on Constructing Korean Language Thesaurus)

  • 김태중
    • 정보관리연구
    • /
    • 제21권1호
    • /
    • pp.53-75
    • /
    • 1990
  • 정보검색(情報檢索)시스템에서 통제어휘(統制語彙)는 재현율을 높이고 색인자(索引者) 또는 이용자(利用者)가 적합한 용어(用語)를 선정하는데 도움을 준다. 시소러스는 통제어휘집(統制語彙集)의 한 형태로 대부분의 데이터베이스 제작자(製作者)들이 사용하고 있다. 이 연구(硏究)의 목적(目的)은 우리말 시소러스의 작성방법(作成方法)을 개발(開發)하는 것이며 다음과 같은 내용(內容)을 다루었다. 1) 시소러스의 정의(定義), 2)시소러스 작성이론(作成理論)에 관한 문헌조사(文獻調査)와 검토(檢討), 3) 실제적인 시소러스 작성방법(作成方法) 제시(提示), 4) 시소러스의 출력형태(出力形態), 5) 실험(實驗) 및 실험결과(實驗結果)

  • PDF

한국어 중의적 형태소 표상양식과 처리 특성 : 실어증 환자를 중심으로 (The Processing and Representations of Ambiguos Morpheme in Korean Words : Centered in Aphasics.)

  • 정재범;편성범;김태훈;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.151-156
    • /
    • 2002
  • 중의적인 단어를 처리하는 방법에 대한 선행연구로, 첫째 문맥에 맞는 의미가 먼저 활성화된다는 가설과 둘째, 여러 뜻 중에 상대적인 빈도에 따라 많이 쓰이는 의미가 먼저 활성화되고, 그것이 문맥과 일치하지 않는다면, 다른 관련된 의미를 찾는다는 가설이 제기되었다. 마지막으로 문맥에 상관없이 모든 의미가 활성화 된 후 문맥을 고려하여 문맥에 적절한 의미를 선택한다는 가설이 있다. 본 연구에서는 '먹을', '감을' 등과 같이 2가지 의미의 품사가 다른 중의 어절과 '쥐어', '감어' 등과 같이 어절 문맥('어')이 주어진 어절의 의미 활성화가 어떻게 다른지를 조사하였다. 본 연구의 목적을 위해 점화어휘 판단 과제를 사용하였다. 실험 1의 결과는 SOA 150ms 조건에서 점화자극어절과 관련된 의미가 품사와 관련 없이 모두 활성화되었다. SOA 1000ms 조건에서는 상대적으로 많이 쓰이는 체언의 의미는 계속 활성화 되어 있는 반면, 용언의 의미 점화량은 감소하였다. 명칭성 실어증 환자인 SDK의 경우 SOA 150ms 조건에서는 일반인과 같은 형태소 처리특성을 보였으나 1000ms 조건에서는 달랐다. 다른 명칭성 실어증 환자인 BIS과 전반성 실어증 환자인 PSB는 SOA 150ms 조건과 1000ms 조건에서 일반인과 아주 다른 양상을 보였다. 이것은 실어증 환자의 타잎에 따라 형태소의 처리나 중의적인 의미 활성화가 일반인과는 다르다는 것을 보여준다. 실험 2에서는 어절 문맥이 있는 '먹어', '쥐어', '감어' 등과 같은 어절을 사용하였다. 실험 2의 결과는 SOA 150ms 조건일 때 어절문맥의 영향으로 용언의 의미만 촉진적 점화효과가 있었고, 체언의 의미는 활성화되지 않았다. 그러나 SOA 1000ms로 지연시켰을 때는 용언뿐만 아니라 체언의 의미도 촉진적 점화효과가 있었다. 실험 1과 2의 결과는 중의적인 한국어 어절의 경우에도 모든 의미가 활성화되나 어절 문맥이 존재할 때는 어절 문맥의 제약으로 어절 문맥에 맞는 한 가지 의미만 활성화된다는 것을 암시한다. 또한 이러한 결과는 한국어 어절이 분석된 형태가 아닌 어절 형태로 심성 어휘집에 저장되어 있다는 것을 암시한다. 실어증 환자의 경우 실험 1과 마찬가지로 환자의 수준이나 종류에 따라 다양한 반응을 보여주었다.

  • PDF

새로 발굴한 고시조집 "고금명작가" 연구 (A Study of Newly Discovered Old SI-JO Anthology, $\lceil$GOGEUMMYEONGJAKGA$\rfloor$)

  • 구사회;박재연
    • 한국시조학회지:시조학논총
    • /
    • 제21집
    • /
    • pp.47-76
    • /
    • 2004
  • 최근에 발굴된 $\lceil$고금명작가$\rfloor$는 황색 고정지에 기록된 필사본 고시조집이다. $\lceil$고금명작가$\rfloor$는 조선 영조 17년인 1740년을 기점으로 그 이전에 필사되었을 것으로 추정되는 바, 시조사적으로도 초기시조집에 해당된다. 필자의 조사에 의하면 이 시조집에는 78수의 시조가 실려 있는데 그 중에서 9수는 아직 학계에 보고되지 않았던 새로운 작품들이다. $\lceil$고금명작가$\rfloor$에 실려 있는 시조 작품을 분석해보면 다음과 같다. 첫째, 이 시조집에서는 다른 시조집에 비하여 한자를 피하고 국문위주의 표기법을 고수하고 있는데 17세기 후반부터 18세기 전기의 국어학적 특징을 보인다. 둘째, 이들 시조 작품들은 다른 시조집의 작품과 비교하여 이본적 가치가 많은 것으로 보인다. 그것은 어휘와 어구가 바뀌거나 초장이나 종장 자체가 달라지는 경우도 많았기 때문이다. 셋째, 새로 발굴한 시조 9수 중에서 2수는 중국 악부의 일종인 <대풍가>와 <해하가>를 시조로 바꾼 것이다. 그런데 한시가 아닌 낙부를 시조로 개작한 작품이 선정된 것은 시조집 편찬자가 시조와 악부가 지닌 노래와의 상관성을 놓치지 않고 헤아렸던 것으로 보인다. 그리고 이들 9수 중에서<9>와 <10>은 지금까지 알려지지 않았던 새로운 화답가이다.

  • PDF

조선시대 어휘집을 중심으로 본 복식명칭의 동의 관계 분석 (A Study on the Synonyms of Clothing terms in the Vocabulary Books of the Joseon Period)

  • 김은정;강순제
    • 복식
    • /
    • 제57권5호
    • /
    • pp.140-150
    • /
    • 2007
  • The study aimed to classify the synonyms of clothing terms, such as equal relationship, connoting relationship and partial relationship. The subjects of the study are eleven Chinese character study books such as <石峰千字文 Seokbongcheonjamun> <丙子本千字文 Byeongjacheonjamun>, <註解千字文 Juhaecheonjamun>, <訓蒙字會 Hungmongjahoi>, <新增類合 Sinjeungyuhap>, <兒學編 Aahakpyeon(1816) (1908)>, <蒙喩編 Mongyupyeon>, <字類註釋 Jalyujuseok>, <正蒙類語 Joengmongyueo> and <通學徑編 Tonghakgyeongpyeon>, seven foreign language study books such as <譯語類解 Yeokeoyuhae>, <譯語類解補編 Yeokeoyuhae-supplementary book>, <同文類解 Dongnunyuhae>, <蒙語類解 Mongeoyuhae>, <蒙語類解補編 Mongeoyuhae-supplementary book>, <倭語類解 Oaeeoyuhae> and <方言類釋 Bangeonyuseok>, and some vocabulary books <才物譜 Jaemulbo>, <廣才物譜 Kwangjaemulbo>, <物譜 Mulbo>, <物名攷 Mulmyeongko>, and <事類博解 Salyupakhae>. There are two kinds of synonyms with equal relationship that are spelled as more than two names for the same clothing. The first group was names that have different vocabularies for the same Chinese character headword, for example, Gyeokji and Namosin, Jeoguriot and Dongdolssi, Deungjige and Got dongot, Daloi and Nangja, Jitbidan and Oaedan, jusa and jeuusya, jusa and Murui, Muja and Heoja, and so on. The second group was names that are spelled with sound and meaning of Chinese character, for example, Nuyeok and Saui, Binhyeo and Jam, Mosi and Jyeopo, and so on. Also synonyms of Chinese names were found in equal relationship. Synonyms with connoting relationship in which one name perfectly connotes meaning of another name are Gotgal and Susik, Danryeong and Gwandae, Bosyeon and Chyeong, ete. In these cases, the range of the meaning of clothing terms can be confirmed since names with broad meaning connote names with narrow meaning. There are differences in use and form. In partial relationship synonym with the same name, some synonyms like Baji and Goui, and jeoksam and Hansam have difference in use, while Gamto, Got and Sarno, Neolku and Satgat, and Nangja and Cheopji have difference in form. These presented differences among similar names.

연속된 수화 인식을 위한 자동화된 Coarticulation 검출 (Automatic Coarticulation Detection for Continuous Sign Language Recognition)

  • 양희덕;이성환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권1호
    • /
    • pp.82-91
    • /
    • 2009
  • 수화 적출은 연속된 손 동작에서 의미 있는 수화 단어를 검출 및 인식하는 것을 말한다. 수화는 손의 움직임과 모양의 변화가 다양하기 때문에 수화 문장에서 수화를 적출하는 것은 쉬운 문제가 아니다. 특히, 자연스러운 수화 문장에는 의미 있는 수화, 수화가 아닌 손동작이 무작위로 발생한다. 본 논문에서는 CRF(Conditional Random Field)에 기반한 적응적 임계치 모델을 제안한다. 제한된 모델은 수화 어휘집에 정의된 수화 손동작과 수화가 아닌 손동작을 구별하기 위한 적응적 임계치 역할을 수행한다. 또한, 수화 적출 및 인식의 성능 향상을 위해 손 모양 기반 수화 인증기, 짧은 수화 적출기, 부사인(subsign) 추론기를 제안된 시스템에 적용하였다. 실험 결과, 제안된 방법은 연속된 수화 동작 데이타에서 88%의 적출률, 사전에 적출된 수화 동작 데이타에서 94%의 인식률을 보였으며, 적응적 임계치 모델, 짧은 수화 적출기, 손 모양 기반 수화 인증기, 부사인 추론기를 사용하지 않은 CRF 모델은 연속된 수화 동작 데이터에서 74%의 적출률, 사전에 적출된 수화 동작 데이타에서 90%의 인식률을 보였다.

계산주의적 시각단어재인 모델에서의 시각이웃과 음운이웃 효과 (Visual and Phonological Neighborhood Effects in Computational Visual Word Recognition Model)

  • 임희석;박기남;남기춘
    • 한국산학기술학회논문지
    • /
    • 제8권4호
    • /
    • pp.803-809
    • /
    • 2007
  • 본 논문은 인간의 언어정보처리 과정 중 시각단어재인(visual word recognition) 과정에서 음운정보(phonological information)와 철자정보(orthography information)의 역할 및 심성어휘집의 표상(representation) 형태를 알아보기 위해 신경망(neural network)을 이용한 계산주의적 모델(computational model)을 제안한다. 제안하는 모델은 한국어 2음절을 입력 값으로 사용하는 입력층(input layer), 은닉층(hidden layer) 그리고 의미를 표현하는 출력층(output layer)으로 구성된 전방향 신경회로망(feed forward network) 구조로 설계하였다. 실험결과 계산주의적 모델은 한국어에 대한 시각 단어재인 시 보이는 언어현상 중 음운, 철자 이웃 크기효과(phonological and orthographic neighborhood effect)를 나타냈으며, 이를 통해 한국어 시각단어재인 과정에서 심성어휘집이 음운정보로 표상되어 있음을 시사하는 증거를 보였다.

  • PDF

2019 개정 RDA 특징 분석에 관한 연구 (A Study on Analyzing the Features of 2019 Revised RDA)

  • 이미화
    • 한국도서관정보학회지
    • /
    • 제50권3호
    • /
    • pp.97-116
    • /
    • 2019
  • 본 연구는 2019년 RDA 개정에 따라 개정 RDA의 특징을 분석하고 이를 바탕으로 목록 측면에서 고려사항을 제안하고자 문헌연구를 실시하였다. 개정 RDA 분석을 통해 목록분야에서 고려사항으로 다음 3가지를 제시하였다. 첫째, 목록데이터를 시맨틱 웹 구축이 가능한 링크드데이터로 변환하려면 목록데이터 보완 및 어휘집 구축과 같은 고품질의 데이터 구축이 우선되어야 한다. 둘째, MARC 데이터를 링크드데이터로 완전하게 변환하기 전까지 MARC가 서지데이터의 유일한 인코딩 포맷이므로 개정 RDA에 반영된 LRM 및 링크드데이터의 새로운 개념을 MARC에서 수용할 수 있도록 이를 확장할 필요가 있다. 셋째, 개정 RDA에 포함된 개체 및 요소별로 다양한 조건과 옵션이 있고, 자료유형에 따라서도 입력 요소가 다르기 때문에 일관된 기술을 위해서는 정책 문서와 이에 적합한 응용프로파일이 구체적으로 개발되어야 한다. 본 연구를 시작으로 앞으로 MARC뿐만 아니라 BIBFRAME에서도 개정 RDA의 새로운 개념을 적용하기 위한 연구가 필요하며, 또한, 목록 규칙의 개정이 필요한 국가 및 도서관에서는 개정 RDA 규칙과 레지스트리를 이용할 수 있도록 RDA를 수용하는 방안을 고려해 볼 필요가 있다.

한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구 (Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension)

  • 이강욱;이해준;김재원;윤희원;유원호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

중학교 과학 교과서 물리 단원에 수록된 과학 전문 용어 조사 (Investigation of Scientific Terms in Physics Units of Middle School Science Textbooks)

  • 윤은정;박윤배
    • 한국과학교육학회지
    • /
    • 제31권8호
    • /
    • pp.1175-1185
    • /
    • 2011
  • 본 연구는 과학 교육용 과학 전문 용어 목록을 만들기 위한 기초 연구로써 중학교 과학 교과서 물리 단원에 수록된 과학 전문 용어를 조사하였다. 그 결과 7학년 249개, 8학년 170개, 9학년 137개, 총 556개의 과학 전문 용어를 얻을 수 있었다. 그리고, 초등학교와 중학교에서 다루는 어휘수의 차이가 매우 심함을 알 수 있었고, 교육인적자원부의 편수자료와 물리학용어집, 표준국어대사전 간에 불일치가 상당히 많았다. 본 연구의 결과에 수정, 보완 작업을 거쳐서 수준별로 평정된 과학 전문 용어 목록이 완성되면 도서 및 사전 편찬, 각종 검사 제작, 교사 교육, 학습능력 향상 등에 다양하게 활용될 수 있을 것이다.