• 제목/요약/키워드: 한글 용어

검색결과 170건 처리시간 0.029초

단어의 의미와 순서를 고려하는 문서색인방법을 이용한 CNN 기반 한글문서분류 (Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order)

  • 김남훈;양형정
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.41-45
    • /
    • 2017
  • 본 논문에서는 컨볼루션 신경망 네트워크(CNN:Convolution Neural Network)을 기반으로 단어의 의미와 순서를 고려하는 문서 색인 방법을 이용하여 한글 문서 분류 방법을 제안한다. 먼저 문서를 형태소 분석하여 어절 단위로 분리 한 후, 불용어를 처리 하고, 문서의 단어 의미를 고려하는 문서 표현하고, 문서의 단어 순서까지 고려하여 CNN의 입력으로 사용하였다. 실험결과 CNN 분류기를 기반으로 본 논문에서 제안하는 문서 색인 방법은 TF-IDF를 이용하는 방법보다 4.2%, Word2vec만 단독으로 사용하는 것보다 1.4%의 성능 상승을 이루었다. 이러한 결과를 통해 본 논문에서 제안하는 방법이 문서범주화 데이터 셋에서 문서 분류 성능향상에 영향을 미친다는 것을 확인하였다.

  • PDF

면역학 시소러스 및 온톨로지 구축 (Construction of Immunology Thesaurus and Ontology)

  • 임지희;최호섭;배영준;옥철영;최성필;성원경;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.21-27
    • /
    • 2005
  • 본 논문에서는 국가에서 추진하는 차세대신성장동력산업과 관련된 특정 분야('바이오 신약/장기' 분야 중 '면역 기능 제어')를 선택하여, 기구축된 면역학 전문용어사전을 비롯하여 의학용어사전, 표준국어대사전 등을 참조하여 핵심 용어와 관련 용어를 중심으로 면역학 시소러스(어휘 3,462개) 및 온톨로지(개념 노드 4,703개)를 구축하였다. 이것은 전문용어사전부터 온톨로지에 이르기까지 통일화된 표준 체계를 가지고 있으며, 도메인 온톨로지를 구축하여 향후 온톨로지 개발 방향을 설정할 수 있는 계기가 되었다고 할 수 있다. 또한 면역학 시소러스는 검색의 성능을 향상시킬 수 있도록 충분한 양의 데이터를 구축하였고 면역학 온톨로지는 언어처리적 관점에서의 온톨로지를 표현하였다. 이는 정보검색에서의 효율성을 비롯하여, 특정 웹 온톨로지 언어를 이용한 웹 온톨로지로의 변환성, 대규모 도메인 온톨로지라는 점에서 의미를 가진다고 할 수 있다.

  • PDF

LISP의 철학적 기초 (Philosophical Foundations of LISP)

  • 이영의;이초식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.66-75
    • /
    • 1991
  • 본 논문은 LISP의 기본적인 특성으로 간주되는 조건 표현과 회기에 대한 철학적 분석이다. 특히 여기서는 논리적 결합사들과 LISP의 원초적 용어들을 비교하고 있다. LISP은 현대 철학자들이 구성했던 이상언어의 사상을 계승한 것으로 여겨진다. 이러한 점에서 인공지능 연구와 철학 간의 학제적 연구가 절실히 필요하다는 논지를 몇가지 검토해 보았다.

  • PDF

<3>인쇄매체에 잘못 표기되는 외래어 언제까지 이대로 둘것인가

  • 박도영
    • 프린팅코리아
    • /
    • 통권25호
    • /
    • pp.126-130
    • /
    • 2004
  • 인쇄관련 언론매체를 보면 놀랍게도 일본어로 표기된 단어를 많이 발견할 수 있다. 하리꼬미, 베다, 고마, 돔보, 도지, 구와에, 돈땡, 모루동, 후렉소, 아지로, 도무송, 싸바리, 단보루 등이 대표적으로 많이 쓰이고 있다. 필자는 자신들의 영역에서 외래어를 순화하지 않고 사용하는 것을 보면서 안타까움을 금할 수 없다. 또한 일본어를 음역하여 견당, 습수, 정합, 노광, 타발, 사양, 중철, 소부, 돗판, 매엽, 하지, 상지 등 우리말에도 없는 것을 계속 사용하고 있는 것은 가슴아픈 일이다. 뿐만 아니라 영문 발음과 한글 표기가 정확하지 않은 것도 많다. 이에 시급히 바꾸어야 할 용어를 정리해 본다.

  • PDF

경호・경비 용어의 개선방안 (A Study on the Improvement of Security Terminology)

  • 김홍성
    • 시큐리티연구
    • /
    • 제57호
    • /
    • pp.231-252
    • /
    • 2018
  • 우리는 현재 경호(警護) 경비(警備)에 관한 용어를 사용함에 있어 오랜 시간 외국의 단어와 어휘를 그대로 인용, 사용하여 왔다. 자국의 언어가 분명 존재하는 데도 불구하고 외국의 용어를 사용하는 것은 그 의미의 전달 면에서 외국적 색체가 짙고, 또한 경호경비의 진정한 뜻과 의미를 미약하게 만들고 있다. 확실하고 뚜렷한 의미의 순수한 우리말로서 독립적으로 표현된 용어가 없을 뿐 더러 그것을 찾는 일을 게을리 하여 외국어를 그대로 수용 사용하고 있음은 우리말의 적절한 경호경비에 관한 용어 선택의 부재(不在)를 불러오게 하였다. 현재 경호경비를 '보안(保安), security'로 포괄적 광범위하게 사용하고 있는 것이 현실이다. 우리고유의 말(한글)에도 경호경비의 뜻과 의미에 부합하는 적절한 단어가 있음에도 영어표기를 그대로 사용하는 것은 용어의 적절성 여부와 상관없이 편의상 사용되고 있다는 점과, 세계화의 흐름 속에 영어권의 힘이 컸기 때문에 용어의 사용에 있어서도 영어를 생각 없이 쓰는 일이 잦아졌으며, 영어를 그대로 사용하는 것이 발달한 문명이나 문화를 누린다고 생각하기 때문이기도 하지만, 이는 곧 우리 국어에 대한 자각이 부족해서 이다. 이러한 실태를 전제로 경호경비의 용어를 순수한 우리말로 찾는 작업이 절실하다고 하겠다. 지금껏 우리는 경계하고 보호하고, 지킨다는 뜻의 용어로 "경호경비, 시큐리티'(Security), guard, protect라는 용어를 사용해 왔다. 경계하고, 지킨다는 의미의 용어로 우리말의 '지킴'이 있다. 지킴은 현재의 안전한 상태를 유지하는 작용을 말한다. 안전한 상태로의 유지를 위해서는 여러 위해로부터 예방과 경계와 보호가 우선되어야 한다. 학교지킴이, 아동안전지킴이, 환경지킴이, 생활 안전지킴 등등처럼 경계하고 보호함을 뜻하는 '지킴'은 이미 여러 곳에서 사용하고 있는 것이 사실이다. 여기에서 지키는 사람을 '지킴이' 라 한다. '지킴이' 란 '지킴' 이라는 단어에 '사람'을 의미하는 우리말 접미사 '이'를 합친 단어다. '지킴'은 감시의 의미와 보존의 의미를 동시에 내포한다. '지킴' 용어와 같이 실효성 있는 용어의 사용 및 현실과 부합된 정서적 용어가 필요하다. 따라서 경호 경비의 용어를 적절한 우리말의 용어로 바꾸었을 때 그 의미와 여러 조건에 모두 부합하는 '지킴' 이란 용어가 적당하다 판단된다.

대한치과보철학회지에 게재된 논문의 통계적 오류: 국문논문과 영문논문의 비교 (An assessment of statistical errors of articles in the Journal of Korean Academy of Prosthodontics: Comparison between Korean version and English version)

  • 박동규;최용근;김영수;신상완
    • 대한치과보철학회지
    • /
    • 제47권3호
    • /
    • pp.273-285
    • /
    • 2009
  • 연구목적: 대한치과보철학회지에 사용된 통계적 방법의 통계적 오류현황을 파악하여 통계적 방법의 잘못된 활용으로 인한 치의학 연구논문에서의 문제를 검토하고, 또한 통계적 오류의 유형과 빈도를 파악하여 동일문제의 재발 방지 및 효율적 대처의 기회로 삼고자 함이다. 연구 재료 및 방법: 2000년부터 2006년까지의 대한치과보철학회지에 게재된 총 399편의 논문 중 통계적 방법이 사용된 292편의 논문을 조사했고, 이를 위해 1997년 국제의학학술지 편집위원회의 "생의학 학술지에 투고하는 원고의 통일양식의 통계학적 방법론에 관한 서술지침" 15개항을 기초로 하여 1) 통계 프로그램의 불명시, 2) 통계 방법의 부적절한 기술, 3) 통계용어의 오용 등으로 크게 3가지 범주로 구성된 점검표를 사용하여 통계적 방법의 종류 및 통계적 오류부분을 확인하고 이를 한글판과 영문판으로 비교해 보았다. 그 결과는 다음과 같다. 결과 및 결론: 1. 통계 프로그램 명시 오류는 한글판에선 54%가, 영문판에선 59%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P = .66). 2. 통계 방법의 부적절한 기술에 관한 오류는 한글판에선 49%가, 영문판에선 33%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P = .09). 3. 통계용어의 오용오류는 한글판에선 54%가, 영문판에선 24%가 있었으며 통계적으로도 유의한 차이가 있었다 (P = .01). 상기 결과로 볼 때 통계용어의 오용 오류 이외엔 통계적 유의성을 보이진 않아서 한글판과 영문판의 통계적 오류의 비율은 유사하게 나타난 걸로 추정되며, 전체적으로 대한치과보철학회지의 통계적 타당성은 다소 부족하게 나타났다. 따라서 향후 치의학 연구자는 통계적 방법을 기술하고 적용할 때 통계적 오류를 피하기 위해 주의를 기울여야 할 것이며, 아울러 치의학 논문에서의 통계학적 방법론에 대한 인식의 제고가 필요하다고 보인다.

Distance LSTM-CNN with Layer Normalization을 이용한 음차 표기 대역 쌍 판별 (Verification of Transliteration Pairs Using Distance LSTM-CNN with Layer Normalization)

  • 이창수;천주룡;김주근;김태일;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.76-81
    • /
    • 2017
  • 외국어로 구성된 용어를 발음에 기반하여 자국의 언어로 표기하는 것을 음차 표기라 한다. 국가 간의 경계가 허물어짐에 따라, 외국어에 기원을 두는 용어를 설명하기 위해 뉴스 등 다양한 웹 문서에서는 동일한 발음을 가지는 외국어 표기와 한국어 표기를 혼용하여 사용하고 있다. 이에 좋은 검색 결과를 가져오기 위해서는 외국어 표기와 더불어 사람들이 많이 사용하는 다양한 음차 표기를 함께 검색에 활용하는 것이 중요하다. 음차 표기 모델과 음차 표기 대역 쌍 추출을 통해 음차 표현을 생성하는 기존 방법 대신, 본 논문에서는 신뢰할 수 있는 다양한 음차 표현을 찾기 위해 문서에서 음차 표기 후보를 찾고, 이 음차 표기 후보가 정확한 표기인지 판별하는 방식을 제안한다. 다양한 딥러닝 모델을 비교, 검토하여 최종적으로 음차 표기 대역 쌍 판별에 특화된 모델인 Distance LSTM-CNN 모델을 제안하며, 제안하는 모델의 Batch Size 영향을 줄이고 학습 시 수렴 속도 개선을 위해 Layer Normalization을 적용하는 방법을 보인다.

  • PDF

점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 모델 (A Hypertext Categorization Model Exploiting Link and Incrementally Available Category Information)

  • 오효정;임정묵;이만호;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.89-96
    • /
    • 1999
  • 본 논문은 하이퍼텍스트가 갖는 중요한 특성인 링크 정보를 활용한 문서 분류 모델을 제안한다. 하이퍼링크는 문서간의 관계를 나타내는 유용한 정보로서 링크를 통해 연결된 두 문서는 내용적으로 관련이 있어 검색에 도움을 준다는 것은 이미 밝혀진바 있다. 본 논문에서는 이러한 과거 연구를 바탕으로 새로운 문서 분류 모델을 제안하는데, 이 모델의 주안점은 대상 문서와 링크로 연결된 이웃 문서의 내용 및 범주를 분석하여 대상 문서 벡터를 조정하고, 이를 근거로 문서의 범주를 결정한다. 이웃 문서에 포함된 용어를 반영함으로써 대상 문서의 내용을 확장 해석하고, 이웃 문서의 가용 분류 정보가 있는 경우 이를 참조함으로써 정확도 향상을 기한다. 이 모델은 이웃한 문서의 범주가 미리 할당되어 있지 않은 경우 용어 기반 분류 방법으로 가용 범주를 할당하고, 이렇게 할당된 분류 정보가 다시 새로운 문서의 범주를 결정할 때 사용됨으로써, 문서 집합 전체의 분류가 점진적으로 이루어지며 그 정확도를 더해 나가는 효과를 가져올 수 있다. 이러한 접근 방법은 일반 웹 환경에 적용할 수 있는데, 특히 하이퍼텍스트를 주제별로 분류하여 관리하는 검색 엔진의 경우 매일 쏟아져 나오는 새로운 문서와 기존 문서간의 링크를 활용함으로써 전체 시스템의 점진적인 분류에 매우 유용하다. 제안된 모델을 검증하기 위하여 Reuter-21578과 계몽사(ETRI-Kyemong) 자료를 대상으로 실험한 결과 18.5%의 성능 향상을 얻었다.

  • PDF

생의학 도메인에서 약어 중의성 해결을 위한 최적 자질의 규명 (Identifying Optimum Features for Abbreviation Disambiguation in Biomedical Domain)

  • 임호건;서희철;김선호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.173-180
    • /
    • 2004
  • 생의학 도메인에서 약어 중의성 해결이란 생의학 문서에 나타난 약어의 원래 형태(long form)를 판별하는 작업이다. 본 논문은 생의학 도메인에서 약어 중의성 해결에 적합한 자질들을 실험적으로 탐색하는데 목적이 있다. 이를 위해서 약어 중의성 해결에 사용할 문맥을 전역 문맥(topical context)과 지역 문맥(local context)으로 구분하고, 각각의 문맥에서 스테밍(stemming), 불용어 제거, 품사 부착 등의 과정을 통해서 다양한 자질들을 고려하도록 한다. 생의학 도메인에서 약어 중의성 해결을 위한 실험 자료의 부족을 해결하기 위해서, 학습 자료와 평가 자료를 자동으로 구축했으며, 평가를 위한 약어로는 기존 연구에서 사용된 두 가지 약어 목록을 사용했다. 또한 단순 베이지언 모델(Naive Bayesian Model)을 이용해서 각 자질들의 유용성을 평가하였다 실험 결과, 전역 문맥이 지역 문맥보다 더 좋은 성능을 보였으며, 전역 문맥에서는 불용어만을 제거한 경우가 각각의 평가 자료에서 94.2%와 96.2%로 가장 좋은 결과를 보였으며, 전역 문맥과 지역 문맥을 함께 사용하는 경우에 각각의 평가 자료에서 1.8%와 0.3%의 성능 향상이 있었다.

  • PDF

심볼릭 지식 정보를 결합한 뉴럴기계번역 모델 설계 (Design Neural Machine Translation Model Combining External Symbolic Knowledge)

  • 어수경;박찬준;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.529-534
    • /
    • 2020
  • 인공신경망 기반 기계번역(Neural Machine Translation, NMT)이란 딥러닝(Deep learning)을 이용하여 출발 언어의 문장을 도착 언어 문장으로 번역해주는 시스템을 일컫는다. NMT는 종단간 학습(end-to-end learning)을 이용하여 기존 기계번역 방법론의 성능을 앞지르며 기계번역의 주요 방법론으로 자리잡게 됐다. 이러한 발전에도 불구하고 여전히 개체(entity), 또는 전문 용어(terminological expressions)의 번역은 미해결 과제로 남아있다. 개체나 전문 용어는 대부분 명사로 구성되는데 문장 내 명사는 주체, 객체 등의 역할을 하는 중요한 요소이므로 이들의 정확한 번역이 문장 전체의 번역 성능 향상으로 이어질 수 있다. 따라서 본 논문에서는 지식그래프(Knowledge Graph)를 이용하여 심볼릭 지식을 NMT와 결합한 뉴럴심볼릭 방법론을 제안한다. 또한 지식그래프를 활용하여 NMT의 성능을 높인 선행 연구 방법론을 한영 기계번역에 이용할 수 있도록 구조를 설계한다.

  • PDF