• 제목/요약/키워드: 어휘정보

검색결과 1,062건 처리시간 0.03초

시소러스 국제표준 기반 기본 범주의 확장에 관한 연구 (A Study on the Expansion of Fundamental Categories Based on Thesaurus International Standards)

  • 장인호
    • 한국도서관정보학회지
    • /
    • 제50권1호
    • /
    • pp.273-291
    • /
    • 2019
  • 본 연구는 시소러스 국제표준(ISO 25964-1) 제11절 "패싯 분석"과 제5절의 "시소러스에 있어서의 개념 및 그들의 범위"를 분석하여, 제11절에 예시된 기본 범주(대상, 물질, 에이전트, 행위, 장소, 시간 등)를 확장하는 데에 목적이 있다. 이를 위해 온톨로지의 최상위 개념(구구리일랑(溝口理一郞)의 상위 온톨로지인 YAMATO)과 기존의 기본 범주들(Ranganathan의 PMEST, FRBR 제3집단, CRG 13 범주 등)을 참조하여, 기본 범주에 정신적 실체를 명시적으로 추가하고, 일부를 조정하여 기본 범주를 확립했다. 또한, 확립된 기본 범주를 Ranganathan의 PMEST의 구체성/추상성과 구구리일랑(溝口理一郞)의 YAMATO의 독립성/종속성을 기반으로 재편성 및 구조화하였다. 최상위 범주를 독립 실체와 종속 실체로 이분하고 하위 구분으로 전자는 28범주, 후자는 2범주를 두었다. 본 연구의 결과는 기본 범주의 활용이 기대되는 분류, 택소노미, 시소러스 등의 제어 어휘 및 정보검색용 온톨로지를 생성할 때 최상위 개념으로서 재활용되고 참조할 수 있을 것으로 기대된다.

문화유산 콘텐츠 온라인 서비스에 관한 연구 (A Study on the Online Service of Cultural Heritage Contents)

  • 박옥남
    • 한국기록관리학회지
    • /
    • 제19권1호
    • /
    • pp.195-224
    • /
    • 2019
  • 문화유산 원형의 콘텐츠화 및 확산을 위하여 온라인 서비스는 다양한 연구에서 강조됐다. 본 연구는 문화유산 콘텐츠 온라인 서비스에 대한 연구를 통해 콘텐츠 조직 및 정보서비스 현황을 조사하고 개선 방향을 제시하는 것을 목적으로 한다. 이를 위하여 관련 선행연구 및 국내외 문화유산 기관 온라인 서비스 사례조사, 전문가 면담을 실시하였으며, 콘텐츠 범위 및 종류, 검색서비스, 부가서비스, 확장서비스를 바탕으로 연구를 수행하였다. 시사점으로 콘텐츠는 문화유산 콘텐츠 통합제공, 고품질 콘텐츠 및 콘텐츠의 다양화, 검색서비스는 콘텐츠 계층구조를 통한 검색기능의 유연화, 통제어휘 및 전거데이터 구축을 통한 접근점 확대, 검색방법의 다각화 방안을 제시하였다. 부가 및 확산서비스로는 연구 및 교육콘텐츠의 제공, 큐레이션 기반의 이용자 맞춤형 서비스, 데이터 공개 및 공유, 이용자 참여확대서비스를 제시하였다.

BiLSTM 모델과 형태소 자질을 이용한 서술어 인식 방법 (Predicate Recognition Method using BiLSTM Model and Morpheme Features)

  • 남충현;장경식
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.24-29
    • /
    • 2022
  • 정보 추출 및 질의응답 시스템 등 다양한 자연어 처리 분야에서 사용되는 의미역 결정은 주어진 문장과 서술어에 대해 서술어와 연관성 있는 논항들의 관계를 파악하는 작업이다. 입력으로 사용되는 서술어는 형태소 분석과 같은 어휘적 분석 결과를 이용하여 추출하지만, 한국어 특성상 문장의 의미에 따라 다양한 패턴을 가질 수 있기 때문에 모든 언어학적 패턴을 만들 수 없다는 문제점이 있다. 본 논문에서는 사전에 언어학적 패턴을 정의하지 않고 신경망 모델과 사전 학습된 임베딩 모델 및 형태소 자질을 추가한 한국어 서술어를 인식하는 방법을 제안한다. 실험은 모델의 변경 가능한 파라미터에 대한 성능 비교, 임베딩 모델과 형태소 자질의 사용 유무에 따른 성능 비교를 하였으며, 그 결과 제안한 신경망 모델이 92.63%의 성능을 보였음을 확인하였다.

의료서비스를 위한 키워드와 문서의 연관성 향상을 위한 LSTM모델 설계 (LSTM Model Design to Improve the Association of Keywords and Documents for Healthcare Services)

  • 김준겸;서진범;조영복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.75-77
    • /
    • 2021
  • 현재 다양한 검색엔진들이 사용되고 있다. 검색엔진은 메타태그 정보를 기본으로 크롤링, 색인생성, 검색 결과 출력의 3단계를 거치며, 사용자가 원하는 자료의 검색을 도와준다. 그러나 키워드를 기반으로 검색해서 얻은 방대한 문서가 관련이 없거나 적은 문서일 경우도 많다. 이러한 문제점 때문에 검색 결과에서 내용을 파악하여 정확도를 분류를 해야 하는 번거로운 일이 발생하게 된다. 다양한 검색엔진을 통해 추출된 결과의 경우 검색엔진의 인덱스는 주기적으로 업데이트 되지만 가중치에 대한 기준과 업데이트 주기는 검색엔진마다 다르고 검색 순위 산정 기준이 서로 다르기 때문에 동일한 키워드를 검색어로 입력하고도 서로 다른 검색 순위를 보여주는 단점을 가지고 있다 따라서 본 논문에서는 기존 검색엔진 대신 사용자가 입력한 키워드와 문서의 연관성을 추출하여 사용자가 찾고자 하는 키워드를 입력했을 때 키워드와 문서의 연관성을 향상 시킬 수 있는 LSTM모델을 설계하고자 한다.

  • PDF

URL 주요특징을 고려한 악성URL 머신러닝 탐지모델 개발 (Development of a Malicious URL Machine Learning Detection Model Reflecting the Main Feature of URLs)

  • 김영준;이재우
    • 한국정보통신학회논문지
    • /
    • 제26권12호
    • /
    • pp.1786-1793
    • /
    • 2022
  • 최근 코로나 19, 정치적 상황 등 사회적 현안을 악용한 스미싱, 해킹메일 공격이 지속되고 있다. 공격의 대부분은 악성 URL 접근을 유도하여 개인정보를 탈취하는 방식을 취하고 있는데, 이를 대비하기 위해 현재 머신러닝, 딥러닝 기술 연구가 활발하게 진행되고 있다. 하지만 기존 연구에서는 데이터 세트의 특징들이 단순하기 때문에 악성으로 판별할 근거가 부족하다고 판단하였다. 본 논문에서는 URL 데이터 분석을 통해 기존 연구에 반영된 URL 어휘적인 특징 이외에도 "URL Days", "URL Words", "URL Abnormal" 3종, 9개 주요특징을 추가 제안하였고, 4개의 머신러닝 알고리즘 적용을 통해 F1-Score, 정확도 지표로 측정하였다. 기존 연구와 비교 분석 시 평균 0.9%가 향상된 결과 값과 F1-Score, 정확도에서 최고 98.5%가 측정됨에 따라 주요특징이 정확도 및 성능 향상에 기여하였다.

한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구 (Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension)

  • 이강욱;이해준;김재원;윤희원;유원호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

얼굴 표정의 제시 유형과 제시 영역에 따른 정서 인식 효과 (Effects of the facial expression's presenting type and areas on emotional recognition)

  • 이정헌;김혁;한광희
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1393-1400
    • /
    • 2006
  • 정서를 측정하고 나타내는 기술이 발전에 따라 문화적 보편성을 가진 얼굴표정 연구의 필요성이 증가하고 있다. 그리고 지금까지의 많은 얼굴 표정 연구들은 정적인 얼굴사진 위주로 이루어졌다. 그러나 실제 사람들은 단적인 얼굴표정만으로 정서를 인식하기 보다는 미묘한 표정의 변화나 얼굴근육의 움직임 등을 통해 정서상태를 추론한다. 본 연구는 동적인 얼굴표정이 정적인 얼굴표정 보다 정서상태 전달에서 더 큰 효과를 가짐을 밝히고, 동적인 얼굴 표정에서의 눈과 입의 정서인식 효과를 비교해 보고자 하였다. 이에 따라 15 개의 형용사 어휘에 맞는 얼굴 표정을 얼굴전체, 눈, 입의 세 수준으로 나누어 동영상과 스틸사진으로 제시하였다. 정서 판단의 정확성을 측정한 결과, 세 수준 모두에서 동영상의 정서인식 효과가 스틸사진 보다 유의미하게 높게 나타나 동적인 얼굴 표정이 더 많은 내적정보를 보여주는 것을 알 수 있었다. 또한 얼굴전체-눈-입 순서로 정서인식 효과의 차이가 유의미하게 나타났으며, 부정적 정서는 눈에서 더 잘 나타나고 긍정적 정서는 입에서 더 잘 나타났다. 따라서 눈과 입에 따른 정서인식이 정서의 긍정성-부정성 차원에 따라 달라짐을 볼 수 있었다.

  • PDF

감성 개념을 이용한 웹 이미지 검색 결과 분류 (Categorizing Web Image Search Results Using Emotional Concepts)

  • 김영래;권경수;신윤희;김은이
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.562-566
    • /
    • 2009
  • 영상 검색에서 보다 빠르고 정확한 결과를 제공하기 위해 많은 시스템들은 결과내 재검색을 위한 카테고리 내 검색을 제공하고 있다. 이를 위해, 본 논문에서는 감성 카테고리를 사용하여 영상을 분류하는 시스템을 제안한다. 제안된 시스템은 영상에 포함된 컬러와 패턴 정보를 가지고 감성 벡터를 추출하여, 각 영상을 8 개의 감성 카테고리로 분류한다. 이때, 감성 카테고리는 고바야시가 정의한 8 개의 어휘 {romantic, natural, casual, elegant, chic, classic, dandy, modern}를 사용한다. 질의에 대한 결과가 주어지면, 사용자는 선택한 감성 카테고리로 재분류된 영상들을 제공받을 수 있다. 제안된 시스템의 성능을 평가하기 위하여 야후 이미지 검색에서 수집된 풍경 영상 1,000 장으로 사용자 평가를 실시하였으며 이를 통해 제안된 시스템의 성능을 증명하였다.

  • PDF

실시간 그래픽 수화방송 시스템 개발 (Development of the Real-Time Graphic Sign Language Broadcasting System)

  • 오주현;전성규;김병선;김민호;강상욱;권혁철;김익태;송영호
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.191-194
    • /
    • 2015
  • 청각장애인을 위한 지상파방송 서비스 중 자막방송은 100%에 가까운 편성 비율을 달성하고 있지만, 수화방송은 방송화면을 가리는 특성과 비용 등의 문제로 5% 수준의 편성에 그치고 있다. 본 연구에서는 자막방송을 수화로 번역하여 그래픽 수화 방송을 생성함으로써 수화방송의 비율을 높이고자 한다. 일기예보에 한정하여 수화방송을 생성한 기존 연구 결과를 바탕으로 모든 방송 프로그램에 적용 가능한 그래픽 수화방송 시스템을 제안한다. 자막방송 문장을 형태소별로 분석한 다음 중요 품사 위주로 단어 단위로 번역하고, 한국어 어휘의미망을 이용하여 수화사전에 없는 단어를 대표어로 대체하였다. 형제어와 문맥 정보를 이용하여 중의성 단어를 성공적으로 번역하였다. 기존 일기예보 수화방송 시스템의 수화 사전과 수화 모션 데이터베이스를 추가 구축하였다. 자동번역 기술이 전문 수화 통역사의 수준을 따라잡을 수는 없지만 향후 수화방송도 선택적 서비스가 가능해지고 수화통역사의 수화방송이 모든 프로그램에 편성될 때까지 본 시스템이 보조적 시청 수단으로 사용 가능할 것이다.

  • PDF

단어재인에 있어서 글자교환 효과와 한글 처리 모형 탐색 (A Review on the Models of Letter Transposition Effect and Exploration of Hangul Model)

  • 이창환;이윤형
    • 인지과학
    • /
    • 제25권1호
    • /
    • pp.1-24
    • /
    • 2014
  • 단어내의 글자들을 교환하여 제시할 경우 원래의 단어로 혼동하는 현상인 글자 교환 효과에 대한 연구가 활발하다. 이는 글자교환 효과에 대한 연구가 시각단어 재인시 글자가 어떻게 부호화 되는지와 단어재인 초기과정에 영향을 주는 변인과 처리과정에 대한 정보를 제공하기 때문이다. 본 소고에서는 글자교환 효과에 대한 기존의 설명 모형들을 살펴보고, 하향적 인지적 처리를 반영하는 모형의 필요성을 논의하였다. 특히 한글 처리의 경우, 글자의 위치가 정해져 있지 않고 유동적이라고 보는 기존의 모델들과 달리 하향식으로 글자의 위치가 어휘 하위 단위인 초성, 중성, 종성으로 지정되어 있다는 가정이 필요하다. 따라서 이에 기반한 모형을 탐색하고 추후 연구방향을 논의하였다.