• 제목/요약/키워드: named data

검색결과 1,227건 처리시간 0.028초

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 (Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs)

  • 박용민;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.285-292
    • /
    • 2014
  • 개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

An Active Co-Training Algorithm for Biomedical Named-Entity Recognition

  • Munkhdalai, Tsendsuren;Li, Meijing;Yun, Unil;Namsrai, Oyun-Erdene;Ryu, Keun Ho
    • Journal of Information Processing Systems
    • /
    • 제8권4호
    • /
    • pp.575-588
    • /
    • 2012
  • Exploiting unlabeled text data with a relatively small labeled corpus has been an active and challenging research topic in text mining, due to the recent growth of the amount of biomedical literature. Biomedical named-entity recognition is an essential prerequisite task before effective text mining of biomedical literature can begin. This paper proposes an Active Co-Training (ACT) algorithm for biomedical named-entity recognition. ACT is a semi-supervised learning method in which two classifiers based on two different feature sets iteratively learn from informative examples that have been queried from the unlabeled data. We design a new classification problem to measure the informativeness of an example in unlabeled data. In this classification problem, the examples are classified based on a joint view of a feature set to be informative/non-informative to both classifiers. To form the training data for the classification problem, we adopt a query-by-committee method. Therefore, in the ACT, both classifiers are considered to be one committee, which is used on the labeled data to give the informativeness label to each example. The ACT method outperforms the traditional co-training algorithm in terms of f-measure as well as the number of training iterations performed to build a good classification model. The proposed method tends to efficiently exploit a large amount of unlabeled data by selecting a small number of examples having not only useful information but also a comprehensive pattern.

개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법 (Automatic Training Corpus Generation Method of Named Entity Recognition Using Knowledge-Bases)

  • 박영민;김예진;강상우;서정연
    • 인지과학
    • /
    • 제27권1호
    • /
    • pp.27-41
    • /
    • 2016
  • 개체명 인식은 미리 정의된 개체 범주로 텍스트의 요소를 분류하는 과정을 의미하며 최근 주목 받고 있는 음성 비서 서비스 등 다양한 응용 분야에 널리 활용되고 있다. 본 논문에서는 지식베이스를 사용하여 개체명 인식 코퍼스를 자동으로 생성하는 방법을 제안한다. 지식베이스의 종류에 따라 두 가지 방법을 적용하며 그 중 첫 번째 방법은 위키피디아를 기반으로 위키피디아 본문의 문장에 개체명 표지를 부착하여 학습 코퍼스를 생성하는 방법이다. 두 번째 방법은 인터넷으로부터 다양한 형태의 문장을 수집하고 다양한 개체들 간의 관계를 데이터베이스에 보유 중인 프리베이스를 이용하여 개체명 표지를 부착하는 방법으로 학습 코퍼스를 생성한다. 자동 생성된 학습 코퍼스의 질과 본 논문에서 제안하는 학습 코퍼스 자동 생성 기법을 평가하기 위해 두 가지로 실험했다. 첫 번째, 다른 형태의 지식베이스인 위키피디아와 프리베이스(Freebase)를 기반으로 생성된 학습 코퍼스의 표지 부착 성능을 수동으로 측정하여 코퍼스의 질을 평가하였다. 두 번째, 각 코퍼스로 학습된 개체명 인식 모델의 성능을 통해 제안하는 학습 코퍼스 자동 생성 기법의 실용성을 평가하였다. 실험을 통해 본 방법이 타당함을 증명하였으며 특히 실제 응용에서 많이 사용되는 웹 데이터 환경에서 의미 있는 성능 향상을 보여주었다.

  • PDF

A Cache Privacy Protection Mechanism based on Dynamic Address Mapping in Named Data Networking

  • Zhu, Yi;Kang, Haohao;Huang, Ruhui
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권12호
    • /
    • pp.6123-6138
    • /
    • 2018
  • Named data networking (NDN) is a new network architecture designed for next generation Internet. Router-side content caching is one of the key features in NDN, which can reduce redundant transmission, accelerate content distribution and alleviate congestion. However, several security problems are introduced as well. One important security risk is cache privacy leakage. By measuring the content retrieve time, adversary can infer its neighbor users' hobby for privacy content. Focusing on this problem, we propose a cache privacy protection mechanism (named as CPPM-DAM) to identify legitimate user and adversary using Bloom filter. An optimization for storage cost is further provided to make this mechanism more practical. The simulation results of ndnSIM show that CPPM-DAM can effectively protect cache privacy.

호스피스 대상자의 돌봄 요구 유형에 관한 주관성 연구 (A Study on the Subjectivity of Care Needs for Hospice Patients)

  • 용진선;한성숙
    • 성인간호학회지
    • /
    • 제16권4호
    • /
    • pp.677-689
    • /
    • 2004
  • Purpose: The purpose of the study was to identify types of care needs for hospice patients through Q- methodology. Method: Twenty three Q-statements were selected through in-depth interviews of hospice patients. Data were collected from 20 hospice patients by sorting 23 Q-statements into 9 points standard and then analyzed using PC QUANL program. Result: Type 1 was named 'the need for pain control type' and patients of this type had the greatest need of physical care to be free of pain and be comfortable. Type 2 was named 'the need for love and intimacy type' and patients of this type would like to share love and intimacy with their family members. Type 3 was named 'the needs for reliance on an Absolute Being type' and patients of this type would like to receive forgiveness from their God and prayers. Type 4 was named 'the need for accomplishment and service type' and patients of this type would like to complete their on going work and to give service to others. Conclusion: The study result could be basic data to perform effective nursing interventions for satisfying the care needs of hospice patients.

  • PDF

Federated Named Data Networking Testbed for Climate Science

  • ;임헌국
    • 한국통신학회논문지
    • /
    • 제42권4호
    • /
    • pp.780-784
    • /
    • 2017
  • Data discovery and distribution application that is utilized by climate, high energy physics, and other scientific communities are experiencing performance and large scale data managing problems, that are rooted from the shortcomings of IP architecture. To solve this problem, newly developed data managing applications based on NDN architecture were introduced. In this letter, we present the federated NDN testbed with an NDN-based climate science application and the set of experiments that reflect the performance of NDN based climate application in general with determined and applied optimization.

노인요양시설 간호사의 치매환자 통증확인 유형 (A Study on the Types of Pain Identification by Nurses for Nursing Home Patients with Dementia)

  • 이수정;장성옥
    • 기본간호학회지
    • /
    • 제17권4호
    • /
    • pp.508-519
    • /
    • 2010
  • Purpose: This study was done to identify the types of pain identification made by nurses caring for patients with dementia in nursing homes. Method: To collect the Q-population, 12 nurses working in nursing homes were interviewed. From the collected data, 69 statements were derived and eight patterns of pain identification were categorized. Thirty statements were derived as the Q-sample. Thirty nurses were sampled as the P-sample. The 30 Q-cards with Q-statements were Q-sorted by the P-sample. The results of the Q-sorting were coded and analyzed using the PC QUANL program. Results: Five types of pain identification were identified by nurses for patients with dementia living in nursing homes; Type 1 was named "estimating based on verbal expressions". Type 2 was named "reasoning through physical symptoms". Type 3 was named "confirming pain based on nonverbal expressions being consistent with conditions of physical function". Type 4 was named "empathizing with vocal expressions". Type 5 was named "confirming by comparison with objective pain indicators one by one". Conclusions: The results of this study indicate that comprehensive understanding of pain identification by nurses could help improve the assessment of pain in patients with dementia.

Lower body shape classification of male university students

  • Cha, Su-Joung
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권3호
    • /
    • pp.135-141
    • /
    • 2019
  • The purpose of this study was to analyze the direct measurement data of 20-25 years male university students of 7th Size Korea data and to characterize and to type the body shape of lower body. It was to provide basic data for male university students' pants pattern production. The lower body part consisted of the 'horizontal factor' of the lower body composed of circumference, thickness, width, and 'vertical factor' of the lower body composed of the length and height. This was consistent with the analysis of the body shape factor of the lower half of male adolescents. The lower body shape was classified into four types. Type 1 was thick and relatively long in the lower body and was named 'thick long leg'. Type 2 was named 'short bird legs' because the lower body was thin and relatively short. Type 3 was relatively thin and long, so the lower body was named 'long crane leg'. In Type 4, the lower body was relatively thick and short, which means 'short pillar leg'. In the case of 20-25 year-old male university students, they have different body shapes depending on the girth and length of the lower half of their body as they have reached adulthood. Therefore, it would be necessary to provide a sales system that allows the repair of the length of the pants to be facilitated, and the length of the pants to be repaired when the pants are selected according to the circumference. Future studies will need to classify the body shape according to angle and flatness.

한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발 (Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs)

  • 김경민;김규경;조재춘;임희석
    • 한국융합학회논문지
    • /
    • 제9권12호
    • /
    • pp.47-52
    • /
    • 2018
  • 개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.

HMM에 기반한 한국어 개체명 인식 (HMM-based Korean Named Entity Recognition)

  • 황이규;윤보현
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.229-236
    • /
    • 2003
  • 개체명 인식은 질의응답 시스템이나 정보 추출 시스템에서 필수 불가결한 과정이다. 이 논문에서는 HMM 기반의 복합 명사 구성 원리를 이용한 한국어 개체명 인식 방법에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있다. 또한, 하나의 개체명을 구성하는 단어들 사이와 개체명과 개체명 주위의 단어 사이에도 문맥적 관계를 가지고 있다. 본 논문에서는 단어들을 개체명 독립 단어, 개체명 구성 단어, 개체명 인접 단어로 분류하고, 개체명 관련 단어 유형과 품사를 기반으로 HMM을 학습하였다. 본 논문에서 제안하는 개체명 인식 시스템은 가변길이의 개체명을 인식하기 위해 트라이그램 모델을 사용하였다. 트라이그램 모델을 이용한 HMM은 데이터 부족 문제를 가지고 있으며, 이를 해결하기 위해 다단계 백-오프를 이용하였다. 경제 분야 신문기사를 이용한 실험 결과 F-measure 97.6%의 결과를 얻었다.