Search | Korea Science

Word and class-based language modeling for Korean (단어와 클래스 기반의 한국어 언어 모델링)

Kim, Kil-Youn;Choi, Key-Sun
- Annual Conference on Human and Language Technology
- /
- 2001.10d
- /
- pp.221-225
- /
- 2001
본 논문에서는 대량의 말뭉치를 바탕으로 한국어에 대해 단어 기반의 n-gram 언어 모델과 클래스 기반의 언어 모델을 구축하고, 이를 실험적으로 검증한다. 단어 기반의 n-gram 모델링의 경우 Katz의 백오프와 Kneser-ney의 스무딩(smoothing) 알고리즘에 대해 실험을 수행한다. 클래스 기반의 언어 모델의 경우에는 품사 태그를 단어의 클래스로 사용한 경우와 말뭉치로부터 자동으로 구축된 클래스를 사용한 경우로 나누어 실험한다. 마지막으로 단어 기반 모델과 클래스 기반 모델을 결합하여 각각의 모델과 그 성능을 비교한다. 실험 결과 단어 기반의 언어 모델의 경우 Katz의 백오프에 비해 Knerser-ney의 스무딩이 보다 조은 성능을 나타내었다. 클래스 기반의 모델의 경우 품사 기반의 방범보다 자동 구축된 단어 클래스를 이용하는 방법의 성능이 더 좋았다. 또한, 단어 모델과 클래스 모델을 결합한 모델이 가장 좋은 성능을 나타냈다. 논문의 모든 알고리즘은 직접 구현되었으며 KLM Toolkit이란 이름으로 제공된다.
PDF

KcBERT: Korean comments BERT (KcBERT: 한국어 댓글로 학습한 BERT)

Lee, Junbum
- Annual Conference on Human and Language Technology
- /
- 2020.10a
- /
- pp.437-440
- /
- 2020
최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.
PDF

Comparative Analysis of Language Model Performance in News Domain Summarization (언어 모델의 뉴스 도메인 요약 성능 비교 분석)

Sangwon Ryu;Yunsu Kim;Gary Geunbae Lee
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.131-136
- /
- 2023
본 논문에서는 기존의 요약 태스크에서 주로 사용하는 인코더-디코더 모델과 디코더 기반의 언어 모델의 성능을 비교한다. 요약 태스크를 평가하는 주요한 평가 지표인 ROUGE 점수의 경우, 정답 요약문과 모델이 생성한 요약문 간의 겹치는 단어를 기준으로 평가한다. 따라서, 추상적인 요약문을 생성하는 언어 모델의 경우 인코더-디코더 모델에 비해 낮은 ROUGE 점수가 측정되는 경향이 있다. 또한, 최근 연구에서 정답 요약문 자체의 낮은 품질에 대한 문제가 되었고, 이는 곧 ROUGE 점수로 모델이 생성하는 요약문을 평가하는 것에 대한 신뢰도 저하로 이어진다. 따라서, 본 논문에서는 언어 모델의 요약 성능을 보다 다양한 관점에서 평가하여 언어 모델이 기존의 인코더-디코더 모델보다 좋은 요약문을 생성한다는 것을 보인다.
PDF

Physical Computing Learning Model for Information and Communication Education (정보통신기술 교육을 위한 피지컬 컴퓨팅 학습모델)

Lee, Yong-Jin
- Journal of Internet of Things and Convergence
- /
- v.2 no.3
- /
- pp.1-6
- /
- 2016
This paper aims to present the physical computing learning model applicable in teaching the information and communication technology for technology and engineering education. This model is based on the physical computing and deals with the information creation and information transfer in one framework, thus provides students with the total understanding and practice opportunity about information and communication. The proposed learning models are classified into the client-server based model and the web based model. In the implemented learning model, the acquirement and control of information is performed by sketch on Arduino and the communication of information is performed by the Python socket on Raspberry Pi well known as an education platform. Our proposed learning model can be used for teaching students to understand the concept of Internet of Things (IoT), which provides us with world wide control and communication of information.
https://doi.org/10.20465/KIOTS.2016.2.3.001 인용 PDF KSCI

A Resource Information Model for High Performance GRID Environemnts (고성능 그리드 환경을 위한 자원정보모델에 관한 연구)

Kim Hie-Cheol;Lee Kang-Woo;Lee Yong-Doo;Cho Sae-Hong
- Journal of Digital Contents Society
- /
- v.2 no.2
- /
- pp.167-178
- /
- 2001
For high performance Grid environments, an effective GIS(Grid Information System) should be adopted. In the design of GIS architecture, its grid resource information model provides a key basis. This paper presents our study on the exploration of a high performance grid resource information model. According the exploration, we identified the followings. The resource information model should clearly address the issues of relation descriptions as well as resource descriptions, issues related to scheduling support, the issue of decoupling the expression model of resource information from data repository models, and finally the issue of decoupling user-level resource descriptions from system-level resource descriptions. Based on the proposed conceptual organization of resource information models, analysis result for the existing resource information models are presented.
PDF

Generation of Open City Information Model for Disaster Prevention (방재업무 활용을 위한 개방형 도시정보모델 생성)

Park, Sang Il;Song, Min Sun;Jang, Young-Hoon;Seo, Kyung-Wan;Lee, Sang-Ho
- Journal of the Computational Structural Engineering Institute of Korea
- /
- v.27 no.4
- /
- pp.321-328
- /
- 2014
Clear understanding and related information management of geography and city facilities are the fundamental approach to prevent city disaster. In order to accomplish the service to prevent city disaster effectively, there needs to be a consistent framework for data collection, to build models, and to manage information. In this study, the authors proposed standardized city information modeling process and application concept to use information model for service of preventing city disaster in information management standpoint. The study was conducted on the process of classification and necessary attributes to manage city facilities effectively considering disaster related information. Additionally, the study suggested the methods for building an open city information model based on an integrated data schema, CityGML. Finally, through the implementation of sample model, the study confirmed city information modeling methodology and applicability for service of disaster prevention.
https://doi.org/10.7734/COSEIK.2014.27.4.321 인용 PDF KSCI

A Study on the Development of Automatic Manufactured Urban 3D Model by Using Numerical Map (수치지도를 이용한 3차원 도시공간모델 소프트웨어 개발에 관한 연구)

Li, Guang-Zhe;Li, Song-Jun;Fang, Chun-Ri;Lee, Sang-Hyun
- Proceedings of the KAIS Fall Conference
- /
- 2007.05a
- /
- pp.279-282
- /
- 2007
본 연구의 목적은 조정을 거친 수치지도를 이용하여 3차원 도시공간모델을 생성하는 자동제작기를 제안하는 것이다. 일반적인 디지털 도시공간모탤 제작방식에 대해 분석하여 3차원 도시공간모델 제작에 필요한 소요정보 및 공간제작함수(기능, Method} 등을 추출한다. 수치지도에서 3차원 도시공간모델 제작에 필요한 정보를 추출하고 이런 정보들을 가공하여 모텔제작에 사용가능한 정보로 바꾸어 준다. 또한 수치지도를 이용하여 3차원 모델을 제작할 때 사용자가 필요로 하는 부가정보들을 수동으로 입력할 수 있도록 한다. 수치지도에서 얻는 정보에 공간제작함수를 적용해서 3차원 모텔을 제작한다. 수치지도가 2차원지도로만 활용되고 있는 현실이며 수치지도의 다양한 3차원 정보를 이용한 3차원 도시 공간모델 자동제작을 제안함으로써 재래식 모델제작에 필요했던 대량의 시간과 노동력을 절감할 것이고 또한 제작된 도시공간모텔은 건축이나 도시설계분야에서 보다 경제적이고 보다 쉽게 활용될 수 있을 것이라고 기대된다.
PDF

Designing a New ebXML Registry Information Model for Ontology Data (온톨로지 데이타를 위한 새로운 ebXML 레지스트리 정보 모델의 설계)

Roh, Yo-Han;Kim, Hang-Kyu;Kim, Hak-Soo;Yun, Jung-Hee;Son, Jin-Hyun;Kim, Myoung-Ho
- Proceedings of the Korean Information Science Society Conference
- /
- 2006.10c
- /
- pp.291-296
- /
- 2006
OASIS의 ebXML 레지스트리는 e-비즈니스 컨텐츠 및 이에 대한 표준화된 메타-데이터를 안전하게 저장 및 관리하는 정보 시스템이다. ebXML 레지스트리 내의 e-비즈니스 정보에 대한 메타-데이터의 스키마는 OASIS 표준문서에 미리 정의되어 있으며, 이를 ebXML 레지스트리 정보모델(RIM: Registry information Model)이라 한다. 한편, 전자상거래 환경에서 시맨틱 정보 처리 기술을 도입하여 보다 효율적이고 원활한 상거래를 지원하기 위한 노력의 일환으로, 기존 ebXML 레지스트리에 온톨로지 기반의 시맨틱 정보를 관리 혹은 처리하는 기능을 추가하려는 연구에 많은 관심이 집중되고 있다. 이에 본 연구에서는, OWL 시맨틱 정보 구성자(semantic construct)로 표현된 온톨로지 데이터가 ebXML 레지스트리 내에 관리될 수 있도록 새로운 ebXML 레지스트리 정보 모델, 즉 시맨틱 정보 모델(SIM: Semantic Information Model)을 제시한다. 이를 기반으로 ebXML 레지스트리 내에서 온톨로지 정보의 추론을 이용한 지능형 정보 처리가 가능해진다. 본 논문에서는 온톨로지 데이터를 위한 새로운 ebXML 레지스트리 정보 모델을 제안하며, 아울러 온톨로지 정보 추론을 활용한 지식 처리의 예를 제시한다.
PDF

데이터베이스 산업의 전망과 과제- 유비쿼터스 데이터베이스 시대를 준비하라!

Lee, Chang-Han
- Digital Contents
- /
- no.6 s.133
- /
- pp.92-94
- /
- 2004
국내 데이터베이스 시장은 정보 선진국인 미국이나 일본에 비해 전체 매출 규모나 데이터베이스 단위당 매출 규모가 매우 뒤떨어져 있다. 이는 이용 측면에서 국내 이용자들이 유료 정보에 대한 인식이나 비즈니스 활동에 있어서 정보의 중요성에 대한 인식이 아직 취약하고, 제공 측면에서는 고품질의 정보 콘텐츠가 적다는데 근본 원인이 있다. 기존에는 데이터베이스 사업자의 주요 수익 모델이 유료 회원 제도를 통한 회원 수입이나 정보 이용료를 통한 종량제 수입이 주류를 이뤘다. 하지만 최근에는 정보의 유통 매체가 웹으로 발전함에 따라 인터넷의 포털사이트를 통한 정보가 폭발적으로 증가하고 있다. 때문에 기존 정보제공 사업자들은 웹이라는 강력한 매체를 통해 자신의 정보에 새로운 비즈니스 모델을 부가해 수익을 창출하고, 콘텐츠간 융합 또는 기존의 오프라인 비즈니스 모델과 융합하는 등 다양한 형태의 서비스를 제공하고 있다.
PDF

A Hypertext Categorization Model Exploiting Link and Incrementally Available Category Information (점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 모델)

Oh, Hyo-Jung;Lim, Jeong-Mook;Lee, Mann-Ho;Myaeng, Sung-Hyon
- Annual Conference on Human and Language Technology
- /
- 1999.10e
- /
- pp.89-96
- /
- 1999
본 논문은 하이퍼텍스트가 갖는 중요한 특성인 링크 정보를 활용한 문서 분류 모델을 제안한다. 하이퍼링크는 문서간의 관계를 나타내는 유용한 정보로서 링크를 통해 연결된 두 문서는 내용적으로 관련이 있어 검색에 도움을 준다는 것은 이미 밝혀진바 있다. 본 논문에서는 이러한 과거 연구를 바탕으로 새로운 문서 분류 모델을 제안하는데, 이 모델의 주안점은 대상 문서와 링크로 연결된 이웃 문서의 내용 및 범주를 분석하여 대상 문서 벡터를 조정하고, 이를 근거로 문서의 범주를 결정한다. 이웃 문서에 포함된 용어를 반영함으로써 대상 문서의 내용을 확장 해석하고, 이웃 문서의 가용 분류 정보가 있는 경우 이를 참조함으로써 정확도 향상을 기한다. 이 모델은 이웃한 문서의 범주가 미리 할당되어 있지 않은 경우 용어 기반 분류 방법으로 가용 범주를 할당하고, 이렇게 할당된 분류 정보가 다시 새로운 문서의 범주를 결정할 때 사용됨으로써, 문서 집합 전체의 분류가 점진적으로 이루어지며 그 정확도를 더해 나가는 효과를 가져올 수 있다. 이러한 접근 방법은 일반 웹 환경에 적용할 수 있는데, 특히 하이퍼텍스트를 주제별로 분류하여 관리하는 검색 엔진의 경우 매일 쏟아져 나오는 새로운 문서와 기존 문서간의 링크를 활용함으로써 전체 시스템의 점진적인 분류에 매우 유용하다. 제안된 모델을 검증하기 위하여 Reuter-21578과 계몽사(ETRI-Kyemong) 자료를 대상으로 실험한 결과 18.5%의 성능 향상을 얻었다.
PDF

Search Result 23,437, Processing Time 0.054 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)