• 제목/요약/키워드: Multilingual Classification

검색결과 16건 처리시간 0.023초

과학기술 전문용어의 다국어 의미망 생성과 분석 (Building and Analysis of Semantic Network on S&T Multilingual Terminology)

  • 정도헌;최희윤
    • 정보관리연구
    • /
    • 제37권4호
    • /
    • pp.25-47
    • /
    • 2006
  • 다국어로 구축된 학술정보 시스템의 통합검색 환경을 구현하기 위해서는 다국어 전문용어에 대한 해석을 제공하고 전문용어의 분야별 분류정보를 제공할 수 있는 시스템이 필요하다. 본 연구는 이러한 다국어 환경의 통합 정보검색 시스템을 운용할 수 있도록 기반시스템을 구축하는 것을 목적으로 한다. 다국어 의미망으로 상호 연결된 과학기술 전문용어 체계를 구축하는 방법과 다단계 연결노드에 대한 최단거리 탐색 기법을 소개하였다. 또한, 생성된 용어군집 결과를 해석하기 위한 기초분석을 수행하여 향후 심도있는 분석연구를 수행하기 위한 기반을 마련하고자 하였다.

과학기술 분야 통합 개념체계의 구축 방안 연구 (An Integrated Ontological Approach to Effective Information Management in Science and Technology)

  • 정영미;김명옥;이재윤;한승희;유재복
    • 정보관리학회지
    • /
    • 제19권1호
    • /
    • pp.135-161
    • /
    • 2002
  • 과학기술 분류표, 시소러스, 용어사전 등의 주요한 색인 및 검색 도구를 한국어, 영어 일본어의 3개 언어로 통합 구축하여 활용할 수 있도록 다기능, 다국어 과학기술 통합 개념체계의 모형을 설계하였다. 이 연구에서는 개념을 기본 단위로 한 시소러스 모형을 개발하였으며, 시소러스와 연계되는 용어사전 레코드는 ISO 12620 표준에 근거하여 필수요소를 지정하였다. 또한 과학기술분야 표준분류표를 마련하고 기존의 일반 분류표와의 매핑 테이블을 작성하여 다른 분류표를 통한 접근이 가능하도록 하였다. 본 연구에서 개발한 통합 개념체계를 이용하여 원자력 분야를 대상으로 한 프로토타입 시스템을 구축하고 실제 검색 사례를 제시하였다.

Semantic Web과 Semantic Network을 활용한 다국어 상품검색 에이전트 (Multilingual Product Retrieval Agent through Semantic Web and Semantic Networks)

  • 문유진
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.1-13
    • /
    • 2004
  • 상품검색은 고객들이 전자상거래의 접촉을 시작하는 인터페이스로서 매우 중요한 프로세스이다. 또한 전자상거래는 고객들에게 검색 시 쉽게 접근할 수 있는 프로세스를 제공하여야 한다. 특히 World Wide Web에서 상품정보는 광범위한 고객들이 신속하게 팽창하는 정보를 추적하기 위해서 통합과 표준화가 이뤄져야 한다. 상품 카탈로그(catalogue)에 대한 국제 표준화가 다양한 분야와 업종에서 구축되어져 왔는데, 요즈음은 UNSPSC((Universal Standard Products and Services Classification) 코드로의 수렴에 대한 논의가 활발해지고 있다. 이 표준을 채택하여 이 논문은 다국어상품검색 에이전트의 아키텍쳐(architecture)를 설계한다. 이 아키텍쳐는 중앙등록기 모델의 상품 카탈로그 관리를 기반으로 하여 분산처리의 update프로세스를 채택한다. 또한 이 아키텍쳐는 구매자 관점과 공급자 관점을 모두 고려한다. 상품정보의 일관성과 버전 관리는 UNSPSC코드 시스템에 의하여 제어된다. 고객이 사용하기 편리하도록 표준화에 포함되어져 있지 않은 상품명과 다국어 상품명은 Semantic Network, 시소러스(thesaurus)와 Semantic Web의 상품명 온톨로지 등을 활용하여 해결한다. 이를 위한 알고리즘들을 설계하고 또한 구현한다.

  • PDF

Subject Searching Using Controlled Vocabulary Versus Uncontrolled Vocaburary in Online Catalog System: Focusing on Multilingual Environment

  • 최희윤
    • 정보관리연구
    • /
    • 제26권2호
    • /
    • pp.61-79
    • /
    • 1995
  • 정보검색의 성공여부는 적절한 검색어의 선정에 달려있다고 해도 과언이 아니다. 특히 CD-ROM이나 온라인목록시스템에서 주제검색시 분류표, 주제명과 같은 통제어와 자연어 등 비통제어의 비교 우위 문제는 아직도 논란이 되고 있다. 본고는 두 시스템의 검색효율성을 비교하기 위하여 특히 다언어 환경하에서의 검색어 사용에 중점을 두고 다양한 형태의 검색어휘를 조사 분석하였다.

  • PDF

한글문서 분류용으로 이용할 복합어로 구성된 분야연상어의 추출법 (An Extraction Algorithm of Compound Field-associated Terms for Korean Document Classifications)

  • 이상곤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.636-649
    • /
    • 2005
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 한국어의 경우 180분야로 분류된 약 IS,000개의 문서뱅크를 수집하여 구축 $\cdot$실험한 결과 88,782개의 단일 분야연상어가 8,405개로 전체의 약 9$\%$로 압축되며, 재현율 0.77 이상(평균 0.85), 정확률 0.90 이상(평균 0.94)의 높은 추출 정밀도를 얻었다. 구축한 분야연상어를 문서분류의 초기결정에 적용하여 인간에 의한 분야결정과 비교한 결과 약 90$\%$이상의 정답률을 얻었다. 연구결과를 문서분류의 초기단계에 관한 기초연구로 이용하고, 다언어(multilingual) 간의 문서검색에 적용하여 다국어 정보검색에 대한 기초 연구로 이용할 수 있다.

Anglicisms in the Field of Information Technology: Analysis of Linguistic Features

  • Antonina, Plechko;Tetiana, Chukhno;Tetiana, Nikolaieva;Liliia, Apolonova;Tetiana, Leleka
    • International Journal of Computer Science & Network Security
    • /
    • 제22권4호
    • /
    • pp.183-192
    • /
    • 2022
  • The role that English currently plays is undeniable. It has become the most common means of communication among native speakers of several languages around the world. English penetrates into all areas of people's daily lives. In the field of Information Technology (IT), English has taken a dominant position, as many of the terms used on a daily basis are written in English. The purpose of the article is to analyze the linguistic features of anglicisms in the field of Information Technology. Methods. The research is based on systematic and comparative analysis, dialectical method, as well as methods of classification and generalization. Results. This study presents the results of compiling a multilingual glossary with anglicisms used in the GitHub and 3D Slicer fields. Despite the limited number of terms included in the glossary, the article provides a lot of evidence for the influence of the English language in the areas of Information Technology, GitHub and 3D Slicer under consideration. The types of anglicisms used in the 3D Slicer area seem to be more diverse than in the GitHub area. This study found that five European languages use language strategies to solve any communication problem. The multilingual glossary showed that in some cases there is a coexistence between Anglicism and the native term. In other cases, the English term is the only one used in different languages. There are cases when only the native language is used. Conclusions. This study is a useful tool that helps to improve the efficiency of communication between engineers and technicians who speak different native languages. The ultimate goal of this research will be to create a multilingual glossary that is still under development and is likely to cover other IT areas such as Python and VTK.

한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구 (A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text)

  • 김종수
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.15-30
    • /
    • 2023
  • 근래에 트랜스포머(Transformer) 구조를 기초로 하는 ChatGPT와 같은 생성모델이 크게 주목받고 있다. 트랜스포머는 다양한 신경망 모델에 응용되는데, 구글의 BERT(bidirectional encoder representations from Transformers) 문장생성 모델에도 사용된다. 본 논문에서는, 한글로 작성된 영화 리뷰에 대한 댓글이 긍정적인지 부정적인지를 판단하는 텍스트 이진 분류모델을 생성하기 위해서, 사전 학습되어 공개된 BERT 다국어 문장생성 모델을 미세조정(fine tuning)한 후, 새로운 한국어 학습 데이터셋을 사용하여 전이학습(transfer learning) 시키는 방법을 제안한다. 이를 위해서 104 개 언어, 12개 레이어, 768개 hidden과 12개의 집중(attention) 헤드 수, 110M 개의 파라미터를 사용하여 사전 학습된 BERT-Base 다국어 문장생성 모델을 사용했다. 영화 댓글을 긍정 또는 부정 분류하는 모델로 변경하기 위해, 사전 학습된 BERT-Base 모델의 입력 레이어와 출력 레이어를 미세 조정한 결과, 178M개의 파라미터를 가지는 새로운 모델이 생성되었다. 미세 조정된 모델에 입력되는 단어의 최대 개수 128, batch_size 16, 학습 횟수 5회로 설정하고, 10,000건의 학습 데이터셋과 5,000건의 테스트 데이터셋을 사용하여 전이 학습시킨 결과, 정확도 0.9582, 손실 0.1177, F1 점수 0.81인 문장 감정 이진 분류모델이 생성되었다. 데이터셋을 5배 늘려서 전이 학습시킨 결과, 정확도 0.9562, 손실 0.1202, F1 점수 0.86인 모델을 얻었다.

DDC in DSpace: Integration of Multi-lingual Subject Access System in Institutional Digital Repositories

  • Roy, Bijan Kumar;Biswas, Subal Chandra;Mukhopadhyay, Parthasarathi
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제7권4호
    • /
    • pp.71-84
    • /
    • 2017
  • The paper discusses the nature of Knowledge Organization Systems (KOSs) and shows how these can support digital library users. It demonstrates processes related to integration of KOS like the Dewey Decimal Classification, $22^{nd}$ edition (DDC22) in DSpace software (http://www.dspace.org/) for organizing and retrieving (browsing and searching) scholarly objects. An attempt has been made to use the DDC22 available in Bengali language and highlights the required mechanisms for system-level integration. It may help a repository administrator to build an IDR (Institutional Digital Repository) integrated with SKOS-enabled multilingual subject access systems for supporting subject descriptors based indexing (DC.Subject metadata element), structured navigation (browsing) and efficient searching.

기계번역을 이용한 교차언어 문서 범주화의 분류 성능 분석 (Classification Performance Analysis of Cross-Language Text Categorization using Machine Translation)

  • 이용구
    • 한국문헌정보학회지
    • /
    • 제43권1호
    • /
    • pp.313-332
    • /
    • 2009
  • 교차언어 문서 범주화(CLTC)는 다른 언어로 된 학습집단을 이용하여 문헌을 자동 분류할 수 있다. 이 연구는 KTSET으로부터 CLTC에 적합한 실험문헌집단을 추출하고, 기계 번역기를 이용하여 가능한 여러 CLTC 방법의 분류 성능을 비교하였다. 분류기는 SVM 분류기를 이용하였다. 실험 결과, CLTC 중에 다국어 학습방법이 가장 좋은 분류 성능을 보였으며, 학습집단 번역방법, 검증집단 번역방법 순으로 분류 성능이 낮아졌다. 하지만 학습집단 번역방법이 기계번역 측면에서 효율적이며, 일반적인 환경에 쉽게 적용할 수 있고, 비교적 분류 성능이 좋아 CLTC 방법 중에서 가장 높은 이용 가능성을 보였다. 한편 CLTC에서 기계번역을 이용하였을 때 번역과정에서 발생하는 자질축소나 주제적 특성이 없는 자질로의 번역으로 인해 성능 저하를 가져왔다.

다국어 음성인식을 위한 언어별 출력 계층 구조 Wav2Vec2.0 (Language Specific CTC Projection Layers on Wav2Vec2.0 for Multilingual ASR)

  • 이원준;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.414-418
    • /
    • 2021
  • 다국어 음성인식은 단일언어 음성인식에 비해 높은 난이도를 보인다. 하나의 단일 모델로 다국어 음성인식을 수행하기 위해선 다양한 언어가 공유하는 음성적 특성을 모델이 학습할 수 있도록 하여 음성인식 성능을 향상시킬 수 있다. 본 연구는 딥러닝 음성인식 모델인 Wav2Vec2.0 구조를 변경하여 한국어와 영어 음성을 하나의 모델로 학습하는 방법을 제시한다. CTC(Connectionist Temporal Classification) 손실함수를 이용하는 Wav2Vec2.0 모델의 구조에서 각 언어마다 별도의 CTC 출력 계층을 두고 각 언어별 사전(Lexicon)을 적용하여 음성 입력을 다른 언어로 혼동되는 경우를 원천적으로 방지한다. 제시한 Wav2Vec2.0 구조를 사용하여 한국어와 영어를 잘못 분류하여 음성인식률이 낮아지는 문제를 해결하고 더불어 제시된 한국어 음성 데이터셋(KsponSpeech)에서 한국어와 영어를 동시에 학습한 모델이 한국어만을 이용한 모델보다 향상된 음성 인식률을 보임을 확인하였다. 마지막으로 Prefix 디코딩을 활용하여 언어모델을 이용한 음성인식 성능 개선을 수행하였다.

  • PDF