• 제목/요약/키워드: 데이터사전

검색결과 2,014건 처리시간 0.033초

PLIB 파트42를 이용한 자동차 부품의 데이터사전

  • 김영범;조준면
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2001년도 International Conference CALS/EC KOREA
    • /
    • pp.289-304
    • /
    • 2001
  • ◆ 자동차 부품 데이터사전의 작성 ㆍ PLIB Part42의 방법론 적용 ㆍ ESPRIT PLUS Project 방법론의 적용 ㆍ 자동차 부품 데이터사전의 제시 ㆍ 전자상거래를 위한 정보 표준화 방향을 제시 ◆ 데이터사전 방법론의 유용성 확인 ㆍ 검색, 확장, 수정의 유용성 확인

  • PDF

사전기반 항목명 표준화 시스템 설계 및 구현 (Design and Implementation of Dictionary-based Column Name Standardization System)

  • 신수미;문영수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.621-624
    • /
    • 2021
  • 최근 빅데이터에 대한 관심이 높아지면서 분석을 위해 필요한 데이셋의 표준화에 대한 중요성이 강조되고 있다. 데이터 표준화를 위해서는 업무 처리에 필요한 모든 데이터의 명명 규칙을 규정하고 그 기준에 따라 표준 명칭을 부여하여야 한다. 본 연구에서는 사전을 기반으로 하는 항목명 표준화 시스템을 제안하였다. 제안한 시스템은 공개된 표준단어사전을 활용하여 유의어를 포함한 참조 사전을 구축하고 이를 기반으로 표준사전을 구축하여 표준 항목명을 제공한다. 기 구축된 데이터셋의 항목명을 입력하거나 사용자가 원하는 새로운 항목명을 입력하면 항목명 표준화 시스템은 표준화된 한글 항목명과 영문 항목명, 그리고 테이블 설계에 사용하는 영문 약어명을 출력한다. 본 연구에서 제안한 시스템을 테이블 설계에 활용하거나 기 구축된 데이터셋을 표준화하는데 적용하면 일관된 데이터 해석이나 관리가 가능할 것으로 기대된다.

  • PDF

유통 상품의 데이터 품질 관리를 위한 데이터 표준화에 대한 연구 (An Empirical Study on Quality Improvement by Data Standardization for Distributed Goods)

  • 송장섭;류성렬
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권9호
    • /
    • pp.101-109
    • /
    • 2013
  • 데이터 품질 관리는 매우 중요하다. 본 연구는 효율적인 기업 데이터의 품질 관리를 위한 데이터 표준화 설계를 유통 상품 사례로 구축 방안을 제시하고 그 효과를 검증 하였다. 데이터 표준화 설계 방안으로 데이터 표준화 체계와 데이터 사전을 설계 하였다. 데이터 표준화 체계 설계를 위하여 데이터를 분류, 속성, 식별하였으며, 데이터 사전 설계를 위하여 데이터 사전 설계 프로세스와 단어 용어 도메인 코드사전을 구축하고, 데이터 표준화 설계 방안을 제시하였다. 제시한 데이터 표준화 방안의 효율성을 정량적, 정성적 방법으로 검증한 결과데이터표준화로 인한 데이터 품질은 24% 및 데이터 사전의 속성 설계인 일관성에 대한 데이터의 구조적 품질은 7% 향상되고, 유효함을 입증하였다.

사전 기반 자질과 동적 마스킹을 이용한 ELECTRA 기반 개체명 인식 (Named Entity Recognition based on ELECTRA with Dictionary Features and Dynamic Masking)

  • 김정욱;황태선;김봉수;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.509-513
    • /
    • 2021
  • 개체명 인식이란, 문장에서 인명, 지명, 기관명, 날짜, 시간 등의 고유한 의미의 단어를 찾아서 미리 정의된 레이블로 부착하는 것이다. 일부 단어는 문맥에 따라서 인명 혹은 기관 등 다양한 개체명을 가질 수 있다. 이로 인해, 개체명에 대한 중의성을 가지고 있는 단어는 개체명 인식 성능에 영향을 준다. 본 논문에서는 개체명에 대한 중의성을 최소화하기 위해 사전을 구축하여 ELECTRA 기반 모델에 적용하는 학습 방법을 제안한다. 또한, 개체명 인식 데이터의 일반화를 개선시키기 위해 동적 마스킹을 이용한 데이터 증강 기법을 적용하여 실험하였다. 실험 결과, 사전 기반 모델에서 92.81 %로 성능을 보였고 데이터 증강 기법을 적용한 모델은 93.17 %로 높은 성능을 보였다. 사전 기반 모델에서 추가적으로 데이터 증강 기법을 적용한 모델은 92.97 %의 성능을 보였다.

  • PDF

한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법 (Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model)

  • 김훈래;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF

전자사전 컴포넌트의 구현 (Component Implementation of Electronic Dictionary)

  • 최성운
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.587-592
    • /
    • 2001
  • 사무자동화의 필요성이 증가함에 따라 많은 응용 프로그램이 개발되고 있으며, 전자사전은 이러한 사무용 프로그램의 주요 구성요소 중 하나이다. 효율적인 전자사전은 빠른 검색을 지원해야 하며, 타 사전과 데이터 교환을 통해 사어 및 신조어에 대처할 수 있어야 한다. 또한 전자 사전 프로그램 자체의 재사용의 고려하여 전자 사전 프로그램 구축비용 및 시간을 절감할 수 있어야 한다. 본 논문에서는 사전 내부 데이터 표현 형식을 정의하여 정의된 표현 방식에 기초한 타 전자 사전 데이터 교환을 가능하게 하는 방안을 제시하였다. 또한 재사용 및 호환성을 향상시키기 위하여 사전 구조를 시스템 사전 컴포넌트와 사용자 사전 컴포넌트로 나누어 구현하여 차후 바이너리 단위로의 재사용을 가능하게 하였다. 컴포넌트화로 인한 검색속도 저하 가능성은 트라이 및 B 트리 인덱스 구조를 통하여 효과적으로 방지하였다.

  • PDF

표 질의응답을 위한 언어 모델 학습 및 데이터 구축 (Pre-trained Language Model for Table Question and Answering)

  • 심묘섭;전창욱;최주영;김현;장한솔;민경구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.335-339
    • /
    • 2021
  • 기계독해(MRC)는 인공지능 알고리즘이 문서를 이해하고 질문에 대한 정답을 찾는 기술이다. MRC는 사전 학습 모델을 사용하여 높은 성능을 내고 있고, 일반 텍스트문서 뿐만 아니라 문서 내의 테이블(표)에서도 정답을 찾고자 하는 연구에 활발히 적용되고 있다. 본 연구에서는 기존의 사전학습 모델을 테이블 데이터에 활용하여 질의응답을 할 수 있는 방법을 제안한다. 더불어 테이블 데이터를 효율적으로 학습하기 위한 데이터 구성 방법을 소개한다. 사전학습 모델은 BERT[1]를 사용하여 테이블 정보를 인코딩하고 Masked Entity Recovery(MER) 방식을 사용한다. 테이블 질의응답 모델 학습을 위해 한국어 위키 문서에서 표와 연관 텍스트를 추출하여 사전학습을 진행하였고, 미세 조정은 샘플링한 테이블에 대한 질문-답변 데이터 약 7만건을 구성하여 진행하였다. 결과로 KorQuAD2.0 데이터셋의 테이블 관련 질문 데이터에서 EM 69.07, F1 78.34로 기존 연구보다 우수한 성능을 보였다.

  • PDF

계층적 개념 트리를 이용한 문서 분할 기법 (Text segmentation using concept hierarchy tree)

  • 이병희;최익규;박승규;김인구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.166-168
    • /
    • 2003
  • 문서 분할 기법은 문서 내에 존재하는 다양한 주제들을 자동적으로 추출하는 기법이다. 이 분야의 연구는 크게 사전적 관계에 근거한 기법과 통계적 데이터에 근거한 기법으로 나누어져 연구되어 왔다. 사전적 관계에 의한 기법은 단어들의 사전적 의미와 관계에 근거한 기법이고 통계적 데이터에 의한 기법은 주로 단어들의 분포를 이용한 기법이다. 여기에는 몇가지 문제점이 있는데 사전적 관계에 근거한 경우에는 분산된 주제들을 통합하여 추출하기 어렵고. 통계적 데이터에 근거한 기법은 정확한 주제의 개수를 찾기 어렵다는 점이다. 본 논문에서는 계층적 개념 트리를 이용하여 보다 정확한 개수의 주제들을 찾아낼 수 있는 문서 분할 기법에 대해 소개 하고자 한다.

  • PDF

비정형 데이터를 활용한 감기 판단 사전 구축 (Constructing the Dictionary of Flue using unstructured data)

  • 김광민;남기훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1187-1190
    • /
    • 2015
  • 최근에 비정형 데이터의 잠재적 가치를 유용한 데이터로써 사용하려는 경우가 많아지고 있다. 특히 트위터는 사용자의 상태나 이벤트가 잘 나타나 있어서 하나의 사용자의 이벤트로서 간주될 수 있다. 본 논문은 트위터에서 발생하는 이벤트에 주목하여, 감기라는 이벤트를 트위터 내에서 추적하고자 한다. 추적을 위해서는 트위터를 판단할 필요가 있는데, 이를 위해 기존의 감성 사전 방식 중 하나인 통계적 사전 구축을 기반으로 키워드를 활용하여 감기 판단 사전을 구축하는 방식을 제안한다.

도메인 변화에 강건한 사전학습 표 언어모형 (Domain-agnostic Pre-trained Language Model for Tabular Data)

  • 조상현;최제훈;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.346-349
    • /
    • 2021
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 f1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 f1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF