• 제목/요약/키워드: 중요정보

검색결과 21,691건 처리시간 0.046초

병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역 (Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation)

  • 박찬준;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF

데이터 분할구조에서의 H.264/AVC 움직임 벡터의 다중표현 부호화와 다중표현 정합을 이용한 복호화 (Multiple Description Coding of H.264/AVC Motion Vector under Data Partitioning Structure and Decoding Using Multiple Description Matching)

  • 양정엽;전병우
    • 대한전자공학회논문지SP
    • /
    • 제44권6호
    • /
    • pp.100-110
    • /
    • 2007
  • 부호화된 동영상 데이터를 전송할 때 발생하는 전송 채널상의 에러로 손실된 정보는 수신측의 복호화 된 영상의 화질을 크게 열화 시킨다. 특히 움직임 벡터나 매크로 블록 모드 정보와 같이 중요도가 높은 정보가 손실될 경우, 에러로 인한 이러한 화질 저하는 더욱 심각하다. 이러한 문제를 해결하기 위한 에러 강인 기술의 하나로, 압축동영상 정보의 중요도에 따라 정보를 분할하여 중요도가 높은 정보를 더욱 강하게 보호할 수 있는 데이터 분할 기술이 제안되었다. 그러나 실제 채널 망의 경우 전송 데이터의 서로 다른 중요도를 지원할 수 있도록 하기 위해 일반적으로는 중요한 정보의 경우 동일 패킷을 여러 번 보내는 방식으로 UEP 효과를 얻도록 한다. 본 논문은 이러한 전송환경 하에 동일한 패킷을 중복 전송하는 종래의 기법에 비해 전송 데이터 량을 감소시키면서도 전송 데이터 량 대비 화질을 증가시키기 위하여, H.264/AVC 표준의 데이터 분할 기술에 다중 표현 부호화 기술을 적용하여 데이터 분할 기술의 성능을 향상시키는 새로운 부호화와 복호화 방법을 제안한다. 제안된 방법은 데이터 분할된 H.264/AVC 표준의 움직임 벡터 정보를 효율적으로 다중 표현 부호화하고 독립적인 패킷으로 분할 전송함으로써 전송 에러에 의해 일부의 패킷을 손실하더라도 올바르게 전송된 패킷만으로 유사한 움직임 벡터 정보를 추정함으로써 에러 은닉 기술의 성능을 향상시키고 채널 에러의 영향을 최소화시킨다. 또한 제안된 다중표현 정합 알고리즘을 사용하여 움직임 벡터의 추정정확도를 향상시켜 복원영상의 화질을 개선한다.

정보통신기술의 확산과 선택에 의한 정보격차 (Digitally Divided by Choice and the Diffusion of ICTs)

  • 정병걸
    • 과학기술학연구
    • /
    • 제6권2호
    • /
    • pp.103-129
    • /
    • 2006
  • 최근 관심이 약화되고 있지만 정보격차는 정보사회 실현의 중요한 장애요인으로 지적되어 왔다. 정보격차에 대한 상반된 설명방식이라고 할 수 있는 낙관론과 비관론은 공통적으로 정보격차를 초래하는 객관적 조건에 초점을 맞추어 왔다. 그러나 접근 가능성은 객관적 조건뿐만 아니라 개인적 차원의 필요성에 대한 인식이나 의지와 같은 주관적 조건에 의해서도 달라질 수 있다는 사실은 경시되어 왔다. 인식이나 의지에 따르는 선택은 접속과 비접속을 결정하는 중요한 요인으로 작용할 수 있다. 미국의 경우 잠재적 이용자의 50% 이상이 스스로의 의지와 선택에 의해 인터넷을 사용하지 않는 것으로 알려져 있다. 우리나라의 경우에도 인터넷 사용자를 대상으로 한 조사에 따르면 '필요성을 느끼지 못해서'가 인터넷을 이용하지 않는 가장 중요한 이유로 나타났다. '이용할 시간이 없어서'라고 선택한 경우도 지속적으로 감소하고 있기는 하지만 상당한 비율을 차지하고 있으며 비 이용자들 중에서 차지하는 상대적 비중은 지속적으로 증가하고 있다. 선택에 의한 정보통신 기술의 비 이용자들을 정보격차의 범위에 포함시켜야 할 것인가의 문제가 있기는 하지만 정보사회로의 진행과정에서 선택에 의한 비 이용에 관심을 기울일 필요성은 분명한 것으로 보인다.

  • PDF

'98년 기업규모별 정보통신산업 현황

  • 한국정보통신산업협회
    • 정보화사회
    • /
    • 통권131호
    • /
    • pp.62-65
    • /
    • 1999
  • 향후 세계 경제에서 고부가가치 산업이 중심이 된 정보 및 지식은 경쟁우위를 결정하는 중요한 요소가 될 것이며, '97년 WTO 통신협상 타결로 인한 정보통신산업의 자유화.개방화 추세가 세계적으로 확산되어 경쟁이 날로 치열해질 전망이다. 따라서 국제경쟁력을 확보하기 위한 국내 정보통신 산업의 집중적인 투자와 육성지원을 위한 국내 정보통신산업의 현황을 분석하였다.

  • PDF

의학 분야 Web DB의 품질평가 : PubMed와 Embase를 대상으로

  • 김상준
    • 한국문헌정보학회 학술발표논집
    • /
    • 한국문헌정보학회 2004년도 학술발표논집 제17집
    • /
    • pp.33-59
    • /
    • 2004
  • 최근 인터넷과 정보통신기술의 발달로 정보검색시스템과 DB의 구축 및 정보서비스가 급격하게 증가하고 있다. 인터넷의 등장과 함께 DB 검색은 도서관이나 정보센터는 물론 일반 국민들에게도 생활화되어 가고 있다. 따라서 늘어나는 DB 중 검색목적이나 필요에 적합한 DB를 선정하여 효율적으로 이용하는 일이 점점 더 중요해지고 있다. 이와 같이 적합한 DB를 선정하여 효율적으로 이용하는 일에는 정보검색시스템이나 DB에 대한 올바른 평가가 전제되어야만 가능한 일이다. (중략)

  • PDF

효과적인 보안관제를 위한 위협정보 우선순위 도출 (Analysis of Threat Information Priorities for Effective Security Monitoring & Control)

  • 강다연
    • 한국산업정보학회논문지
    • /
    • 제26권5호
    • /
    • pp.69-77
    • /
    • 2021
  • 본 논문에서는 기업의 IT시스템에 대한 위협에 대응하고자 하는 기업의 자산을 지켜주는데 매우 중요한 영역인 보안관제 위협정보를 확인하고자 한다. 보안관제는 보안 장비에서 발생한 이벤트, 로그를 중심으로 실시간 분석하여 위협을 판정하고 대응한다. 보안관제 업무에 있어서 우선적으로 위협정보를 평판정보와 분석정보로 구분하여 우선순위를 도출하고자 한다. 평판정보는 Hash, URL, IP, Domain으로 구성하였으며, 분석정보는 E-mail, CMD-Line, CVE, 공격동향정보로 구성하여 분석하였다. 연구결과, 평판정보의 우선순위가 상대적으로 높았으며 위협정보에 대한 정확성과 대응성을 높이는 것에 의의가 있다.

문장 중요도를 이용한 자동 문서 범주화 (Automatic Text Categorization using the Importance of Sentences)

  • 고영중;박진우;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권6호
    • /
    • pp.417-424
    • /
    • 2002
  • 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나, 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서 요약에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이타를 구축하고 실험하였으며 문장 중요도를 사용하지 않은 시스템 보다 향상된 성능을 얻을 수 있었다.

안경원 선택속성과 정보원천에 관한 연구 (A Study on Selection Attributes and Information Sources of Optical Shop)

  • 차정원
    • 한국안광학회지
    • /
    • 제21권3호
    • /
    • pp.173-179
    • /
    • 2016
  • 목적: 소비자들이 안경원을 어떻게 선택하는지에 관한 안경원 선택속성에 관한 중요도 순서와 안경원을 어떤 경로로 선택하게 되는지를 알 수 있는 정보원천에 관한 중요도의 순서를 매겨 안경원 경영에 도움이 되는 연구를 하고자 한다. 방법: 2015년 3월 10일부터 3월 31일 사이에 서울과 경기북부지역의 안경원을 방문한 고객을 대상으로 조사를 실시하였다. 분석방법은 기술통계를 사용하였으며 SPSS v.10.0 통계 패키지 프로그램을 이용하여 분석하였다. 결과: 안경원 선택속성 중요도 상위 5개는 "직원의 친절과 예의", "안경원의 청결", "고객 불만에 직원의 신속한 해결", "직원의 시력검사 및 조제가공실력", "고객 불만과 요구 처리"로 나타났다. 안경원 선택속성 중요도 하위 5개는 "사은품제공", "안경원의 규모나 크기", "개점시간 및 폐점시간", "편리한 주차시설", "호감 있는 직원 용모"인 것으로 나타났다. 안경원 정보원천 중요도 상위 2가지는 "과거의 이용경험", "가족, 친구, 친척 등의 추천으로"인 것으로 나타났다. 안경원 정보원천 중요도 하위 2가지는 "광고 등을 보고"와 "안경원의 특별한 외장을 보고"로 나타났다. 결론: 안경원 경영에서 중요한 점은 광고, 외관, 사은품과 같은 외적인 면보다는 안경사의 실력, 진심어린 고객응대, 과거의 이용경험 등의 내적역량인 것으로 나타났다.

Adjusting Weights of Single-word and Multi-word Terms for Keyphrase Extraction from Article Text

  • Kang, In-Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.47-54
    • /
    • 2021
  • 핵심구 추출은 문서의 내용을 대표하는 주제 용어를 자동 추출하는 작업이다. 비지도 방식 핵심구 추출에서는 문서 텍스트로부터 핵심구 후보 용어가 되는 단어나 구를 추출하고 후보 용어에 부여된 중요도에 기반하여 최종 핵심구들이 선택된다. 본 논문에서는 비지도 방식 핵심구 후보 용어 중요도 계산에서 단어 유형 후보 용어와 구 유형 후보 용어의 중요도를 조정하는 방법을 제안한다. 이를 위해 핵심구 추출 대상 문서 텍스트로부터 후보 용어 집합의 타입-토큰 비율과 고빈도 대표 용어의 정보량을 단어 유형과 구 유형으로 구분하여 수집한 후 중요도 조정에 활용한다. 실험에서는 영어로 작성된 full-text 논문을 대상으로 구축된 4개 서로 다른 핵심구 추출 평가집합들을 사용하여 성능 평가를 수행하였고, 제안된 중요도 조정 방법은 3개 평가집합들에서 베이스 라인 및 비교 방법들보다 높은 성능을 보였다.

생산통제시스템을 위한 정보의 역할 분석 (The Analysis of the Role of Information for Production Control System)

  • Kim, Hyun-Soo;Choi, Jin-Yeong
    • 산업경영시스템학회지
    • /
    • 제20권44호
    • /
    • pp.273-286
    • /
    • 1997
  • 하며 최적의 합리적인 경영을 할 수 있도록 생산환경을 뒷받침할 수 있어야 한다. 이를 위해서는 생산시스템 전반에 걸친 정보 및 통신 기술의 중요성이 다른 어느것 보다도 더욱 더 강조되며, 그리고 중요한 역할을 담당해 나가고 있다. 본 연구에서는 이러한 최근의 환경을 나타낼 수 있는 제조환경에서 중추적인 역할을 담당하는 생산통제시스템에 사용되고있는 정보기술에 관하여 기존의 생산통제방식(납기일결정방식, 생산입력통제방식, 우선순위결정방식)에서 사용되고있는 정보의 내용을 분석하여 생산환경의 어느 부분의 어떤 정보가 생산통제시스템에서 중요한 역할을 담당할 수 있는지를 연구하고, 생산시스템 각 부분에서 반드시 고려되어야 하는 정보의 내용을 제시하고자 한다.

  • PDF