• 제목/요약/키워드: Text processing

검색결과 1,202건 처리시간 0.024초

이중 언어 기반 패러프레이즈 추출을 위한 피봇 차별화 방법 (Pivot Discrimination Approach for Paraphrase Extraction from Bilingual Corpus)

  • 박에스더;이형규;김민정;임해창
    • 인지과학
    • /
    • 제22권1호
    • /
    • pp.57-78
    • /
    • 2011
  • 패러프레이즈는 같은 의미를 다른 단어를 사용하여 표현한 것을 말한다. 패러프레이즈는 일상적인 언어생활에서도 흔히 관측되며 자연어처리 분야에서 다양하게 활용할 수 있다. 특히 최근에는 통계적 기계 번역 분야에서 데이터 부족 문제를 보완하여 번역 성능을 향상시키기 위해 패러프레이즈를 활용한 연구가 많다. 이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇으로 사용하기 때문에 단어 정렬 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류가 패러프레이즈로 전파될 수 있다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우에는 단어 정렬 오류가 더 심각하기 때문에 피봇 프레이즈부터 잘못 추출되는 경우가 많아진다. 이러한 문제를 보완하기 위해 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서 어휘, 품사 정보를 이용해 올바른 피봇 프레이즈에 더 높은 가중치를 부여하는 방법을 제안한다. 실험 결과, 제안하는 피봇 가중치 부여 방법을 기존의 패러프레이즈 추출 방법에 추가했을 때 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다. 또한, 제안하는 방법을 통해 추출한 패러프레이즈를 한영 기계 번역 시스템에서 활용하였을 때 번역률이 향상됨을 확인할 수 있었다.

  • PDF

뇌 MR 영상기반 임상연구 시스템을 위한 미들웨어 설계 및 개발 (Design and Development of Middleware for Clinical Trial System based on Brain MR Image)

  • 전웅기;박경종;이영승;최현주;정상욱;김동억;최흥국
    • 한국멀티미디어학회논문지
    • /
    • 제15권6호
    • /
    • pp.805-813
    • /
    • 2012
  • 본 연구에서는 기존에 개발된 뇌 질환 임상연구를 위한 시스템에 데이터베이스 효율적인 접근을 위한 미들웨어를 설계 및 개발 하였다. 뇌 질환 임상연구를 위한 시스템이란, 정합기와 분석기로 나누어져 있는 것으로 정합기에서 만든 정합 데이터들을 모아 분석기에서 다양한 변수를 바탕으로 통계적 자료를 산출하는 시스템이다. 미들웨어는 데이터베이스 관리 및 다수의 클라이언트의 데이터 요청 처리를 위해 설계 되었으며, 각각의 기능을 모듈로 구분하여 기능 간에 연결성을 약화시켜 모듈 재사용을 구현하였다. 그리고 영상데이터 모듈은 영상 데이터를 효율적으로 관리 및 저장하기 위하여 데이터베이스에 영상을 텍스트 기반으로 압축한 후에 저장하는 방법을 사용하였다. 700장의 실제 의료 임상 데이터를 이용한 테스트 결과, 데이터의 전송시간이 기존 시스템에 비해 최고 115 배까지 단축되었으며, 개선된 모듈 구조를 통해 안정적인 시스템 운용과 향상된 보안기능을 제공하게 되었다. 향후 대규모 의료 데이터베이스 구축에 있어서 이러한 미들웨어의 중요성은 더욱 증대될 것이라 생각된다.

이동 컴퓨터를 위한 클래스 기반 프락시 서버 (Class-based Proxy Server for Mobile Computers)

  • 이종국;김명철;이경희
    • 한국정보과학회논문지:정보통신
    • /
    • 제28권4호
    • /
    • pp.463-476
    • /
    • 2001
  • 기존의 PC나 W/S보다 이동성으로 인해 성능 상 제약이 많은 이동 컴퓨터 (mobile computer)는 인터넷을 통한 멀티미디어 서비스를 위해 프락시 서버(proxy server)를 이용하여 이미지 파일의 양을 줄이거나 모든 데이타를 문자로만 처리해서 전송 받고 있다. 그러나 기존의 프락시 서버들은 다양한 이동 컴퓨터들로부터 H/W의 사양을 전송 받지 못하기 때문에, 이동 컴퓨터의 디스플레이 크기가 다양함에도 불구하고 동일한 크기(pixels)의 이미지 파일을 이동 컴퓨터들에게 전송해야만 한다. 그리고 사용자 별로 구분된 캐시를 사용함으로써 캐시의 적중률(hit ratio)이 떨어지게 된다. 이를 해결하기 위하여, 본 논문에서는 디스플레이 크기와 색상을 기준으로 다양한 이동 컴퓨터들을 클래스로 나누고, WWW의 이미지 파일을 각각의 클래스에 적합하게 변환하여 저장하는 프락시 서버인 '클래스 기반 프락시(Class-based Proxy)'를 설계하고 구현하였다. 클래스 기반 프락시는 클라이언트 장치 (client device)가 요구하는 이미지 파일을 해당 클래스의 디스플레이 크기에 비례하여 변환한다. 따라서, 이동 컴퓨터들은 해당 클래스에 맞도록 변환된 이미지 파일을 클래스 기반 프락시로부터 전송 받기 때문에 PC나 W/S에서 보던 홈페이지의 화면을 이동 컴퓨터에서도 유사하게 볼 수 있다. 또한, 클래스 기반 프락시는 캐시에 저장되어 있는 변환된 이미지 파일을 동일한 클래스의 이동 컴퓨터들이 서로 공유하도록 하였다. 본 논문에서 구현한 클래스 기반 프락시와 기존의 프락시 서버를 테스트 한 결과, 클래스 기반 프락시 는 클라이언트에게 적합하게 변환된 이미지 파일들이 캐시에 저장되어 사용될 때 기존의 프락시 서버보다 빠른 속도를 보였다. 그리고 사용자들이 늘어날수록 클래스 기반 프락시가 기존의 프락시 서버보다 빠른 처리 속도를 나타냈다. 따라서, 클래스 기반 프락시는 클래스 별로 구분된 캐시로 인해 프락시 서버의 부담을 줄임으로써, 기존의 프락시 서버들보다 확장성(scalability)이 향상되었다.

  • PDF

Unified Process의 분석 클래스에 대한 복잡도 척도 (Complexity Metrics for Analysis Classes in the Unified Software Development Process)

  • 김유경;박재년
    • 정보처리학회논문지D
    • /
    • 제8D권1호
    • /
    • pp.71-80
    • /
    • 2001
  • 구조적 개발 방법론에 적용하도록 만들어진 복잡도 척도들은 클래스, 상속성, 메시지 전달 그리고 캡슐롸와 같은 객체지향의 개념에 직접적으로 적용할 수 없다. 또한, 기존이 객체지향 소프트웨어에 대한 척도의 연구는 프로그램의 복잡도나, 설계 단계의 척도가 대부분이었다. 실제로 분석 단계 클래스의 복잡도를 낮춤으로써, 시스템의 개발 노력이나 비용 및 유지보수 단계에서의 노력이 크게 줄어들게 되므로, 분석 클래스에 대한 복잡도를 측량하기 위한 척도가 필요하다. 본 논문에서는 객체지향 개발방법론인 Unified Process의 분석 단계에서 추출되는 분석 클래스에 대하여 복잡도를 측정할 수 있는 새로운 척도를 제안한다. 협력의 복잡도 CC(Collaboration Complexity)는 가능한 협력의 최대 수로서 클래스가 잠재적으로 얼마나 복잡할 수 있는지를 측정하기 위한 척도이며, 각 협력자들의 인터페이스를 이해하는 것과 관련된 총체적 어려움을 측정하는 인터페이스 복잡도 IC(Interface Complexity)를 정의하였다. 제안된 척도는 클래스의 크기 및 상속성에 대하여 수학적인 증명을 하였으며, Weyuker의 9가지 공리적 성질에 대하여 이론적인 검증을 하였다. 또한, 텍스트 마이닝 기법을 사용하여 사용자의 질문에 자동으로 응답하는 시스템의 분석 클래스에 대하여 제안된 척도를 사용하여 복잡도를 측정하였고 기존의 복잡도 척도인 CBO와 WMC의 값을 계산하여 비교하였다. CC와 CBO, IC와 WMC의 값을 비교해 본 결과 제안된 복잡도 척도의 계산 결과 제안된 복잡도 척도의 계산 결과 값이 그 값들보다 좀 더 복잡도를 잘 표현하고 있었다. 이로써 소프트웨어 개발 주기의 초기에 클래스에 대한 복잡도를 평가해 보고, 나머지 단계에 필요한 시간과 노력을 예측함으로써 보다 비용-효과적인 객체지향 소프트웨어를 개발할 수 있는 가능성이 높아진다.

  • PDF

A study on legal service of AI

  • Park, Jong-Ryeol;Noe, Sang-Ouk
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권7호
    • /
    • pp.105-111
    • /
    • 2018
  • Last March, the world Go competition between AlphaGo, AI Go program developed by Google Deep Mind and professional Go player Lee Sedol has shown us that the 4th industrial revolution using AI has come close. Especially, there ar many system combined with AI hae been developing including program for researching legal information, system for expecting jurisdiction, and processing big data, there is saying that even AI legal person is ready for its appearance. As legal field is mostly based on text-based document, such characteristic makes it easier to adopt artificial intelligence technology. When a legal person receives a case, the first thing to do is searching for legal information and judical precedent, which is the one of the strength of AI. It is very difficult for a human being to utilize a flow of legal knowledge and figures by analyzing them but for AI, this is nothing but a simple job. The ability of AI searching for regulation, precedent, and literature related to legal issue is way over our expectation. AI is evaluated to be able to review 1 billion pages of legal document per second and many people agree that lot of legal job will be replaced by AI. Along with development of AI service, legal service is becoming more advanced and if it devotes to ethical solving of legal issues, which is the final goal, not only the legal field but also it will help to gain nation's trust. If nations start to trust the legal service, it would never be completely replaced by AI. What is more, if it keeps offering advanced, ethical, and quick legal service, value of law devoting to the society will increase and finally, will make contribution to the nation. In this time where we have to compete with AI, we should try hard to increase value of traditional legal service provided by human. In the future, priority of good legal person will be his/her ability to use AI. The only field left to human will be understanding and recovering emotion of human caused by legal problem, which cannot be done by AI's controlling function. Then, what would be the attitude of legal people in this period? It would be to learn the new technology and applying in the field rather than going against it, this will be the way to survive in this new AI period.

360 영상으로부터 텍스트 정보를 이용한 자연스러운 사진 생성 (Natural Photography Generation with Text Guidance from Spherical Panorama Image)

  • 김범석;정진웅;홍은빈;조성현;이승용
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제23권3호
    • /
    • pp.65-75
    • /
    • 2017
  • 360 영상은 상하좌우 모든 영역에 대한 정보를 갖고 있기 때문에 종종 지나치게 많은 정보를 포함하게 된다. 또한 360 영상의 내용을 2D 모니터를 이용하여 확인하기 위해서는 마우스를 이용하여 360 영상을 돌려 봐야 하거나, 또는 심하게 왜곡된 2D 영상으로 변환해서 봐야 하는 문제가 있다. 따라서 360 영상에서 사용자가 원하는 물체를 찾는 것은 상당히 까다로운 일이 될 수 있다. 본 논문은 물체나 영역을 묘사하는 문장이 주어졌을 때, 360 영상 내에서 문장과 가장 잘 어울리는 영상을 추출해 내는 방법을 제시한다. 본 논문에서 제시한 방법은 주어진 문장 뿐 아니라 구도 역시 고려하여 구도 면에서도 보기 좋은 결과 영상을 생성한다. 본 논문에서 제시하는 방법은 우선 360 영상을 2D 큐브맵으로 변환한다. 일반적인 큐브맵은 큐브맵의 경계 부분에 걸쳐 있는 물체가 있을 경우, 이를 검출하기 어려운 문제가 있다. 따라서 더 정확한 물체 검출을 위해 본 논문에서는 변형된 큐브맵을 제시한다. 이렇게 변형된 큐브맵에 Long Short Term Memory (LSTM) 네트워크 기반의 자연어 문장을 이용한 물체 검출 방법을 적용한다. 최종적으로 원래의 360영상에서 검출된 영역을 포함하면서도 영상 구도 면에서 보기 좋은 영역을 찾아서 결과 영상을 생성한다.

상호 정보를 이용한 구조적 모호성 해소와 결과에 대한 확신도 측정 (Structural Disambiguation using Mutual Information and the Measure of Confidence)

  • 심광섭
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.153-176
    • /
    • 1993
  • 구조적 모호성은 자연 언어 문장을 분석할 때 흔히 나타내는 문제점 중의 하나로,지금까지 이문제의 해결은 대단히 어려운 것으로 인식되어 왔다.그러나,구조적 모호성을 해소하지 않고 올바른 언어 처리를 한다는 것은 사실상 불가능하다.본 논문에서는 이 문제에 대하여 정보 이론적(information-theoretic)개념인 상호 정보(mutual information)를 이용한 통계적 접근방법을 제안한다.상호정보는 말 뭉치로 부터 자동 습득이 가능하므로 지식습득속도가 대단히 빠를뿐만 아니라 지속적인 지식습득이 가능하다. 구조적 모호성 해소는 물론 모호성 해소 결과의 옳고 그름을 스스로 판단할수 있는 능력을 부여할수 있다면 보다 지능적인 시스템을 개발하는데 도움이 될것이다.본 논문에서는 그와 같은 지적 능력을 부여한느데 필요한 확신도(congidence measure) 개념도 또한 제시한다.확신도는 구조적 모호성을 해소하고 난 후에 계산되는 수치로서,구조적 모호성이 올바르게 해소되었을 가능성이 높으면 높을수록 그 값이 커지는 성질을 가지고 있다. 본 논문에서 제시한 구조적 모호성 해소 알고리즘의 타당성을 검증하기 위하여 이공계 논문 초록으로부터 발췌된 약 160만 단어의 말뭉치로부터 상호 정보를 자동 습득하고 이를 이용하요,1,639개의 문장에 대하여 구조적 모호성을 해소하는 실험을 하였다. 실험결과 구조적 모호성 해소 정화도는 약 80%로 나타났다.확신도 개념을 이용할 경우 구조적 모호성 해소가 잘못된 문장을 찾아 정정하는 작업을 매우 효과적으로 진행할 수 있었다.

문장-질의 유사성을 이용한 웹 정보 검색의 성능 향상 (Performance Improvement of Web Information Retrieval Using Sentence-Query Similarity)

  • 박의규;나동열;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.406-415
    • /
    • 2005
  • 인터넷의 발전으로 웹 상에 수많은 문서 및 정보가 존재하는 상황에서 사용자가 원하는 정보를 담은 웹 문서를 검색하여 주는 웹 정보 검색 기술은 매우 중요하게 되었다. 본 논문에서는 웹 정보 검색 시스템의 성능 향상에 효과적인 몇 가지 주요한 기술을 제안하였다. 기존 시스템들은 주로 문서와 질의의 유사도를 계산하여 이를 주요 정보로 이용하였다. 그러나 본 논문에서는 여기에서 한 걸음 더 나아가 문서 안의 각 문장들이 질의와 얼마나 유사한가를 계산하여 이를 이용하는 기법을 제안하였다. 이러한 문장-질의 유사도를 성숙된 자연어 처리 기술 없이 근사적으로 계산하는 방법을 소개하였다. 그리고 이계산 작업은 문서 수의 증가에 선형적인 계산량의 증가를 가져 옴을 보임으로써 실용적인 대용량 시스템에서도 사용할 수 있음을 보였다. 그 다음으로 제안된 주요한 기술은 출력 문서의 순위화에 계층적인 개념을 도입하는 것이다. 이 기법을 사용함으로써 상당한 성능 향상을 이룰 수 있음을 보였다. 그 외에도 웹 문서의 특징인 하이퍼 링크 정보와 타이틀 정보를 이용하여 어느 정도의 성능 개선을 가져올 수 있음을 보였다. 이러한 기술들의 타당성을 입증하기 위해 대용량 웹 정보검색 시스템을 개발하고 실험하였다.

소형 화면 단말기를 위한 웹 문서 변환 기법 (Web Document Transcoding Technique for Small Display Devices)

  • 신희숙;마평수;조수선;이동우
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1145-1156
    • /
    • 2002
  • 본 논문에서는 기존의 일반 PC 화면에 적합하도록 작성된 웹 문서를 무선 환경의 핸드헬드 계열의 소형 단말기 화면에서도 효율적으로 표현되어지도록 변환하는 기법을 제시한다. 이는 선행 연구에서 나타나는 단순한 텍스트 위주의 추출 및 요약 형식의 변환과는 달리, 시각적인 분리에 근거한 내용 블록 단위를 설정하고 이를 기본으로 변환을 수행함으로써 보다 정확한 변환 결과를 얻으며, 내용 블록 단위들의 재배치와 새로운 인덱스 형식의 재표현을 통하여 편리한 인터페이스로 좌우스크롤 없는 웹 문서를 제공한다 이를 위하여 본 논문에서는 Layout-Forming Tag Analysis Algorithm과 Component Grouping Algorithm을 사용하여 시각적 표현을 주도하는 태그 정보에 대한 구조적인 분석 및 내용 블록 단위의 추출을 시도하고, 분리된 블록들의 분류와 재구성 및 인덱스 생성 과정을 통하여 소형 단말에 적합한 웹 문서를 생성한다. 웹문서 변환 시스템은 프락시 서버에서 동작하도록 설계되었고, 프로토타입의 구현을 통하여 제시하는 변환 기법을 평가하였다. 실제 웹 문서에 대한 검증 과정을 거쳤고, 복잡한 구조의 웹 문서에 대해 적합한 변환 결과를 보였다.

Stock prediction using combination of BERT sentiment Analysis and Macro economy index

  • Jang, Euna;Choi, HoeRyeon;Lee, HongChul
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권5호
    • /
    • pp.47-56
    • /
    • 2020
  • 주가지수는 한 국가의 경제 지표뿐만 아니라 투자판단의 지표로도 활용되므로 이를 예측하는 연구가 지속해서 진행되고 있다. 주가지수 예측을 하는 작업은 기술적, 경제적 및 심리적 요인 등이 반영된 것으로 예측의 정확도를 위해서는 복합적 요인을 고려해야 한다. 따라서 지수의 변동에 영향을 미치는 요인들을 선별하여 반영한 주가지수 예측모델연구가 필요하다. 이와 관련한 기존 연구에서는 시장의 변동을 만들어 내는 뉴스 정보 또는 거시 경제 지표를 각각 이용하거나, 몇 가지의 지표 조합만을 반영한 예측 연구가 대부분이었다. 따라서 본 연구에서는 미국 다우존스지수 예측을 위해 뉴스 정보의 감성 분석과 다양한 거시경제지표를 고려하여 효과적인 지표 조합을 제시하고자 한다. 뉴스 정보의 감성 분석은 최신 자연어처리 기법인 BERT와 NLTK VADER를 사용하고, 예측모델은 주가예측모델로 적합하다고 알려진 딥러닝 예측모델 LSTM을 적용하여 가장 효과적인 지표 조합을 제시했다.