`tenets.core.summarizer` Package¶

Content summarization system for Tenets.

This package provides intelligent text and code summarization capabilities using multiple strategies from simple extraction to advanced ML approaches. The summarization system helps compress large codebases to fit within token limits while preserving the most important information.

Main components: - Summarizer: Main orchestrator for summarization operations - Strategies: Different summarization approaches (extractive, compressive, etc.) - LLMSummarizer: Integration with Large Language Models (costs $)

Example usage

from tenets.core.summarizer import Summarizer, create_summarizer
Create summarizer¶
summarizer = create_summarizer(mode="extractive")
Summarize text¶
result = summarizer.summarize( ... long_text, ... target_ratio=0.3 # Compress to 30% of original ... )
print(f"Reduced by {result.reduction_percent:.1f}%")

Attributes¶

ML_AVAILABLE`module-attribute`¶

Python

ML_AVAILABLE = True

Classes¶

LLMConfig`dataclass`¶

Python

LLMConfig(provider: LLMProvider = LLMProvider.OPENAI, model: str = 'gpt-4o-mini', api_key: Optional[str] = None, base_url: Optional[str] = None, temperature: float = 0.3, max_tokens: int = 500, system_prompt: str = 'You are an expert at summarizing code and technical documentation. \nYour summaries are concise, accurate, and preserve critical technical details.', user_prompt: str = 'Summarize the following text to approximately {target_percent}% of its original length. \nFocus on the most important information and maintain technical accuracy.\n\nText to summarize:\n{text}\n\nSummary:', retry_attempts: int = 3, retry_delay: float = 1.0, timeout: float = 30.0)

Configuration for LLM summarization.

ATTRIBUTE	DESCRIPTION
`provider`	LLM provider to use TYPE:`LLMProvider`
`model`	Model name/ID TYPE:`str`
`api_key`	API key (if not in environment) TYPE:`Optional[str]`
`base_url`	Base URL for API (for custom endpoints) TYPE:`Optional[str]`
`temperature`	Sampling temperature (0-1) TYPE:`float`
`max_tokens`	Maximum tokens in response TYPE:`int`
`system_prompt`	System prompt template TYPE:`str`
`user_prompt`	User prompt template TYPE:`str`
`retry_attempts`	Number of retry attempts TYPE:`int`
`retry_delay`	Delay between retries in seconds TYPE:`float`
`timeout`	Request timeout in seconds TYPE:`float`

Attributes¶

provider`class-attributeinstance-attribute`¶

Python

provider: LLMProvider = OPENAI

model`class-attributeinstance-attribute`¶

Python

model: str = 'gpt-4o-mini'

api_key`class-attributeinstance-attribute`¶

Python

api_key: Optional[str] = None

base_url`class-attributeinstance-attribute`¶

Python

base_url: Optional[str] = None

temperature`class-attributeinstance-attribute`¶

Python

temperature: float = 0.3

max_tokens`class-attributeinstance-attribute`¶

Python

max_tokens: int = 500

system_prompt`class-attributeinstance-attribute`¶

Python

system_prompt: str = 'You are an expert at summarizing code and technical documentation. \nYour summaries are concise, accurate, and preserve critical technical details.'

user_prompt`class-attributeinstance-attribute`¶

Python

user_prompt: str = 'Summarize the following text to approximately {target_percent}% of its original length. \nFocus on the most important information and maintain technical accuracy.\n\nText to summarize:\n{text}\n\nSummary:'

retry_attempts`class-attributeinstance-attribute`¶

Python

retry_attempts: int = 3

retry_delay`class-attributeinstance-attribute`¶

Python

retry_delay: float = 1.0

timeout`class-attributeinstance-attribute`¶

Python

timeout: float = 30.0

Functions¶

get_api_key¶

Python

get_api_key() -> Optional[str]

Get API key from config or environment.

RETURNS	DESCRIPTION
`Optional[str]`	API key or None

LLMProvider¶

Bases: Enum

Supported LLM providers.

Attributes¶

OPENAI`class-attributeinstance-attribute`¶

Python

OPENAI = 'openai'

ANTHROPIC`class-attributeinstance-attribute`¶

Python

ANTHROPIC = 'anthropic'

OPENROUTER`class-attributeinstance-attribute`¶

Python

OPENROUTER = 'openrouter'

LOCAL`class-attributeinstance-attribute`¶

Python

LOCAL = 'local'

LLMSummarizer¶

Python

LLMSummarizer(config: Optional[LLMConfig] = None)

Base class for LLM-based summarization.

Provides common functionality for different LLM providers. Handles API calls, retries, and error handling.

Initialize LLM summarizer.

PARAMETER	DESCRIPTION
`config`	LLM configuration TYPE:`Optional[LLMConfig]`DEFAULT:`None`

Attributes¶

config`instance-attribute`¶

Python

config = config or LLMConfig()

logger`instance-attribute`¶

Python

logger = get_logger(__name__)

client`instance-attribute`¶

Python

client = None

Functions¶

summarize¶

Python

summarize(text: str, target_ratio: float = 0.3, max_length: Optional[int] = None, min_length: Optional[int] = None, custom_prompt: Optional[str] = None) -> str

Summarize text using LLM.

PARAMETER	DESCRIPTION
`text`	Text to summarize TYPE:`str`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`max_length`	Maximum summary length TYPE:`Optional[int]`DEFAULT:`None`
`min_length`	Minimum summary length TYPE:`Optional[int]`DEFAULT:`None`
`custom_prompt`	Custom prompt override TYPE:`Optional[str]`DEFAULT:`None`

RETURNS	DESCRIPTION
`str`	Summarized text

RAISES	DESCRIPTION
`RuntimeError`	If API call fails after retries

estimate_cost¶

Python

estimate_cost(text: str) -> Dict[str, float]

Estimate cost of summarization.

PARAMETER	DESCRIPTION
`text`	Text to summarize TYPE:`str`

RETURNS	DESCRIPTION
`Dict[str, float]`	Dictionary with cost estimates

LLMSummaryStrategy¶

Python

LLMSummaryStrategy(provider: Union[str, LLMProvider] = LLMProvider.OPENAI, model: str = 'gpt-4o-mini', api_key: Optional[str] = None)

LLM-based summarization strategy for use with Summarizer.

Wraps LLMSummarizer to match the SummarizationStrategy interface.

WARNING: This strategy incurs API costs. Always estimate costs before use.

Initialize LLM strategy.

PARAMETER	DESCRIPTION
`provider`	LLM provider name or enum TYPE:`Union[str, LLMProvider]`DEFAULT:`OPENAI`
`model`	Model to use TYPE:`str`DEFAULT:`'gpt-4o-mini'`
`api_key`	API key (if not in environment) TYPE:`Optional[str]`DEFAULT:`None`

Attributes¶

name`class-attributeinstance-attribute`¶

Python

name = 'llm'

description`class-attributeinstance-attribute`¶

Python

description = 'High-quality summarization using Large Language Models (costs $)'

requires_ml`class-attributeinstance-attribute`¶

Python

requires_ml = False

logger`instance-attribute`¶

Python

logger = get_logger(__name__)

summarizer`instance-attribute`¶

Python

summarizer = LLMSummarizer(config)

Functions¶

summarize¶

Python

summarize(text: str, target_ratio: float = 0.3, max_length: Optional[int] = None, min_length: Optional[int] = None) -> str

Summarize text using LLM.

PARAMETER	DESCRIPTION
`text`	Input text TYPE:`str`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`max_length`	Maximum summary length TYPE:`Optional[int]`DEFAULT:`None`
`min_length`	Minimum summary length TYPE:`Optional[int]`DEFAULT:`None`

RETURNS	DESCRIPTION
`str`	LLM-generated summary

estimate_cost¶

Python

estimate_cost(text: str) -> Dict[str, float]

Estimate cost for summarizing text.

PARAMETER	DESCRIPTION
`text`	Text to summarize TYPE:`str`

RETURNS	DESCRIPTION
`Dict[str, float]`	Cost estimate dictionary

CompressiveStrategy¶

Python

CompressiveStrategy(use_nlp: bool = True)

Bases: SummarizationStrategy

Compressive summarization using NLP tokenization.

Removes redundant words and phrases while maintaining meaning. Uses NLP tokenizer for better word processing.

Initialize compressive strategy.

PARAMETER	DESCRIPTION
`use_nlp`	Whether to use NLP components TYPE:`bool`DEFAULT:`True`

Attributes¶

name`class-attributeinstance-attribute`¶

Python

name = 'compressive'

description`class-attributeinstance-attribute`¶

Python

description = 'Remove redundancy using NLP tokenization'

requires_ml`class-attributeinstance-attribute`¶

Python

requires_ml = False

logger`instance-attribute`¶

Python

logger = get_logger(__name__)

use_nlp`instance-attribute`¶

Python

use_nlp = use_nlp and NLP_AVAILABLE

tokenizer`instance-attribute`¶

Python

tokenizer = TextTokenizer(use_stopwords=True)

stopword_manager`instance-attribute`¶

Python

stopword_manager = StopwordManager()

stopwords`instance-attribute`¶

Python

stopwords = get_set('prompt')

Functions¶

summarize¶

Python

summarize(text: str, target_ratio: float = 0.3, max_length: Optional[int] = None, min_length: Optional[int] = None) -> str

Compress text by removing redundancy.

PARAMETER	DESCRIPTION
`text`	Input text TYPE:`str`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`max_length`	Maximum summary length TYPE:`Optional[int]`DEFAULT:`None`
`min_length`	Minimum summary length TYPE:`Optional[int]`DEFAULT:`None`

RETURNS	DESCRIPTION
`str`	Compressed text

ExtractiveStrategy¶

Python

ExtractiveStrategy(use_nlp: bool = True)

Bases: SummarizationStrategy

Extractive summarization using NLP components.

Selects the most important sentences based on keyword density, position, and optionally semantic similarity. Uses centralized NLP components for improved sentence scoring.

Initialize extractive strategy.

PARAMETER	DESCRIPTION
`use_nlp`	Whether to use NLP components for enhanced extraction TYPE:`bool`DEFAULT:`True`

Attributes¶

name`class-attributeinstance-attribute`¶

Python

name = 'extractive'

description`class-attributeinstance-attribute`¶

Python

description = 'Extract important sentences using NLP analysis'

requires_ml`class-attributeinstance-attribute`¶

Python

requires_ml = False

logger`instance-attribute`¶

Python

logger = get_logger(__name__)

use_nlp`instance-attribute`¶

Python

use_nlp = use_nlp and NLP_AVAILABLE

keyword_extractor`instance-attribute`¶

Python

keyword_extractor = KeywordExtractor(use_stopwords=True, stopword_set='prompt')

tokenizer`instance-attribute`¶

Python

tokenizer = TextTokenizer(use_stopwords=True)

Functions¶

summarize¶

Python

summarize(text: str, target_ratio: float = 0.3, max_length: Optional[int] = None, min_length: Optional[int] = None) -> str

Extract important sentences to create summary.

PARAMETER	DESCRIPTION
`text`	Input text TYPE:`str`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`max_length`	Maximum summary length TYPE:`Optional[int]`DEFAULT:`None`
`min_length`	Minimum summary length TYPE:`Optional[int]`DEFAULT:`None`

RETURNS	DESCRIPTION
`str`	Extractive summary

SummarizationStrategy¶

Bases: ABC

Abstract base class for summarization strategies.

Attributes¶

name`class-attributeinstance-attribute`¶

Python

name: str = 'base'

description`class-attributeinstance-attribute`¶

Python

description: str = 'Base summarization strategy'

requires_ml`class-attributeinstance-attribute`¶

Python

requires_ml: bool = False

Functions¶

summarize`abstractmethod`¶

Python

summarize(text: str, target_ratio: float = 0.3, max_length: Optional[int] = None, min_length: Optional[int] = None) -> str

Summarize text.

PARAMETER	DESCRIPTION
`text`	Input text TYPE:`str`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`max_length`	Maximum summary length TYPE:`Optional[int]`DEFAULT:`None`
`min_length`	Minimum summary length TYPE:`Optional[int]`DEFAULT:`None`

RETURNS	DESCRIPTION
`str`	Summarized text

TextRankStrategy¶

Python

TextRankStrategy(use_nlp: bool = True)

Bases: SummarizationStrategy

TextRank summarization with NLP preprocessing.

Graph-based ranking algorithm that uses NLP components for better text preprocessing and similarity computation.

Initialize TextRank strategy.

PARAMETER	DESCRIPTION
`use_nlp`	Whether to use NLP components TYPE:`bool`DEFAULT:`True`

Attributes¶

name`class-attributeinstance-attribute`¶

Python

name = 'textrank'

description`class-attributeinstance-attribute`¶

Python

description = 'Graph-based summarization with NLP preprocessing'

requires_ml`class-attributeinstance-attribute`¶

Python

requires_ml = True

logger`instance-attribute`¶

Python

logger = get_logger(__name__)

use_nlp`instance-attribute`¶

Python

use_nlp = use_nlp and NLP_AVAILABLE and SKLEARN_AVAILABLE

tfidf_calc`instance-attribute`¶

Python

tfidf_calc = TFIDFCalculator(use_stopwords=True)

Functions¶

summarize¶

Python

summarize(text: str, target_ratio: float = 0.3, max_length: Optional[int] = None, min_length: Optional[int] = None) -> str

Summarize using TextRank algorithm.

PARAMETER	DESCRIPTION
`text`	Input text TYPE:`str`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`max_length`	Maximum summary length TYPE:`Optional[int]`DEFAULT:`None`
`min_length`	Minimum summary length TYPE:`Optional[int]`DEFAULT:`None`

RETURNS	DESCRIPTION
`str`	TextRank summary

TransformerStrategy¶

Python

TransformerStrategy(model_name: str = 'facebook/bart-large-cnn')

Bases: SummarizationStrategy

Transformer-based neural summarization.

Uses pre-trained transformer models for high-quality abstractive summarization.

Initialize transformer strategy.

PARAMETER	DESCRIPTION
`model_name`	HuggingFace model name TYPE:`str`DEFAULT:`'facebook/bart-large-cnn'`

Attributes¶

name`class-attributeinstance-attribute`¶

Python

name = 'transformer'

description`class-attributeinstance-attribute`¶

Python

description = 'Neural summarization using transformers'

requires_ml`class-attributeinstance-attribute`¶

Python

requires_ml = True

logger`instance-attribute`¶

Python

logger = get_logger(__name__)

model_name`instance-attribute`¶

Python

model_name = model_name

summarizer`instance-attribute`¶

Python

summarizer = None

Functions¶

summarize¶

Python

summarize(text: str, target_ratio: float = 0.3, max_length: Optional[int] = None, min_length: Optional[int] = None) -> str

Summarize using transformer model.

PARAMETER	DESCRIPTION
`text`	Input text TYPE:`str`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`max_length`	Maximum summary length TYPE:`Optional[int]`DEFAULT:`None`
`min_length`	Minimum summary length TYPE:`Optional[int]`DEFAULT:`None`

RETURNS	DESCRIPTION
`str`	Neural summary

BatchSummarizationResult`dataclass`¶

Python

BatchSummarizationResult(results: List[SummarizationResult], total_original_length: int, total_summary_length: int, overall_compression_ratio: float, total_time_elapsed: float, files_processed: int, files_failed: int)

Result from batch summarization.

Attributes¶

results`instance-attribute`¶

Python

results: List[SummarizationResult]

total_original_length`instance-attribute`¶

Python

total_original_length: int

total_summary_length`instance-attribute`¶

Python

total_summary_length: int

overall_compression_ratio`instance-attribute`¶

Python

overall_compression_ratio: float

total_time_elapsed`instance-attribute`¶

Python

total_time_elapsed: float

files_processed`instance-attribute`¶

Python

files_processed: int

files_failed`instance-attribute`¶

Python

files_failed: int

Functions¶

to_dict¶

Python

to_dict() -> Dict[str, Any]

Convert to dictionary.

SummarizationMode¶

Bases: Enum

Available summarization modes.

Attributes¶

EXTRACTIVE`class-attributeinstance-attribute`¶

Python

EXTRACTIVE = 'extractive'

COMPRESSIVE`class-attributeinstance-attribute`¶

Python

COMPRESSIVE = 'compressive'

TEXTRANK`class-attributeinstance-attribute`¶

Python

TEXTRANK = 'textrank'

TRANSFORMER`class-attributeinstance-attribute`¶

Python

TRANSFORMER = 'transformer'

LLM`class-attributeinstance-attribute`¶

Python

LLM = 'llm'

AUTO`class-attributeinstance-attribute`¶

Python

AUTO = 'auto'

SummarizationResult`dataclass`¶

Python

SummarizationResult(original_text: str, summary: str, original_length: int, summary_length: int, compression_ratio: float, strategy_used: str, time_elapsed: float, metadata: Dict[str, Any] = None)

Result from summarization operation.

ATTRIBUTE	DESCRIPTION
`original_text`	Original text TYPE:`str`
`summary`	Summarized text TYPE:`str`
`original_length`	Original text length TYPE:`int`
`summary_length`	Summary length TYPE:`int`
`compression_ratio`	Actual compression ratio achieved TYPE:`float`
`strategy_used`	Which strategy was used TYPE:`str`
`time_elapsed`	Time taken to summarize TYPE:`float`
`metadata`	Additional metadata TYPE:`Dict[str, Any]`

Attributes¶

original_text`instance-attribute`¶

Python

original_text: str

summary`instance-attribute`¶

Python

summary: str

original_length`instance-attribute`¶

Python

original_length: int

summary_length`instance-attribute`¶

Python

summary_length: int

compression_ratio`instance-attribute`¶

Python

compression_ratio: float

strategy_used`instance-attribute`¶

Python

strategy_used: str

time_elapsed`instance-attribute`¶

Python

time_elapsed: float

metadata`class-attributeinstance-attribute`¶

Python

metadata: Dict[str, Any] = None

reduction_percent`property`¶

Python

reduction_percent: float

Get reduction percentage.

Functions¶

to_dict¶

Python

to_dict() -> Dict[str, Any]

Convert to dictionary.

Summarizer¶

Python

Summarizer(config: Optional[TenetsConfig] = None, default_mode: Optional[str] = None, enable_cache: bool = True)

Main summarization orchestrator.

Coordinates different summarization strategies and provides a unified interface for content compression. Supports single and batch processing, strategy selection, and caching.

ATTRIBUTE	DESCRIPTION
`config`	TenetsConfig instance
`logger`	Logger instance
`strategies`	Available summarization strategies TYPE:`Dict[SummarizationMode, SummarizationStrategy]`
`cache`	Summary cache for repeated content TYPE:`Dict[str, SummarizationResult]`
`stats`	Summarization statistics

Initialize summarizer.

PARAMETER	DESCRIPTION
`config`	Tenets configuration TYPE:`Optional[TenetsConfig]`DEFAULT:`None`
`default_mode`	Default summarization mode TYPE:`Optional[str]`DEFAULT:`None`
`enable_cache`	Whether to enable caching TYPE:`bool`DEFAULT:`True`

Attributes¶

config`instance-attribute`¶

Python

config = config or TenetsConfig()

logger`instance-attribute`¶

Python

logger = get_logger(__name__)

default_mode`instance-attribute`¶

Python

default_mode = SummarizationMode(default_mode)

strategies`instance-attribute`¶

Python

strategies: Dict[SummarizationMode, SummarizationStrategy] = {EXTRACTIVE: ExtractiveStrategy(), COMPRESSIVE: CompressiveStrategy(), TEXTRANK: TextRankStrategy()}

enable_cache`instance-attribute`¶

Python

enable_cache = enable_cache

cache`instance-attribute`¶

Python

cache: Dict[str, SummarizationResult] = {}

stats`instance-attribute`¶

Python

stats = {'total_summarized': 0, 'total_time': 0.0, 'cache_hits': 0, 'cache_misses': 0, 'strategies_used': {}}

Functions¶

summarize¶

Python

summarize(text: str, mode: Optional[Union[str, SummarizationMode]] = None, target_ratio: float = 0.3, max_length: Optional[int] = None, min_length: Optional[int] = None, force_strategy: Optional[SummarizationStrategy] = None) -> SummarizationResult

Summarize text content.

PARAMETER	DESCRIPTION
`text`	Text to summarize TYPE:`str`
`mode`	Summarization mode (uses default if None) TYPE:`Optional[Union[str, SummarizationMode]]`DEFAULT:`None`
`target_ratio`	Target compression ratio (0.3 = 30% of original) TYPE:`float`DEFAULT:`0.3`
`max_length`	Maximum summary length in characters TYPE:`Optional[int]`DEFAULT:`None`
`min_length`	Minimum summary length in characters TYPE:`Optional[int]`DEFAULT:`None`
`force_strategy`	Force specific strategy instance TYPE:`Optional[SummarizationStrategy]`DEFAULT:`None`

RETURNS	DESCRIPTION
`SummarizationResult`	SummarizationResult with summary and metadata

Example

summarizer = Summarizer() result = summarizer.summarize( ... long_text, ... mode="extractive", ... target_ratio=0.25 ... ) print(f"Reduced by {result.reduction_percent:.1f}%")

summarize_file¶

Python

summarize_file(file: FileAnalysis, mode: Optional[Union[str, SummarizationMode]] = None, target_ratio: float = 0.3, preserve_structure: bool = True, prompt_keywords: Optional[List[str]] = None) -> SummarizationResult

Summarize a code file intelligently.

Handles code files specially by preserving important elements like class/function signatures while summarizing implementations. Enhanced with context-aware documentation summarization that preserves relevant sections based on prompt keywords.

PARAMETER	DESCRIPTION
`file`	FileAnalysis object TYPE:`FileAnalysis`
`mode`	Summarization mode TYPE:`Optional[Union[str, SummarizationMode]]`DEFAULT:`None`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`preserve_structure`	Whether to preserve code structure TYPE:`bool`DEFAULT:`True`
`prompt_keywords`	Keywords from user prompt for context-aware summarization TYPE:`Optional[List[str]]`DEFAULT:`None`

RETURNS	DESCRIPTION
`SummarizationResult`	SummarizationResult

batch_summarize¶

Python

batch_summarize(texts: List[Union[str, FileAnalysis]], mode: Optional[Union[str, SummarizationMode]] = None, target_ratio: float = 0.3, parallel: bool = True, prompt_keywords: Optional[List[str]] = None) -> BatchSummarizationResult

Summarize multiple texts in batch.

PARAMETER	DESCRIPTION
`texts`	List of texts or FileAnalysis objects TYPE:`List[Union[str, FileAnalysis]]`
`mode`	Summarization mode TYPE:`Optional[Union[str, SummarizationMode]]`DEFAULT:`None`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`parallel`	Whether to process in parallel TYPE:`bool`DEFAULT:`True`
`prompt_keywords`	Keywords from user prompt for context-aware documentation summarization TYPE:`Optional[List[str]]`DEFAULT:`None`

RETURNS	DESCRIPTION
`BatchSummarizationResult`	BatchSummarizationResult

clear_cache¶

Python

clear_cache()

Clear the summary cache.

get_stats¶

Python

get_stats() -> Dict[str, Any]

Get summarization statistics.

RETURNS	DESCRIPTION
`Dict[str, Any]`	Dictionary of statistics

Functions¶

create_llm_summarizer¶

Python

create_llm_summarizer(provider: str = 'openai', model: Optional[str] = None, api_key: Optional[str] = None) -> LLMSummaryStrategy

Create an LLM summarizer with defaults.

PARAMETER	DESCRIPTION
`provider`	Provider name (openai, anthropic, openrouter) TYPE:`str`DEFAULT:`'openai'`
`model`	Model name (uses provider default if None) TYPE:`Optional[str]`DEFAULT:`None`
`api_key`	API key (uses environment if None) TYPE:`Optional[str]`DEFAULT:`None`

RETURNS	DESCRIPTION
`LLMSummaryStrategy`	Configured LLMSummaryStrategy

summarizer = create_llm_summarizer("openai", "gpt-4o-mini") >>> summary = summarizer.summarize(long_text, target_ratio=0.2)

create_summarizer¶

Python

create_summarizer(config: Optional[TenetsConfig] = None, mode: str = 'auto', enable_cache: bool = True) -> Summarizer

Create a configured summarizer.

Convenience function to quickly create a summarizer with sensible defaults.

PARAMETER	DESCRIPTION
`config`	Optional configuration TYPE:`Optional[TenetsConfig]`DEFAULT:`None`
`mode`	Default summarization mode TYPE:`str`DEFAULT:`'auto'`
`enable_cache`	Whether to enable caching TYPE:`bool`DEFAULT:`True`

RETURNS	DESCRIPTION
`Summarizer`	Configured Summarizer instance

Example

summarizer = create_summarizer(mode="extractive") result = summarizer.summarize(text, target_ratio=0.25)

estimate_compression¶

Python

estimate_compression(text: str, target_ratio: float = 0.3, mode: str = 'extractive') -> dict

Estimate compression results without actually summarizing.

Useful for planning and understanding how much compression is possible for given text.

PARAMETER	DESCRIPTION
`text`	Text to analyze TYPE:`str`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`mode`	Summarization mode TYPE:`str`DEFAULT:`'extractive'`

RETURNS	DESCRIPTION
`dict`	Dictionary with estimates

Example

estimate = estimate_compression(long_text, 0.25) print(f"Expected output: ~{estimate['expected_length']} chars")

summarize_files¶

Python

summarize_files(files: list, target_ratio: float = 0.3, mode: str = 'auto', config: Optional[TenetsConfig] = None) -> BatchSummarizationResult

Summarize multiple files in batch.

Convenience function for batch processing.

PARAMETER	DESCRIPTION
`files`	List of FileAnalysis objects or text strings TYPE:`list`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`
`mode`	Summarization mode TYPE:`str`DEFAULT:`'auto'`
`config`	Optional configuration TYPE:`Optional[TenetsConfig]`DEFAULT:`None`

RETURNS	DESCRIPTION
`BatchSummarizationResult`	BatchSummarizationResult

Example

from tenets.core.summarizer import summarize_files results = summarize_files(file_list, target_ratio=0.25) print(f"Compressed {results.files_processed} files")

quick_summary¶

Python

quick_summary(text: str, max_length: int = 500) -> str

Quick summary with simple length constraint.

Convenience function for quick summarization without needing to manage summarizer instances.

PARAMETER	DESCRIPTION
`text`	Text to summarize TYPE:`str`
`max_length`	Maximum length in characters TYPE:`int`DEFAULT:`500`

RETURNS	DESCRIPTION
`str`	Summarized text

Example

from tenets.core.summarizer import quick_summary summary = quick_summary(long_text, max_length=200)

summarize_code¶

Python

summarize_code(code: str, language: str = 'python', preserve_structure: bool = True, target_ratio: float = 0.3) -> str

Summarize code while preserving structure.

Specialized function for code summarization that maintains imports, signatures, and key structural elements.

PARAMETER	DESCRIPTION
`code`	Source code TYPE:`str`
`language`	Programming language TYPE:`str`DEFAULT:`'python'`
`preserve_structure`	Keep imports and signatures TYPE:`bool`DEFAULT:`True`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`

RETURNS	DESCRIPTION
`str`	Summarized code

Example

from tenets.core.summarizer import summarize_code summary = summarize_code( ... long_module, ... language="python", ... target_ratio=0.25 ... )

estimate_llm_cost¶

Python

estimate_llm_cost(text: str, provider: str = 'openai', model: str = 'gpt-3.5-turbo', target_ratio: float = 0.3) -> dict

Estimate cost of LLM summarization.

Calculate expected API costs before summarizing.

PARAMETER	DESCRIPTION
`text`	Text to summarize TYPE:`str`
`provider`	LLM provider TYPE:`str`DEFAULT:`'openai'`
`model`	Model name TYPE:`str`DEFAULT:`'gpt-3.5-turbo'`
`target_ratio`	Target compression ratio TYPE:`float`DEFAULT:`0.3`

RETURNS	DESCRIPTION
`dict`	Cost estimate dictionary

Example

from tenets.core.summarizer import estimate_llm_cost cost = estimate_llm_cost(text, "openai", "gpt-4") print(f"Estimated cost: ${cost['total_cost']:.4f}")

select_best_strategy¶

Python

select_best_strategy(text: str, target_ratio: float, constraints: Optional[dict] = None) -> str

Select best summarization strategy for given text.

Analyzes text characteristics and constraints to recommend the optimal summarization approach.

PARAMETER	DESCRIPTION
`text`	Text to analyze TYPE:`str`
`target_ratio`	Target compression ratio TYPE:`float`
`constraints`	Optional constraints (time, quality, cost) TYPE:`Optional[dict]`DEFAULT:`None`

RETURNS	DESCRIPTION
`str`	Recommended strategy name

Example

from tenets.core.summarizer import select_best_strategy strategy = select_best_strategy( ... text, ... 0.25, ... {'max_time': 1.0, 'quality': 'high'} ... ) print(f"Recommended: {strategy}")

Modules¶

llm - Llm module
strategies - Strategies module
summarizer - Summarizer module
summarizer_utils - Summarizer Utils module

tenets.core.summarizer Package¶

Create summarizer¶

Summarize text¶

Attributes¶

ML_AVAILABLEmodule-attribute¶

Classes¶

LLMConfigdataclass¶

Attributes¶

providerclass-attributeinstance-attribute¶

modelclass-attributeinstance-attribute¶

api_keyclass-attributeinstance-attribute¶

base_urlclass-attributeinstance-attribute¶

temperatureclass-attributeinstance-attribute¶

max_tokensclass-attributeinstance-attribute¶

system_promptclass-attributeinstance-attribute¶

user_promptclass-attributeinstance-attribute¶

retry_attemptsclass-attributeinstance-attribute¶

retry_delayclass-attributeinstance-attribute¶

timeoutclass-attributeinstance-attribute¶

Functions¶

get_api_key¶

LLMProvider¶

Attributes¶

OPENAIclass-attributeinstance-attribute¶

ANTHROPICclass-attributeinstance-attribute¶

OPENROUTERclass-attributeinstance-attribute¶

LOCALclass-attributeinstance-attribute¶

LLMSummarizer¶

Attributes¶

configinstance-attribute¶

loggerinstance-attribute¶

clientinstance-attribute¶

Functions¶

summarize¶

estimate_cost¶

LLMSummaryStrategy¶

Attributes¶

nameclass-attributeinstance-attribute¶

descriptionclass-attributeinstance-attribute¶

requires_mlclass-attributeinstance-attribute¶

loggerinstance-attribute¶

summarizerinstance-attribute¶

Functions¶

summarize¶

estimate_cost¶

CompressiveStrategy¶

Attributes¶

nameclass-attributeinstance-attribute¶

descriptionclass-attributeinstance-attribute¶

requires_mlclass-attributeinstance-attribute¶

loggerinstance-attribute¶

use_nlpinstance-attribute¶

tokenizerinstance-attribute¶

stopword_managerinstance-attribute¶

stopwordsinstance-attribute¶

Functions¶

summarize¶

ExtractiveStrategy¶

Attributes¶

nameclass-attributeinstance-attribute¶

descriptionclass-attributeinstance-attribute¶

requires_mlclass-attributeinstance-attribute¶

loggerinstance-attribute¶

use_nlpinstance-attribute¶

keyword_extractorinstance-attribute¶

tokenizerinstance-attribute¶

Functions¶

summarize¶

SummarizationStrategy¶

Attributes¶

nameclass-attributeinstance-attribute¶

descriptionclass-attributeinstance-attribute¶

requires_mlclass-attributeinstance-attribute¶

Functions¶

summarizeabstractmethod¶

TextRankStrategy¶

Attributes¶

nameclass-attributeinstance-attribute¶

descriptionclass-attributeinstance-attribute¶

requires_mlclass-attributeinstance-attribute¶

`tenets.core.summarizer` Package¶

ML_AVAILABLE`module-attribute`¶

LLMConfig`dataclass`¶

provider`class-attributeinstance-attribute`¶

model`class-attributeinstance-attribute`¶

api_key`class-attributeinstance-attribute`¶

base_url`class-attributeinstance-attribute`¶

temperature`class-attributeinstance-attribute`¶

max_tokens`class-attributeinstance-attribute`¶

system_prompt`class-attributeinstance-attribute`¶

user_prompt`class-attributeinstance-attribute`¶

retry_attempts`class-attributeinstance-attribute`¶

retry_delay`class-attributeinstance-attribute`¶

timeout`class-attributeinstance-attribute`¶

OPENAI`class-attributeinstance-attribute`¶

ANTHROPIC`class-attributeinstance-attribute`¶

OPENROUTER`class-attributeinstance-attribute`¶

LOCAL`class-attributeinstance-attribute`¶

config`instance-attribute`¶

logger`instance-attribute`¶

client`instance-attribute`¶

name`class-attributeinstance-attribute`¶

description`class-attributeinstance-attribute`¶

requires_ml`class-attributeinstance-attribute`¶

logger`instance-attribute`¶

summarizer`instance-attribute`¶

name`class-attributeinstance-attribute`¶

description`class-attributeinstance-attribute`¶

requires_ml`class-attributeinstance-attribute`¶

logger`instance-attribute`¶

use_nlp`instance-attribute`¶

tokenizer`instance-attribute`¶

stopword_manager`instance-attribute`¶

stopwords`instance-attribute`¶

name`class-attributeinstance-attribute`¶

description`class-attributeinstance-attribute`¶

requires_ml`class-attributeinstance-attribute`¶

logger`instance-attribute`¶

use_nlp`instance-attribute`¶

keyword_extractor`instance-attribute`¶

tokenizer`instance-attribute`¶

name`class-attributeinstance-attribute`¶

description`class-attributeinstance-attribute`¶

requires_ml`class-attributeinstance-attribute`¶

summarize`abstractmethod`¶

name`class-attributeinstance-attribute`¶

description`class-attributeinstance-attribute`¶

requires_ml`class-attributeinstance-attribute`¶

logger`instance-attribute`¶

use_nlp`instance-attribute`¶

tfidf_calc`instance-attribute`¶

name`class-attributeinstance-attribute`¶

description`class-attributeinstance-attribute`¶

requires_ml`class-attributeinstance-attribute`¶

logger`instance-attribute`¶

model_name`instance-attribute`¶

summarizer`instance-attribute`¶

BatchSummarizationResult`dataclass`¶

results`instance-attribute`¶

total_original_length`instance-attribute`¶

total_summary_length`instance-attribute`¶

overall_compression_ratio`instance-attribute`¶

total_time_elapsed`instance-attribute`¶

files_processed`instance-attribute`¶

files_failed`instance-attribute`¶

EXTRACTIVE`class-attributeinstance-attribute`¶

COMPRESSIVE`class-attributeinstance-attribute`¶

TEXTRANK`class-attributeinstance-attribute`¶

TRANSFORMER`class-attributeinstance-attribute`¶

LLM`class-attributeinstance-attribute`¶

AUTO`class-attributeinstance-attribute`¶

SummarizationResult`dataclass`¶

original_text`instance-attribute`¶

summary`instance-attribute`¶

original_length`instance-attribute`¶

summary_length`instance-attribute`¶

compression_ratio`instance-attribute`¶

strategy_used`instance-attribute`¶

time_elapsed`instance-attribute`¶

metadata`class-attributeinstance-attribute`¶